Qualion：金属比で較正された学習幾何 - Mellinformer と Golden Diffusion

v1earth:ja

Authors:

松田光秀 (sha256:a4687bae0b697e356302b3b9fe73495c78bd8ab3aa0ffcebee2dd3e7b01f5e07)
ChatGPT 5 Thinking
Claude Opus 4.1
Gemini 2.5 Pro

IPFS URI:

ipfs://bafybeia6g4bcs4rnqexubh5vcgbyib7q4k3kexvbrtk7aux4fnxhywhdou

References:

フルーリオ幾何学第六論文：曲率・収縮・指数の三角対応による測度変換と勾配流の統一理論

License: CC0-1.0

Posted: 2025-08-22 13:47:11

Previous: ipfs://bafybeie37nnusfxejtmkfi2l2xb6c7qqn74ihgcbqxzvvbytnjstgnznkq

Main Content

要旨

本論文は、フルーリオ幾何学（Frourio Geometry; FG）に基づくスケール較正学習の理論とモデル実装を提示する。FG の CD–EVI–Doob–Mosco–Young の鎖を学習設計へ写像し

ログ極座標と Mellin 解析に整合するMellinformer（スケール協変注意）
金属比で幾何級数的に分散を走査するGolden Diffusion（VE/EDM 系）

を導入する。主結果は以下：

スケール functoriality：スケール作用 $S_{Λ^{k}}$ の下で EVI 係数が $λ_{eff} = Λ^{(κ - 2 α) k} λ$ に変換される。
two-EVI with forcing：蒸留やノイズを $H^{- 1}$ ノルムの外力 $η$ に束ね、 $\frac{1}{2} \frac{d ^{+}}{d t} d^{2} + λ d^{2} \leq η$ を与える推定式を提示（擬逆の零空間・Tikhonov 正則化を含む）。
Mosco-robust（圧縮耐性）：データグラフ Dirichlet 形式の Mosco 収束に基づき、量子化・剪定を有界摂動として扱う条件下で LSI/T $_{2}$ ・Noether 率の liminf を保証。
黄金較正の目的関数化：

$J (Λ) = cosh (σ lo g Λ) + \frac{c}{( l o g Λ ) ^{2}}$

の最小化問題として実運用上の最適スケールを定義。最適 $Λ^{⋆} = exp (y^{⋆})$ は

$σ sinh (σ y^{⋆}) = \frac{2 c}{( y ^{⋆} ) ^{3}}$

の唯一の正解で決まり、小 $y$ 近似で $y^{⋆} \approx (2 c / σ^{2})^{1/4}$ 。装置定数 $c / σ$ を測って $lo g φ \approx y^{⋆}$ が成立すれば黄金比がトレードオフ最適として現れる。本稿は反証可能な予言と再現性のある設計・測定手順を併記し、実装可（Mellinformer / Golden Diffusion）まで明示する。

1. 序論

本稿は、FG のスケール幾何（EVI・Doob・Mosco・Young）を機械学習へ可換図式として移植し、スケール不変・協変を第一級構造とする新しい学習法 Qualion を提案する。名称は「クオリア（主観的質感）」に由来するが、本稿では哲学的解釈を行わず、命名由来の言及に留める。

貢献は：

スケール functoriality と two-EVI の学習的使用法
Mellin 解析と log-polar 幾何を組み込んだ Transformer 変種（Mellinformer）
幾何級数ノイズレンジを金属比で設計する拡散スケジュール（Golden Diffusion）
黄金比を明示の目的関数により導出・測定可能

とした点である。

2. 背景と記法

2.1 FG の最小骨子（解析）

計量空間 $(X, d)$ 、確率測度 $μ$ 。相対エントロピー $Ent_{μ} (ρ) = \int ρ lo g ρ d μ$ 。
対称 Dirichlet 形式 $E$ （生成子 $L$ ）。Bakry–Émery： $Γ_{2} \geq λ Γ$ を CD $(λ, \infty)$ 。
EVI：勾配流 $ρ_{t}$ に対し

$\frac{1}{2} \frac{d ^{+}}{d t} W_{2}^{2} (ρ_{t}, η) + λ W_{2}^{2} (ρ_{t}, η) \leq Ent_{μ} (η) - Ent_{μ} (ρ_{t}) .$
Doob 変換： $μ_{h} := h^{2} μ$ 、 $L^{h} f = h^{- 1} L (h f)$ 。曲率は $Ric_{V - 2 l o g h} = Ric_{V} - 2 \nabla^{2} lo g h$ 。
Young（等号剛性）： $∥ f * ν ∥_{2} \leq ∥ f ∥_{2} ∥ ν ∥_{T V}$ 。等号 $⟺ ν = e^{i ϕ} δ_{s_{0}}$ 。

2.2 Mellin と log-polar

画像座標 $(x, y) \mapsto (u, v) = (lo g r, θ)$ 。Mellin 変換はスケール平行移動 $u \mapsto u + lo g Λ$ と整合。
STMT（窓付き Mellin）幅・Rényi-2 などの複雑度指標は ps-mix（位相付き混合）で単調。

3. モデル

3.1 Mellinformer：スケール協変注意

前処理：画像 $\to$ log-polar。原点近傍の aliasing を回避：デフォルト $r_{m i n} = 2$ px、角度 8 分割平均。

表現： $γ (u, v) = [sin (ω u), cos (ω u), sin (m v), cos (m v)]$ など。

相対埋め込み（仕様）：クエリ・キーは $q_{i} = W_{q} ϕ (x_{i}), k_{j} = W_{k} ϕ (x_{j})$ とし、 $ϕ$ に絶対 $lo g r$ を入れない（RoPE 様の相対位置）。

注意スコア：

$Attn (i, j) = ⟨ q_{i}, k_{j} ⟩ + γ_{l o g r} (u_{i} - u_{j}) .$

スケール $S_{Λ} : u \mapsto u + lo g Λ$ で $Attn (S_{Λ} i, S_{Λ} j) = Attn (i, j) + γ_{l o g r} lo g Λ$ 。

softmax の加法不変性により注意重みは不変。 $γ_{l o g r}$ で協変 $\leftrightarrow$ 不変を制御。

ps-mix 単調性（脚注）： $∥ P * ν ∥_{2} \leq ∥ P ∥_{2}, ∥ P * ν ∥_{1} = ∥ P ∥_{1}$ （Young）。

3.2 Golden Diffusion：幾何スケジュール

スケジュール： $σ_{t} = σ_{m i n} \cdot (σ_{m a x} / σ_{m i n})^{t}$ 、 $σ_{m a x} / σ_{m i n} = φ^{K}$ （ $φ$ は黄金比）

指針：

$用途 VE 低分解能（ 2-3 桁）高分解能 / 音声（ 3-4 桁）大域 + 微細（ 4 桁以上） K 8 - 12 12 - 16 16 - 20$

SDE 対応：VE 系（ $lo g σ$ 線形）に一致、VP/EDM は係数再標定（付録 C）

混合器制約：Young の等号剛性に基づく $ϵ$ -等号族で正則化（ $∥ ν ∥_{T V} \leq 1$ 、 $Var (ν)$ へペナルティ）

4. 理論（主結果）

4.1 スケール functoriality（A1–A4）

A1（生成子の同次性）： $S_{Λ^{k}}^{- 1} L S_{Λ^{k}} = Λ^{κk} L$ （ $κ > 0$ ）

A2（距離の相似）： $d (S_{Λ^{k}} x, S_{Λ^{k}} y) = Λ^{α k} d (x, y)$ （ $α \geq 0$ ）

A3（時間規約）：時間は固定（再パラメータ化なし）

A4（参照測度の不変）： $(S_{Λ^{k}})_{#} μ = μ$ （準不変でも差の形でヤコビアンが相殺：付録 D）

命題 4.1（ $λ_{eff}$ ）：CD $(λ, \infty)$ と A1–A4 の下で

$\frac{1}{2} \frac{d ^{+}}{d t} W_{2}^{2} (p_{t}, q) + λ_{eff} Λ^{(κ - 2 α) k} λ W_{2}^{2} (p_{t}, q) \leq Ent_{μ} (q) - Ent_{μ} (p_{t}) .$

スケッチ： $W^{'} = Λ^{α k} W$ 、CD 定数 $λ^{'} = Λ^{κk} λ$ 。EVI を $W^{'}$ で記し、 $Λ^{2 α k}$ で割戻す。

4.2 Doob カリキュラム

$h = exp (g)$ 、 $∥ \nabla^{2} g ∥_{L^{\infty}} \leq ε$ を正則化で制御。FG の式により $λ$ は $λ - 2 ε$ まで劣化。学習では $h$ を段階的に変え、収縮率低下を上限管理。

4.3 two-EVI と外力 $η$ （ $H^{- 1}$ ）

定義：

$η = sup_{t} ∥Δ F_{t} ∥_{H^{- 1} (ρ_{t})}, ∥ ϕ ∥_{H^{- 1} (ρ)}^{2} = ⟨ Π_{0} ϕ, L_{ρ}^{†} Π_{0} ϕ ⟩ .$

推定式（離散；データグラフラプラシアン $L_{ρ}$ ）：

$η_{t} \approx Δ g_{t}^{⊤} (L_{ρ} + ε I)^{†} Δ g_{t},$

$Π_{0}$ で平均 0 射影、 $ε > 0$ で Tikhonov 正則化。反復解法 CG/LOBPCG： $O (E) \sim O (E lo g (1/ ε))$ 。

two-EVI：

$\frac{1}{2} \frac{d ^{+}}{d t} W_{2}^{2} (ρ_{t}, \tilde{ρ}_{t}) + λ W_{2}^{2} (ρ_{t}, \tilde{ρ}_{t}) \leq η .$

4.4 Mosco-robust（圧縮耐性）

データグラフ Dirichlet $E_{h} (u) = \frac{1}{2} \sum_{ij} w_{ij}^{(h)} (u_{i} - u_{j})^{2}$ が連続 $E$ にMosco 収束（共通ピボット $L^{2} (μ)$ 、狭義収束＋二次モーメント緊性）。量子化・剪定は $w_{ij}^{(h)}$ の有界摂動として扱え、

$λ_{LSI} (E) \geq lim inf_{h} λ_{LSI} (E_{h}), C_{T_{2}} (E) \geq lim inf_{h} C_{T_{2}} (E_{h})$

等が成立（Noether 率も同様）。よって圧縮後の定数劣化は予言どおり下方半連続となる。

4.5 黄金較正（目的関数としての最適スケール）

目的関数：

$J (Λ) = cosh (σ lo g Λ) + \frac{c}{( lo g Λ ) ^{2}}, Λ > 1$

ここで第1項は連続安定（作用素ノルム）を、第2項は格子誤差・STMT 幅等のスケール間隔逆数に比例する代理指標を表す。

$y = lo g Λ > 0$ と置くと

$J^{'} (y) = σ sinh (σ y) - \frac{2 c}{y ^{3}} .$

最適条件：

$σ sinh (σ y^{⋆}) = \frac{2 c}{( y ^{⋆} ) ^{3}}$

唯一の正解 $y^{⋆} > 0$ が存在（ $J^{''} > 0$ ）。

小 $y$ 近似： $sinh (σ y) \approx σ y$

$y^{⋆} \approx (\frac{2 c}{σ ^{2}})^{1/4}, Λ^{⋆} \approx exp (\frac{( 2 c ) ^{1/4}}{σ ^{1/2}})$

数値解法：初期値 $y_{0} = (2 c / σ^{2})^{1/4}$ で Newton/二分法が安定。

含意：「 $φ$ が現れる」とは、装置定数 $c / σ$ を測定して $lo g φ \approx y^{⋆}$ を満たすチューニング条件を指す（検証可能）。

5. アルゴリズムと実装

5.1 Mellinformer（擬コード）

画像 $\to$ log-polar（ $r_{m i n}$ 、角度平均でアンチエイリアス）
相対埋め込みで $q, k$ を生成（絶対 $lo g r$ は用いない）
スコア $⟨ q, k ⟩ + γ_{l o g r} (u_{i} - u_{j})$ を softmax
ps-mix 正則化（Young $ϵ$ -等号族）を損失に追加

計算量：log-polar 変換は FFT 系で $\tilde{O} (N lo g N)$ 。相対項は注意に線形加算、オーバーヘッド軽微。

5.2 Golden Diffusion

VE SDE/ODE 実装、 $lo g σ$ 線形
$σ_{m a x} / σ_{m i n} = φ^{K}$ を選ぶ
混合核 $ν$ に $Var (ν)$ ペナルティ、学習後半で $ϵ ↓$

5.3 two-EVI の $η$ 推定

グラフ構築（kNN、重み $w_{ij}$ ）
$L_{ρ}$ の擬逆：平均 0 射影 $Π_{0}$ ＋Tikhonov $ε I$
近似 $η_{t}$ をログ時系列で監視（指数減衰を確認）

6. 予言と評価プロトコル

P1（ $Λ$ 掃引）： $Λ \in {1.05, 1.1, 1.2, \dots, 2.0}$ 。 $J (Λ)$ の各項（作用素ノルム代理・格子誤差代理）と和を併記し最小点を同定

P2（two-EVI）：蒸留で $W_{2}$ -曲線が指数収縮、 $η_{t}$ の台形上限と一致

P3（Doob）： $∥ \nabla^{2} lo g h ∥_{\infty} \leq ε$ の調整で収縮率が $λ - 2 ε$ 以内に保持

P4（圧縮耐性）：INT8/剪定で LSI/T $_{2}$ 代理定数が下方半連続に劣化

P5（SDE 対応）：VE/EDM ベースライン上で Golden schedule による同等以上の FID/PSNR を確認（等計算量）

7. 関連と位置づけ（簡略）

スケール不変注意（Fourier/Log-polar/Group-equivariant）と親和
拡散スケジュール（cosine/VE/VP/EDM）に対し、幾何レンジ設計として直交
FG の EVI/Doob/Mosco/Young を学習設計へ可換移送した点が新規

8. 限界と前提

黄金較正は目的関数 $J$ に対する最適。連続項のみでは $Λ \to 1^{+}$ が最適であり、運用上の格子・窓誤差を含めたときに最小が内点化する。
two-EVI の $η$ は $H^{- 1}$ 推定の上界であり、グラフ構築・正則化依存。
Mosco 収束はデータ分布の狭義収束・モーメント緊性等の標準仮定に依存（付録 E）。

9. 結論

Qualion は、FG のスケール幾何（CD–EVI–Doob–Mosco–Young）を学習設計へ写像し、Mellinformer と Golden Diffusion を与えた。スケール functoriality（ $λ_{eff}$ ）と two-EVI（ $H^{- 1}$ 外力）、Mosco-robust により、収縮設計・蒸留設計・圧縮耐性を一貫した幾何で扱える。黄金較正は明示の目的関数で検証可能となり、 $φ$ は測定された装置定数のもとでトレードオフ最適として出現する。今後は、トイ問題から大規模ベンチマークまでP1–P5の体系的検証を行う。

付録 A： $λ_{eff}$ の導出

距離 $W^{'} = Λ^{α k} W$ 、CD 定数 $λ^{'} = Λ^{κk} λ$ 。EVI（ $W^{'}$ 版） $\frac{1}{2} \frac{d ^{+}}{d t} W^{'}^{2} + λ^{'} W^{'}^{2} \leq Ent_{μ} (q) - Ent_{μ} (p_{t})$ 。両辺を $Λ^{2 α k}$ で割ると本文の式。A4 がない場合は付録 D の推し移しで相殺。

付録 B： $c / σ$ 推定と数値解

$c$ ：量子化ビット幅、補間誤差、STMT 窓幅から近似。例：格子間隔 $Δ u$ に対し誤差 $\propto (Δ u)^{- 2} = (lo g Λ)^{- 2}$ 。
小 $y$ 近似： $y_{0} = (2 c / σ^{2})^{1/4}$ 。ニュートン： $y \leftarrow y - \frac{J ^{'}}{J ^{''}}$ （ $J^{''} = σ^{2} cosh (σ y) + 6 c / y^{4}$ ）。凸なので収束。

付録 C：SDE/ODE 対応表（抜粋）

VE: $d x = σ^{'} (t) d w$ 、 $lo g σ$ 線形 $\Rightarrow$ Golden schedule で $σ_{m a x} / σ_{m i n} = φ^{K}$ 。
VP/EDM: 既存係数を $lo g σ$ の等間隔化で再標定（表略）。

付録 D：エントロピー差と準不変

$(S_{#} μ) = ϑ μ$ 。 $Ent_{μ} (S_{#} ρ) = Ent_{S_{#} μ} (S_{#} ρ) - lo g ϑ$ 。

差 $Ent_{μ} (q) - Ent_{μ} (p)$ では $- lo g ϑ$ が相殺。よって本文導出は準不変でも有効。

付録 E：Mosco 収束（データグラフ $\to$ 連続）

共通ピボット $L^{2} (μ)$ 、狭義収束＋二次モーメント緊性。
グラフラプラシアンの一様有界性・一様楕円性（局所化）で $E_{h} M E$ 。
有界摂動（量子化・剪定）下で liminf が保存。

付録 F：Young 等号と $ϵ$ -等号族

等号 $ν = e^{i ϕ} δ_{s_{0}}$ 。実務では $∥ ν - δ ∥_{T V} \leq ϵ$ を正則化で誘導し、学習後半で $ϵ ↓$ 。

参考文献

調和解析・積分変換

E. C. Titchmarsh (1986). Introduction to the Theory of Fourier Integrals (3rd ed.). Chelsea Publishing.
I. N. Sneddon (1972). The Use of Integral Transforms. McGraw-Hill.
L. Debnath & D. Bhatta (2014). Integral Transforms and Their Applications (3rd ed.). CRC Press.
A. D. Poularikas (2010). Transforms and Applications Handbook (3rd ed.). CRC Press.

スケール空間理論・画像処理

T. Lindeberg (1994). Scale-Space Theory in Computer Vision. Springer.
J. J. Koenderink (1984). The structure of images. Biological Cybernetics 50, 363-370.
L. M. J. Florack (1997). Image Structure. Springer.
J. Weickert (1998). Anisotropic Diffusion in Image Processing. Teubner.

最適輸送理論

C. Villani (2003). Topics in Optimal Transportation. Graduate Studies in Mathematics 58, AMS.
C. Villani (2009). Optimal Transport: Old and New. Springer.
L. Ambrosio, N. Gigli & G. Savaré (2008). Gradient Flows in Metric Spaces and in the Space of Probability Measures (2nd ed.). Birkhäuser.
F. Santambrogio (2015). Optimal Transport for Applied Mathematicians. Birkhäuser.

拡散モデル・確率微分方程式

Y. Song & S. Ermon (2019). Generative modeling by estimating gradients of the data distribution. NeurIPS.
J. Ho, A. Jain & P. Abbeel (2020). Denoising diffusion probabilistic models. NeurIPS.
Y. Song et al. (2021). Score-based generative modeling through stochastic differential equations. ICLR.
T. Karras, M. Aittala, T. Aila & S. Laine (2022). Elucidating the design space of diffusion-based generative models. NeurIPS.

Transformer・注意機構

A. Vaswani et al. (2017). Attention is all you need. NeurIPS.
J. Su et al. (2024). RoFormer: Enhanced transformer with rotary position embedding. Neurocomputing 568, 127063.
Y. Liu et al. (2021). Swin Transformer: Hierarchical vision transformer using shifted windows. ICCV.
A. Dosovitskiy et al. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. ICLR.

群同変ニューラルネットワーク

T. Cohen & M. Welling (2016). Group equivariant convolutional networks. ICML.
M. Weiler & G. Cesa (2019). General E(2)-equivariant steerable CNNs. NeurIPS.
R. Kondor & S. Trivedi (2018). On the generalization of equivariance and convolution in neural networks. ICML.
E. J. Bekkers (2020). B-spline CNNs on Lie groups. ICLR.

Bakry-Émery理論・曲率条件

D. Bakry & M. Émery (1985). Diffusions hypercontractives. Séminaire de Probabilités XIX, LNM 1123, 177-206.
D. Bakry, I. Gentil & M. Ledoux (2014). Analysis and Geometry of Markov Diffusion Operators. Springer.
K.-T. Sturm (2006). On the geometry of metric measure spaces. Acta Mathematica 196, 65-177.
J. Lott & C. Villani (2009). Ricci curvature for metric-measure spaces via optimal transport. Annals of Mathematics 169, 903-991.

Dirichlet形式とMarkov過程

M. Fukushima, Y. Oshima & M. Takeda (2011). Dirichlet Forms and Symmetric Markov Processes (2nd ed.). de Gruyter.
Z.-Q. Chen & M. Fukushima (2012). Symmetric Markov Processes, Time Change, and Boundary Theory. Princeton University Press.

変分収束理論

G. Dal Maso (1993). An Introduction to Γ-Convergence. Birkhäuser.
A. Braides (2002). Γ-Convergence for Beginners. Oxford University Press.
U. Mosco (1969). Convergence of convex sets and of solutions of variational inequalities. Advances in Mathematics 3, 510-585.

数値線形代数・グラフラプラシアン

Y. Saad (2003). Iterative Methods for Sparse Linear Systems (2nd ed.). SIAM.
D. A. Spielman & S.-H. Teng (2014). Nearly linear time algorithms for preconditioning and solving symmetric, diagonally dominant linear systems. SIAM Journal on Matrix Analysis and Applications 35, 835-885.
F. R. K. Chung (1997). Spectral Graph Theory. CBMS Regional Conference Series 92, AMS.

機械学習理論・最適化

S. Shalev-Shwartz & S. Ben-David (2014). Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press.
S. Bubeck (2015). Convex optimization: Algorithms and complexity. Foundations and Trends in Machine Learning 8, 231-357.
L. Bottou, F. E. Curtis & J. Nocedal (2018). Optimization methods for large-scale machine learning. SIAM Review 60, 223-311.