# Gray-Box Modeling of Guitar Amplifiers

## 0. Introduction

- 歪み回路のモデリングは大きく分けて３つの手法がある
  - White box modeling
  - Black(Gray) box modeling

- White box modeling
    - 対象システムの詳細な情報を元にモデリングする
    - 回路などの微分方程式を解いたり、状態空間モデルを組んだり
    - 精度は高いが、回路を熟知していないと難しい
        - 特に非線形素子は解析が難しい
    - 計算コストも高い
 
- WeinerモデルとHammersteinモデル
    - Weinerモデル
        - Linear-NonLinear
    - Hammersteinモデル
        - NonLinear-Linear
    - Weiner-Hammersteinモデル
        - Linear-NonLinear-Linear

- 線形ブロックはメモリを持つ、非線形モデルはメモリを持たないといわれることがある

- Black(Gray) box modeling
    - Block based model
        - WeinerモデルとHammersteinモデルを組み合わせる
    - [A. Novak et al. ](https://www.researchgate.net/profile/Antonin_Novak/publication/228818778_Chebyshev_model_and_Synchronized_Swept_Sine_Method_in_nonlinear_audio_effect_modeling/links/0fcfd5086a31d4cb83000000.pdf)
    は各ブランチが入力の各周波数成分を表すようなマルチブランチのHammersteinモデルを提案
        - 入力信号の振幅がシステム同定の際に用いた信号の振幅と一致しないと上手くシミュレーション出来ない
    - Fractal AudioやKemperもBlock based modelを使っていたりする
    - 著者はいくつかブロックモデルを提案していたが、本論文では１回のみのパラメータ最適化のステップでモデリングできるものを提案している。

## 1. Digital Model

- ギターアンプの基本は歪み要素をフィルターで挟むこと
    - Wiener-Hammersteinモデルでこれを再現
- 前著では２つの非線形ブロックを用いた
    - 完璧を追い求めるよりも計算コストを下げるほうが重要


- 入力フィルタ$H_1(z)$
    - 周波数ごとの歪みの量を決める
    - ある周波数で減衰が大きいと、あとに来る歪みブロック内のマッピング関数で飽和しない
    - 相互変調歪みの量も決める
    
    
- 非線形ブロック
    - $g_{pre}x(n) + g_{bias}$はカソードの電圧変化による陽極電流による入力依存のバイアスシフトをモデリング
    - 歪み成分のシミュレーションには$\tanh$をベースとしたマッピング関数を用い、4つのパラメータがある
    - この論文内での非線形ブロックは通常にはないローパスフィルターを含む(extended Winer-Hammersteinモデルの由来)
    
- 出力フィルタ$H_2(z)$
    - 歪み信号に独自の音色をもたせるため、倍音のスペクトル形状を決定づける
 
 $p = (p_{H, 1}, p_{nl}, p_{H, 2})^T$を最適化する

## 2. Measurement Setup

- デジタル振幅±1が±1Vに対応するように構成
- output1 -> アンプ -> dummy load -> input1
- output2 -> input2
    - 補正フィルタ作成のため

## 3. System Identification

- extended Wiener-Hammersteinモデルの最適化は線形ブロックの最適化と非線形ブロックの最適化に分けられる
    - 両方Levenberg-Marquardt法で最適化する

- Swept Sine信号で$H_1(z), H_2(z)$を測定
    - 0.01Vより低い電圧で測定、線形部分のインパルス応答を$h_{low}(n)$とする
    - 1Vより低い電圧で測定、線形部分をインパルス応答$h_{high}(n)$とする

- 非線形ブロックは$H_1$の寄与を無効にする働きがある。
    - すべての周波数でそうなるわけではない

- 得られたインパルス応答を離散フーリエ変換して$H_1, H_2$を算出
    - $H_1(z) = \frac{H_{low}(z)}{H_{high}(z)}$
    - $H_2(z) = H_{high}(z)$
    
### 3.1 Adapting Second-Order IIR Filters
- 適切な周波数の解像度を得るために、長いインパルス応答を測る必要がある
- FIRよりIIRの方がタップ数を減らせるので計算量を減らせる
- 最適な2次のIIRフィルタの集合を得るため、反復的に(iteratively)パラメータを調整する
- HFS, LFS, ピークフィルタを直列に繋がれる

適応のステップ
1. フーリエ変換
2. 周波数軸を対数軸にする
3. 1/12オクターブ平滑化
4. 全体から周波数応答の平均を引いて0dBを中心に合わせる
5. シェルビングフィルタの適応
    - LFS, HFSのカットオフ周波数をグリッドサーチして二乗誤差が最も少ない組み合わせを選ぶ
    - ゲインはLFSで0[Hz], HFSで$f_s[Hz]$
6. 10個のピークフィルタの適応
    - ピーク、ノッチが最大となる周波数を選択
    - 500個のQ値から前処理された周波数応答とフィルタの周波数応答のMSEが最小となるものを選ぶ
    - 前のフィルタをかけずに、次に大きいピークorノッチを探して次のフィルタを適応させる
7. レーベンバーグ・マーカート法を用いてフィルタのパラメータを最適化
    - 5., 6.で適応させた値はあくまでも初期値？
    - コスト関数は測定信号の周波数応答と、カスケード接続されたフィルタの周波数応答の差
    - 20~20kHzの範囲で行った

最適化したパラメータは$p_{H, 1}, p_{H, 2}$として保存

### 3.2 Parameter Optimization: Nonlinear Block
- 3.1で求めた$p_{H, 1}, p_{H, 2}$は固定

適応のステップ
1. $g_{pre}, g_{post}$のグリッドサーチ
    - 倍音の量と出力振幅を決めるので、出力に一番大きい影響を与える
    - 各組み合わせに対するスペクトログラムベースのコスト関数が計算され、
    コスト関数が一番低くなる組み合わせがレーベンバーグ・マーカート法の初期値となる
2. $H_1(z), H_2(z)$のシェルビングフィルタのカットオフ周波数とゲインの再調整
    - $H_1(z)$と$H_2(z)$のシェルビングの特性が入れ替わっていることを防ぐため
3. レーベンバーグ・マーカート法で最適化される際は、
非線形ブロックのパラメータと$H_1(z)$と$H_2(z)$のシェルビングフィルタのパラメータも一緒に最適化される


コスト関数

- 目標信号とモデルの出力信号の誤差を、時間・周波数領域で計算


1. デバイスから録音された目標信号は最大値が1となるように正規化
2. 両信号をSTFT
3. STFTの振幅特性を計算
4. 振幅特性は以下の式をもとに対数スケールにする。これにより振幅の小さいところと大きいところの差の影響が均一になり、-100dB以下の信号はフロアノイズとして無視される
$$
L(|Y(b, k)|) = \max(0, \frac{20log_{10} (|Y(b, k)|)}{L_{offset}} + 1) \\
L_{offset} = 100\mathrm{dB}
$$
5. 前処理された目標信号のスペクトログラムから前処理されたモデルのスペクトログラムを引いて$R(b, k, p)$を得る
6. 半音に相当する周波数の範囲でスペクトログラムの平均を取る（pooling）
7. スペクトログラムの各点の２乗和を計算し、$C(p)$を得る

モデル同定に用いた信号
- ギター、ベースの音源
- 合成音

## 4. Results

### 4.1 Objective Scores: Metric Definition

- RMS
- ESR
- ピアソンの相関係数
- PEAS(perceptual evaluation of audio similarity)

### 4.2 Discussion

- ESRは人間の知覚をよく表していないため不適切な指標
- 歪みが大きくなるほど目的信号との差が大きくなる
- リスニングテストはMUSHRAで評価
    - 非線形性が強くなるほど評価が低くなる
    - 以前のモデルと比べるとハイゲインな音に対しての評価が高い
    - すべてのアンプに対して評価の中央値が'minor differences'以下になることはなかった

## 5. Conclusion

- このモデルの大きな欠点はユーザーがアンプの設定をコントロール出来ないこと
- 計算量が少なく、回路を理解する必要がないのは利点
- パワーサギングやクロスオーバー歪みは現状再現できていない
    - $g_{post}$を入力レベルによって変化させることで対応できるかも