Aratako/Irodori-TTS-500M-v3 の int4 量子化に対応した版です。音質は実質劣化なし(CER 0.00%)。
追加
- v3 (500M-v3) の int4 対応。DiT block は実アクティベーションで GPTQ キャリブレーション(ランダム calib だと CER ~33%、実 calib で 0%)、エンコーダ attention Linear は実 Hessian GPTQ。
- text_embedding の int4 量子化(97 MB fp16 → ~30 MB)。group-wise RTN 4-bit + 新規
PackedEmbeddingが入力 ID の行だけを gather→dequant するので、テーブル全体を VRAM に展開しない。 - クロスモデル duration predictor graft(
configure(duration_donor="<v3 ckpt>"))。duration predictor を持たない v2 に v3 の学習済み predictor を移植(エンコーダ次元が一致)。固定seconds強制で崩れていた発話が CER 25% → 0% に改善。
配布
- v3 int4 重み:
kizuna-intelligence/Irodori-TTS-500M-v3-int4(公開)。
計測(RTX PRO 4000 Blackwell, ref = mera3.wav)
| 段階 | サイズ | OpenVoice-v2 sim |
|---|---|---|
| DiT block のみ | 561 MB | 0.8718 |
| + エンコーダ attention | 511 MB | 0.8743 |
| + text embedding | 444 MB | 0.8668(held-out 0.9075) |
- CER: 0.00%(FP32 baseline ≈ sim 0.886 / CER 8.3%)
MIT License。