Skip to content

v0.1.0 — Irodori-TTS-500M-v3 INT4 support

Latest

Choose a tag to compare

@mera-chan mera-chan released this 20 May 11:53

Aratako/Irodori-TTS-500M-v3 の int4 量子化に対応した版です。音質は実質劣化なし(CER 0.00%)。

追加

  • v3 (500M-v3) の int4 対応。DiT block は実アクティベーションで GPTQ キャリブレーション(ランダム calib だと CER ~33%、実 calib で 0%)、エンコーダ attention Linear は実 Hessian GPTQ。
  • text_embedding の int4 量子化(97 MB fp16 → ~30 MB)。group-wise RTN 4-bit + 新規 PackedEmbedding が入力 ID の行だけを gather→dequant するので、テーブル全体を VRAM に展開しない。
  • クロスモデル duration predictor graftconfigure(duration_donor="<v3 ckpt>"))。duration predictor を持たない v2 に v3 の学習済み predictor を移植(エンコーダ次元が一致)。固定 seconds 強制で崩れていた発話が CER 25% → 0% に改善。

配布

計測(RTX PRO 4000 Blackwell, ref = mera3.wav)

段階 サイズ OpenVoice-v2 sim
DiT block のみ 561 MB 0.8718
+ エンコーダ attention 511 MB 0.8743
+ text embedding 444 MB 0.8668(held-out 0.9075)
  • CER: 0.00%(FP32 baseline ≈ sim 0.886 / CER 8.3%)

MIT License。