Releases: kizuna-intelligence/Irodori-TTS-Lite
Releases · kizuna-intelligence/Irodori-TTS-Lite
v0.1.0 — Irodori-TTS-500M-v3 INT4 support
Aratako/Irodori-TTS-500M-v3 の int4 量子化に対応した版です。音質は実質劣化なし(CER 0.00%)。
追加
- v3 (500M-v3) の int4 対応。DiT block は実アクティベーションで GPTQ キャリブレーション(ランダム calib だと CER ~33%、実 calib で 0%)、エンコーダ attention Linear は実 Hessian GPTQ。
- text_embedding の int4 量子化(97 MB fp16 → ~30 MB)。group-wise RTN 4-bit + 新規
PackedEmbeddingが入力 ID の行だけを gather→dequant するので、テーブル全体を VRAM に展開しない。 - クロスモデル duration predictor graft(
configure(duration_donor="<v3 ckpt>"))。duration predictor を持たない v2 に v3 の学習済み predictor を移植(エンコーダ次元が一致)。固定seconds強制で崩れていた発話が CER 25% → 0% に改善。
配布
- v3 int4 重み:
kizuna-intelligence/Irodori-TTS-500M-v3-int4(公開)。
計測(RTX PRO 4000 Blackwell, ref = mera3.wav)
| 段階 | サイズ | OpenVoice-v2 sim |
|---|---|---|
| DiT block のみ | 561 MB | 0.8718 |
| + エンコーダ attention | 511 MB | 0.8743 |
| + text embedding | 444 MB | 0.8668(held-out 0.9075) |
- CER: 0.00%(FP32 baseline ≈ sim 0.886 / CER 8.3%)
MIT License。
v0.0.2-alpha — DACVAE int4 codec + HF auto-download
コーデックまで含めたエンドツーエンドの省メモリ化と、重みの配布まわりを整えた版です。
追加
- DACVAE コーデックの 4-bit 化(
configure(codec_int4=True))。NormConv1d / NormConvTranspose1d を uint8-nibble pack のまま保持し、forward 内で 1 レイヤずつ on-the-fly dequant。Conv 重み 377 → 59 MB(▲84%)、エンドツーエンドのピーク VRAM 1513 → 989 MB。 - HF からの重み自動ダウンロード: 初回実行時に
kizuna-intelligence/Irodori-TTS-Lite-int4から取得(HF キャッシュ保存)。Git LFS 同梱を廃止。 - 上流クレジットを明記(Aratako/Irodori-TTS / Semantic-DACVAE-Japanese-32dim)。
計測(RTX PRO 4000 Blackwell, 6 RF step)
- エンドツーエンドピーク VRAM: 988.7 MB(
--codec-int4、DiT + コーデック + トークナイザ込み) - decode_latent: コーデック fp16 ~170 ms / int4 ~330 ms / CPU offload ~3.3 s
MIT License。
v0.0.1-alpha — Initial INT4 runtime (v1/v2)
TTS DiT を 4-bit 量子化したまま推論する軽量ランタイムの初版です(v1/v2 モデル向け)。
ハイライト
- DiT block の Linear を GPTQ uniform 4-bit (groupsize=32) + Triton
FusedInt4Linearで実行。 - AdaLN projection とエンコーダ系はロード時に eager-dequant して fp16
nn.Linearに差し替え(極小カーネルの起動オーバヘッド回避)。 irodori_tts_lite.patch()を呼ぶだけで、既存のirodori_tts.inference_runtime.InferenceRuntime.from_keyが 4-bit セーフテンソルを直接ロード。
計測(RTX PRO 4000 Blackwell, 6 RF step)
- ディスク: 1888 MB (FP32) → 279 MB
- DiT 単体ピーク VRAM: 1916 MB (FP32) → 552 MB
- 音質はほぼ劣化なし。
自己完結(OneCompression を実行時依存に持たない)。MIT License。