Skip to content

Releases: kizuna-intelligence/Irodori-TTS-Lite

v0.1.0 — Irodori-TTS-500M-v3 INT4 support

20 May 11:53

Choose a tag to compare

Aratako/Irodori-TTS-500M-v3 の int4 量子化に対応した版です。音質は実質劣化なし(CER 0.00%)。

追加

  • v3 (500M-v3) の int4 対応。DiT block は実アクティベーションで GPTQ キャリブレーション(ランダム calib だと CER ~33%、実 calib で 0%)、エンコーダ attention Linear は実 Hessian GPTQ。
  • text_embedding の int4 量子化(97 MB fp16 → ~30 MB)。group-wise RTN 4-bit + 新規 PackedEmbedding が入力 ID の行だけを gather→dequant するので、テーブル全体を VRAM に展開しない。
  • クロスモデル duration predictor graftconfigure(duration_donor="<v3 ckpt>"))。duration predictor を持たない v2 に v3 の学習済み predictor を移植(エンコーダ次元が一致)。固定 seconds 強制で崩れていた発話が CER 25% → 0% に改善。

配布

計測(RTX PRO 4000 Blackwell, ref = mera3.wav)

段階 サイズ OpenVoice-v2 sim
DiT block のみ 561 MB 0.8718
+ エンコーダ attention 511 MB 0.8743
+ text embedding 444 MB 0.8668(held-out 0.9075)
  • CER: 0.00%(FP32 baseline ≈ sim 0.886 / CER 8.3%)

MIT License。

v0.0.2-alpha — DACVAE int4 codec + HF auto-download

20 May 11:52

Choose a tag to compare

コーデックまで含めたエンドツーエンドの省メモリ化と、重みの配布まわりを整えた版です。

追加

  • DACVAE コーデックの 4-bit 化configure(codec_int4=True))。NormConv1d / NormConvTranspose1d を uint8-nibble pack のまま保持し、forward 内で 1 レイヤずつ on-the-fly dequant。Conv 重み 377 → 59 MB(▲84%)、エンドツーエンドのピーク VRAM 1513 → 989 MB
  • HF からの重み自動ダウンロード: 初回実行時に kizuna-intelligence/Irodori-TTS-Lite-int4 から取得(HF キャッシュ保存)。Git LFS 同梱を廃止。
  • 上流クレジットを明記(Aratako/Irodori-TTS / Semantic-DACVAE-Japanese-32dim)。

計測(RTX PRO 4000 Blackwell, 6 RF step)

  • エンドツーエンドピーク VRAM: 988.7 MB--codec-int4、DiT + コーデック + トークナイザ込み)
  • decode_latent: コーデック fp16 ~170 ms / int4 ~330 ms / CPU offload ~3.3 s

MIT License。

v0.0.1-alpha — Initial INT4 runtime (v1/v2)

20 May 11:52

Choose a tag to compare

TTS DiT を 4-bit 量子化したまま推論する軽量ランタイムの初版です(v1/v2 モデル向け)。

ハイライト

  • DiT block の Linear を GPTQ uniform 4-bit (groupsize=32) + Triton FusedInt4Linear で実行。
  • AdaLN projection とエンコーダ系はロード時に eager-dequant して fp16 nn.Linear に差し替え(極小カーネルの起動オーバヘッド回避)。
  • irodori_tts_lite.patch() を呼ぶだけで、既存の irodori_tts.inference_runtime.InferenceRuntime.from_key が 4-bit セーフテンソルを直接ロード。

計測(RTX PRO 4000 Blackwell, 6 RF step)

  • ディスク: 1888 MB (FP32) → 279 MB
  • DiT 単体ピーク VRAM: 1916 MB (FP32) → 552 MB
  • 音質はほぼ劣化なし。

自己完結(OneCompression を実行時依存に持たない)。MIT License。