Release v0.1.0 — Irodori-TTS-500M-v3 INT4 support · kizuna-intelligence/Irodori-TTS-Lite

Aratako/Irodori-TTS-500M-v3 の int4 量子化に対応した版です。音質は実質劣化なし（CER 0.00%）。

追加

v3 (500M-v3) の int4 対応。DiT block は実アクティベーションで GPTQ キャリブレーション（ランダム calib だと CER ~33%、実 calib で 0%）、エンコーダ attention Linear は実 Hessian GPTQ。
text_embedding の int4 量子化（97 MB fp16 → ~30 MB）。group-wise RTN 4-bit + 新規 PackedEmbedding が入力 ID の行だけを gather→dequant するので、テーブル全体を VRAM に展開しない。
クロスモデル duration predictor graft（configure(duration_donor="<v3 ckpt>")）。duration predictor を持たない v2 に v3 の学習済み predictor を移植（エンコーダ次元が一致）。固定 seconds 強制で崩れていた発話が CER 25% → 0% に改善。

MIT License。