μ€μκ° λ€κ΅μ΄ μμ± μ²λ¦¬ Β· λ€κ΅μ΄ μΈμ΄κ°μ§(LID) Β· μμ±ν AI
κΈ°μ λΆμ€μ°κ΅¬μμμ μμ±μΈμ(STT) λΆμΌμ μ°κ΅¬κ°λ°μ λ΄λΉνκ³ μμΌλ©°, μ€μκ° λ€κ΅μ΄ STTμ λ€κ΅μ΄ μΈμ΄κ°μ§(LID) λ₯Ό λ©μΈμΌλ‘ μ°κ΅¬νκ³ μμ΅λλ€. λΆκ°μ μΌλ‘ μμ±ν AI μ±λ΄ / RAG μμ€ν μ μ€κ³μ ꡬμΆ, μ΄μκΉμ§ κ²½ννμ΅λλ€.
- ποΈ Speech β Selvy STT(μμ©) Β· Faster Whisper(CTranslate2 λ³ν μ€μκ° λͺ¨λΈ) Β· Cloud STT(ElevenLabs, Google STT) κΈ°λ° μ€μκ° λ€κ΅μ΄ STT μμ€ν ꡬμΆΒ·μ΄μ
- π LID β ECAPA-TDNN κΈ°λ° 7κ° μΈμ΄ κ°μ§ λͺ¨λ κ°λ° (μμ΄ / μΌλ³Έμ΄ / μ€κ΅μ΄ / λ¬μμμ΄ / νκ΅μ΄ / μΈλλ€μμμ΄ / λ² νΈλ¨μ΄) λ° LID λͺ¨λΈ μ체 νμΈνλ κ²½ν
- π€ Generative AI β μ¬μ©μ μ§λ¬Έ μλ λΆλ₯ β RAG λ΅λ³ / sLLM(Gemma3:12b, Ollama) λΆκΈ° λ‘μ§ κΈ°λ° QnA μ±λ΄ μ€κ³Β·κ΅¬μΆ
- π λ€κ΅μ΄ STT κ³ λν β λλ©μΈ νκ²½μμμ μΈμ μ νλ / μ€μκ° μ§μ°μκ° / μΈμ΄ μ ν μμ μ± κ°μ
- π€ WavLM κΈ°λ° νμμΈμ β λλ©μΈ μμ± λ°μ΄ν°λ‘ νμΈνλν WavLMμ νμ©νμ¬ νμ λΆλ¦¬Β·μλ³ μ λ°λ ν₯μ
- π§ Cumulative LID μν€ν μ² μ€κ³ λ° κ°λ° β ECAPA-TDNN μλ² λ© κΈ°λ° λμ μΈμ΄μλ³ κ΅¬μ‘° μ€κ³ (λ¨μΌ μΈκ·Έλ¨ΌνΈ LIDμ λΆμμ μ±μ 보μνκΈ° μν΄ νμΒ·μ±λ λ¨μ νλ‘νμΌκ³Ό μκ° κ°μ€ λμ νμ€ν 리λ₯Ό κ²°ν©)
μ€μ μ½μΌν° νμ₯μ λ€κ΅μ΄ μ€μκ° STT μμ€ν μ λμ νμ¬ κ΅¬μΆ β μ΄μ β κ³ λνκΉμ§ μ κ³Όμ μ λ΄λΉνμ΅λλ€.
- π°π· μΈκ΅λΆ μμ¬μ½μΌν° β νκ΅μ΄ / μμ΄ μ€μκ° STT μμ€ν
λμ
λ° κ΅¬μΆ, μ΄μ
- Selvy STT(μμ© S/W) + Faster Whisper(Self-hosted) νμ΄λΈλ¦¬λ νμ΄νλΌμΈ
- VAD β STT β LID β μ½λμ€μμΉ νλ©΄ μΆλ ₯κΉμ§ end-to-end μ΄μ
- π§ νκ΅κ΄κ΄κ³΅μ¬ 1330 κ΄κ΄μλ΄μ½μΌν° β 8κ° μΈμ΄(νκ΅μ΄ / μμ΄ / μΌλ³Έμ΄ / μ€κ΅μ΄ / λ¬μμμ΄ / νκ΅μ΄ / μΈλλ€μμμ΄ / λ² νΈλ¨μ΄) μ€μκ° STT μμ€ν
λμ
λ° κ΅¬μΆ, μ΄μ
- Selvy STT(μμ© S/W) or Faster Whisper(Self-hosted) + Cloud STT(ElevenLabs / Google STT) νμ΄λΈλ¦¬λ νμ΄νλΌμΈ
- ν΅μμ¬ μ€κ³ ν΅ν(μλ΄μ / ν΅μμ¬ / μΈκ΅μΈ νμ λμ μ²λ¦¬) νκ²½ λμ
- μ€μκ° νμ/μΈμ΄ κ°μ§ + λμ LID κΈ°λ° μμ μ λ€κ΅μ΄ STT μ μ¬
- π€ Hugging Face λͺ¨λΈ νμΈνλ λ° μ΄μ μ μ©
- μ½μΌν° λλ©μΈ μμ± λ°μ΄ν°λ₯Ό νμ©ν΄ Whisper / WavLM / ECAPA-TDNN λ± μ¬μ νμ΅ λͺ¨λΈμ νμΈνλ
- νμ΅ β νκ°(EER λ±) β λ³ν(CTranslate2) β μ€μκ° μΆλ‘ μλ² λ°°ν¬κΉμ§ μΌκ΄ μ§ν
Languages & Frameworks
Speech / ML
Cloud STT / Generative AI
Audio / Data / Frontend
Build / Ops



