Skip to content

FastAPI server wiki

Jaewon Lee edited this page Jan 19, 2026 · 11 revisions

๐ŸŽ™๏ธ STT (Speech-to-Text) Model List

์Œ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ชจ๋ธ๋“ค์ž…๋‹ˆ๋‹ค. ์ธ์‹ ์ •ํ™•๋„(WER)์™€ ๋น„์šฉ์„ ๊ณ ๋ คํ•˜์—ฌ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’ฐ ์œ ๋ฃŒ ๋ชจ๋ธ

๋ชจ๋ธ๋ช… | ์ฃผ์š” ํŠน์ง• ๋ฐ ๊ฐ€๊ฒฉ ์ •์ฑ… | ๋น„๊ณ  -- | -- | -- Google Cloud STT | ๋งค์›” 60๋ถ„ ๋ฌด๋ฃŒ, ์ดํ›„ 15์ดˆ๋‹น ๊ณผ๊ธˆ ($0.006~) | ๊ธ€๋กœ๋ฒŒ ์–ธ์–ด ์ง€์› ์ตœ์ƒ, V2 API ์ œ๊ณต Naver CLOVA | CLOVA Speech: ๊ธด ์˜ค๋””์˜ค/๋น„๋””์˜ค ์ตœ์ ํ™”CSR: 1๋ถ„ ์ด๋‚ด ๋‹จ๋ฌธ ์ธ์‹ ์ตœ์ ํ™” | ํ•œ๊ตญ์–ด ์ธ์‹๋ฅ  ์ตœ์ƒ์œ„๊ถŒ, ๋„๋ฉ”์ธ ์ตœ์ ํ™” ์ง€์›

Note

WER(Word Error Rate, ๋‹จ์–ด ์˜ค์ฐจ์œจ): ์‚ฌ๋žŒ์ด ๋งํ•œ ์ •๋‹ต ๋ฌธ์žฅ๊ณผ AI ์ธ์‹ ๊ฒฐ๊ณผ ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ์ˆ˜์น˜๊ฐ€ ๋‚ฎ์„์ˆ˜๋ก ์‹ค์ œ ์Œ์„ฑ๊ณผ ๊ฐ€๊น๊ฒŒ ์ธ์‹ํ–ˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.


๐Ÿง  LLM (Large Language Model) List

ํ…์ŠคํŠธ ๋ถ„์„ ๋ฐ ์ƒ์„ฑ์„ ๋‹ด๋‹นํ•˜๋Š” ๋‘๋‡Œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์šฉ๋„์— ๋”ฐ๋ผ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ฐ ์œ ๋ฃŒ ๋ชจ๋ธ

  • GPT-4o-mini

    • ์šฉ๋„: ์ผ๋ฐ˜์ ์ธ ํ…์ŠคํŠธ ๋ฌธ์ œ ์ฑ„์ , ์ •ํ˜•ํ™”๋œ ๋ฐ์ดํ„ฐ ์ถ”์ถœ, ๊ฐ„๋‹จํ•œ ํ”ผ๋“œ๋ฐฑ.

    • ํŠน์ง•: GPT-4 ์ˆ˜์ค€์˜ ์ง€๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๋น„์šฉ๊ณผ ์†๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋‚ฎ์ถ˜ ๋ชจ๋ธ.

  • DeepSeek-V3

    • ์šฉ๋„: ๋ณต์žกํ•œ CS(์ปดํ“จํ„ฐ ๊ณตํ•™) ๊ฐœ๋… ์„ค๋ช…, ๋…ผ๋ฆฌ์  ์ถ”๋ก ์ด ํ•„์š”ํ•œ ๋ชจ์˜๋ฉด์ ‘ ๋กœ์ง.

    • ํŠน์ง•: 2025~2026๋…„ ๊ธ‰๋ถ€์ƒํ•œ ๋ชจ๋ธ๋กœ, ํŠนํžˆ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์ด๊ณต๊ณ„ ๋…ผ๋ฆฌ ์ถ”๋ก ์—์„œ GPT-4o์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„.

๐Ÿ†“ ๋ฌด๋ฃŒ ๋ชจ๋ธ

  • Gemini 1.5 Flash

    • ์ œํ•œ: ๋ถ„๋‹น 15ํšŒ ํ˜ธ์ถœ(RPM), ๋ถ„๋‹น 100๋งŒ ํ† ํฐ๊นŒ์ง€ ๋ฌด๋ฃŒ (Free Tier ๊ธฐ์ค€).

    • ํŠน์ง•: ๋งค์šฐ ๋น ๋ฅธ ์‘๋‹ต ์†๋„์™€ 100๋งŒ ํ† ํฐ์˜ ๊ฑฐ๋Œ€ํ•œ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์ œ๊ณตํ•˜์—ฌ ๊ธด ๋ฌธ์„œ ๋ถ„์„์— ์œ ๋ฆฌ.


๐Ÿš€ MVP (Minimum Viable Product) ๊ตฌํ˜„ ์ „๋žต

ํ•ต์‹ฌ ๊ธฐ๋Šฅ์„ ๊ฐ€์žฅ ๋น ๋ฅด๊ณ  ๋น„์šฉ ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ์กฐํ•ฉ์ž…๋‹ˆ๋‹ค.

1. ์Œ์„ฑ ์ธ์‹ (STT) ๋กœ์ง

  • ETRI API: ๊ณต๊ณต AI ์˜คํ”ˆ API๋กœ, ์ผ์ผ 1,000๊ฑด(๊ฑด๋‹น 20์ดˆ ์ด๋‚ด) ๋ฌด๋ฃŒ ์ด์šฉ ๊ฐ€๋Šฅ. ํ•œ๊ตญ์–ด ํŠนํ™” ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ.

  • Groq Whisper: Groq์˜ LPU ํ•˜๋“œ์›จ์–ด ๊ฐ€์†์„ ํ†ตํ•ด Whisper ๋ชจ๋ธ์„ ์ดˆ๊ณ ์†์œผ๋กœ ์‹คํ–‰. ๋ฌด๋ฃŒ ํ‹ฐ์–ด์—์„œ๋„ ์‹ค์‹œ๊ฐ„์— ๊ฐ€๊นŒ์šด ๋ณ€ํ™˜ ์†๋„ ์ œ๊ณต.

2. ํ…์ŠคํŠธ ๋ถ„์„ (LLM) ๋กœ์ง

  • Gemini 1.5 Flash: API ์‘๋‹ต ์ง€์—ฐ ์‹œ๊ฐ„(Latency)์ด ๋งค์šฐ ์งง์•„ ์‚ฌ์šฉ์ž ์ธํ„ฐ๋ž™์…˜์ด ์ค‘์š”ํ•œ MVP ๋‹จ๊ณ„์— ์ ํ•ฉ. ๋ฌด๋ฃŒ ํ• ๋‹น๋Ÿ‰ ๋‚ด์—์„œ ์ถฉ๋ถ„ํ•œ ํ…Œ์ŠคํŠธ ๊ฐ€๋Šฅ.

# STT Model List Up

์œ ๋ฃŒ ๋ชจ๋ธ

Google cloud

๋งค์›” ํ•œ์‹œ๊ฐ„ ๋ฌด๋ฃŒ ๊ทธ ์ดํ›„ ๊ฒฐ์ œ ํ•„์š”

Naver Clover

๋ฌด๋ฃŒ ๋ชจ๋ธ

OpenAI - whisper

ํ•œ๊ตญ์–ด ์ง€์›, WER : 10.32

Nvidia - canary

ํ•œ๊ตญ์–ด ์ง€์› x, WER : 5.63(ํ˜„์žฌ OpenSource ๋ชจ๋ธ ์ค‘ ๊ฐ€์žฅ ์ •ํ™•์„ฑ์ด ์ข‹์Œ)

** WER(Word Error Rate, ๋‹จ์–ด ์˜ค์ฐจ์œจ) : ์‚ฌ๋žŒ์ด ๋งํ•œ ๋ฌธ์žฅ๊ณผ AI๊ฐ€ ์ธ์‹ํ•œ ๋ฌธ์žฅ์˜ ํŽธ์ง‘ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋‚˜ํƒ€๋‚ด๋Š” ์ง€ํ‘œ(๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ)**

LLM Model List Up

์œ ๋ฃŒ ๋ชจ๋ธ

GPT-4o-mini

์ผ๋ฐ˜ ๋ฌธ์ œ ์ฑ„์ , ๊ฐ„๋‹จํ•œ ํ…์ŠคํŠธ ํ”ผ๋“œ๋ฐฑ ์šฉ๋„

DeepSeek-V3

๋ณต์žกํ•œ CS ๊ฐœ๋… ์„ค๋ช…, ๋ชจ์˜๋ฉด์ ‘ ๋กœ์ง ์šฉ๋„

๋ฌด๋ฃŒ ๋ชจ๋ธ

Gemini 1.5 Flash

๋ถ„๋‹น 15ํšŒ, ๋ถ„๋‹น 100๋งŒ ํ† ํฐ๊นŒ์ง€ ๋ฌด๋ฃŒ

MVP

์†๋„ ๋น ๋ฅธ ๋ฌด๋ฃŒ ๋ชจ๋ธ๋“ค๋กœ ํ•ต์‹ฌ ๋กœ์ง ๊ตฌํ˜„

STT : ETRI API, Groq Whisper(๋ฌด๋ฃŒํ‹ฐ์–ด)

LLM : Gemini 1.5 Flash

Clone this wiki locally