Skip to content

FastAPI server wiki

Jaewon Lee edited this page Jan 19, 2026 · 11 revisions

🎙️ STT (Speech-to-Text) Model List

사용자의 음성을 텍스트로 변환하는 엔진입니다. 인식 정확도(WER)와 한국어 지원 여부를 기준으로 분류합니다.

💰 유료 모델 (Paid/Managed)

  • Google Cloud STT

    • 정책: 매월 60분 무료 제공, 이후 사용량 기반 결제.

    • 장점: 전 세계 언어 지원 및 높은 안정성.

  • Naver CLOVA Speech

    • 장점: 한국어 음성 인식 및 국내 도메인(고유명사 등) 최적화 성능 최상위권.

🆓 무료 모델 (Open Source/Free Tier)

모델명 | 한국어 지원 | WER (단어 오차율) | 비고 -- | -- | -- | -- OpenAI Whisper | ✅ 지원 | 10.32 | 사실상 업계 표준 오픈소스 모델 Nvidia Canary | ❌ 미지원 | 5.63 | 현존 오픈소스 중 최고 정확도 (영어 위주)

💡 WER(Word Error Rate)이란?

사람이 말한 실제 문장과 AI가 인식한 결과 사이의 거리를 계산한 지표입니다. 수치가 낮을수록 정확도가 높음을 의미합니다.


🧠 LLM (Large Language Model) List

프로젝트의 논리 추론 및 피드백 생성을 담당하는 두뇌 엔진입니다.

💰 유료 모델 (High Performance)

  • GPT-4o-mini

    • 주요 용도: 일반적인 문제 채점, 간단한 텍스트 피드백 생성.

    • 강점: 매우 저렴한 비용으로 GPT-4급 성능 활용 가능.

  • DeepSeek-V3

    • 주요 용도: 복잡한 CS(Computer Science) 개념 설명, 논리적 추론 기반 모의면접 로직.

    • 강점: 추론 성능이 뛰어나며 하이엔드 작업에 적합.

🆓 무료 모델 (Efficiency)

  • Gemini 1.5 Flash

    • 정책: Free Tier 기준 분당 15회 호출(RPM), 분당 100만 토큰까지 무료.

    • 강점: 빠른 응답 속도와 거대한 컨텍스트 창(Context Window) 제공.


🛠️ MVP (Minimum Viable Product) 전략

초기 핵심 기능의 빠른 검증을 위해 **'속도'**와 **'비용 제로'**를 목표로 모델을 조합합니다.

1. 기술 스택 조합

  • STT (음성 인식):

    • ETRI API: 한국어 특화 공공 API 활용.

    • Groq Whisper: LPU 가속을 통한 초고속 Whisper 처리 (무료 티어 활용).

  • LLM (논리 엔진):

    • Gemini 1.5 Flash: API 레이턴시 최소화 및 비용 절감.

2. 핵심 로직 구현 방향

  1. Low Latency: 사용자가 말하는 즉시 텍스트로 변환하여 지연 없는 인터랙션 제공.

  2. Cost Efficiency: 유료 API 호출을 최소화하고, 검증된 무료 티어 내에서 서비스 완결성 확보.

  3. Scalability: 이후 모델 성능 고도화가 필요할 때 GPT-4o나 DeepSeek로 즉시 교체 가능한 구조 설계.

Clone this wiki locally