-
Notifications
You must be signed in to change notification settings - Fork 0
FastAPI server wiki
Jaewon Lee edited this page Jan 19, 2026
·
11 revisions
이 문서는 서비스에 적용될 STT 및 LLM 모델의 기술적 검토 사항과 MVP 구현을 위한 결정사항을 기록하는 위키입니다.
모든 변경 사항은 문서화 및 날짜 기록을 원칙으로 합니다. ac
- 음성 인식(STT) 및 생성형 AI(LLM)를 활용한 인터렉티브 서비스 구축
- 무료/유료 모델의 효율적 배분을 통한 비용 최적화 및 고성능 구현
- 실시간 응답 환경을 위한 저지연(Low Latency) 아키텍처 검증
- 주요 사용자 CS 개념 및 모의면접 준비생, 퀴즈를 통한 학습을 원하는 개발자
- 보조 사용자 교육 콘텐츠 관리자, 시스템 운영팀
- 사용자 음성 기반 인터렉션 시스템
- 기술 개념 설명 및 맞춤형 피드백 제공
- 서비스 핵심 로직 기반의 MVP 검증
| 구분 | 기술 | 특징 | 비고 |
|---|---|---|---|
| 유료 | Google Cloud STT | 매월 1시간 무료, 범용성 우수 | 글로벌 서비스 적합 |
| 유료 | Naver Clover | 한국어 인식 특화 | 국내 사용자 최적화 |
| 무료 | OpenAI Whisper | 한국어 지원, WER: 10.32 | 오픈소스 표준 |
| 무료 | Nvidia Canary | WER: 5.63 (현존 최고 정확도) | 한국어 미지원 |
- WER(Word Error Rate): 단어 오차율을 뜻하며, 낮을수록 인식률이 높음.
| 구분 | 기술 | 주요 용도 | 비고 |
|---|---|---|---|
| 유료 | GPT-4o-mini | 일반 문제 채점, 간단한 텍스트 피드백 | 저렴한 유료 모델 |
| 유료 | DeepSeek-V3 | 복잡한 CS 개념 설명, 모의면접 로직 | 높은 논리 추론 성능 |
| 무료 | Gemini 1.5 Flash | MVP 핵심 엔진, 실시간 피드백 | 분당 15회/100만 토큰 무료 |
-
Gemini 1.5 Flash
- 무료 티어임에도 불구하고 높은 RPM(분당 호출 수)과 거대한 컨텍스트 창을 제공하여 MVP 단계의 비용 리스크를 최소화한다.
-
Nvidia Canary & OpenAI Whisper
- 오픈소스 모델 중 최상위 정확도(WER 5.63)를 보유한 Canary와 한국어 범용성이 높은 Whisper를 비교군으로 두어 환경에 맞는 최적의 인식을 구현하고자 한다.
-
DeepSeek-V3
- 복잡한 CS 개념 설명과 같이 정밀한 논리가 필요한 영역에서 유료 모델의 성능을 활용하여 서비스의 질을 높이기 위해 채택했다.
-
STT: OpenAI Whisper(무료 티어)
- 공공 API와 가속 하드웨어 기반 API를 조합하여 사용자에게 끊김 없는 음성 경험 제공.
-
LLM: Gemini 1.5 Flash
- 빠른 응답 속도를 바탕으로 서비스의 주요 피드백 로직 수행.
- 모든 모델의 선정 및 변경 사항은 반드시 이 위키에 문서화합니다.
- 새로운 모델 벤치마크 결과(WER 등)가 나올 시 날짜와 함께 업데이트합니다.
- MVP 이후 유료 모델 전환 시점은 비용 대비 성능 향상 지표를 근거로 결정합니다.
- 🛣️ Roadmap ------------------------------
- 🏃 Sprint Planning
- 📔 Sprint Backlog