-
Notifications
You must be signed in to change notification settings - Fork 0
FastAPI server wiki
사용자의 음성을 텍스트로 변환하는 엔진입니다. 인식 정확도(WER)와 한국어 지원 여부를 기준으로 분류합니다.
-
Google Cloud STT
정책: 매월 60분 무료 제공, 이후 사용량 기반 결제.
장점: 전 세계 언어 지원 및 높은 안정성.
-
Naver CLOVA Speech
장점: 한국어 음성 인식 및 국내 도메인(고유명사 등) 최적화 성능 최상위권.
💡 WER(Word Error Rate)이란?
사람이 말한 실제 문장과 AI가 인식한 결과 사이의 거리를 계산한 지표입니다. 수치가 낮을수록 정확도가 높음을 의미합니다.
프로젝트의 논리 추론 및 피드백 생성을 담당하는 두뇌 엔진입니다.
-
GPT-4o-mini
주요 용도: 일반적인 문제 채점, 간단한 텍스트 피드백 생성.
강점: 매우 저렴한 비용으로 GPT-4급 성능 활용 가능.
-
DeepSeek-V3
주요 용도: 복잡한 CS(Computer Science) 개념 설명, 논리적 추론 기반 모의면접 로직.
강점: 추론 성능이 뛰어나며 하이엔드 작업에 적합.
-
Gemini 1.5 Flash
정책: Free Tier 기준 분당 15회 호출(RPM), 분당 100만 토큰까지 무료.
강점: 빠른 응답 속도와 거대한 컨텍스트 창(Context Window) 제공.
초기 핵심 기능의 빠른 검증을 위해 **'속도'**와 **'비용 제로'**를 목표로 모델을 조합합니다.
-
STT (음성 인식):
ETRI API: 한국어 특화 공공 API 활용.
Groq Whisper: LPU 가속을 통한 초고속 Whisper 처리 (무료 티어 활용).
-
LLM (논리 엔진):
Gemini 1.5 Flash: API 레이턴시 최소화 및 비용 절감.
Low Latency: 사용자가 말하는 즉시 텍스트로 변환하여 지연 없는 인터랙션 제공.
Cost Efficiency: 유료 API 호출을 최소화하고, 검증된 무료 티어 내에서 서비스 완결성 확보.
Scalability: 이후 모델 성능 고도화가 필요할 때 GPT-4o나 DeepSeek로 즉시 교체 가능한 구조 설계.
- 🛣️ Roadmap ------------------------------
- 🏃 Sprint Planning
- 📔 Sprint Backlog