FastAPI server wiki

🎙️ STT (Speech-to-Text) Model List

사용자의 음성을 텍스트로 변환하는 엔진입니다. 인식 정확도(WER)와 한국어 지원 여부를 기준으로 분류합니다.

💰 유료 모델 (Paid/Managed)

Google Cloud STT
- 정책: 매월 60분 무료 제공, 이후 사용량 기반 결제.
- 장점: 전 세계 언어 지원 및 높은 안정성.
Naver CLOVA Speech
- 장점: 한국어 음성 인식 및 국내 도메인(고유명사 등) 최적화 성능 최상위권.

🆓 무료 모델 (Open Source/Free Tier)

모델명 | 한국어 지원 | WER (단어 오차율) | 비고 -- | -- | -- | -- OpenAI Whisper | ✅ 지원 | 10.32 | 사실상 업계 표준 오픈소스 모델 Nvidia Canary | ❌ 미지원 | 5.63 | 현존 오픈소스 중 최고 정확도 (영어 위주)

💡 WER(Word Error Rate)이란?

사람이 말한 실제 문장과 AI가 인식한 결과 사이의 거리를 계산한 지표입니다. 수치가 낮을수록 정확도가 높음을 의미합니다.

🧠 LLM (Large Language Model) List

프로젝트의 논리 추론 및 피드백 생성을 담당하는 두뇌 엔진입니다.

💰 유료 모델 (High Performance)

GPT-4o-mini
- 주요 용도: 일반적인 문제 채점, 간단한 텍스트 피드백 생성.
- 강점: 매우 저렴한 비용으로 GPT-4급 성능 활용 가능.
DeepSeek-V3
- 주요 용도: 복잡한 CS(Computer Science) 개념 설명, 논리적 추론 기반 모의면접 로직.
- 강점: 추론 성능이 뛰어나며 하이엔드 작업에 적합.

🆓 무료 모델 (Efficiency)

Gemini 1.5 Flash
- 정책: Free Tier 기준 분당 15회 호출(RPM), 분당 100만 토큰까지 무료.
- 강점: 빠른 응답 속도와 거대한 컨텍스트 창(Context Window) 제공.

🛠️ MVP (Minimum Viable Product) 전략

초기 핵심 기능의 빠른 검증을 위해 **'속도'**와 **'비용 제로'**를 목표로 모델을 조합합니다.

1. 기술 스택 조합

STT (음성 인식):
- ETRI API: 한국어 특화 공공 API 활용.
- Groq Whisper: LPU 가속을 통한 초고속 Whisper 처리 (무료 티어 활용).
LLM (논리 엔진):
- Gemini 1.5 Flash: API 레이턴시 최소화 및 비용 절감.

2. 핵심 로직 구현 방향

Low Latency: 사용자가 말하는 즉시 텍스트로 변환하여 지연 없는 인터랙션 제공.
Cost Efficiency: 유료 API 호출을 최소화하고, 검증된 무료 티어 내에서 서비스 완결성 확보.
Scalability: 이후 모델 성능 고도화가 필요할 때 GPT-4o나 DeepSeek로 즉시 교체 가능한 구조 설계.

Uh oh!

FastAPI server wiki

🎙️ STT (Speech-to-Text) Model List

💰 유료 모델 (Paid/Managed)

🆓 무료 모델 (Open Source/Free Tier)

🧠 LLM (Large Language Model) List

💰 유료 모델 (High Performance)

🆓 무료 모델 (Efficiency)

🛠️ MVP (Minimum Viable Product) 전략

1. 기술 스택 조합

2. 핵심 로직 구현 방향

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

🏠 Main Page

📽️ Project Planning

📖 Wiki

Clone this wiki locally