Skip to content

FastAPI server wiki

Jaewon Lee edited this page Jan 19, 2026 · 11 revisions

🧭 AI Team Wiki

이 문서는 서비스에 적용될 STT 및 LLM 모델의 기술적 검토 사항과 MVP 구현을 위한 결정사항을 기록하는 위키입니다.
모든 변경 사항은 문서화 및 날짜 기록을 원칙으로 합니다. ac

📌 1. 프로젝트 개요

🎯 1-1 목적

  • 음성 인식(STT) 및 생성형 AI(LLM)를 활용한 인터렉티브 서비스 구축
  • 무료/유료 모델의 효율적 배분을 통한 비용 최적화 및 고성능 구현
  • 실시간 응답 환경을 위한 저지연(Low Latency) 아키텍처 검증

👥 1-2 대상 사용자

  • 주요 사용자 CS 개념 및 모의면접 준비생, 퀴즈를 통한 학습을 원하는 개발자
  • 보조 사용자 교육 콘텐츠 관리자, 시스템 운영팀

⚙️ 1-3 주요 기능

  • 사용자 음성 기반 인터렉션 시스템
  • 기술 개념 설명 및 맞춤형 피드백 제공
  • 서비스 핵심 로직 기반의 MVP 검증

🧑‍💻 2. 기술 스택 (Models)

🧩 2-1 STT (Speech-to-Text) 모델

구분 기술 특징 비고
유료 Google Cloud STT 매월 1시간 무료, 범용성 우수 글로벌 서비스 적합
유료 Naver Clover 한국어 인식 특화 국내 사용자 최적화
무료 OpenAI Whisper 한국어 지원, WER: 10.32 오픈소스 표준
무료 Nvidia Canary WER: 5.63 (현존 최고 정확도) 한국어 미지원
  • WER(Word Error Rate): 단어 오차율을 뜻하며, 낮을수록 인식률이 높음.

🧩 2-2 LLM (Large Language Model) 모델

구분 기술 주요 용도 비고
유료 GPT-4o-mini 일반 문제 채점, 간단한 텍스트 피드백 저렴한 유료 모델
유료 DeepSeek-V3 복잡한 CS 개념 설명, 모의면접 로직 높은 논리 추론 성능
무료 Gemini 1.5 Flash MVP 핵심 엔진, 실시간 피드백 분당 15회/100만 토큰 무료

🧩 2-3 스택 선정 이유

  • Gemini 1.5 Flash
    • 무료 티어임에도 불구하고 높은 RPM(분당 호출 수)과 거대한 컨텍스트 창을 제공하여 MVP 단계의 비용 리스크를 최소화한다.
  • Nvidia Canary & OpenAI Whisper
    • 오픈소스 모델 중 최상위 정확도(WER 5.63)를 보유한 Canary와 한국어 범용성이 높은 Whisper를 비교군으로 두어 환경에 맞는 최적의 인식을 구현하고자 한다.
  • DeepSeek-V3
    • 복잡한 CS 개념 설명과 같이 정밀한 논리가 필요한 영역에서 유료 모델의 성능을 활용하여 서비스의 질을 높이기 위해 채택했다.

🚀 3. MVP 구현 전략

🏗️ 3-1 속도 중심의 무료 모델 핵심 로직 구현

  • STT: OpenAI Whisper(무료 티어)
    • 공공 API와 가속 하드웨어 기반 API를 조합하여 사용자에게 끊김 없는 음성 경험 제공.
  • LLM: Gemini 1.5 Flash
    • 빠른 응답 속도를 바탕으로 서비스의 주요 피드백 로직 수행.

🗂️ 4. 참고 자료

공식 문서

✨ 사용 팁 및 규칙

  • 모든 모델의 선정 및 변경 사항은 반드시 이 위키에 문서화합니다.
  • 새로운 모델 벤치마크 결과(WER 등)가 나올 시 날짜와 함께 업데이트합니다.
  • MVP 이후 유료 모델 전환 시점은 비용 대비 성능 향상 지표를 근거로 결정합니다.

Clone this wiki locally