Skip to content

OTT AI Wiki

ehdwo0427 edited this page Apr 3, 2026 · 4 revisions

🔬 OnTheTop AI 개발 기록

📖 프로젝트 소개로 돌아가기 | 🏠 Wiki 홈으로

프로젝트 진행 중 모델 선정부터 성능 최적화까지의 AI 기술 결정 과정을 기록합니다.


📋 빠른 네비게이션


🕐 개발 일정

기간 주요 작업
04/14 DeepSeek Janus pro 7b 성능 테스트
04/15 API 설계
04/16 HiDeream 모델 성능 테스트
04/17 Naver Shopping API 설계 예시
04/21 CNN 모델 성능 점검
04/22 DALL-E3관련 SDXL LoRA 테스트
04/27 AI_LoRA 예비 테스트
04/29 LoRA 3종 테스트
05/01 CNN Local 테스트
05/02 SAM 2.1 테스트
05/03 img2txt-GPT-4o-SDXL 테스트
05/06 프롬프트 엔지니어링 테스트
05/11 img2txt-전반적인-트러블슈팅과-버전업
05/15 Grounded with SAM2
05/19 SDXL inpainting with Grounded SAM2
05/21 SDXL SAM Issue
05/22 Mask Test
05/23 Grounding DINO
05/26 v2 pipeline test (이미지 생성부분)
05/28 v2 pipeline performance test
06/02 Solving Masking Issue
06/05 요일별 이미지 생성(만우절 느낌) 테스트
06/22 LoRA unload test

🏗️ API 설계

AI 백엔드 아키텍처

단계 주제 내용
1️⃣ 모델 API 설계 FastAPI 기반 추론 엔드포인트 설계
2️⃣ 모델 성능 최적화 응답시간, 메모리, TPS 개선
3️⃣ 서비스 모듈화 마이크로서비스 아키텍처 설계
4️⃣ LangChain 멀티스텝 Blip → GPT → SDXL 파이프라인
5️⃣ RAG 구현 벡터 DB 기반 컨텍스트 검색
6️⃣ 최종 통합 전체 AI 파이프라인 통합

📊 API 명세


📊 프로젝트 마일스톤

마일스톤 목표 및 주요 작업 (개발자 관점)
M1: MVP 개발 완료
(4/28 ~ 5/16)
- vgg16을 이용한 desk classify 개발
- FastAPI 백엔드와 연동하여 요청 (desk 판단유무 결과 전송 후 이미지 생성)
- img2txt, txt2img 로직으로 개발
- 이미지 -> caption 추출 -> caption 기반 prompt -> txt 기반 이미지생성
- caption 추출 : Blip - base 모델
- Prompt 작성 : GPT 4o API
- 이미지 생성 : SDXL (LoRA 따로 학습하여 추가)
- 이미지 생성 시 모델 로드시간에 대한 트러블 슈팅 완료 (1컷 당 5분 -> 30초로 축소)
- API 호출 로직 개선(비동기 처리, 요청 큐 등)
- 헬스체크 & 모니터링: GPU 메모리 사용률, 응답률
M2: 2차 업데이트
(5/19 ~ 6/9)
- 응답 서버에 모델 컨테이너 배포(Docker)
- 응답 시간 측정: 평균 응답속도, 초당 처리량
- Blip 제거 가능할 예정(inpainted_SAM 도입해서 mask 데이터 넣어서 이미지 생성)
- 피드백 바탕으로 프롬프트 수정
- 상품 리스트 어떻게 뽑을 지 정하기
- 상품 리스트 출력물 방법론 생각해보기
- desk classifier 모델 고도화
M3: 3차 업데이트
(6/9 ~ 7/7)
- 프롬프트 튜닝 테스트
- 요일별로 추천 품목 다르게 설정(테마를 정해서 생성)
- 사진 안에 물품 위치 기억해서 물품 리스트 사진에 넣어주기
- 사용자가 원하는 프롬프트 넣어주기
M4: 4차 업데이트
(7/7 ~ 7/18)
- 부하테스트 준비(시나리오 생성)
- 데스크 성향 진단 및 공유(데스크 MBTI)
M5: 최종 발표 및 데모 - 최종 모델 성능 (응답 정확도, TPS, 비용) 정리

Woody's AI Backend Engineering Log


💼 About

Deepvisions | AI Engineer 2026.03 ~ 재직중


🚀 Projects (최신순)

CCTV 자전거 경로 & 공회전 탐지 — 한동대학교 리빙랩

2026.05 ~ | @ Deepvisions 캠퍼스 CCTV 4대 · 자전거 OCR + 차량 공회전 다중 신호

야생동물 탐지 — RPi 엣지 배포

2026.04 ~ | @ Deepvisions 포도밭 침입 탐지 (5종 multi-class · 라즈베리파이 4 실시간)

포도밭 병해충 탐지 및 수확량 예측

2026.03 ~ | @ Deepvisions 드론 이미지 기반 객체 탐지 + GSD calibration + 수확량 예측


📦 종료된 프로젝트

OnTheTop

2025.03 ~ 2025.08 | 카카오테크부트캠프 | ✅ 종료 AI 기반 데스크테리어 추천 서비스


AI Notes


About

Clone this wiki locally