-
Notifications
You must be signed in to change notification settings - Fork 0
OTT AI Wiki
ehdwo0427 edited this page Apr 3, 2026
·
4 revisions
📖 프로젝트 소개로 돌아가기 | 🏠 Wiki 홈으로
프로젝트 진행 중 모델 선정부터 성능 최적화까지의 AI 기술 결정 과정을 기록합니다.
| 기간 | 주요 작업 |
|---|---|
| 04/14 | DeepSeek Janus pro 7b 성능 테스트 |
| 04/15 | API 설계 |
| 04/16 | HiDeream 모델 성능 테스트 |
| 04/17 | Naver Shopping API 설계 예시 |
| 04/21 | CNN 모델 성능 점검 |
| 04/22 | DALL-E3관련 SDXL LoRA 테스트 |
| 04/27 | AI_LoRA 예비 테스트 |
| 04/29 | LoRA 3종 테스트 |
| 05/01 | CNN Local 테스트 |
| 05/02 | SAM 2.1 테스트 |
| 05/03 | img2txt-GPT-4o-SDXL 테스트 |
| 05/06 | 프롬프트 엔지니어링 테스트 |
| 05/11 | img2txt-전반적인-트러블슈팅과-버전업 |
| 05/15 | Grounded with SAM2 |
| 05/19 | SDXL inpainting with Grounded SAM2 |
| 05/21 | SDXL SAM Issue |
| 05/22 | Mask Test |
| 05/23 | Grounding DINO |
| 05/26 | v2 pipeline test (이미지 생성부분) |
| 05/28 | v2 pipeline performance test |
| 06/02 | Solving Masking Issue |
| 06/05 | 요일별 이미지 생성(만우절 느낌) 테스트 |
| 06/22 | LoRA unload test |
| 단계 | 주제 | 내용 |
|---|---|---|
| 1️⃣ | 모델 API 설계 | FastAPI 기반 추론 엔드포인트 설계 |
| 2️⃣ | 모델 성능 최적화 | 응답시간, 메모리, TPS 개선 |
| 3️⃣ | 서비스 모듈화 | 마이크로서비스 아키텍처 설계 |
| 4️⃣ | LangChain 멀티스텝 | Blip → GPT → SDXL 파이프라인 |
| 5️⃣ | RAG 구현 | 벡터 DB 기반 컨텍스트 검색 |
| 6️⃣ | 최종 통합 | 전체 AI 파이프라인 통합 |
| 마일스톤 | 목표 및 주요 작업 (개발자 관점) |
|---|---|
|
M1: MVP 개발 완료 (4/28 ~ 5/16) |
- vgg16을 이용한 desk classify 개발 - FastAPI 백엔드와 연동하여 요청 (desk 판단유무 결과 전송 후 이미지 생성) - img2txt, txt2img 로직으로 개발 - 이미지 -> caption 추출 -> caption 기반 prompt -> txt 기반 이미지생성 - caption 추출 : Blip - base 모델 - Prompt 작성 : GPT 4o API - 이미지 생성 : SDXL (LoRA 따로 학습하여 추가) - 이미지 생성 시 모델 로드시간에 대한 트러블 슈팅 완료 (1컷 당 5분 -> 30초로 축소) - API 호출 로직 개선(비동기 처리, 요청 큐 등) - 헬스체크 & 모니터링: GPU 메모리 사용률, 응답률 |
|
M2: 2차 업데이트 (5/19 ~ 6/9) |
- 응답 서버에 모델 컨테이너 배포(Docker) - 응답 시간 측정: 평균 응답속도, 초당 처리량 - Blip 제거 가능할 예정(inpainted_SAM 도입해서 mask 데이터 넣어서 이미지 생성) - 피드백 바탕으로 프롬프트 수정 - 상품 리스트 어떻게 뽑을 지 정하기 - 상품 리스트 출력물 방법론 생각해보기 - desk classifier 모델 고도화 |
|
M3: 3차 업데이트 (6/9 ~ 7/7) |
- 프롬프트 튜닝 테스트 - 요일별로 추천 품목 다르게 설정(테마를 정해서 생성) - 사진 안에 물품 위치 기억해서 물품 리스트 사진에 넣어주기 - 사용자가 원하는 프롬프트 넣어주기 |
|
M4: 4차 업데이트 (7/7 ~ 7/18) |
- 부하테스트 준비(시나리오 생성) - 데스크 성향 진단 및 공유(데스크 MBTI) |
| M5: 최종 발표 및 데모 | - 최종 모델 성능 (응답 정확도, TPS, 비용) 정리 |
Deepvisions | AI Engineer 2026.03 ~ 재직중
2026.05 ~ | @ Deepvisions 캠퍼스 CCTV 4대 · 자전거 OCR + 차량 공회전 다중 신호
2026.04 ~ | @ Deepvisions 포도밭 침입 탐지 (5종 multi-class · 라즈베리파이 4 실시간)
2026.03 ~ | @ Deepvisions 드론 이미지 기반 객체 탐지 + GSD calibration + 수확량 예측
- 프로젝트 메인
- 관련 연구 종합 + 한계 (2026-05) ← 최신
- 수확량 close-up 4장 + 3-Model (2026-05-19)
- 드론 포도 수확량 예측 — 파이프라인 (2026-05)
- 드론 포도송이 탐지 — 학습 변천사 (2026-04)
- SAM3 vs Fine-tuned YOLO
- Grounding DINO vs YOLO Top3 비교 요약
- YOLO Baseline Top3 비교 요약
- YOLO Model Comparison Summary
- 포도 탐지를 위한 데이터 수집
- 포도 수확량 측정을 위한 Object Detection
2025.03 ~ 2025.08 | 카카오테크부트캠프 | ✅ 종료 AI 기반 데스크테리어 추천 서비스
- Name: Woody (이동재)
- Focus: Vision AI, LLM Integration, Backend Engineering
- GitHub: @ehdwo0427
- Email: ehdwo0427@naver.com
- 포트폴리오 : 포트폴리오