# PDF RAG 시스템 소스코드 분석

## 📋 시스템 개요

이 프로젝트는 **PDF 문서를 업로드하고 질문-답변을 수행하는 RAG(Retrieval-Augmented Generation) 시스템**입니다. FastAPI 기반으로 구축되었으며, Google Gemini API를 활용한 임베딩 생성과 답변 생성을 제공합니다.

## 🏗️ 핵심 아키텍처

### **계층화된 청킹 전략**
시스템의 가장 혁신적인 부분은 **2단계 청킹 구조**입니다:

```python
class MainChunk:
    """구조화된 메인 청크 클래스"""
    - 페이지 범위 기반의 큰 단위 청크
    - 섹션/제목 정보 포함
    - 여러 서브청크를 포함

class SubChunk:
    """벡터화될 서브청크 클래스"""
    - 2-3문장 단위의 작은 청크
    - 실제 벡터 검색의 대상
    - 부모 청크 참조 정보 보유
```

이 구조의 장점:
- **정밀한 검색**: 서브청크로 정확한 매칭
- **풍부한 컨텍스트**: 답변 생성 시 부모 청크의 전체 내용 활용
- **의미적 일관성**: 섹션 단위 정보 보존

## 🔍 하이브리드 검색 시스템

### **벡터 검색 + BM25 검색 결합**

```python
async def hybrid_search(query: str, document_id: str = None, 
                       vector_weight: float = 0.7, 
                       keyword_weight: float = 0.3, 
                       top_k: int = 5):
```

**점수 계산 방식:**
```python
hybrid_score = (vector_weight * vector_score) + (keyword_weight * bm25_score)
```

- **벡터 검색 (70%)**: 의미적 유사성 기반
- **BM25 검색 (30%)**: 키워드 매칭 기반
- **가중치 조정 가능**: 도메인에 따른 최적화 가능

## 📄 PDF 처리 파이프라인

### **1단계: 텍스트 추출 및 구조화**

```python
def extract_text_from_pdf(pdf_path: str) -> List[Dict[str, Any]]:
    """PDF에서 텍스트를 추출하고 페이지별로 구조화"""
```

**특징:**
- PyMuPDF를 활용한 텍스트 추출
- 휴리스틱 기반 섹션 제목 자동 인식
- 페이지별 메타데이터 보존

### **2단계: 메인 청크 생성**

```python
def create_main_chunks(pages_data: List[Dict[str, Any]]) -> List[MainChunk]:
    """페이지 데이터를 큰 구조화된 청크로 분할"""
```

**로직:**
- 섹션 변화 지점에서 청크 분할
- 페이지 범위 정보 유지
- 최소 청크 수 보장 (페이지 단위 폴백)

### **3단계: 서브청크 생성**

```python
def create_subchunks_from_main_chunk(main_chunk: MainChunk, 
                                   target_tokens: int = 150) -> List[SubChunk]:
    """메인 청크에서 2-3문장 단위의 서브청크 생성"""
```

**최적화된 분할 기준:**
- 목표 토큰 수: 150개
- 문장 수: 2-3문장
- 토큰 오버플로우 방지
- 문맥 경계 보존

## 🤖 AI 모델 통합

### **Gemini API 활용**

```python
# 임베딩 생성
embeddings_model = GoogleGenerativeAIEmbeddings(
    model="models/embedding-001", 
    google_api_key=GOOGLE_API_KEY
)

# 답변 생성
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash", 
    google_api_key=GOOGLE_API_KEY
)
```

**배치 처리 최적화:**
- 30개 단위 배치 임베딩 생성
- API 제한 고려한 처리량 조절
- 비동기 처리로 성능 향상

## 💾 데이터 저장 및 관리

### **ChromaDB 벡터 저장소**

```python
collection.add(
    documents=batch_texts,
    embeddings=embeddings,
    metadatas=metadata_list,
    ids=[f"{document_id}_{subchunk.subchunk_id}" for subchunk in batch_subchunks]
)
```

**메타데이터 구조:**
- `document_id`: 문서 고유 식별자
- `parent_chunk_id`: 부모 청크 참조
- `page_start/end`: 페이지 범위
- `section/title`: 구조적 정보

### **메모리 기반 보조 저장소**

```python
documents_registry = {}    # 문서 메타정보
documents_chunks = {}      # 청크 데이터
documents_bm25 = {}       # BM25 인덱스
```

## 🎯 질문-답변 프로세스

### **컨텍스트 구성 전략**

```python
# 부모 청크의 전체 텍스트 활용
context_part = f"[{info['title']} - 페이지 {info['page_start']}"
context_part += f", 섹션: {info['section']}]\n{info['parent_text']}"
```

**프롬프트 엔지니어링:**
- 명확한 역할 정의
- 문서 기반 답변 강제
- 페이지/섹션 정보 포함 지시
- 한국어 자연스러운 답변 요구

## 🔧 API 엔드포인트

### **핵심 기능**

| 엔드포인트 | 기능 | 설명 |
|-----------|------|------|
| `POST /upload-pdf` | 문서 업로드 | PDF 처리 및 벡터화 |
| `POST /question` | 질문 답변 | 하이브리드 검색 + LLM 생성 |
| `GET /documents` | 문서 목록 | 등록된 모든 문서 조회 |
| `DELETE /delete-document/{id}` | 문서 삭제 | 특정 문서 완전 삭제 |

### **관리 기능**

```python
@app.get("/status")
async def get_status():
    """시스템 상태 모니터링"""
    
@app.delete("/delete-all") 
async def delete_all_documents():
    """전체 데이터 초기화"""
```

## ⚡ 성능 최적화 요소

### **배치 처리**
- 임베딩 생성: 30개 단위 배치
- API 호출 최소화
- 메모리 효율성 고려

### **비동기 처리**
```python
async def create_embeddings_batch(texts: List[str]) -> List[List[float]]:
    """비동기 임베딩 생성"""
```

### **인덱스 최적화**
- BM25 사전 계산 및 캐싱
- ChromaDB 코사인 유사도 인덱스
- 문서별 격리된 검색 지원

## 🛠️ 주요 의존성

```python
# 핵심 프레임워크
fastapi              # 웹 API 프레임워크
pydantic            # 데이터 검증

# PDF 처리
pymupdf             # PDF 텍스트 추출

# AI/ML
langchain_google_genai  # Gemini API 래퍼
tiktoken            # 토큰 카운팅

# 벡터 저장소
chromadb            # 벡터 데이터베이스

# 검색 및 NLP
rank_bm25           # BM25 알고리즘
sklearn             # TF-IDF 벡터화
```

## 💡 시스템의 강점

1. **계층화된 청킹**: 정밀 검색 + 풍부한 컨텍스트
2. **하이브리드 검색**: 의미적 + 키워드 검색 결합
3. **구조 보존**: PDF의 섹션/페이지 정보 활용
4. **확장성**: 멀티 문서 지원 및 개별 관리
5. **최적화**: 배치 처리 및 비동기 API

In [None]:
from fastapi import FastAPI, File, UploadFile, HTTPException
from fastapi.responses import JSONResponse
from pydantic import BaseModel
import pymupdf
from langchain_google_genai import ChatGoogleGenerativeAI
import tiktoken
import re
from typing import List, Dict, Any
import uuid
import tempfile
import os
import chromadb
from rank_bm25 import BM25Okapi
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import asyncio
from concurrent.futures import ThreadPoolExecutor
import logging
import time
import shutil
from dotenv import load_dotenv
from fastapi.middleware.cors import CORSMiddleware

# 환경변수 로드
load_dotenv()
os.environ["CHROMA_TELEMETRY_ANONYMOUS"] = "False"
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash", google_api_key=GOOGLE_API_KEY)

# 로깅 설정
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
# chromadb telemetry 로그 레벨 WARNING 이상으로 격상(숨김)
logging.getLogger("chromadb.telemetry").setLevel(logging.WARNING)
logging.getLogger("chromadb.telemetry.product.posthog").setLevel(logging.CRITICAL)

app = FastAPI(title="PDF QA System (Gemini)", version="1.0.0")

app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# ChromaDB 클라이언트 초기화
chroma_client = chromadb.PersistentClient(path="./chroma_db")

# 전역 변수들
collection = None
documents_registry = {}  # 문서 정보를 저장하는 레지스트리
documents_chunks = {}  # 문서별 청크 데이터 저장
documents_bm25 = {}  # 문서별 BM25 인덱스 저장
tokenizer = tiktoken.get_encoding("cl100k_base")  # GPT-4 토크나이저(임베딩 토큰 카운트용)

class QuestionRequest(BaseModel):
    question: str
    document_id: str = None

# 📚 2단계 청킹 전략: 책으로 이해하기

## 🤔 왜 책을 챕터와 문단으로 나누어 읽을까요?

책을 읽을 때 우리는 자연스럽게 **2단계로 정보를 처리**합니다:

### 📖 일반적인 독서 과정
```
1단계: 목차를 보고 원하는 챕터 찾기
       "아, 마케팅 전략은 3챕터에 있구나!"

2단계: 챕터 안에서 구체적인 문단 찾기  
       "목표 고객에 대한 내용은 이 문단이네!"

3단계: 전체 챕터를 읽으며 맥락 이해
       "앞뒤 내용까지 읽어야 완전히 이해되겠다"
```

RAG 시스템도 똑같은 방식으로 작동합니다!

---

## 📚 MainChunk = 책의 챕터(Chapter)

### 📖 실제 비즈니스 서적 예시

```python
class MainChunk:
    """책의 한 챕터"""
    def __init__(self, text: str, chunk_id: str, page_start: int, page_end: int, 
                 section: str = "", title: str = ""):
        self.text = text          # 📄 챕터 전체 내용
        self.chunk_id = chunk_id  # 🏷️ 챕터 고유번호  
        self.page_start = 15      # 📖 챕터 시작 페이지
        self.page_end = 28        # 📖 챕터 끝 페이지  
        self.section = "제3장"    # 📂 장 번호
        self.title = "디지털 마케팅 전략"  # 📝 챕터 제목
        self.subchunks = []       # 📝 이 챕터의 모든 문단들
```

### 📚 실제 챕터 내용 예시
```
📖 "성공하는 스타트업의 마케팅" 책의 제3장

제3장: 디지털 마케팅 전략 (15-28페이지)
├── 3.1 소셜미디어 마케팅
├── 3.2 콘텐츠 마케팅 전략  
├── 3.3 인플루언서 협업
├── 3.4 광고 예산 배분
└── 3.5 성과 측정 방법

전체 텍스트: "디지털 시대에 마케팅은 기업의 생존을 좌우합니다. 
소셜미디어는 고객과의 직접적인 소통 창구입니다... 
(14페이지 분량의 상세한 내용)"
```

---

## 📝 SubChunk = 책의 문단(Paragraph)

### ✏️ 실제 문단 예시

```python
class SubChunk:
    """책의 한 문단"""
    def __init__(self, text: str, subchunk_id: str, parent_chunk_id: str, 
                 sentence_start: int, sentence_end: int):
        self.text = text                 # 📝 문단 내용 (2-3문장)
        self.subchunk_id = subchunk_id   # 🏷️ 문단 고유번호
        self.parent_chunk_id = parent_chunk_id  # 📚 어느 챕터에 속하는지
        self.sentence_start = sentence_start    # 📍 문단의 시작 문장 번호
        self.sentence_end = sentence_end        # 📍 문단의 끝 문장 번호
```

### 📄 실제 문단들 예시

**SubChunk 1: 인스타그램 마케팅**
```python
subchunk_1 = SubChunk(
    text="인스타그램은 2030 여성 고객층에게 가장 효과적인 플랫폼입니다. 
          시각적 콘텐츠를 통해 브랜드 스토리를 전달할 수 있습니다. 
          해시태그 전략이 노출도를 크게 좌우합니다.",
    subchunk_id="sub_3_1_1",
    parent_chunk_id="chapter_3",  # 제3장에 속함
    sentence_start=1,
    sentence_end=3
)
```

**SubChunk 2: 유튜브 마케팅**
```python
subchunk_2 = SubChunk(
    text="유튜브는 모든 연령대에서 강력한 영향력을 보입니다. 
          교육적 콘텐츠와 엔터테인먼트를 결합하면 효과가 극대화됩니다.",
    subchunk_id="sub_3_1_2", 
    parent_chunk_id="chapter_3",  # 같은 제3장에 속함
    sentence_start=4,
    sentence_end=5
)
```

**SubChunk 3: 콘텐츠 기획**
```python
subchunk_3 = SubChunk(
    text="콘텐츠 기획 시 고객 페르소나를 명확히 설정해야 합니다. 
          감정적 연결고리가 있는 스토리텔링이 핵심입니다.",
    subchunk_id="sub_3_2_1",
    parent_chunk_id="chapter_3",  # 같은 제3장에 속함  
    sentence_start=15,
    sentence_end=16
)
```

---

## 🔍 실제 동작 과정: 독서하는 AI

### 🙋‍♀️ 사용자 질문
```
"인스타그램 마케팅에서 가장 중요한 것은 무엇인가요?"
```

### 🔎 1단계: 책 전체에서 관련 문단 찾기 (SubChunk 검색)

**AI가 모든 문단을 빠르게 훑어봅니다**
```python
검색 결과:
1. subchunk_3_1_1: "인스타그램은 2030 여성 고객층에게..." (관련도: 95%)
2. subchunk_5_2_3: "인스타그램 광고비 책정 방법..." (관련도: 78%)  
3. subchunk_7_1_2: "인스타그램 분석 툴 사용법..." (관련도: 65%)
```

### 📖 2단계: 해당 챕터 전체 읽기 (MainChunk 활용)

**가장 관련도 높은 문단이 속한 챕터를 전부 읽습니다**
```python
subchunk_3_1_1 → parent_chunk_id: "chapter_3"
→ 제3장 "디지털 마케팅 전략" 전체 내용 (15-28페이지) 활용
```

### 📝 3단계: 맥락을 이해한 완전한 답변

**AI가 답변할 때:**
```
✅ 좋은 답변:
"인스타그램 마케팅에서 가장 중요한 것은 해시태그 전략입니다. 
(제3장 디지털 마케팅 전략, 17페이지 참조)

특히 2030 여성 고객층을 타겟으로 할 때 효과적이며, 
시각적 콘텐츠를 통한 브랜드 스토리텔링과 함께 
해시태그 전략을 구성하면 노출도를 크게 높일 수 있습니다.

또한 같은 장에서 언급하듯이, 콘텐츠 기획 시 
고객 페르소나를 명확히 설정하고 감정적 연결고리가 있는 
스토리텔링을 결합하면 더욱 효과적입니다."

출처: 제3장 디지털 마케팅 전략 (15-28페이지)
```

---

## 📚 다른 예시: IT 기술서적

### 📖 "파이썬 웹개발 완벽가이드" 책

**MainChunk: 제7장 데이터베이스 연동**
```python
main_chunk = MainChunk(
    text="데이터베이스는 웹 애플리케이션의 핵심입니다...(20페이지 분량)",
    chunk_id="chapter_7", 
    page_start=89,
    page_end=109,
    section="제7장",
    title="데이터베이스 연동",
    subchunks=[sub_7_1, sub_7_2, sub_7_3, ...]
)
```

**SubChunk들**
```python
# SQLAlchemy 설치 방법
sub_7_1 = SubChunk(
    text="SQLAlchemy는 pip install sqlalchemy로 설치합니다. 
          가상환경 사용을 강력히 권장합니다.",
    subchunk_id="sub_7_1",
    parent_chunk_id="chapter_7"
)

# 데이터베이스 연결 설정  
sub_7_2 = SubChunk(
    text="데이터베이스 URL 형식은 'dialect://user:password@host/database'입니다. 
          환경변수를 사용하여 보안을 강화하세요.",
    subchunk_id="sub_7_2", 
    parent_chunk_id="chapter_7"
)

# 모델 정의 방법
sub_7_3 = SubChunk(
    text="SQLAlchemy 모델은 db.Model을 상속받아 정의합니다. 
          각 컬럼은 db.Column으로 선언하며 타입을 명시해야 합니다.",
    subchunk_id="sub_7_3",
    parent_chunk_id="chapter_7"  
)
```

### 🤖 질문과 답변 예시

**질문:** "SQLAlchemy 모델은 어떻게 정의하나요?"

**검색 과정:**
```
1. SubChunk 검색: sub_7_3이 가장 관련성 높음 (92% 매치)
2. MainChunk 확장: chapter_7 전체 내용 활용
3. 맥락 있는 답변 생성
```

**답변:**
```
SQLAlchemy 모델은 db.Model을 상속받아 정의합니다. 
각 컬럼은 db.Column으로 선언하며 타입을 명시해야 합니다.

예를 들어:
class User(db.Model):
    id = db.Column(db.Integer, primary_key=True)
    username = db.Column(db.String(80), unique=True)

모델 정의 전에 SQLAlchemy를 설치하고 (pip install sqlalchemy), 
데이터베이스 연결을 올바르게 설정해야 합니다. 
자세한 설치 및 설정 방법은 같은 장의 앞부분을 참조하세요.

출처: 제7장 데이터베이스 연동 (89-109페이지)
```

---

## 💡 왜 이 방식이 효과적인가?

### 🎯 정확한 검색 = 책의 색인 활용
```python
# 나쁜 예: 책 전체에서 찾기
"파이썬 책 500페이지 전체에서 SQLAlchemy 관련 내용 찾아줘"
→ 너무 광범위하고 부정확

# 좋은 예: 문단 단위로 정확히 찾기  
"SQLAlchemy 모델 정의" 문단을 정확히 발견
→ 정확하고 구체적인 정보 획득
```

### 📖 풍부한 맥락 = 챕터 전체 읽기
```python
# 단편적 정보만 제공하는 경우
"db.Model을 상속받아 정의합니다."
→ 설치 방법, 설정 방법을 모름

# 챕터 전체 맥락을 활용하는 경우
"설치 → 설정 → 모델 정의 → 사용법"의 전체 플로우 제공
→ 완전하고 실용적인 답변
```

### 📍 출처 명확성 = 페이지 번호 제공
```python
return {
    "answer": "SQLAlchemy 모델은...",
    "source": "제7장 데이터베이스 연동 (89-109페이지)",
    "specific_section": "7.3 모델 정의"
}
→ 사용자가 원본 책에서 추가 확인 가능
```

---

## 🎯 핵심 정리

### 📚 MainChunk (챕터) = 숲을 보는 관점
- **역할**: 전체적인 맥락과 구조 제공
- **특징**: 한 주제에 대한 완전한 설명
- **활용**: 답변 생성 시 풍부한 배경지식 제공

### 📝 SubChunk (문단) = 나무를 보는 관점  
- **역할**: 정확한 정보 검색
- **특징**: 2-3문장의 구체적 내용
- **활용**: 사용자 질문과의 정밀한 매칭

### 🤝 협력 효과 = 완벽한 독서
- **검색**: SubChunk로 정확한 문단 찾기
- **이해**: MainChunk로 전체 맥락 파악  
- **답변**: 정확하면서도 완전한 정보 제공

**결과적으로 "정확하면서도 완전한" 답변을 만들어냅니다!** 📖✨

In [None]:


class MainChunk:
    """구조화된 메인 청크 클래스"""
    def __init__(self, text: str, chunk_id: str, page_start: int, page_end: int, section: str = "", title: str = ""):
        self.text = text
        self.chunk_id = chunk_id
        self.page_start = page_start
        self.page_end = page_end
        self.section = section
        self.title = title
        self.subchunks = []  # 이 청크에 속한 서브청크들

class SubChunk:
    """벡터화될 서브청크 클래스"""
    def __init__(self, text: str, subchunk_id: str, parent_chunk_id: str, sentence_start: int, sentence_end: int):
        self.text = text
        self.subchunk_id = subchunk_id
        self.parent_chunk_id = parent_chunk_id
        self.sentence_start = sentence_start
        self.sentence_end = sentence_end

def count_tokens(text: str) -> int:
    """텍스트의 토큰 수를 계산합니다."""
    return len(tokenizer.encode(text))

def extract_text_from_pdf(pdf_path: str) -> List[Dict[str, Any]]:
    """PDF에서 텍스트를 추출하고 페이지별로 구조화합니다."""
    doc = pymupdf.open(pdf_path)
    pages_data = []
    
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text()
        
        # 목차나 섹션 제목 추출 (개선된 휴리스틱)
        lines = text.split('\n')
        section_title = ""
        
        # 제목 패턴 찾기 (숫자. 제목, 대문자 제목, 등)
        for line in lines[:10]:  # 상위 10줄 확인
            line = line.strip()
            if line:
                # 숫자로 시작하는 제목 (1. 제목, 1.1 제목 등)
                if re.match(r'^\d+\.?\d*\.?\s+[A-Za-z가-힣]', line):
                    section_title = line
                    break
                # 전체 대문자 제목
                elif line.isupper() and 5 <= len(line) <= 50:
                    section_title = line
                    break
                # 첫 글자만 대문자이고 적절한 길이
                elif line[0].isupper() and 10 <= len(line) <= 80 and line.count(' ') <= 8:
                    section_title = line
                    break
        
        pages_data.append({
            'page_num': page_num + 1,
            'text': text,
            'section': section_title
        })
    
    doc.close()
    return pages_data

def create_main_chunks(pages_data: List[Dict[str, Any]]) -> List[MainChunk]:
    """페이지 데이터를 큰 구조화된 청크로 나눕니다."""
    chunks = []
    current_section = ""
    current_chunk_text = ""
    current_pages = []
    section_start_page = 1
    
    for i, page_data in enumerate(pages_data):
        page_num = page_data['page_num']
        text = page_data['text']
        section = page_data['section']
        
        # 새로운 섹션이 시작되면 이전 청크를 완성
        if section and section != current_section and current_chunk_text:
            chunk_id = str(uuid.uuid4())
            chunks.append(MainChunk(
                text=current_chunk_text.strip(),
                chunk_id=chunk_id,
                page_start=section_start_page,
                page_end=current_pages[-1] if current_pages else section_start_page,
                section=current_section,
                title=current_section
            ))
            
            # 새 청크 시작
            current_chunk_text = text
            current_section = section
            current_pages = [page_num]
            section_start_page = page_num
        else:
            # 기존 청크에 페이지 추가
            current_chunk_text += "\n\n" + text if current_chunk_text else text
            current_pages.append(page_num)
            if section and not current_section:
                current_section = section
                section_start_page = page_num
    
    # 마지막 청크 추가
    if current_chunk_text.strip():
        chunk_id = str(uuid.uuid4())
        chunks.append(MainChunk(
            text=current_chunk_text.strip(),
            chunk_id=chunk_id,
            page_start=section_start_page,
            page_end=current_pages[-1] if current_pages else section_start_page,
            section=current_section,
            title=current_section
        ))
    
    # 청크가 너무 적으면 페이지 단위로 분할
    if len(chunks) < 3:
        chunks = []
        for page_data in pages_data:
            chunk_id = str(uuid.uuid4())
            chunks.append(MainChunk(
                text=page_data['text'],
                chunk_id=chunk_id,
                page_start=page_data['page_num'],
                page_end=page_data['page_num'],
                section=page_data['section'],
                title=f"페이지 {page_data['page_num']}"
            ))
    
    return chunks

def create_subchunks_from_main_chunk(main_chunk: MainChunk, target_tokens: int = 150) -> List[SubChunk]:
    """메인 청크에서 2-3문장 단위의 서브청크를 생성합니다."""
    subchunks = []
    text = main_chunk.text
    
    # 문장 단위로 분할 (개선된 정규식)
    sentences = re.split(r'(?<=[.!?])\s+(?=[A-Z가-힣])', text)
    sentences = [s.strip() for s in sentences if s.strip()]
    
    current_subchunk = ""
    current_tokens = 0
    sentence_start_idx = 0
    sentences_in_subchunk = 0
    
    for i, sentence in enumerate(sentences):
        sentence_tokens = count_tokens(sentence)
        
        # 2-3문장이거나 토큰 수가 목표에 도달하면 서브청크 생성
        should_create_subchunk = (
            (sentences_in_subchunk >= 2 and current_tokens + sentence_tokens > target_tokens) or
            sentences_in_subchunk >= 3 or
            (current_tokens + sentence_tokens > target_tokens * 1.5 and sentences_in_subchunk >= 1)
        )
        
        if should_create_subchunk and current_subchunk:
            subchunk_id = str(uuid.uuid4())
            subchunks.append(SubChunk(
                text=current_subchunk.strip(),
                subchunk_id=subchunk_id,
                parent_chunk_id=main_chunk.chunk_id,
                sentence_start=sentence_start_idx,
                sentence_end=i - 1
            ))
            
            # 새 서브청크 시작
            current_subchunk = sentence
            current_tokens = sentence_tokens
            sentence_start_idx = i
            sentences_in_subchunk = 1
        else:
            # 기존 서브청크에 문장 추가
            current_subchunk += " " + sentence if current_subchunk else sentence
            current_tokens += sentence_tokens
            sentences_in_subchunk += 1
    
    # 마지막 서브청크 추가
    if current_subchunk.strip():
        subchunk_id = str(uuid.uuid4())
        subchunks.append(SubChunk(
            text=current_subchunk.strip(),
            subchunk_id=subchunk_id,
            parent_chunk_id=main_chunk.chunk_id,
            sentence_start=sentence_start_idx,
            sentence_end=len(sentences) - 1
        ))
    
    return subchunks

async def create_embeddings_batch(texts: List[str]) -> List[List[float]]:
    """텍스트 배치에 대한 Gemini 임베딩을 생성합니다."""
    try:
        # Gemini 임베딩 생성 (langchain 사용)
        from langchain_google_genai import GoogleGenerativeAIEmbeddings
        embeddings_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=GOOGLE_API_KEY)
        embeddings = embeddings_model.embed_documents(texts)
        return embeddings
    except Exception as e:
        logger.error(f"임베딩 생성 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"임베딩 생성 실패: {str(e)}")

def create_bm25_index(subchunks: List[SubChunk]) -> BM25Okapi:
    """서브청크들에 대한 BM25 인덱스를 생성합니다."""
    tokenized_subchunks = []
    for subchunk in subchunks:
        tokens = re.findall(r'\b\w+\b', subchunk.text.lower())
        tokenized_subchunks.append(tokens)
    return BM25Okapi(tokenized_subchunks)


@app.post("/upload-pdf")
async def upload_pdf(file: UploadFile = File(...)):
    """PDF 파일을 업로드하고 처리합니다."""
    global collection, documents_registry, documents_chunks, documents_bm25
    
    if not file.filename.endswith('.pdf'):
        raise HTTPException(status_code=400, detail="PDF 파일만 업로드 가능합니다.")
    
    try:
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix='.pdf') as tmp_file:
            content = await file.read()
            tmp_file.write(content)
            tmp_file_path = tmp_file.name
        
        # PDF에서 텍스트 추출
        logger.info("PDF에서 텍스트 추출 중...")
        pages_data = extract_text_from_pdf(tmp_file_path)
        
        # 메인 청크 생성 (구조화된 큰 청크)
        logger.info("구조화된 메인 청크 생성 중...")
        main_chunks = create_main_chunks(pages_data)
        
        if not main_chunks:
            raise HTTPException(status_code=400, detail="PDF에서 텍스트를 추출할 수 없습니다.")
        
        # 각 메인 청크에서 서브청크 생성
        logger.info("서브청크 생성 중...")
        all_subchunks = []
        for main_chunk in main_chunks:
            subchunks = create_subchunks_from_main_chunk(main_chunk, target_tokens=150)
            main_chunk.subchunks = subchunks
            all_subchunks.extend(subchunks)
        
        if not all_subchunks:
            raise HTTPException(status_code=400, detail="서브청크를 생성할 수 없습니다.")
        
        # 문서 ID 생성
        document_id = f"doc_{uuid.uuid4().hex[:8]}_{int(time.time())}"
        
        # 문서별 데이터 저장
        documents_chunks[document_id] = {
            'main_chunks': main_chunks,
            'subchunks': all_subchunks
        }
        
        # BM25 인덱스 생성 (해당 문서의 서브청크만)
        logger.info("BM25 인덱스 생성 중...")
        documents_bm25[document_id] = create_bm25_index(all_subchunks)
        
        # ChromaDB 컬렉션 생성/업데이트
        collection_name = "rag"  # 기본 컬렉션 이름
        
        try:
            collection = chroma_client.get_collection(collection_name)
        except:
            collection = chroma_client.create_collection(
                name=collection_name,
                metadata={"hnsw:space": "cosine"}
            )
        
        # 서브청크 임베딩 생성 및 저장 (배치 처리)
        logger.info("서브청크 임베딩 생성 및 벡터 데이터베이스에 저장 중...")
        batch_size = 30  # OpenAI API 제한을 고려한 배치 크기
        
        for i in range(0, len(all_subchunks), batch_size):
            batch_subchunks = all_subchunks[i:i + batch_size]
            batch_texts = [subchunk.text for subchunk in batch_subchunks]
            
            # 임베딩 생성
            embeddings = await create_embeddings_batch(batch_texts)
            
            # 각 서브청크의 부모 청크 정보 찾기
            metadata_list = []
            for subchunk in batch_subchunks:
                parent_chunk = next((chunk for chunk in main_chunks if chunk.chunk_id == subchunk.parent_chunk_id), None)
                metadata_list.append({
                    "document_id": document_id,
                    "subchunk_id": subchunk.subchunk_id,
                    "parent_chunk_id": subchunk.parent_chunk_id,
                    "parent_section": parent_chunk.section if parent_chunk else "",
                    "parent_title": parent_chunk.title if parent_chunk else "",
                    "page_start": parent_chunk.page_start if parent_chunk else 0,
                    "page_end": parent_chunk.page_end if parent_chunk else 0,
                    "sentence_start": subchunk.sentence_start,
                    "sentence_end": subchunk.sentence_end
                })
            
            # ChromaDB에 저장 (문서별 고유 ID 사용)
            collection.add(
                documents=batch_texts,
                embeddings=embeddings,
                metadatas=metadata_list,
                ids=[f"{document_id}_{subchunk.subchunk_id}" for subchunk in batch_subchunks]
            )
        
        # 문서 정보를 레지스트리에 저장
        documents_registry[document_id] = {
            "document_id": document_id,
            "filename": file.filename,
            "upload_time": time.time(),
            "main_chunks_count": len(main_chunks),
            "subchunks_count": len(all_subchunks),
            "total_pages": len(pages_data),
            "chunks_info": [
                {
                    "chunk_id": chunk.chunk_id,
                    "title": chunk.title,
                    "section": chunk.section,
                    "pages": f"{chunk.page_start}-{chunk.page_end}",
                    "subchunks_count": len(chunk.subchunks),
                    "text_preview": chunk.text[:200] + "..." if len(chunk.text) > 200 else chunk.text
                }
                for chunk in main_chunks
            ]
        }
        
        # 임시 파일 삭제
        os.unlink(tmp_file_path)
        
        logger.info(f"PDF 처리 완료: {len(main_chunks)}개 메인청크, {len(all_subchunks)}개 서브청크 생성")
        
        return JSONResponse({
            "message": "PDF 업로드 및 처리 완료",
            "document_id": document_id,
            "collection_name": collection_name,
            "main_chunks_count": len(main_chunks),
            "subchunks_count": len(all_subchunks),
            "total_pages": len(pages_data),
            "chunks_info": documents_registry[document_id]["chunks_info"]
        })
    
    except Exception as e:
        logger.error(f"PDF 처리 중 오류: {e}")
        if 'tmp_file_path' in locals():
            try:
                os.unlink(tmp_file_path)
            except:
                pass
        raise HTTPException(status_code=500, detail=f"PDF 처리 실패: {str(e)}")

async def hybrid_search(query: str, document_id: str = None, vector_weight: float = 0.7, keyword_weight: float = 0.3, top_k: int = 5) -> List[Dict[str, Any]]:
    """하이브리드 검색 (벡터 + 키워드)를 수행합니다."""
    if not collection:
        raise HTTPException(status_code=400, detail="먼저 PDF를 업로드해주세요.")
    
    # 쿼리 임베딩 생성
    query_embedding = await create_embeddings_batch([query])
    query_embedding = query_embedding[0]
    
    # 벡터 검색 (ChromaDB에서 직접)
    if document_id:
        # 특정 문서에서만 검색
        vector_results = collection.query(
            query_embeddings=[query_embedding],
            n_results=min(top_k * 3, 100),
            where={"document_id": document_id}
        )
    else:
        # 모든 문서에서 검색
        vector_results = collection.query(
            query_embeddings=[query_embedding],
            n_results=min(top_k * 3, 100)
        )
    
    if not vector_results['ids'][0]:
        return []
    
    # BM25 검색을 위한 준비
    query_tokens = re.findall(r'\b\w+\b', query.lower())
    
    # 검색 결과 처리
    search_results = []
    
    for i, (vector_id, distance, metadata, document_text) in enumerate(zip(
        vector_results['ids'][0],
        vector_results['distances'][0], 
        vector_results['metadatas'][0],
        vector_results['documents'][0]
    )):
        # 벡터 점수 (거리를 유사도로 변환)
        vector_score = 1 - distance
        
        # BM25 점수 계산 (해당 문서의 BM25 인덱스 사용)
        doc_id = metadata.get('document_id', '')
        bm25_score = 0.0
        
        if doc_id in documents_bm25 and document_text:
            # 문서 텍스트를 토큰화
            doc_tokens = re.findall(r'\b\w+\b', document_text.lower())
            
            # BM25 점수 계산 (간단한 TF-IDF 기반)
            query_term_scores = []
            for term in query_tokens:
                if term in doc_tokens:
                    tf = doc_tokens.count(term)
                    # 간단한 BM25 근사
                    query_term_scores.append(tf / (tf + 1.0))
            
            if query_term_scores:
                bm25_score = sum(query_term_scores) / len(query_term_scores)
        
        # 하이브리드 점수 계산
        hybrid_score = (vector_weight * vector_score) + (keyword_weight * bm25_score)
        
        # 부모 청크 정보 찾기
        parent_chunk = None
        if doc_id in documents_chunks:
            parent_chunk_id = metadata.get('parent_chunk_id', '')
            for chunk in documents_chunks[doc_id]['main_chunks']:
                if chunk.chunk_id == parent_chunk_id:
                    parent_chunk = chunk
                    break
        
        # 서브청크 정보 찾기
        subchunk = None
        if doc_id in documents_chunks:
            subchunk_id = metadata.get('subchunk_id', '')
            for sc in documents_chunks[doc_id]['subchunks']:
                if sc.subchunk_id == subchunk_id:
                    subchunk = sc
                    break
        
        # 서브청크가 없으면 임시로 생성
        if not subchunk:
            subchunk = SubChunk(
                text=document_text,
                subchunk_id=metadata.get('subchunk_id', f'temp_{i}'),
                parent_chunk_id=metadata.get('parent_chunk_id', ''),
                sentence_start=0,
                sentence_end=0
            )
        
        search_results.append({
            'subchunk': subchunk,
            'parent_chunk': parent_chunk,
            'score': hybrid_score,
            'vector_score': vector_score,
            'bm25_score': bm25_score,
            'document_id': doc_id,
            'metadata': metadata
        })
    
    # 점수 기준으로 정렬
    search_results.sort(key=lambda x: x['score'], reverse=True)
    
    return search_results[:top_k]

@app.post("/question")
async def ask_question(request: QuestionRequest):
    """사용자 질문에 답변합니다."""
    try:
        # 하이브리드 검색 수행
        search_results = await hybrid_search(request.question, request.document_id, top_k=5)
        
        if not search_results:
            raise HTTPException(status_code=404, detail="관련 정보를 찾을 수 없습니다.")
        
        # 검색된 서브청크들과 해당하는 부모 청크 정보 수집
        context_info = []
        used_parent_chunks = set()
        
        for result in search_results:
            subchunk = result['subchunk']
            parent_chunk = result['parent_chunk']
            
            # 부모 청크의 전체 컨텍스트 사용
            if parent_chunk and parent_chunk.chunk_id not in used_parent_chunks:
                context_info.append({
                    'parent_text': parent_chunk.text,
                    'subchunk_text': subchunk.text,
                    'title': parent_chunk.title,
                    'section': parent_chunk.section,
                    'page_start': parent_chunk.page_start,
                    'page_end': parent_chunk.page_end,
                    'score': result['score'],
                    'document_id': result['document_id']
                })
                used_parent_chunks.add(parent_chunk.chunk_id)
            elif not parent_chunk:
                # 부모 청크가 없는 경우 서브청크만 사용
                context_info.append({
                    'parent_text': subchunk.text,
                    'subchunk_text': subchunk.text,
                    'title': result['metadata'].get('parent_title', '제목 없음'),
                    'section': result['metadata'].get('parent_section', '섹션 없음'),
                    'page_start': result['metadata'].get('page_start', 0),
                    'page_end': result['metadata'].get('page_end', 0),
                    'score': result['score'],
                    'document_id': result['document_id']
                })
        
        # 컨텍스트 구성 (부모 청크의 전체 텍스트 사용)
        context_parts = []
        for info in context_info:
            context_part = f"[{info['title']} - 페이지 {info['page_start']}"
            if info['page_end'] != info['page_start']:
                context_part += f"-{info['page_end']}"
            context_part += f", 섹션: {info['section']}]\n{info['parent_text']}"
            context_parts.append(context_part)
        
        context = "\n\n" + "="*50 + "\n\n".join(context_parts)
        
        # LLM 프롬프트 구성
        prompt = f"""당신은 업로드된 PDF 문서를 기반으로 질문에 답변하는 AI 어시스턴트입니다.

다음 문서의 관련 섹션들을 참고하여 사용자의 질문에 정확하고 도움이 되는 답변을 제공해주세요:

=== 관련 문서 섹션들 ===
{context}

=== 사용자 질문 ===
{request.question}

=== 답변 지침 ===
1. 제공된 문서 내용만을 기반으로 답변하세요
2. 문서에 없는 내용은 추측하지 마세요
3. 관련 섹션과 페이지 번호를 언급해주세요
4. 여러 섹션의 정보를 종합하여 답변하세요
5. 답변이 불분명하다면 그 이유를 설명해주세요
6. 한국어로 자연스럽고 이해하기 쉽게 답변해주세요

답변:"""

        # Gemini API 호출
        response = llm.invoke(prompt)
        answer = response.content
        
        return JSONResponse({
            "question": request.question,
            "answer": answer,
            "context_sources": [
                {
                    "document_id": info['document_id'],
                    "title": info['title'],
                    "section": info['section'],
                    "pages": f"{info['page_start']}-{info['page_end']}" if info['page_end'] != info['page_start'] else str(info['page_start']),
                    "score": round(info['score'], 3),
                    "matched_subchunk": info['subchunk_text'][:200] + "..." if len(info['subchunk_text']) > 200 else info['subchunk_text'],
                    "full_section_preview": info['parent_text'][:300] + "..." if len(info['parent_text']) > 300 else info['parent_text']
                }
                for info in context_info
            ],
            "total_sections_found": len(context_info)
        })
    
    except Exception as e:
        logger.error(f"질문 처리 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"질문 처리 실패: {str(e)}")

@app.delete("/delete-document/{document_id}")
async def delete_document(document_id: str):
    """특정 문서와 관련된 데이터를 삭제합니다."""
    global collection, documents_registry, documents_chunks, documents_bm25
    
    try:
        deleted_items = []
        
        # 1. 문서 레지스트리에서 삭제
        if document_id in documents_registry:
            del documents_registry[document_id]
            deleted_items.append("문서 레지스트리 정보")
        
        # 2. 문서별 청크 데이터 삭제
        if document_id in documents_chunks:
            chunk_count = len(documents_chunks[document_id]['main_chunks'])
            subchunk_count = len(documents_chunks[document_id]['subchunks'])
            del documents_chunks[document_id]
            deleted_items.append(f"메인 청크 데이터 ({chunk_count}개)")
            deleted_items.append(f"서브 청크 데이터 ({subchunk_count}개)")
        
        # 3. 문서별 BM25 인덱스 삭제
        if document_id in documents_bm25:
            del documents_bm25[document_id]
            deleted_items.append("BM25 인덱스")
        
        # 4. ChromaDB에서 해당 문서의 데이터만 삭제
        try:
            if collection:
                # 해당 문서의 모든 벡터 데이터 삭제
                collection.delete(where={"document_id": document_id})
                deleted_items.append(f"벡터 데이터 (document_id: {document_id})")
        except Exception as e:
            logger.warning(f"ChromaDB에서 문서 삭제 중 오류: {e}")
        
        logger.info(f"문서 삭제 완료: {document_id}, 삭제된 항목: {deleted_items}")
        
        return JSONResponse({
            "message": f"문서 '{document_id}' 삭제 완료",
            "document_id": document_id,
            "deleted_items": deleted_items,
            "timestamp": time.time()
        })
    
    except Exception as e:
        logger.error(f"문서 삭제 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"문서 삭제 실패: {str(e)}")

@app.delete("/delete-all")
async def delete_all_documents():
    """모든 문서와 데이터를 삭제합니다."""
    global collection, documents_registry, documents_chunks, documents_bm25
    
    try:
        deleted_items = []
        
        # 1. 문서 레지스트리 초기화
        doc_count = len(documents_registry)
        documents_registry.clear()
        deleted_items.append(f"문서 레지스트리 ({doc_count}개 문서)")
        
        # 2. 문서별 청크 데이터 초기화
        chunk_doc_count = len(documents_chunks)
        documents_chunks.clear()
        deleted_items.append(f"문서별 청크 데이터 ({chunk_doc_count}개 문서)")
        
        # 3. 문서별 BM25 인덱스 초기화
        bm25_doc_count = len(documents_bm25)
        documents_bm25.clear()
        deleted_items.append(f"문서별 BM25 인덱스 ({bm25_doc_count}개 문서)")
        
        # 4. ChromaDB rag 컬렉션 초기화
        try:
            if collection:
                # 컬렉션의 모든 데이터 삭제
                all_data = collection.get()
                if all_data['ids']:
                    collection.delete(ids=all_data['ids'])
                    deleted_items.append(f"rag 컬렉션 데이터 ({len(all_data['ids'])}개)")
        except Exception as e:
            logger.warning(f"ChromaDB 컬렉션 초기화 중 오류: {e}")
        
        # 5. 임시 파일들 정리
        temp_dir = tempfile.gettempdir()
        temp_files_deleted = 0
        try:
            for filename in os.listdir(temp_dir):
                if filename.endswith('.pdf') and 'tmp' in filename:
                    temp_file_path = os.path.join(temp_dir, filename)
                    try:
                        os.unlink(temp_file_path)
                        temp_files_deleted += 1
                    except:
                        pass
            if temp_files_deleted > 0:
                deleted_items.append(f"임시 PDF 파일들 ({temp_files_deleted}개)")
        except Exception as e:
            logger.warning(f"임시 파일들 정리 중 오류: {e}")
        
        logger.info(f"모든 문서 삭제 완료, 삭제된 항목: {deleted_items}")
        
        return JSONResponse({
            "message": "모든 문서와 데이터 삭제 완료",
            "deleted_items": deleted_items,
            "timestamp": time.time()
        })
    
    except Exception as e:
        logger.error(f"전체 삭제 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"전체 삭제 실패: {str(e)}")

@app.get("/documents")
async def list_documents():
    """현재 시스템에 등록된 모든 문서 목록을 조회합니다."""
    try:
        # ChromaDB에서 실제 저장된 문서 수 확인
        vector_count = 0
        unique_documents = set()
        
        if collection:
            try:
                all_data = collection.get()
                vector_count = len(all_data['ids']) if all_data['ids'] else 0
                
                # 문서별 벡터 수 계산
                for metadata in all_data['metadatas'] or []:
                    if 'document_id' in metadata:
                        unique_documents.add(metadata['document_id'])
                        
            except Exception as e:
                logger.warning(f"ChromaDB 데이터 조회 중 오류: {e}")
        
        # 문서 레지스트리 정보와 실제 벡터DB 정보 결합
        documents_list = []
        for doc_id, doc_info in documents_registry.items():
            # 실제 벡터DB에서 해당 문서의 벡터 수 확인
            actual_vectors = 0
            if collection:
                try:
                    doc_vectors = collection.get(where={"document_id": doc_id})
                    actual_vectors = len(doc_vectors['ids']) if doc_vectors['ids'] else 0
                except:
                    pass
            
            documents_list.append({
                **doc_info,
                "actual_vectors_count": actual_vectors,
                "upload_time_formatted": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(doc_info['upload_time']))
            })
        
        return JSONResponse({
            "total_documents": len(documents_registry),
            "total_vectors": vector_count,
            "unique_documents_in_db": len(unique_documents),
            "collection_name": "rag",
            "current_memory_status": {
                "documents_chunks_loaded": len(documents_chunks),
                "documents_bm25_loaded": len(documents_bm25),
                "vector_db_ready": collection is not None
            },
            "documents": documents_list
        })
    
    except Exception as e:
        logger.error(f"문서 목록 조회 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"문서 목록 조회 실패: {str(e)}")

@app.get("/document/{document_id}")
async def get_document_detail(document_id: str):
    """특정 문서의 상세 정보를 조회합니다."""
    try:
        if document_id not in documents_registry:
            raise HTTPException(status_code=404, detail=f"문서를 찾을 수 없습니다: {document_id}")
        
        doc_info = documents_registry[document_id].copy()
        
        # ChromaDB에서 실제 벡터 데이터 확인
        actual_vectors = 0
        vector_samples = []
        
        if collection:
            try:
                doc_vectors = collection.get(
                    where={"document_id": document_id},
                    limit=5  # 샘플 5개만 가져오기
                )
                actual_vectors = len(doc_vectors['ids']) if doc_vectors['ids'] else 0
                
                # 벡터 샘플 정보
                if doc_vectors['documents']:
                    for i, (doc_text, metadata) in enumerate(zip(doc_vectors['documents'], doc_vectors['metadatas'] or [])):
                        vector_samples.append({
                            "sample_id": i + 1,
                            "text_preview": doc_text[:150] + "..." if len(doc_text) > 150 else doc_text,
                            "parent_section": metadata.get('parent_section', ''),
                            "page_range": f"{metadata.get('page_start', '')}-{metadata.get('page_end', '')}"
                        })
                        
            except Exception as e:
                logger.warning(f"문서 벡터 데이터 조회 중 오류: {e}")
        
        doc_info.update({
            "actual_vectors_count": actual_vectors,
            "upload_time_formatted": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(doc_info['upload_time'])),
            "vector_samples": vector_samples
        })
        
        return JSONResponse(doc_info)
    
    except HTTPException:
        raise
    except Exception as e:
        logger.error(f"문서 상세 조회 중 오류: {e}")
        raise HTTPException(status_code=500, detail=f"문서 상세 조회 실패: {str(e)}")

@app.get("/")
async def root():
    """API 상태 확인"""
    return {
        "message": "PDF QA System API",
        "status": "running",
        "endpoints": {
            "upload": "/upload-pdf",
            "question": "/question",
            "delete_document": "/delete-document/{document_id}",
            "delete_all": "/delete-all",
            "list_documents": "/documents",
            "document_detail": "/document/{document_id}",
            "status": "/status"
        }
    }

@app.get("/status")
async def get_status():
    """현재 시스템 상태 확인"""
    total_main_chunks = sum(len(data['main_chunks']) for data in documents_chunks.values())
    total_subchunks = sum(len(data['subchunks']) for data in documents_chunks.values())
    
    return {
        "total_documents": len(documents_registry),
        "documents_chunks_loaded": len(documents_chunks),
        "documents_bm25_loaded": len(documents_bm25),
        "total_main_chunks": total_main_chunks,
        "total_subchunks": total_subchunks,
        "vector_db_ready": collection is not None,
        "documents_info": [
            {
                "document_id": doc_id,
                "filename": doc_info["filename"],
                "main_chunks": len(documents_chunks[doc_id]['main_chunks']) if doc_id in documents_chunks else 0,
                "subchunks": len(documents_chunks[doc_id]['subchunks']) if doc_id in documents_chunks else 0
            }
            for doc_id, doc_info in documents_registry.items()
        ]
    }

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8080)
