# 프로젝트 C: RAG 기반 영화 리뷰 질의응답 시스템

## 프로젝트 목표
- Sentence Transformer 임베딩을 활용한 문서 검색
- RAG (Retrieval Augmented Generation) 기반 질의응답 시스템 구축
- LLM을 활용한 리뷰 요약 생성

## 학습 내용
1. Sentence Transformer 임베딩 생성
2. 유사 문서 검색
3. RAG 기반 질의응답
4. 리뷰 요약 생성

---
## 1. 데이터 준비 및 최소 전처리

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
from google import genai
from dotenv import load_dotenv
import warnings
warnings.filterwarnings('ignore')

# 환경 변수 로드
load_dotenv()

# Gemini API 클라이언트 초기화
try:
    client = genai.Client()
    GEMINI_AVAILABLE = True
except Exception as e:
    print(f"⚠️ Gemini API 초기화 실패: {e}")
    print("   .env 파일에 GOOGLE_API_KEY가 설정되어 있는지 확인하세요.")
    GEMINI_AVAILABLE = False

# 네이버 영화평 데이터 다운로드
DATA_TRAIN_PATH = tf.keras.utils.get_file(
    "ratings_train.txt",
    "https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_train.txt"
)

# 데이터 로드
train_data = pd.read_csv(DATA_TRAIN_PATH, delimiter='\t')

print("=" * 80)
print("[데이터 로드 완료]")
print("=" * 80)
print(f"훈련 데이터: {train_data.shape}")

# 결측값 제거
train_data.dropna(inplace=True)

# 데이터 샘플링
df_train = train_data.sample(n=5_000, random_state=1)

print(f"\n샘플링 후:")
print(f"훈련 데이터: {df_train.shape}")

# 딥러닝 모델용 최소 전처리 (결측값 제거만)
df_train['cleaned_document'] = df_train['document'].astype(str)

# 빈 문자열 제거
df_train = df_train[df_train['cleaned_document'].str.len() > 0]

print(f"\n전처리 후:")
print(f"훈련 데이터: {df_train.shape}")

---
## 2. Sentence Transformer 임베딩 생성

In [None]:
print("=" * 80)
print("[Sentence Transformer 임베딩 생성]")
print("=" * 80)

# KURE-v1 모델 로드 (한국어 특화)
print("\n임베딩 모델 로드 중...")
embedding_model = SentenceTransformer("nlpai-lab/KURE-v1")
print("✓ KURE-v1 모델 로드 완료")

# RAG용 문서 준비 (긍정 리뷰와 부정 리뷰를 각각 샘플링)
positive_reviews = df_train[df_train['label'] == 1]['cleaned_document'].head(50).tolist()
negative_reviews = df_train[df_train['label'] == 0]['cleaned_document'].head(50).tolist()

rag_documents = positive_reviews + negative_reviews
print(f"\nRAG 문서 수: {len(rag_documents)}개")

# 문서 임베딩 생성
print("\n문서 임베딩 생성 중...")
document_embeddings = embedding_model.encode(rag_documents)
print(f"임베딩 완료: {document_embeddings.shape}")

---
## 3. 유사 문서 검색

In [None]:
def retrieve_similar_documents(query, documents, embeddings, top_k=3):
    """
    질의와 유사한 문서 검색
    
    Args:
        query: 질의 텍스트
        documents: 문서 리스트
        embeddings: 문서 임베딩 배열
        top_k: 반환할 상위 문서 수
        
    Returns:
        유사한 문서 리스트
    """
    # 질의 임베딩 생성
    query_embedding = embedding_model.encode([query])
    
    # 코사인 유사도 계산
    similarities = cosine_similarity(query_embedding, embeddings)[0]
    
    # 상위 k개 문서 인덱스
    top_indices = np.argsort(similarities)[-top_k:][::-1]
    
    # 결과 반환
    results = []
    for idx in top_indices:
        results.append({
            'document': documents[idx],
            'similarity': similarities[idx]
        })
    
    return results

---
## 4. RAG 기반 질의응답

In [None]:
if GEMINI_AVAILABLE:
    def rag_qa(query, documents, embeddings, top_k=3):
        """
        RAG 기반 질의응답
        
        Args:
            query: 질의 텍스트
            documents: 문서 리스트
            embeddings: 문서 임베딩
            top_k: 사용할 상위 문서 수
            
        Returns:
            답변 텍스트와 참고 문서
        """
        # 유사 문서 검색
        similar_docs = retrieve_similar_documents(query, documents, embeddings, top_k)
        
        # 컨텍스트 구성
        context = "\n\n".join([f"리뷰 {i+1}: {doc['document']}" 
                               for i, doc in enumerate(similar_docs)])
        
        # 프롬프트 구성
        prompt = f"""다음은 영화 리뷰들입니다. 질문에 답변해주세요.

리뷰들:
{context}

질문: {query}

답변:"""
        
        # Gemini API 호출
        try:
            response = client.models.generate_content(
                model="gemini-2.5-flash",
                contents=prompt
            )
            return response.text, similar_docs
        except Exception as e:
            return f"오류 발생: {e}", similar_docs
    
    # 질의응답 테스트
    print("=" * 80)
    print("[RAG 질의응답 테스트]")
    print("=" * 80)
    
    test_queries = [
        "긍정적인 리뷰들의 공통점은 무엇인가요?",
        "부정적인 리뷰에서 자주 언급되는 문제점은 무엇인가요?",
        "이 영화의 장점은 무엇인가요?"
    ]
    
    for query in test_queries:
        print(f"\n질문: {query}")
        print("-" * 80)
        answer, similar_docs = rag_qa(query, rag_documents, document_embeddings, top_k=3)
        print(f"답변: {answer}")
        print(f"\n참고한 리뷰 수: {len(similar_docs)}개")
        for i, doc in enumerate(similar_docs[:2], 1):
            print(f"  {i}. (유사도: {doc['similarity']:.4f}) {doc['document'][:80]}...")

else:
    print("=" * 80)
    print("[RAG 기반 Q&A 시스템]")
    print("=" * 80)
    print("⚠️ Gemini API가 설정되지 않아 RAG 기능을 건너뜁니다.")
    print("   .env 파일에 GOOGLE_API_KEY를 설정하세요.")

---
## 5. 리뷰 요약 생성

In [None]:
if GEMINI_AVAILABLE:
    print("=" * 80)
    print("[리뷰 요약 생성]")
    print("=" * 80)
    
    def summarize_reviews(reviews, max_reviews=10):
        """
        리뷰 요약 생성
        
        Args:
            reviews: 리뷰 리스트
            max_reviews: 요약에 사용할 최대 리뷰 수
            
        Returns:
            요약 텍스트
        """
        # 샘플 리뷰 선택
        sample_reviews = reviews[:max_reviews]
        
        # 리뷰 텍스트 결합
        reviews_text = "\n\n".join([f"리뷰 {i+1}: {review}" 
                                   for i, review in enumerate(sample_reviews)])
        
        # 프롬프트 구성
        prompt = f"""다음은 영화 리뷰들입니다. 이 리뷰들을 요약해주세요.

리뷰들:
{reviews_text}

요약:"""
        
        try:
            response = client.models.generate_content(
                model="gemini-2.5-flash",
                contents=prompt
            )
            return response.text
        except Exception as e:
            return f"오류 발생: {e}"
    
    # 긍정 리뷰 요약
    print("\n[긍정 리뷰 요약]")
    positive_summary = summarize_reviews(positive_reviews[:10])
    print(positive_summary)
    
    # 부정 리뷰 요약
    print("\n" + "=" * 80)
    print("[부정 리뷰 요약]")
    print("=" * 80)
    negative_summary = summarize_reviews(negative_reviews[:10])
    print(negative_summary)

else:
    print("=" * 80)
    print("[리뷰 요약 생성]")
    print("=" * 80)
    print("⚠️ Gemini API가 설정되지 않아 요약 기능을 건너뜁니다.")

---
## 6. 프로젝트 정리

In [None]:
print("=" * 80)
print("[프로젝트 정리]")
print("=" * 80)

summary = """
프로젝트 C: RAG 기반 영화 리뷰 질의응답 시스템

1. Sentence Transformer 임베딩
   - 의미 기반 밀집 벡터 생성
   - 문서를 벡터로 변환하여 검색 가능하게 만듦

2. 유사 문서 검색
   - 질의를 임베딩으로 변환
   - 코사인 유사도로 관련 문서 검색

3. RAG 기반 질의응답
   - 검색된 문서를 컨텍스트로 활용
   - LLM을 활용한 정확한 답변 생성

4. 리뷰 요약 생성
   - LLM을 활용한 리뷰 요약
   - 긍정/부정 리뷰 요약

특징:
- 의미 기반 검색
- 컨텍스트 기반 답변
- 확장 가능한 구조
"""

print(summary)