# 프로젝트 B: 딥러닝 기반 영화 리뷰 분석 시스템

## 프로젝트 목표
- 딥러닝 기법(임베딩, BERT, RAG)을 활용한 영화 리뷰 분석 시스템 구축
- 의미 기반 유사도 분석 및 감성 분석
- RAG 기반 질의응답 시스템 구축
- LLM을 활용한 요약 생성

## 학습 내용
1. 최소한의 데이터 전처리 (딥러닝 모델용)
2. Sentence Transformer 임베딩
3. Hugging Face 감성 분석
4. RAG 기반 Q&A 시스템
5. 요약 생성

---
## 1. 데이터 준비 및 최소 전처리

In [None]:
import pandas as pd
import numpy as np
import re
import tensorflow as tf
from sklearn.metrics.pairwise import cosine_similarity
from transformers import pipeline
from sentence_transformers import SentenceTransformer
from google import genai
from dotenv import load_dotenv
import os
import warnings
warnings.filterwarnings('ignore')

# 환경 변수 로드
load_dotenv()

# Gemini API 클라이언트 초기화
try:
    client = genai.Client()
    GEMINI_AVAILABLE = True
except Exception as e:
    print(f"⚠️ Gemini API 초기화 실패: {e}")
    print("   .env 파일에 GOOGLE_API_KEY가 설정되어 있는지 확인하세요.")
    GEMINI_AVAILABLE = False

# 네이버 영화평 데이터 다운로드
DATA_TRAIN_PATH = tf.keras.utils.get_file(
    "ratings_train.txt",
    "https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_train.txt"
)
DATA_TEST_PATH = tf.keras.utils.get_file(
    "ratings_test.txt",
    "https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_test.txt"
)

# 데이터 로드
train_data = pd.read_csv(DATA_TRAIN_PATH, delimiter='\t')
test_data = pd.read_csv(DATA_TEST_PATH, delimiter='\t')

print("=" * 80)
print("[데이터 로드 완료]")
print("=" * 80)
print(f"훈련 데이터: {train_data.shape}")
print(f"테스트 데이터: {test_data.shape}")

# 결측값 제거
train_data.dropna(inplace=True)
test_data.dropna(inplace=True)

# 데이터 샘플링
df_train = train_data.sample(n=5_000, random_state=1)
df_test = test_data.sample(n=1_000, random_state=1)

print(f"\n샘플링 후:")
print(f"훈련 데이터: {df_train.shape}")
print(f"테스트 데이터: {df_test.shape}")

# 딥러닝 모델용 최소 전처리 (결측값 제거만)
df_train['cleaned_document'] = df_train['document'].astype(str)
df_test['cleaned_document'] = df_test['document'].astype(str)

# 빈 문자열 제거
df_train = df_train[df_train['cleaned_document'].str.len() > 0]
df_test = df_test[df_test['cleaned_document'].str.len() > 0]

print(f"\n전처리 후:")
print(f"훈련 데이터: {df_train.shape}")
print(f"테스트 데이터: {df_test.shape}")

---
## 2. Sentence Transformer 임베딩

### 2.1 임베딩 생성

In [None]:
print("=" * 80)
print("[Sentence Transformer 임베딩 생성]")
print("=" * 80)

# KURE-v1 모델 로드 (한국어 특화)
print("\n임베딩 모델 로드 중...")
embedding_model = SentenceTransformer("nlpai-lab/KURE-v1")
print("✓ KURE-v1 모델 로드 완료")

# 샘플 데이터로 임베딩 생성 (전체 데이터는 시간이 오래 걸리므로 샘플 사용)
sample_reviews = df_train['cleaned_document'].head(100).tolist()
sample_labels = df_train['label'].head(100).tolist()

print(f"\n임베딩 생성 중... (샘플 {len(sample_reviews)}개)")
embeddings = embedding_model.encode(sample_reviews)

print(f"임베딩 차원: {embeddings.shape}")
print(f"  - 리뷰 수: {embeddings.shape[0]}")
print(f"  - 벡터 차원: {embeddings.shape[1]}")

### 2.2 유사도 분석

In [None]:
print("=" * 80)
print("[임베딩 기반 유사도 분석]")
print("=" * 80)

# 코사인 유사도 계산
similarity_matrix = cosine_similarity(embeddings)

# 유사한 리뷰 찾기 예시
print("\n[유사 리뷰 찾기 예시]")
query_idx = 0
query_review = sample_reviews[query_idx]
query_label = "긍정" if sample_labels[query_idx] == 1 else "부정"

print(f"\n질의 리뷰: {query_review[:100]}...")
print(f"레이블: {query_label}")

# 가장 유사한 리뷰 5개 찾기 (자기 자신 제외)
similar_indices = np.argsort(similarity_matrix[query_idx])[-6:-1][::-1]

print("\n유사한 리뷰 Top 5:")
for i, idx in enumerate(similar_indices, 1):
    similar_review = sample_reviews[idx]
    similar_label = "긍정" if sample_labels[idx] == 1 else "부정"
    similarity_score = similarity_matrix[query_idx][idx]
    print(f"\n{i}. 유사도: {similarity_score:.4f}, 레이블: {similar_label}")
    print(f"   리뷰: {similar_review[:100]}...")

---
## 3. Hugging Face 감성 분석

### 3.1 파이프라인을 이용한 감성 분석

In [None]:
print("=" * 80)
print("[Hugging Face 감성 분석]")
print("=" * 80)

# 다국어 감성 분석 모델
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
sentiment_classifier = pipeline('sentiment-analysis', model=model_name)

# 샘플 리뷰 분석
sample_texts = [
    "다시는 보고 싶지 않은 짜증나는 영화",
    "아주 재미있는 영화",
    "정말 재미없는 영화였다",
    "이 영화 최고",
    "보통 영화"
]

print("\n[감성 분석 결과]")
results = sentiment_classifier(sample_texts)

for i, result in enumerate(results):
    print(f"{sample_texts[i]}")
    print(f"  → {result['label']}, 신뢰도: {result['score']:.4f}\n")

### 3.2 테스트 데이터 감성 분석

In [None]:
print("=" * 80)
print("[테스트 데이터 감성 분석]")
print("=" * 80)

# 테스트 데이터 샘플 분석
test_samples = df_test['cleaned_document'].head(10).tolist()
test_labels = df_test['label'].head(10).tolist()

print("\n[테스트 데이터 샘플 분석]")
sentiment_results = sentiment_classifier(test_samples)

correct = 0
for i, (text, true_label, result) in enumerate(zip(test_samples, test_labels, sentiment_results)):
    # 별점을 긍정/부정으로 변환 (4-5점: 긍정, 1-2점: 부정)
    predicted_label = 1 if int(result['label'].split()[0]) >= 4 else 0
    true_label_str = "긍정" if true_label == 1 else "부정"
    predicted_label_str = "긍정" if predicted_label == 1 else "부정"
    
    is_correct = "✓" if true_label == predicted_label else "✗"
    if true_label == predicted_label:
        correct += 1
    
    print(f"\n리뷰 {i+1}: {text[:50]}...")
    print(f"  실제: {true_label_str}, 예측: {predicted_label_str} ({result['label']}) {is_correct}")

accuracy = correct / len(test_samples)
print(f"\n정확도: {accuracy:.4f} ({correct}/{len(test_samples)})")

---
## 4. RAG 기반 Q&A 시스템

### 4.1 문서 임베딩 생성

In [None]:
if GEMINI_AVAILABLE:
    print("=" * 80)
    print("[RAG 기반 Q&A 시스템 구축]")
    print("=" * 80)
    
    # RAG용 문서 준비 (긍정 리뷰와 부정 리뷰를 각각 샘플링)
    positive_reviews = df_train[df_train['label'] == 1]['cleaned_document'].head(50).tolist()
    negative_reviews = df_train[df_train['label'] == 0]['cleaned_document'].head(50).tolist()
    
    rag_documents = positive_reviews + negative_reviews
    print(f"\nRAG 문서 수: {len(rag_documents)}개")
    
    # 문서 임베딩 생성
    print("\n문서 임베딩 생성 중...")
    document_embeddings = embedding_model.encode(rag_documents)
    print(f"임베딩 완료: {document_embeddings.shape}")

    # ### 4.2 유사 문서 검색

In [None]:
    def retrieve_similar_documents(query, documents, embeddings, top_k=3):
        """
        질의와 유사한 문서 검색
        
        Args:
            query: 질의 텍스트
            documents: 문서 리스트
            embeddings: 문서 임베딩 배열
            top_k: 반환할 상위 문서 수
            
        Returns:
            유사한 문서 리스트
        """
        # 질의 임베딩 생성
        query_embedding = embedding_model.encode([query])
        
        # 코사인 유사도 계산
        similarities = cosine_similarity(query_embedding, embeddings)[0]
        
        # 상위 k개 문서 인덱스
        top_indices = np.argsort(similarities)[-top_k:][::-1]
        
        # 결과 반환
        results = []
        for idx in top_indices:
            results.append({
                'document': documents[idx],
                'similarity': similarities[idx]
            })
        
        return results

    # ### 4.3 RAG 질의응답

In [None]:
    def rag_qa(query, documents, embeddings, top_k=3):
        """
        RAG 기반 질의응답
        
        Args:
            query: 질의 텍스트
            documents: 문서 리스트
            embeddings: 문서 임베딩
            top_k: 사용할 상위 문서 수
            
        Returns:
            답변 텍스트
        """
        # 유사 문서 검색
        similar_docs = retrieve_similar_documents(query, documents, embeddings, top_k)
        
        # 컨텍스트 구성
        context = "\n\n".join([f"리뷰 {i+1}: {doc['document']}" 
                               for i, doc in enumerate(similar_docs)])
        
        # 프롬프트 구성
        prompt = f"""다음은 영화 리뷰들입니다. 질문에 답변해주세요.

리뷰들:
{context}

질문: {query}

답변:"""
        
        # Gemini API 호출
        try:
            response = client.models.generate_content(
                model="gemini-2.5-flash",
                contents=prompt
            )
            return response.text, similar_docs
        except Exception as e:
            return f"오류 발생: {e}", similar_docs
    
    # 질의응답 테스트
    print("\n" + "=" * 80)
    print("[RAG 질의응답 테스트]")
    print("=" * 80)
    
    test_queries = [
        "긍정적인 리뷰들의 공통점은 무엇인가요?",
        "부정적인 리뷰에서 자주 언급되는 문제점은 무엇인가요?",
        "이 영화의 장점은 무엇인가요?"
    ]
    
    for query in test_queries:
        print(f"\n질문: {query}")
        print("-" * 80)
        answer, similar_docs = rag_qa(query, rag_documents, document_embeddings, top_k=3)
        print(f"답변: {answer}")
        print(f"\n참고한 리뷰 수: {len(similar_docs)}개")
        for i, doc in enumerate(similar_docs[:2], 1):
            print(f"  {i}. (유사도: {doc['similarity']:.4f}) {doc['document'][:80]}...")

else:
    print("=" * 80)
    print("[RAG 기반 Q&A 시스템]")
    print("=" * 80)
    print("⚠️ Gemini API가 설정되지 않아 RAG 기능을 건너뜁니다.")
    print("   .env 파일에 GOOGLE_API_KEY를 설정하세요.")

---
## 5. 요약 생성

In [None]:
if GEMINI_AVAILABLE:
    print("=" * 80)
    print("[요약 생성]")
    print("=" * 80)
    
    def summarize_reviews(reviews, max_reviews=10):
        """
        리뷰 요약 생성
        
        Args:
            reviews: 리뷰 리스트
            max_reviews: 요약에 사용할 최대 리뷰 수
            
        Returns:
            요약 텍스트
        """
        # 샘플 리뷰 선택
        sample_reviews = reviews[:max_reviews]
        
        # 리뷰 텍스트 결합
        reviews_text = "\n\n".join([f"리뷰 {i+1}: {review}" 
                                   for i, review in enumerate(sample_reviews)])
        
        # 프롬프트 구성
        prompt = f"""다음은 영화 리뷰들입니다. 이 리뷰들을 요약해주세요.

리뷰들:
{reviews_text}

요약:"""
        
        try:
            response = client.models.generate_content(
                model="gemini-2.5-flash",
                contents=prompt
            )
            return response.text
        except Exception as e:
            return f"오류 발생: {e}"
    
    # 긍정 리뷰 요약
    print("\n[긍정 리뷰 요약]")
    positive_summary = summarize_reviews(positive_reviews[:10])
    print(positive_summary)
    
    # 부정 리뷰 요약
    print("\n" + "=" * 80)
    print("[부정 리뷰 요약]")
    print("=" * 80)
    negative_summary = summarize_reviews(negative_reviews[:10])
    print(negative_summary)

else:
    print("=" * 80)
    print("[요약 생성]")
    print("=" * 80)
    print("⚠️ Gemini API가 설정되지 않아 요약 기능을 건너뜁니다.")

---
## 6. 프로젝트 정리

In [None]:
print("=" * 80)
print("[프로젝트 정리]")
print("=" * 80)

summary = """
프로젝트 B: 딥러닝 기반 영화 리뷰 분석 시스템

1. 최소한의 데이터 전처리
   - 결측값 제거만 수행
   - 딥러닝 모델이 원본 패턴을 학습했으므로 과도한 전처리 불필요

2. Sentence Transformer 임베딩
   - 의미 기반 밀집 벡터 생성
   - 유사한 의미의 리뷰는 유사한 벡터
   - 유사도 분석 및 추천 시스템

3. Hugging Face 감성 분석
   - 사전 학습된 BERT 모델 활용
   - 파이프라인을 통한 간편한 사용
   - 높은 정확도

4. RAG 기반 Q&A 시스템
   - 문서 임베딩 생성
   - 유사 문서 검색
   - LLM을 활용한 답변 생성
   - 컨텍스트 기반 정확한 답변

5. 요약 생성
   - LLM을 활용한 리뷰 요약
   - 긍정/부정 리뷰 요약

특징:
- 높은 정확도
- 의미 이해 기반
- 고급 기능 (Q&A, 요약)
- GPU 활용 가능
"""

print(summary)