# 프로젝트 A: TF-IDF 기반 영화 리뷰 감성 분석 시스템

## 프로젝트 목표
- 전통적 NLP 기법(TF-IDF + sklearn)을 활용한 감성 분석 시스템 구축
- 네이버 영화평 데이터를 이용한 실전 감성 분석
- Logistic Regression 분류기 학습 및 평가

## 학습 내용
1. 데이터 전처리 (텍스트 정제, 불용어 제거)
2. TF-IDF 벡터화
3. Logistic Regression 분류기 학습
4. 성능 평가
5. 키워드 분석 (긍정/부정 키워드 추출)

---
## 1. 데이터 준비 및 로드

In [1]:
import pandas as pd
import numpy as np
import re
import tensorflow as tf
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# 네이버 영화평 데이터 다운로드
DATA_TRAIN_PATH = tf.keras.utils.get_file(
    "ratings_train.txt",
    "https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_train.txt"
)
DATA_TEST_PATH = tf.keras.utils.get_file(
    "ratings_test.txt",
    "https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_test.txt"
)

# 데이터 로드
train_data = pd.read_csv(DATA_TRAIN_PATH, delimiter='\t')
test_data = pd.read_csv(DATA_TEST_PATH, delimiter='\t')

print("=" * 80)
print("[데이터 로드 완료]")
print("=" * 80)
print(f"훈련 데이터: {train_data.shape}")
print(f"테스트 데이터: {test_data.shape}")

# 결측값 제거
train_data.dropna(inplace=True)
test_data.dropna(inplace=True)

print(f"\n결측값 제거 후:")
print(f"훈련 데이터: {train_data.shape}")
print(f"테스트 데이터: {test_data.shape}")

# 데이터 샘플링 (처리 속도 향상을 위해)
df_train = train_data.sample(n=10_000, random_state=1)
df_test = test_data.sample(n=3_000, random_state=1)

print(f"\n샘플링 후:")
print(f"훈련 데이터: {df_train.shape}")
print(f"테스트 데이터: {df_test.shape}")

# 레이블 분포 확인
print("\n[레이블 분포]")
print(df_train['label'].value_counts())

Downloading data from https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_train.txt
[1m14628807/14628807[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
Downloading data from https://raw.github.com/ironmanciti/Infran_NLP/master/data/naver_movie/ratings_test.txt
[1m4893335/4893335[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 0us/step
[데이터 로드 완료]
훈련 데이터: (150000, 3)
테스트 데이터: (50000, 3)

결측값 제거 후:
훈련 데이터: (149995, 3)
테스트 데이터: (49997, 3)

샘플링 후:
훈련 데이터: (10000, 3)
테스트 데이터: (3000, 3)

[레이블 분포]
label
0    5046
1    4954
Name: count, dtype: int64


---
## 2. 데이터 전처리

### 2.1 텍스트 정제 함수

In [2]:
def clean_text_basic(text):
    """
    기본 텍스트 정제 함수
    - HTML 태그 제거
    - URL 제거
    - 이메일 제거
    - 전화번호 제거
    - 특수문자 정규화
    - 중복 공백 정리
    """
    if pd.isna(text):
        return ""

    text = str(text)

    # HTML 태그 제거
    text = re.sub(r'<[^>]+>', '', text)

    # URL 제거
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)

    # 이메일 제거
    text = re.sub(r'\S+@\S+', '', text)

    # 전화번호 제거
    text = re.sub(r'\d{2,3}-\d{3,4}-\d{4}', '', text)

    # 한글, 영문, 숫자만 유지 (구두점 제거)
    text = re.sub(r'[^가-힣a-zA-Z0-9\s]', '', text)

    # 중복 공백 정리
    text = re.sub(r'\s+', ' ', text)

    return text.strip()

### 2.2 불용어 제거

In [3]:
# 한국어 불용어 리스트
korean_stopwords = [
    '이', '가', '을', '를', '에', '의', '와', '과', '도', '로', '으로',
    '은', '는', '에서', '에게', '께', '한테', '에게서', '한테서',
    '이다', '있다', '되다', '하다', '되', '하', '것', '수', '등',
    '그', '저', '이것', '그것', '저것', '그런', '이런', '저런',
    '그리고', '그러나', '하지만', '또한', '또', '그래서', '그러므로'
]

def remove_stopwords(text, stopwords_list):
    """불용어 제거 함수"""
    words = text.split()
    filtered_words = [word for word in words if word not in stopwords_list]
    return ' '.join(filtered_words)

### 2.3 전처리 적용

In [4]:
print("=" * 80)
print("[데이터 전처리 진행 중...]")
print("=" * 80)

# 텍스트 정제
df_train['cleaned_document'] = df_train['document'].apply(clean_text_basic)
df_test['cleaned_document'] = df_test['document'].apply(clean_text_basic)

# 불용어 제거
df_train['cleaned_document'] = df_train['cleaned_document'].apply(
    lambda x: remove_stopwords(x, korean_stopwords)
)
df_test['cleaned_document'] = df_test['cleaned_document'].apply(
    lambda x: remove_stopwords(x, korean_stopwords)
)

# 빈 문자열 제거
df_train = df_train[df_train['cleaned_document'].str.len() > 0]
df_test = df_test[df_test['cleaned_document'].str.len() > 0]

print(f"전처리 후 훈련 데이터: {df_train.shape}")
print(f"전처리 후 테스트 데이터: {df_test.shape}")

# 전처리 결과 샘플 확인
print("\n[전처리 결과 샘플]")
for i in range(3):
    print(f"\n원본 {i+1}: {df_train['document'].iloc[i][:50]}...")
    print(f"정제 {i+1}: {df_train['cleaned_document'].iloc[i][:50]}...")

[데이터 전처리 진행 중...]
전처리 후 훈련 데이터: (9954, 4)
전처리 후 테스트 데이터: (2986, 4)

[전처리 결과 샘플]

원본 1: (평점조절용 1) 애니인데 분위기가 좀 음산? 그로테스크하고, 캐릭터들이 무민가족 빼고 인...
정제 1: 평점조절용 1 애니인데 분위기가 좀 음산 그로테스크하고 캐릭터들이 무민가족 빼고 인간인지 ...

원본 2: 성우님들의 열연이 마음에 들었습니다...
정제 2: 성우님들의 열연이 마음에 들었습니다...

원본 3: 무지막지하게 지루함. 배우들이 아까움. 내용도 앞뒤없고 별로 들어오는 내용도 없고 답답함....
정제 3: 무지막지하게 지루함 배우들이 아까움 내용도 앞뒤없고 별로 들어오는 내용도 없고 답답함 이야...


---
## 3. TF-IDF 벡터화

In [5]:
print("=" * 80)
print("[TF-IDF 벡터화]")
print("=" * 80)

# TF-IDF 벡터화기 생성
tfidf_vectorizer = TfidfVectorizer(
    max_features=5000,  # 최대 특성 수 (처리 속도 향상)
    ngram_range=(1, 2),  # 1-gram과 2-gram 사용
    min_df=2,  # 최소 문서 빈도
    max_df=0.95  # 최대 문서 빈도
)

# 훈련 데이터로 fit하고 transform
X_train_tfidf = tfidf_vectorizer.fit_transform(df_train['cleaned_document'])
X_test_tfidf = tfidf_vectorizer.transform(df_test['cleaned_document'])

# 레이블 추출
y_train = df_train['label'].values
y_test = df_test['label'].values

print(f"훈련 데이터 TF-IDF 벡터: {X_train_tfidf.shape}")
print(f"테스트 데이터 TF-IDF 벡터: {X_test_tfidf.shape}")
print(f"특성 수 (단어 수): {len(tfidf_vectorizer.get_feature_names_out())}")

[TF-IDF 벡터화]
훈련 데이터 TF-IDF 벡터: (9954, 5000)
테스트 데이터 TF-IDF 벡터: (2986, 5000)
특성 수 (단어 수): 5000


---
## 4. 분류기 학습 및 평가

### 4.1 Logistic Regression

In [11]:
lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train_tfidf, y_train)

y_pred = lr_model.predict(X_test_tfidf)
accuracy = accuracy_score(y_test, y_pred)

print(f"정확도: {accuracy:.4f}")

정확도: 0.7224
