In [16]:
import pandas as pd
import numpy as np
import re
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns

# 한글 폰트 설정
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['axes.unicode_minus'] = False

In [17]:
df = pd.read_csv('../data/raw/korean_sentiment_dataset.csv')


In [18]:
def clean_text(text):
    if pd.isna(text):
        return ""
    
    text = re.sub(r'[^가-힣a-zA-Z0-9\s]','',str(text))
    text = re.sub(r'\s+',' ',text).strip()
    return text

STOPWORDS = ['이', '그', '저', '것', '의', '가', '을', '를', '에', '에서', '로', '으로', '와', '과', '은', '는', '이다', '하다']

def remove_stopwords(text):
    words = text.split()
    return ' '.join([word for word in words if word not in STOPWORDS and len(word) > 1])

    

In [19]:
df['processed_text'] = df['text'].apply(clean_text).apply(remove_stopwords)
df[df['processed_text'].str.len() > 0].reset_index(drop=True)
print(f"전처리 후 데이터 크기: {df.shape}")

# 결과 확인 (3개만)
print("\n전처리 결과:")
for i in range(3):
    print(f"원본: {df.iloc[i]['text']}")
    print(f"처리: {df.iloc[i]['processed_text']}")
    print()

전처리 후 데이터 크기: (3000, 3)

전처리 결과:
원본: 그냥 사람들 앞에 서는 게 너무 무서워요 괜히입니다.
처리: 그냥 사람들 앞에 서는 너무 무서워요 괜히입니다

원본: 솔직히 계속 가슴이 답답하고 조마조마해요입니다.
처리: 솔직히 계속 가슴이 답답하고 조마조마해요입니다

원본: 작은 일에도 깜짝깜짝 놀라요 정말했어요.
처리: 작은 일에도 깜짝깜짝 놀라요 정말했어요



In [20]:
final_df = df[['processed_text', 'label']].copy()
final_df.rename(columns={'processed_text' : 'text'}, inplace=True)

final_df.to_csv('../data/processed/korean_sentiment_dataset.csv', index=False, encoding='utf-8')
print(f"💾 저장 완료: {final_df.shape}")

💾 저장 완료: (3000, 2)
