## 필요한 라이브러리 설치 및 임포트

In [1]:
!pip install googletrans==4.0.0-rc1

Collecting googletrans==4.0.0-rc1
  Downloading googletrans-4.0.0rc1.tar.gz (20 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting httpx==0.13.3 (from googletrans==4.0.0-rc1)
  Downloading httpx-0.13.3-py3-none-any.whl.metadata (25 kB)
Collecting hstspreload (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading hstspreload-2025.1.1-py3-none-any.whl.metadata (2.1 kB)
Collecting chardet==3.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading chardet-3.0.4-py2.py3-none-any.whl.metadata (3.2 kB)
Collecting idna==2.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading idna-2.10-py2.py3-none-any.whl.metadata (9.1 kB)
Collecting rfc3986<2,>=1.3 (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading rfc3986-1.5.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting httpcore==0.9.* (from httpx==0.13.3->googletrans==4.0.0-rc1)
  Downloading httpcore-0.9.1-py3-none-any.whl.metadata (4.6 kB)
Collecting h11<0.10,>=0.8 (from httpcore==0.9.*->httpx==0.13.3->googl

In [2]:
!pip install konlpy --upgrade

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m71.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (496 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m496.6/496.6 kB[0m [31m34.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0


In [11]:
import pandas as pd
import numpy as np
import re
from konlpy.tag import Okt
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
import joblib

## 데이터 전처리하기

In [4]:
# 1. TSV 파일 불러오기
df = pd.read_csv('kr3.tsv', sep='\t')

# 2. CSV 파일로 저장하기
df.to_csv('/content/kr3.csv', index=False)

In [5]:
df = pd.read_csv('/content/kr3.csv')
df.head()

Unnamed: 0,Rating,Review
0,1,숙성 돼지고기 전문점입니다. 건물 모양 때문에 매장 모양도 좀 특이하지만 쾌적한 편...
1,1,고기가 정말 맛있었어요! 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절...
2,1,"잡내 없고 깔끔, 담백한 맛의 순댓국이 순댓국을 안 좋아하는 사람들에게도 술술 넘어..."
3,1,고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니다 맛도 좋습니다 다만 양념장이 ...
4,1,순댓국 자체는 제가 먹어본 순대국밥집 중에서 Top5 안에는 들어요. 그러나 밥 양...


In [6]:
df.isna().sum()

Unnamed: 0,0
Rating,0
Review,0


In [7]:
df['Rating'].value_counts(normalize=True)

# 0은 부정, 1은 긍정, 2는 모호함.

Unnamed: 0_level_0,proportion
Rating,Unnamed: 1_level_1
1,0.604758
2,0.284749
0,0.110493


In [8]:
def text_cleaning(text):
  text = re.sub(r"<.*?>|&[^;]+;", " ", text)
  text = re.sub(r"\s+", " ", text)
  text = re.sub(r"[^가-힣a-zA-Z0-9 ]", "", text)

  return text

df['Review'] = df['Review'].apply(lambda x: text_cleaning(x))
df['Review']

Unnamed: 0,Review
0,숙성 돼지고기 전문점입니다 건물 모양 때문에 매장 모양도 좀 특이하지만 쾌적한 편이...
1,고기가 정말 맛있었어요 육즙이 가득 있어서 너무 좋았아요 일하시는 분들 너무 친절하...
2,잡내 없고 깔끔 담백한 맛의 순댓국이 순댓국을 안 좋아하는 사람들에게도 술술 넘어갈...
3,고기 양이 푸짐해서 특 순대국밥을 시킨 기분이 듭니다 맛도 좋습니다 다만 양념장이 ...
4,순댓국 자체는 제가 먹어본 순대국밥집 중에서 Top5 안에는 들어요 그러나 밥 양이...
...,...
641757,요즘 핫하게 떠오르고 있는 중국집 맥주의 여 파루 속이 안 좋지만 와봄 일명 선풍...
641758,원래 글 안 쓰는데 이거는 정말 다른 분들 위해서 써야 할 것 같네요 방금 포장 주...
641759,우리 팀 단골집 술 먹고 다음 날 가면 푸짐하게 배불리 해장할 수 있는 곳 주말도 ...
641760,원래는 평택에 있었는데 연남동에도 최근에 생겨서 방문했는데 진짜 줄이 어마어마하더라...


In [9]:
def get_pos(x):
  okt = Okt()
  pos = okt.pos(x)
  pos = ['{}/{}'.format(word, tag) for word, tag in pos if tag not in ['Josa', 'Eomi', 'Punctuation']]
  return pos

result = get_pos(df['Review'][0])
print(result)

['숙성/Noun', '돼지고기/Noun', '전문점/Noun', '입니다/Adjective', '건물/Noun', '모양/Noun', '때문/Noun', '매장/Noun', '모양/Noun', '좀/Noun', '특이하지만/Adjective', '쾌적한/Adjective', '편이/Noun', '살짝/Noun', '레트로/Noun', '감성/Noun', '분위기/Noun', '잡아놨습니다/Verb', '모든/Noun', '직원/Noun', '분들/Suffix', '전부/Noun', '가능하다고/Adjective', '멘트/Noun', '쳐주시며/Verb', '고기/Noun', '초반/Noun', '커팅/Noun', '구워주십니다/Verb', '가격/Noun', '저렴한/Adjective', '편/Noun', '아니지만/Adjective', '맛/Noun', '준수/Noun', '합니다/Verb', '등심/Noun', '덧/Noun', '살이/Noun', '인상/Noun', '깊었는데/Adjective', '구이/Noun', '별로/Noun', '일/Noun', '줄/Noun', '알았는데/Verb', '육/Modifier', '향/Noun', '짙고/Adjective', '얇게/Adjective', '저/Noun', '뻑뻑/Noun', '하지/Verb', '않았습니다/Verb', '하이라이트/Noun', '된장찌개/Noun', '진짜/Noun', '굿/Noun', '입니다/Adjective', '버터/Noun', '간장/Noun', '밥/Noun', '골뱅이/Noun', '국수/Noun', '등/Noun', '나중/Noun', '더/Noun', '맛봐야/Verb', '할/Verb', '것/Noun', '들/Suffix', '남겨/Verb', '뒀습니다/Verb']


In [13]:
tqdm.pandas()

# 형태소 분석 진행상황 보기
df['pos'] = df['Review'].progress_apply(get_pos)

# 이미 토큰화된 데이터를 그대로 사용하기 위한 설정
def identity_tokenizer(x):
    return x

def identity_preprocessor(x):
    return x

# 벡터라이저 생성
tfidvect = TfidfVectorizer(
    tokenizer=identity_tokenizer,
    preprocessor=identity_preprocessor,
    token_pattern=None
)
X = tfidvect.fit_transform(df['pos'])

# 라벨 추출
y = df['Rating']

# 학습/테스트 분할
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print("X_train shape:", x_train.shape)
print("X_test shape:", x_test.shape)

100%|██████████| 641762/641762 [3:26:50<00:00, 51.71it/s]


X_train shape: (513409, 247724)
X_test shape: (128353, 247724)


In [14]:
lr = LogisticRegression(random_state=0, class_weight='balanced', max_iter=1000)
lr.fit(x_train, y_train)
y_pred = lr.predict(x_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.63      0.84      0.72     14182
           1       0.84      0.73      0.78     77623
           2       0.53      0.61      0.57     36548

    accuracy                           0.71    128353
   macro avg       0.67      0.73      0.69    128353
weighted avg       0.73      0.71      0.71    128353



In [15]:
# 모델과 벡터 저장
joblib.dump(lr, 'sentiment_model.pkl')
joblib.dump(tfidvect, 'tfidf_vectorizer.pkl')

['tfidf_vectorizer.pkl']