In [None]:
# 나이브 베이지안 모델링 실습
# 영화 댓글에 대한 감성 분류
# target : 긍정(1), 부정(0)
# feature : 영화 평가 댓글 : 텍스트 > vectorizer(pipeline)

In [1]:
%config InlineBackend.figure_formats = {'png', 'retina'}
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [None]:
# 1. 데이터 다운로드

In [None]:
# !wget -nc https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt

In [None]:
# 2. 데이터 불러오기 : csv, tsv, excel

In [None]:
df = pd.read_csv("./data/ratings_train.txt", sep="\t")
df.tail(2)

In [None]:
# 3. 데이터 전처리

In [None]:
# 결측 데이터 제거 : df.dropna() : row 기준으로 제거 > reset_index(drop=True)

In [None]:
filtered_df = df.dropna().reset_index(drop=True)

In [None]:
# 데이터셋 나누기 : train_x, test_x, train_y, test_y : train_test_split()

In [None]:
train_x, test_x, train_y, test_y = train_test_split(
    filtered_df["document"], filtered_df["label"], test_size=0.3, random_state=0
)

In [None]:
# random_state=0 의미
# 항상 같은 랜덤한 결과를 출력

np.random.seed(0)
data1 = np.random.randint(10, size=5)

np.random.seed(0)
data2 = np.random.randint(10, size=5)

np.random.seed(1)
data3 = np.random.randint(10, size=5)

data1, data2, data3

In [None]:
# 4. 모델 학습 : Pipeline

In [None]:
pipeline = Pipeline([
    ("vect", TfidfVectorizer()),
    ("clf", MultinomialNB()),
])
model = pipeline.fit(train_x, train_y)

In [None]:
# return tuple
data1, data2 = 1, "python"
def test(num1, num2):
    return num1**2, num2**2

In [None]:
data1, data2 = test(2, 3) # data1, data2 = 4, 9
data1, data2

In [None]:
datas = [("A", "B"), ("C", "D")]
for data1, data2 in datas:
    print(data1, data2)

In [None]:
# 5. 모델 평가 : classification report

In [None]:
pred = model.predict(test_x)
print(classification_report(test_y, pred))

In [None]:
# 모델 성능 평가 결론
# 테스트 데이터의 target 데이터 카테고리가 밸런스드 하면 accuracy 로 모델을 평가
# 언밸런스드 하면 f1-score 로 모델을 평가

In [None]:
# 6. 모델 사용 : model.predict([data])

In [None]:
# 긍정(1), 부정(0)
categories = {0: "부정", 1: "긍정"}
sample_data = "이 영화를 강력하게 추천 합니다."

In [None]:
pred_category = model.predict([sample_data])[0]
result_text = categories[pred_category]
result_text