In [None]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 텍스트 데이터 카테고리 분류 모델 만들기
- Vectorizer + MultinomialNB

```
s1 => 우리 나라는 한국 입니다.
s2 => 한국은 살기 좋은 나라 입니다.

   우리 나라 한국 살기 좋은 
s1   1    1    1    0    0  
s2   0    1    1    1    2 
```

In [None]:
x 10000 y 100
x 100 y 100 -> down sampling 
x 10000 y 10000 -> up sampling -> 100 * 100
# 둘 다 장단점이 있지만 그래도 처음 10000개랑 100개로 하는 것보단 나음

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
article_df = pd.read_csv("./data/articles_1200.csv")
article_df = article_df.dropna()
len(article_df)

In [None]:
# vectorizer
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(article_df.content)
x.shape, article_df.category.shape

In [None]:
print(vectorizer.get_feature_names()[10000:10020])

In [None]:
len(vectorizer.vocabulary_), list(vectorizer.vocabulary_.items())[:3]

In [None]:
train_x, test_x, train_y, test_y = train_test_split(x, article_df.category, test_size=0.2, random_state=1)

In [None]:
# 모델 학습
model = MultinomialNB().fit(train_x, train_y)

In [None]:
pred_y = model.predict(test_x)

In [None]:
print(classification_report(test_y, pred_y))

#### Pipeline 사용

In [None]:
train_x, test_x, train_y, test_y = train_test_split(
    article_df.content, article_df.category, test_size=0.2, random_state=1)
len(train_x), len(test_x), len(train_y), len(test_y)

In [None]:
model = Pipeline([
    ('vect', TfidfVectorizer()), 
    ('clf', MultinomialNB(alpha=0.001)),
])

In [None]:
model = model.fit(train_x, train_y)

In [None]:
pred_y = model.predict(test_x)

In [None]:
confusion_matrix(test_y, pred_y)

In [None]:
# 데이터가 언밸런스하지 않기 때문에 accurary를 사용하면 된다.
print(classification_report(test_y, pred_y))

In [None]:
# 예측

In [None]:
classification_dict = {
    100:"정치",
    101:"경제",
    102:"사회",
    103:"생활/문화",
    104:"세계",
    105:"IT/과학",
}

In [None]:
contents = [
    "네이버와 카카오 드론 기술 발전에 주력",
    "요즘에 환율 주가 예측 불허",
    "트럼프 미국 대통령 중국과 무역협상 타결",
]

datas = {
    "content": contents,
    "category_code": model.predict(contents),
}

df = pd.DataFrame(datas)
df["category"] = df["category_code"].apply(lambda data: classification_dict[data])
df["proba"] = df["content"].apply(lambda data: round(max(model.predict_proba([data])[0]), 2))
df

In [None]:
data = '요즘에 환율 주가 예측 불허'
tuple(zip(classification_dict.values(), np.round(model.predict_proba([data])[0], 2)))