In [3]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 텍스트 데이터 카테고리 분류 모델 만들기
- Vectorizer + MultinomialNB

```
s1 => 우리 나라는 한국 입니다.
s2 => 한국은 살기 좋은 나라 입니다.

   우리 나라 한국 살기 좋은 
s1   1    1    1    0    0  
s2   0    1    1    1    2 
```

In [None]:
x 10000 y 100
x 100 y 100 -> down sampling 
x 10000 y 10000 -> up sampling -> 100 * 100
# 둘 다 장단점이 있지만 그래도 처음 10000개랑 100개로 하는 것보단 나음

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix

In [4]:
article_df = pd.read_csv("./data/articles_1200.csv")
article_df = article_df.dropna()
len(article_df)

1200

In [5]:
article_df.head()

Unnamed: 0,title,link,category,content
0,합의문 휴짓조각…“불신임”까지 터져나온 나경원,https://news.naver.com/main/read.nhn?mode=LSD&...,100,협상 과정 전략 없이 갈팡질팡나경원 자유한국당 원내대표가 24일 오후 국회에서 열린...
1,"합의문 쓰고도 무산, '파국' 치닿는 국회…정상화 언제쯤?",https://news.naver.com/main/read.nhn?mode=LSD&...,100,[앵커]지금 국회에는 서복현 기자가 남아 있습니다. 연결해서 분위기 좀 들어보겠습니...
2,“삭발까지 했는데” 의총 반란…합의문 2시간 만에 휴지조각,https://news.naver.com/main/read.nhn?mode=LSD&...,100,"ㆍ한국당, 국회 정상화 합의안 추인 거부 ‘자중지란’ㆍ의원 20여명 “얻은 게 뭐냐..."
3,"나경원 리더십 타격, 투톱 황교안도 ‘불똥’",https://news.naver.com/main/read.nhn?mode=LSD&...,100,ㆍ재위임 불구 대여 입지 축소ㆍ당내 ‘박영선 조기사퇴’ 회자ㆍ강경 일변도 황 대표 ...
4,"與, '대정부 투쟁' 민노총과 거리두기 고심",https://news.naver.com/main/read.nhn?mode=LSD&...,100,"與, 대정부 투쟁 민노총과 거리두기 고심[앵커] 민주노총이 김명환 위원장의 구속을 ..."


In [None]:
# Tfidf 란 
# 핵심 문자를 찾을 때 좋음
- Term Frequency - Inverse Document Frequency => TF-IDF
# TF - 문장에 특정 문자가 있는지 (가로)  # IDF -  전체에 특정 문자가 얼마나 있는지(세로)

In [6]:
# vectorizer
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(article_df.content)
x.shape, article_df.category.shape

((1200, 100169), (1200,))

In [7]:
print(vectorizer.get_feature_names()[10000:10020])

['가졌던', '가졌습니다', '가졌어야', '가졌으며', '가졌을', '가졌지만', '가족', '가족과', '가족끼리', '가족단위', '가족들과', '가족들에게', '가족들은', '가족들을', '가족들의', '가족들이', '가족력이', '가족명의', '가족복지', '가족분들은']


In [8]:
len(vectorizer.vocabulary_), list(vectorizer.vocabulary_.items())[:3]

(100169, [('협상', 97560), ('과정', 16752), ('전략', 74790)])

In [9]:
train_x, test_x, train_y, test_y = train_test_split(x, article_df.category, test_size=0.2, random_state=1)

In [10]:
# 모델 학습
model = MultinomialNB().fit(train_x, train_y)

In [11]:
pred_y = model.predict(test_x)

In [12]:
print(classification_report(test_y, pred_y))

              precision    recall  f1-score   support

         100       0.82      0.95      0.88        43
         101       0.83      0.67      0.74        43
         102       0.70      0.82      0.76        40
         103       0.77      0.53      0.63        32
         104       0.90      0.85      0.88        41
         105       0.74      0.85      0.80        41

    accuracy                           0.79       240
   macro avg       0.79      0.78      0.78       240
weighted avg       0.80      0.79      0.79       240



#### Pipeline 사용

In [13]:
train_x, test_x, train_y, test_y = train_test_split(
    article_df.content, article_df.category, test_size=0.2, random_state=1)
len(train_x), len(test_x), len(train_y), len(test_y)

(960, 240, 960, 240)

In [14]:
model = Pipeline([
    ('vect', TfidfVectorizer()), 
    ('clf', MultinomialNB(alpha=0.001)),
])

In [15]:
model = model.fit(train_x, train_y)

In [16]:
pred_y = model.predict(test_x)

In [17]:
confusion_matrix(test_y, pred_y)

array([[40,  0,  2,  0,  0,  1],
       [ 0, 32,  6,  1,  0,  4],
       [ 3,  2, 33,  2,  0,  0],
       [ 1,  2,  1, 25,  0,  3],
       [ 0,  0,  1,  4, 34,  2],
       [ 0,  1,  0,  5,  1, 34]], dtype=int64)

In [18]:
# 데이터가 언밸런스하지 않기 때문에 accurary를 사용하면 된다.
print(classification_report(test_y, pred_y))

              precision    recall  f1-score   support

         100       0.91      0.93      0.92        43
         101       0.86      0.74      0.80        43
         102       0.77      0.82      0.80        40
         103       0.68      0.78      0.72        32
         104       0.97      0.83      0.89        41
         105       0.77      0.83      0.80        41

    accuracy                           0.82       240
   macro avg       0.83      0.82      0.82       240
weighted avg       0.83      0.82      0.83       240



In [None]:
# 예측

In [19]:
classification_dict = {
    100:"정치",
    101:"경제",
    102:"사회",
    103:"생활/문화",
    104:"세계",
    105:"IT/과학",
}

In [20]:
contents = [
    "네이버와 카카오 드론 기술 발전에 주력",
    "요즘에 환율 주가 예측 불허",
    "트럼프 미국 대통령 중국과 무역협상 타결",
]

datas = {
    "content": contents,
    "category_code": model.predict(contents),
}

df = pd.DataFrame(datas)
df["category"] = df["category_code"].apply(lambda data: classification_dict[data])
df["proba"] = df["content"].apply(lambda data: round(max(model.predict_proba([data])[0]), 2))
df

Unnamed: 0,content,category_code,category,proba
0,네이버와 카카오 드론 기술 발전에 주력,105,IT/과학,0.96
1,요즘에 환율 주가 예측 불허,101,경제,0.98
2,트럼프 미국 대통령 중국과 무역협상 타결,104,세계,0.75


In [21]:
data = '요즘에 환율 주가 예측 불허'
tuple(zip(classification_dict.values(), np.round(model.predict_proba([data])[0], 2)))

(('정치', 0.0),
 ('경제', 0.98),
 ('사회', 0.0),
 ('생활/문화', 0.0),
 ('세계', 0.0),
 ('IT/과학', 0.01))