In [1]:
import numpy as np
import pandas as pd
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

In [2]:
# 데이터 로드
article_df = pd.read_csv("article.csv")
len(article_df)

600

In [4]:
article_df.tail(2)

Unnamed: 0,title,link,content,category
598,추석 때 과음 후 감기약 복용 말아야…명절 의약품 사용 주의사항은?,https://news.naver.com/main/read.naver?mode=LS...,안전상비의약품·식중독·두드러기 증상 개선 위한 투약 시 용법·복용량 준수해야추석 연...,105
599,"네이버, 전자서명인증사업자 인증 취득···안정성·신뢰도 인정",https://news.naver.com/main/read.naver?mode=LS...,[서울경제] 네이버는 17일 과학기술정보통신부로부터 전자서명인증사업자 인정을 획득했...,105


In [3]:
# 데이터 전처리 : 데이터 셋 분리
X_train, X_test, y_train, y_test = train_test_split(
article_df.content, article_df.category, test_size=0.1, random_state=1)
len(X_train), len(X_test), len(y_train), len(y_test)

(540, 60, 540, 60)

In [5]:
# 100~105는 사회/경제 등
article_df.category

0      100
1      100
2      100
3      100
4      100
      ... 
595    105
596    105
597    105
598    105
599    105
Name: category, Length: 600, dtype: int64

In [8]:
article_df.content

0      [앵커] 정치권의 논란인 성남 대장지구 개발사업 의혹을 놓고, 거액의 배당금을 받은...
1      기사내용 요약"정권 재창출 사명 앞에 하나돼…민주당다운 승리"[서울=뉴시스] 최동준...
2      바이든 대통령 등 참석, 화상으로 포럼 진행...평균기온 상승 1.5도 이내 제한文...
3      문재인 대통령은 바이든 미국 대통령의 초청으로 MEF, 에너지 및 기후에 관한 주요...
4      [서울=뉴시스] 전진환 기자 = 문재인 대통령이 17일 오후 청와대 여민관 영상회의...
                             ...                        
595    [디지털데일리 권하영 기자] 네이버가 17일 과학기술정보통신부로부터 전자서명인증사업...
596    기사내용 요약MS·아마존 출신 김용범 박사 책임리더로…AI 알렉사 핵심기술 개발 이...
597    쿠웨이트 플라스틱 선순환 체제 구축 기대SKC(대표 이완재)는 쿠웨이트 최대 석유화...
598    안전상비의약품·식중독·두드러기 증상 개선 위한 투약 시 용법·복용량 준수해야추석 연...
599    [서울경제] 네이버는 17일 과학기술정보통신부로부터 전자서명인증사업자 인정을 획득했...
Name: content, Length: 600, dtype: object

In [9]:
# 모델 만들기
clf = Pipeline([
    ('vect', TfidfVectorizer()),
    # alpha is smoothing parameter
    ('clf', MultinomialNB(alpha=0.1)),
])

In [12]:
# 학습
model = clf.fit(X_train.values.astype("str"), y_train)

In [13]:
# 모델 성능 확인
y_pred = model.predict(X_test)

In [15]:
list(y_test[:5]), list(y_pred[:5])

([104, 104, 105, 104, 102], [104, 104, 100, 104, 102])

In [16]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         100       0.89      0.80      0.84        10
         101       0.60      0.75      0.67         8
         102       0.71      1.00      0.83        10
         103       0.71      0.71      0.71         7
         104       0.81      0.81      0.81        16
         105       1.00      0.44      0.62         9

    accuracy                           0.77        60
   macro avg       0.79      0.75      0.75        60
weighted avg       0.80      0.77      0.76        60



#### 모델 사용하기

In [20]:
categories = {
    100: "정치",
    101: "경제",
    102: "사회",
    103: "생활/문화",
    104: "세계",
    105: "IT/과학",
}

In [21]:
contents = [
    "네이버와 카카오는 드론 기술 발전에 주력",
    "요즘 환율 주가 예측이 불가",
    "광화문 대한애국당 천막, 격렬 저항 속 철거",
]

In [22]:
datas = {
    "content": contents,
    "category_code": model.predict(contents),
}
df = pd.DataFrame(datas)
df

Unnamed: 0,content,category_code
0,네이버와 카카오는 드론 기술 발전에 주력,105
1,요즘 환율 주가 예측이 불가,101
2,"광화문 대한애국당 천막, 격렬 저항 속 철거",103


In [23]:
round(max(model.predict_proba([contents[0]])[0]), 2)

0.36

In [27]:
max(model.predict_proba([contents[0]]))

array([0.08876897, 0.28670481, 0.06878378, 0.0716222 , 0.11993607,
       0.36418416])

In [13]:
df["category"] = df["category_code"].apply(lambda data: categories[data])
df["proba"] = df["content"].apply(
    lambda data: round(max(model.predict_proba([data])[0]), 2) )
df

Unnamed: 0,content,category_code,category,proba
0,네이버와 카카오는 드론 기술 발전에 주력,105,IT/과학,0.4
1,요즘 환율 주가 예측이 불가,101,경제,0.31
2,"광화문 대한애국당 천막, 격렬 저항 속 철거",100,정치,0.31


In [14]:
# 모델 저장

In [15]:
pickle.dump(model, open("clf.pkl", "wb"))