In [2]:
import numpy as np
import pandas as pd
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

In [5]:
# 데이터 로드
article_df = pd.read_csv("sample_0418.csv")
len(article_df)

1056

In [6]:
article_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1056 entries, 0 to 1055
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   _id         1056 non-null   object
 1   title       1056 non-null   object
 2   date        1056 non-null   object
 3   youtube_id  1045 non-null   object
 4   comment     1056 non-null   object
 5   like_num    1056 non-null   object
 6   class       1056 non-null   int64 
dtypes: int64(1), object(6)
memory usage: 57.9+ KB


In [7]:
# 데이터 전처리 : 데이터 셋 분리
X_train, X_test, y_train, y_test = train_test_split(
article_df.comment, article_df['class'], test_size=0.1, random_state=1)
len(X_train), len(X_test), len(y_train), len(y_test)

(950, 106, 950, 106)

In [8]:
# 모델 만들기
clf = Pipeline([
    ('vect', TfidfVectorizer()),
    ('clf', MultinomialNB(alpha=0.1)),
])

In [9]:
# 학습
model = clf.fit(X_train.values.astype("str"), y_train)

In [10]:
# 모델 성능 확인
y_pred = model.predict(X_test)

In [11]:
list(y_test[:5]), list(y_pred[:5])

([1, 2, 2, 1, 1], [1, 3, 2, 1, 1])

In [12]:
print(classification_report(y_test, y_pred))

             precision    recall  f1-score   support

          1       0.72      0.68      0.70        34
          2       0.70      0.76      0.73        49
          3       0.48      0.43      0.45        23

avg / total       0.66      0.66      0.66       106



#### 모델 사용하기

In [38]:
categories = {
    1: "택시",
    2: "타다",
    3: "미분류",

}

In [39]:
test = pd.read_csv('test_comment.csv')
#test_list = test.tolist()

In [40]:
contents = [
    "당연하지 타다는 불법이다",
    "공수처법때 문희상 보고 국민들 맘이 어땟는지 이제 알겠냐?",
    "타다는 나중에 딱지값 챙기려 한 사업이다..1500대면 대당 1억만 되도 1500억 이네..ㅎㅎ",
    "이재웅구속! 불법운송수익금 환수!",
    "타다영업하고싶으면제도권안으로들어와서영업해라.법도무시하고하고싶은대로하면이게나라냐?정하고싶으면다음팔은돈7천억풀어서영업해라",
    "대통령은 왜 이재웅같은 엉터리 나라시업주를 키우려 하십니까? 정말 이해가 안됩니다",
    "타다가 카택처럼 운영하면 되는거 아님? 카택도 한건데 타다는 왜? 못함?",
    "최소한 국민의 안전을 위해서라도 운송영업 면허가 있어야지. 어느나라가 무면허로 운송사업을 허가해주나.",
    "개택 해봤자 3명밖에 못 타고 타다는 15인까지 가능한데 효율면에선 타다가 나은것 같은데... 개택분들한테 묻고 싶다. 10 명 정도 단체 여행가는데 개택 이용해서 이동할지 타다이용해서 이동할지...",
    "법의테두리 안에서 장사해라~혁신은 이런데 쓰는게 아닙니다~개나소나 타다하면 법의질서가 필요할까요",
    "표얻을라고 여야가 지들 잘한거 어필하겠지 택시기사들아 우리들 뽑아줘!!!",
    "대중의 안전과 교통의 체계를 중요하게 생각해서 만들어진게 지금의 택시라고? 끝까지 자기들 부족한건 생각못하지.",
    "택시 로 취업하세요 ~~!"
    
]

In [41]:
datas = {
    "content": contents,
    "category_code": model.predict(contents),
}
df = pd.DataFrame(datas)
df

Unnamed: 0,content,category_code
0,당연하지 타다는 불법이다,2
1,공수처법때 문희상 보고 국민들 맘이 어땟는지 이제 알겠냐?,1
2,타다는 나중에 딱지값 챙기려 한 사업이다..1500대면 대당 1억만 되도 1500억...,2
3,이재웅구속! 불법운송수익금 환수!,2
4,타다영업하고싶으면제도권안으로들어와서영업해라.법도무시하고하고싶은대로하면이게나라냐?정하...,2
5,대통령은 왜 이재웅같은 엉터리 나라시업주를 키우려 하십니까? 정말 이해가 안됩니다,3
6,타다가 카택처럼 운영하면 되는거 아님? 카택도 한건데 타다는 왜? 못함?,2
7,최소한 국민의 안전을 위해서라도 운송영업 면허가 있어야지. 어느나라가 무면허로 운송...,2
8,개택 해봤자 3명밖에 못 타고 타다는 15인까지 가능한데 효율면에선 타다가 나은것 ...,1
9,법의테두리 안에서 장사해라~혁신은 이런데 쓰는게 아닙니다~개나소나 타다하면 법의질서...,2


In [42]:
round(max(model.predict_proba([contents[0]])[0]), 2)

0.66

In [43]:
df["category"] = df["category_code"].apply(lambda data: categories[data])
df["proba"] = df["content"].apply(
    lambda data: round(max(model.predict_proba([data])[0]), 2) )
df

Unnamed: 0,content,category_code,category,proba
0,당연하지 타다는 불법이다,2,타다,0.66
1,공수처법때 문희상 보고 국민들 맘이 어땟는지 이제 알겠냐?,1,택시,0.9
2,타다는 나중에 딱지값 챙기려 한 사업이다..1500대면 대당 1억만 되도 1500억...,2,타다,0.97
3,이재웅구속! 불법운송수익금 환수!,2,타다,0.94
4,타다영업하고싶으면제도권안으로들어와서영업해라.법도무시하고하고싶은대로하면이게나라냐?정하...,2,타다,0.92
5,대통령은 왜 이재웅같은 엉터리 나라시업주를 키우려 하십니까? 정말 이해가 안됩니다,3,미분류,0.95
6,타다가 카택처럼 운영하면 되는거 아님? 카택도 한건데 타다는 왜? 못함?,2,타다,0.94
7,최소한 국민의 안전을 위해서라도 운송영업 면허가 있어야지. 어느나라가 무면허로 운송...,2,타다,0.95
8,개택 해봤자 3명밖에 못 타고 타다는 15인까지 가능한데 효율면에선 타다가 나은것 ...,1,택시,0.98
9,법의테두리 안에서 장사해라~혁신은 이런데 쓰는게 아닙니다~개나소나 타다하면 법의질서...,2,타다,0.93


In [18]:
# 모델 저장

In [44]:
pickle.dump(model, open("clf.pkl", "wb"))