# 10. 문서 분류 (Document Classification)

# 11 - 1 나이브 베이즈 분류 (Naive Bayes Classifier)

# 1-1 직접구현

In [1]:
training_set = [['me free lottery', 1],
 ['free get free you', 1],
 ['you free scholarship', 0],
 ['free to contact me', 0],
 ['you won award', 0],
 ['you ticket lottery', 1]]

#### 토큰 빈도수 및 문서별 토큰 수 계산 (확률 계산을 위한 준비)

In [3]:
from collections import defaultdict

# 범주에 속하는 토큰수 세기 1(스팸), 0(정상))
doccnt0 = 0
doccnt1 = 0

    
# 토큰별로 문서내 빈도수 카운팅
wordfreq = defaultdict(lambda : [0, 0])
for doc, label in training_set:
    words = doc.split()
    for word in words:
        wordfreq[word][label] += 1

for key, (cnt0, cnt1) in wordfreq.items():
    doccnt0 += cnt0
    doccnt1 += cnt1
        
print(wordfreq)
print(doccnt0)
print(doccnt1)

defaultdict(<function <lambda> at 0x000002477908A9D8>, {'me': [1, 1], 'free': [2, 3], 'lottery': [0, 2], 'get': [0, 1], 'you': [2, 2], 'scholarship': [1, 0], 'to': [1, 0], 'contact': [1, 0], 'won': [1, 0], 'award': [1, 0], 'ticket': [0, 1]})
10
10


#### Training : 토근별 조건부 확률 계산

In [5]:
k = 0.5

wordprobs = defaultdict(lambda : [0, 0])

# for key, (spam, normal) in wordfreq.items():
#     spam = (k+spam)/(2*k+doccnt1)
#     normal = (k+normal)/(2*k+doccnt0)
#     wordprobs[key][0] = spam
#     wordprobs[key][1] = normal

for key, (cnt0, cnt1) in wordfreq.items():
    wordprobs[key][0] = (k + cnt0)/(k*2 + doccnt0)
    wordprobs[key][1] = (k + cnt1)/(k*2 + doccnt1)
    

wordprobs

defaultdict(<function __main__.<lambda>()>,
            {'me': [0.13636363636363635, 0.13636363636363635],
             'free': [0.22727272727272727, 0.3181818181818182],
             'lottery': [0.045454545454545456, 0.22727272727272727],
             'get': [0.045454545454545456, 0.13636363636363635],
             'you': [0.22727272727272727, 0.22727272727272727],
             'scholarship': [0.13636363636363635, 0.045454545454545456],
             'to': [0.13636363636363635, 0.045454545454545456],
             'contact': [0.13636363636363635, 0.045454545454545456],
             'won': [0.13636363636363635, 0.045454545454545456],
             'award': [0.13636363636363635, 0.045454545454545456],
             'ticket': [0.045454545454545456, 0.13636363636363635]})

In [10]:
doc = "free lottery"
tokens = doc.split()
for word, (prob0, prob1) in wordprobs.items():
    if word in token:
        log_prob0 += math

me
free
lottery
get
you
scholarship
to
contact
won
award
ticket


#### Classify : 신규 텍스트가 주어졌을 때 확률 계산

In [6]:
import math

doc = "free lottery"
tokens = doc.split()

# 초기값은 모두 0으로 처리
log_prob1 = log_prob0 = 0.0

# 모든 단어에 대해 반복
for word, (prob0, prob1) in wordprobs.items():
    if word in tokens:
        log_prob0 += math.log(prob0)
        log_prob1 += math.log(prob1)
log_prob0 += math.log(doccnt0/doccnt0+doccnt1)
log_prob1 += math.log(doccnt1/doccnt0+doccnt1)

prob0 = math.exp(log_prob0)
prob1 = math.exp(log_prob1)

print(doc)
print("정상확률 : {:.2f}%".format(prob0 / (prob0 + prob1)*100))
print("스팸확률 : {:.2f}%".format(prob1 / (prob0 + prob1)*100))

free lottery
정상확률 : 12.50%
스팸확률 : 87.50%


In [7]:
log_prob0

-2.17475172148416

In [8]:
prob0

0.11363636363636372

In [9]:
prob1

0.7954545454545454

# 1-2 sklearn 활용 (영문 뉴스 분리)

In [10]:
from sklearn.datasets import fetch_20newsgroups

In [11]:
twenty_train = fetch_20newsgroups(subset = "train", shuffle=True)
print(twenty_train.target_names)
print(twenty_train.data[0])
print(twenty_train.target[0])

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']
From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have o

In [12]:
!pip install pipeline



#### 문서 분류(파이프 라인 사용)

In [13]:
from sklearn.pipeline import Pipeline 
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB

text_clf = Pipeline([('vect', CountVectorizer()), ('tfidf', TfidfTransformer()), ('clf', MultinomialNB())])

text_clf = text_clf.fit(twenty_train.data, twenty_train.target)


In [14]:
import numpy as np
twenty_test = fetch_20newsgroups(subset='test', shuffle=True)
predicted = text_clf.predict(twenty_test.data)
np.mean(predicted == twenty_test.target)

0.7738980350504514

#### Grid Search

In [15]:
from sklearn.model_selection import GridSearchCV # random search도 있음

In [16]:
parameters_clf = {'vect__ngram_range':[(1, 1), (1, 2)], "tfidf__use_idf" : (True, False), 
                 "clf__alpha" : (0.1, 0.5, 0.01)}

gs_clf = GridSearchCV(text_clf, parameters_clf, n_jobs = -1, verbose=2)
gs_clf = gs_clf.fit(twenty_train.data, twenty_train.target)

print("Best score : {}".format(gs_clf.best_score_))
best_parameters = gs_clf.best_estimator_.get_params()
best_parameters


Fitting 5 folds for each of 12 candidates, totalling 60 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.


KeyboardInterrupt: 

#### Parameter 적용

In [93]:
predicted = gs_clf.best_estimator_.predict(twenty_test.data)
np.mean(predicted == twenty_test.target)

0.8344397238449283

# 1-3 sklearn 활용 (한글 뉴스 분류)

In [17]:
import pandas as pd
df = pd.read_csv("./2019news_1000.csv")
df

Unnamed: 0,url,category1,category2,date,title,media,content
0,https://news.naver.com/main/read.nhn?mode=LS2D...,IT/과학,모바일,2019-05-02,"인권단체 중국, 신장위구르 소수민족 감시용 모바일앱 가동",연합뉴스,"HRW ""개인 정보 수집·보고서 작성·조사 활동에 앱 활용"" ""36가지 감시유형…뒷..."
1,https://news.naver.com/main/read.nhn?mode=LS2D...,IT/과학,모바일,2019-05-09,"카카오, 1분기 매출 7000억 넘어서…8분기째 최고치 경신(종합)",뉴시스,영업익 166.0%↑·순이익 19.
2,https://news.naver.com/main/read.nhn?mode=LS2D...,IT/과학,과학 일반,2019-12-11,"테라젠이텍스, '유전체 정보 관리 시스템' 특허 취득",연합뉴스,(서울=연합뉴스) 김잔디 기자 = 테라젠이텍스는 유전체 분석 정보 관리 시스템에 관...
3,https://news.naver.com/main/read.nhn?mode=LS2D...,IT/과학,컴퓨터,2019-10-14,"두나무-삼성증권-딥서치, 비상장 주식 통합 거래 지원 플랫폼 출범",디지털데일리,'증권플러스 비상장' 서비스를 설명중인 두나무 이성현 핀테크사업실장 [디지털데일리 ...
4,https://news.naver.com/main/read.nhn?mode=LS2D...,IT/과학,통신/뉴미디어,2019-10-24,"과기정통부, 태풍 미탁 피해, 특별재난지역 전파사용료 6개월간 전액감면",전자신문,과기정통부 로고 과학기술정보통신부는 18호 태풍 '미탁'으로 인해 특별재난지역으로 ...
...,...,...,...,...,...,...,...
4995,https://news.naver.com/main/read.nhn?mode=LS2D...,생활/문화,종교,2019-06-29,[가정예배 365-6월 29일] 부흥의 회복,국민일보,찬송 : ‘나의 죄를 정케 하사’ 320장(통 350장) 신앙고백 : 사도신경 본문...
4996,https://news.naver.com/main/read.nhn?mode=LS2D...,생활/문화,건강정보,2019-07-09,쉽게 구할 수 있는 암 예방 식품 5,코메디닷컴,"[사진=jv_food01/gettyimagesbank] 전문가들은 ""암은 여러 가지..."
4997,https://news.naver.com/main/read.nhn?mode=LS2D...,생활/문화,날씨,2019-08-03,"[오늘의 날씨] 부산·경남(3일, 토)…낮엔 폭염, 밤엔 열대야",뉴스1,자료사진 © News1 (부산ㆍ경남=뉴스1) 박기범 기자 = 3일 부산·경남은 가끔...
4998,https://news.naver.com/main/read.nhn?mode=LS2D...,생활/문화,공연/전시,2019-07-11,아야스·진발라 “알고리즘·무속적 우주론…내년 광주비엔날레엔 ‘인간 지성’ 다룰 것”,경향신문,"ㆍ예술감독 아야스·진발라, 계획 밝혀 ㆍ40주년 5·18은 다른 방식으로 준비 광주..."


In [18]:
from sklearn.model_selection import train_test_split
train_data, valid_data, train_label, valid_label = train_test_split(df['content'], df['category1'], test_size = 0.1, random_state= 42)

In [19]:
train_data[:10]

3716    프리패브(Pre-Fab) 공법을 적용해 재활용품 보관소를 만드는 모습. [포스코건설...
3779    [머니투데이 지영호 기자] 홈인테리어 전문기업 한샘이 30일 한샘 오프라인 매장에서...
135     보안 업계 홀수해 징크스는 10여년 전으로 거슬러 올라간다. 2009년 발생한 북한...
4480    '반려동물을 생각한다' © 뉴스1 (서울=뉴스1) 김연수 기자 = 반려동물 산업이 ...
1437    전날 저녁부터 건강 이상 감지…당 안팎 만류에도 단식 이어가 저녁 예배 참석 후 단...
47      부산대 문한섭 교수팀 성과…국제 학술지에 논문 게재 양자얽힘 광원에 사용된 루비듐 ...
1360    폼페이오, 北 규탄보다 대화에 무게…訪韓 비건이 구체적 메시지 내놓을 듯 北, 당분...
734     배송주기, 배송시작일 설정 기능 추가 (지디넷코리아=백봉삼  기자)글로벌 전자상거래...
1534    지난해 11월 이후 3개월만···다양한 교류사업 제안 방침 12일 오전 서울 경복궁...
2004    [민언련 종편 모니터 보고서] 10월 3주 차 '최악의 문제 발언 10선' [오마이...
Name: content, dtype: object

In [20]:
train_label[:10]

3716       경제
3779       경제
135     IT/과학
4480    생활/문화
1437       정치
47      IT/과학
1360       정치
734     IT/과학
1534       정치
2004       사회
Name: category1, dtype: object

In [21]:
df['category1'].unique()

array(['IT/과학', '정치', '사회', '경제', '생활/문화'], dtype=object)

In [22]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB

text_clf = Pipeline([('vect', CountVectorizer(ngram_range=(1,2))),
                    ('tfidf', TfidfTransformer(use_idf=True)),
                    ('clf', MultinomialNB(alpha=0.01))])

text_clf = text_clf.fit(train_data, train_label)

In [23]:
import numpy as np
predicted = text_clf.predict(valid_data)
np.mean(predicted == valid_label)

0.754

# 11-2 서포트 벡터 머신 (SVM, Support Vector Machine)

In [24]:
from sklearn.model_selection import GridSearchCV

parameters_clf = {'vect__ngram_range':[(1, 1), (1, 2)], "tfidf__use_idf" : (True, False), 
                 "clf__alpha" : (0.1, 0.5, 0.01)}

gs_clf = GridSearchCV(text_clf, parameters_clf, n_jobs = -1, verbose=2)
gs_clf = gs_clf.fit(train_data, train_label)

print("Best score : {}".format(gs_clf.best_score_))
best_parameters = gs_clf.best_estimator_.get_params()
best_parameters

Fitting 5 folds for each of 12 candidates, totalling 60 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.


KeyboardInterrupt: 

## 서포트 벡터 머신 (SVM)

In [16]:
from sklearn.linear_model import SGDClassifier

svm_clf = Pipeline([('vect', CountVectorizer(ngram_range=(1, 2))), 
                    ('tfdif', TfidfTransformer()), 
                    ('clf-svm', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, n_iter_no_change=5, random_state=42))])

svm_clf = svm_clf.fit(train_data, train_label)

In [17]:
predicted = svm_clf.predict(valid_data)
np.mean(predicted == valid_label)

0.704