<a href="https://colab.research.google.com/github/analyst-rhie/data-collection-information/blob/main/%5B4%EA%B0%95%5D_NLP_%EC%9E%90%EC%97%B0%EC%96%B4_%EC%B2%98%EB%A6%AC_%EB%AC%B8%EC%84%9C%EB%B6%84%EB%A5%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 문서 분류(Document Classification

### 데이터 준비
* 문서 분류에 필요한 데이터는 scikit-learn이 제공하는 20개의 주제를 가지는 뉴스그룹 데이터 사용
* 텍스트는 CounterVectorizer 를 거쳐 DTM 으로 변환
* DTM 행렬은 문서에 등장하는 단어들을 빈도 수 별로 표현한 행렬

In [3]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

news = fetch_20newsgroups()

x=news.data
y=news.target

cv = CountVectorizer()
x= cv.fit_transform(x)

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3)
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)

(7919, 130107) (7919,) (3395, 130107) (3395,)


In [None]:
print(x_train[0]) #(0,56979)는 0번째 문서에서 56979번째 단어가 2번 등장했다
#라는 의미이다.

In [12]:
print(x)

  (0, 56979)	3
  (0, 75358)	2
  (0, 123162)	2
  (0, 118280)	2
  (0, 50527)	2
  (0, 124031)	2
  (0, 85354)	1
  (0, 114688)	1
  (0, 111322)	1
  (0, 123984)	1
  (0, 37780)	5
  (0, 68532)	3
  (0, 114731)	5
  (0, 87620)	1
  (0, 95162)	1
  (0, 64095)	1
  (0, 98949)	1
  (0, 90379)	1
  (0, 118983)	1
  (0, 89362)	3
  (0, 79666)	1
  (0, 40998)	1
  (0, 92081)	1
  (0, 76032)	1
  (0, 4605)	1
  :	:
  (11313, 110796)	2
  (11313, 106209)	1
  (11313, 31386)	1
  (11313, 124103)	1
  (11313, 116027)	1
  (11313, 33941)	1
  (11313, 107339)	1
  (11313, 101950)	1
  (11313, 109661)	1
  (11313, 82480)	1
  (11313, 38329)	2
  (11313, 94524)	1
  (11313, 27696)	1
  (11313, 113435)	1
  (11313, 82355)	1
  (11313, 38325)	1
  (11313, 94291)	1
  (11313, 115621)	1
  (11313, 75884)	1
  (11313, 60910)	2
  (11313, 72419)	1
  (11313, 72881)	1
  (11313, 70020)	1
  (11313, 8653)	1
  (11313, 124370)	1


### scikit-learn을 이용한 20개의 문서분류 

In [7]:
from sklearn.metrics import accuracy_score

### 로지스틱 회귀 
* 로지스틱 회귀는 다중분류 회귀에 적합하지 않음.

In [14]:
from sklearn.linear_model import LogisticRegression
LR = LogisticRegression()
LR.fit(x_train, y_train)
pred = LR.predict(x_test)
acc = accuracy_score(pred,y_test)
print(acc)

0.865979381443299


### 서포트 벡터 머신(Support Vector Machines)
* 회귀, 분류, 이상치 탐지 등에 사용되는 지도학습 방법
* 클래스 사이의 경계에 위치한 데이터 포인트를 서포트 벡터(support vector)라고 함
* 각 서포트 벡터가 클래스 사이의 결정 경계를 구분하는데 얼마나 중요한지를 학습
  * 결정경계 학습이 주요 포인트
* 각 서포트 벡터 사이의 마진이 가장 큰 방향으로 학습
* 서포트 벡터 까지의 거리와 서포트 벡터의 중요도를 기반으로 예측을 수행

In [18]:
from sklearn import svm
SVM = svm.SVC(kernel='linear')
SVM.fit(x_train, y_train)
pred = SVM.predict(x_test)
acc = accuracy_score(pred, y_test)
acc

0.8173784977908689

### 나이브 베이스 분류기 (Naive Bayes Classification)
* 베이즈 정리를 적용한 확률적 분류 알고리즘
* 모든 특성들이 독립임을 가정(naive 가정)
* 입력 특성에 따라 3개의 분류기 존재
  * 가우시안 나이브 베이즈 분류기
  * 베르누이 나이브 베이즈 분류기
  * 다항 나이브 베이즈 분류기
    * 여기서는 다항 나이브 베이즈 분류기를 사용하겠다.

### DTM을 이용한 나이브 베이즈


In [21]:
from sklearn.naive_bayes import MultinomialNB
NB = MultinomialNB()
NB.fit(x_train, y_train)
pred = NB.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.8276877761413843


* tf-idf를 이용한 정확도 향상
  * 위의 DTM을 tf-idf로 바꾸어 정확도를 향상시킬 수 있다.

In [24]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer()
x_train_tf = tfidf.fit_transform(x_train)
x_test_tf = tfidf.fit_transform(x_test)

NB.fit(x_train_tf, y_train)
pred = NB.predict(x_test_tf)
acc = accuracy_score(pred, y_test)
acc

0.8126656848306333

### 결정 트리(Decision Tree)
* 분류와 회귀에 사용되는 지도 학습 방법
* 데이터 특성으로부터 추론된 결정 규칙을 통해 값을 예측
* if-then-else 결정 규칙을 통해 데이터 학습
* 트리의 깊이가 깊을수록 복잡한 모델


In [26]:
from sklearn.tree import DecisionTreeClassifier

DT = DecisionTreeClassifier()
DT.fit(x_train, y_train)
pred = DT.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.619440353460972


### XGBoost
* 트리 기반의 앙상블 기법 
* 분류에 있어서 다른 알고리즘보다 좋은 예측 성능을 보여줌
* XGBoost는 GBM기반이지만, GBM의 단점인 느린 수행 시간과 과적합 규제 부재 등의 문제를 해결
* 병렬 CPU 환경에서 빠르게 학습 가능 

In [None]:
from xgboost import XGBClassifier
xgb = XGBClassifier(n_estimators=30, learning_rate=0.05, max_depth=3)
xgb.fit(x_train, y_train)
pred = xgb.predict(x_test)


In [28]:
acc = accuracy_score(pred, y_test)
print(acc)

0.6913107511045655


### 교차 검증
* 일반 검증은 학습 데이터가 테스트 데이터로 사용되지 않음.
* 교차 검증은 데이터를 n개의 집합으로 나누어 정확도를 계산해 학습 데이터로 사용된 데이터도 테스트 데이터로 사용
* 교차 검증을 사용하면 일반 검증보다 모델의 일반화가 잘 되어 있는지 평가 가능
* 앞서 구성한 나이브 베이즈 모델을 교차 검증 해보겠다.

In [29]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(NB, x, y, cv=5) #5개의 집합으로 분류
print(scores, scores.mean())

[0.83870968 0.83826779 0.82368537 0.83031374 0.83642794] 0.833480903927519


* 교차 검증을 통해 일반 검증보다 좀 더 일반화된 모델 생성 가능
* 교차 검증은 일반 검증에 비해 n번 검증을 해 비용이 더 많이 소요

### 정밀도와 재현률
* 정밀도(precision)는 양성 클래스(정답)으로 예측한 샘플이 양성 클래스일 확률을 의미
* 모델이 얼마나 양성 클래스를 잘 예측하는지를 나타냄
* 정밀도와 재현율의 가중조화평균인 F1-score라는 지표는 정확도에 비해 더 효과적인 모델 분석 지표로 알려져 있음.
* 직접 계산할 수도 있으나, scikit-learn은 이를 편리하게 계산해주는 함수를 제공

* 다중 클래스 분류 문제에서 정밀도와 재헌률을 계산할 때는 클래스간의 지표를 어떻게 합칠지 지정 필요
  * None - 클래스간 지표를 합치지 말고 그대로 출력
  * micro - 정밀도와 재헌률이 같음, 이로 인해 f1-score도 정밀도, 재헌률과 동일
  * macro - 클래스간 지표를 단순 평균한 값
  * weighted - 클래스간 지표를 가중 평균한 

In [31]:
from sklearn.metrics import precision_score, recall_score, f1_score
## micro
precision = precision_score(pred, y_test, average='micro')
recall = recall_score(pred, y_test, average='micro')
f1 = f1_score(pred, y_test, average='micro')

print(precision, recall, f1) # average = 'micro'시 모든 값이 동일함.

0.6913107511045655 0.6913107511045655 0.6913107511045655


In [32]:
## macro
precision = precision_score(pred, y_test, average='macro')
recall = recall_score(pred, y_test, average='macro')
f1 = f1_score(pred, y_test, average='macro')

print(precision, recall, f1) # average = 'micro'시 모든 값이 동일함.

0.685685171341296 0.7234863806013618 0.6963034440310789


### 그리드 서치를 통한 파라미터 최적화
* 그리드 검색을 사용하면 분류기에 사용하는 파라미터 최적화 가능
* 그리드 검색을 통해 앞서 구성한 나이브 베이즈 모델의 'alpha'파라미터를 최적화시키는 예제

  * estimator : 사용 모델 객체
  * parm_grid : 사용 객체 : 지정 파라미터 리스트로 구성된 딕셔너리
  * scoring : 최적화하고자 하는 성능 지표
  * cv : 교차 검증 분할 개수

In [33]:
from sklearn.model_selection import GridSearchCV

GS = GridSearchCV(estimator=NB, param_grid={'alpha':[0.001,0.01,0.1,1.]}, scoring='accuracy',cv=10)
GS.fit(x,y)

print(GS.best_score_)
print(GS.best_params_)

0.8897820965842167
{'alpha': 0.001}


In [34]:
## 최고 좋은 성능 지표가 0.001 이므로 alpha값을 조절해본다.

GS = GridSearchCV(estimator=NB, param_grid={'alpha':[0.001,0.002,0.003,0.004,0.005]}, scoring='accuracy',cv=10)
GS.fit(x,y)

print(GS.best_score_)
print(GS.best_params_)

0.8897820965842167
{'alpha': 0.001}


In [35]:
# 그래도 0.001을 선택하므로 0.001보다 낮은 값들을 줘본다.

GS = GridSearchCV(estimator=NB, param_grid={'alpha':[0.0005,0.0008,0.001]}, scoring='accuracy',cv=10)
GS.fit(x,y)

print(GS.best_score_)
print(GS.best_params_)

#0.0005가 최종선택되며 89% 정확도를 보임.

0.8898702014852862
{'alpha': 0.0005}
