## 문서 분류(Document Classification)

#### 데이터 준비
+ 문서 분류에 필요한 데이터는 `scikit-learn`이 제공하는 20개의 주제를 가지는 뉴스그룹 데이터를 사용
+ 텍스트는 `CounterVectorizer`를 거쳐 DTM 행렬로 변환
+ DTM 행렬은 문서에 등장하는 단어들을 빈도 수 별로 표현한 행렬

In [6]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

news = fetch_20newsgroups()

x, y = news.data, news.target

print(x[0])

cv = CountVectorizer()
x = cv.fit_transform(x)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)

From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is 
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have on this funky looking car, please e-mail.

Thanks,
- IL
   ---- brought to you by your neighborhood Lerxst ----





(9051, 130107) (9051,) (2263, 130107) (2263,)


In [2]:
print(x_train[0])
#(x번째 문서, 단어의 index)  등장빈도

  (0, 56979)	2
  (0, 50527)	5
  (0, 124031)	1
  (0, 85354)	2
  (0, 111322)	1
  (0, 123984)	1
  (0, 68532)	2
  (0, 114731)	3
  (0, 87620)	1
  (0, 95162)	1
  (0, 64095)	1
  (0, 90379)	1
  (0, 118983)	1
  (0, 89362)	1
  (0, 76032)	1
  (0, 123292)	1
  (0, 28615)	1
  (0, 90774)	1
  (0, 80638)	1
  (0, 114455)	7
  (0, 68766)	2
  (0, 115475)	3
  (0, 66608)	4
  (0, 26073)	1
  (0, 73201)	2
  :	:
  (0, 52959)	1
  (0, 105418)	6
  (0, 53166)	1
  (0, 55420)	1
  (0, 41049)	2
  (0, 9787)	2
  (0, 100425)	1
  (0, 64171)	1
  (0, 118017)	4
  (0, 66887)	1
  (0, 116393)	1
  (0, 110338)	6
  (0, 39816)	1
  (0, 112222)	3
  (0, 91972)	2
  (0, 27638)	1
  (0, 114419)	4
  (0, 69914)	1
  (0, 50730)	3
  (0, 62766)	1
  (0, 62005)	2
  (0, 48763)	1
  (0, 63071)	1
  (0, 80860)	1
  (0, 2634)	1


### Scikit-learn을 이용한 문서 분류
#### 1. 로지스틱 회귀
+ 선형회귀모델에 sigmoid 함수 적용 => 이진분류
+ 다중분류에는 적합하지 않음

In [7]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(x_train, y_train)

pred = lr.predict(x_test)

acc = accuracy_score(pred, y_test)
acc

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


0.8683163941670349

#### 2. SVC(서포트 벡터 머신)
+ 회귀, 분류, 이상치 탐지 등에 사용되는 지도학습 방법
+ 서포트 벡터 : 클래스 사이 경계에 위치한 데이터 포인트
+ 각 서포트 벡터가 결정 경계를 구분하는 데 얼마나 중요한지를 학습하며, 각 서포트 벡터 사이 마진이 커지는 방향으로 학습
+ 서포트 벡터까지의 거리와 서포트 벡터의 중요도를 기반으로 예측 수행

In [8]:
from sklearn import svm

SVM = svm.SVC(kernel='linear')
SVM.fit(x_train, y_train)

pred = SVM.predict(x_test)
acc = accuracy_score(pred, y_test)

acc

0.82545293857711

#### 3. Naive Bayes Classification
+ 베이즈 정리를 이용한 확률적 분류 알고리즘
+ 모든 특성들이 독립임을 가정하며, 입력 특성에 따라 3개의 분류기 존재
    + 입력데이터가 연속형일 때 => GaussianNB 
    + 입력데이터가 범주형일 때 => BernoulliNB, MultinomialNB

In [15]:
from sklearn.naive_bayes import BernoulliNB, MultinomialNB

bnb = BernoulliNB()
mnb = MultinomialNB()

bnb.fit(x_train, y_train)
mnb.fit(x_train, y_train)

b_pred = bnb.predict(x_test)
m_pred = mnb.predict(x_test)

b_acc = accuracy_score(b_pred, y_test)
m_acc = accuracy_score(m_pred, y_test)

b_acc, m_acc

(0.6743261157755193, 0.827220503756076)

#### 4. TF-IDF를 이용한 accuracy 향상

In [10]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf = TfidfTransformer()
transformed_x_train = tfidf.fit_transform(x_train)
transformed_x_test = tfidf.fit_transform(x_test)

mnb.fit(transformed_x_train, y_train)
pred = mnb.predict(transformed_x_test)
acc = accuracy_score(pred, y_test)
acc   #약 2% 향상됨

0.8457799381352188

#### 5. Decision Tree
+ 분류와 회귀에 사용되는 지도학습 방법
+ 데이터 특성으로부터 추론된 if-then-else 결정 규칙을 통해 예측
+ 트리의 깊이가 깊을수록 복잡한 모델

In [11]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)

pred = dt.predict(x_test)
acc = accuracy_score(pred, y_test)

acc   #index 데이터만으로 규칙을 찾기 어려워 결정트리 성능 낮게 나옴

0.6420680512593901

#### 6. XGBoost
+ 트리 기반의 앙상블 기법
+ 분류에서 다른 알고리즘보다 좋은 예측 성능을 보여줌
+ GBM의 느린 수행시간과 과적합 규제 부재 등의 문제를 해결
+ 병렬 CPU 환경에서 빠르게 학습 가능

In [13]:
#!pip install xgboost
from xgboost import XGBClassifier

xgb = XGBClassifier(n_estimators=30, learning_rate=0.05, max_depth=3)
xgb.fit(x_train, y_train)

pred = xgb.predict(x_test)
acc = accuracy_score(pred, y_test)

acc

0.7123287671232876

### 교차검증
+ 일반 검증은 학습데이터가 검증데이터로 사용되지 않음
+ 교차검증은 전체데이터를 n개의 집합으로 나누어 평가하므로 학습데이터도 검증데이터로 사용됨
+ 교차검증을 통해 일반검증보다 모델의 일반화가 잘 되는지 평가 가능

In [17]:
from sklearn.model_selection import cross_val_score

cv_scores = cross_val_score(mnb, x, y,                  #위에서 학습된 MultinomialNB 모델을 x, y 데이터를 이용해
                            cv=5, scoring='accuracy')   #5회 교차검증, 예측 성능 평가지표는 정확도
cv_scores, cv_scores.mean()                             #그 결과 평균 83%

(array([0.83870968, 0.83826779, 0.82368537, 0.83031374, 0.83642794]),
 0.833480903927519)

### 정밀도, 재현율
+ 정밀도(precision)
    + 양성 클래스로 예측한 샘플이 실제 양성 클래스일 확률
    + ex) 코로나 양성 판정 받은 100명 중 실제 코로나에 걸린 사람이 90명 => 정밀도 0.9
+ 재현율(recall)
    + 실제 양성 클래스인 샘플 중에서 모델이 양성 클래스로 예측한 샘플의 비율
    + ex) 실제 코로나에 걸린 사람 100명 중 코로나 양성 판정 받은 사람이 99명 => 재현율 0.99
+ F1-score
    + 정밀도와 재현율의 가중조화평균


+ 다중 클래스 분류 문제에서 정밀도, 재현율을 계산할 때 클래스간 지표를 어떻게 합칠지 지정 필요
    + None : 클래스간 지표를 합치지 않고 그대로 출력
    + micro : 정밀도와 재현율이 같음 => F1-score도 같은 값
    + macro : 클래스간 지표를 단순 평균한 값
    + weighted : 클래스간 지표를 가중 평균한 값

In [20]:
from sklearn.metrics import precision_score, recall_score, f1_score

precision = precision_score(pred, y_test, average='micro')
recall = recall_score(pred, y_test, average='micro')
f1 = f1_score(pred, y_test, average='micro')

print("average='micro'일 때\n=>", precision, recall, f1)

precision = precision_score(pred, y_test, average='macro')
recall = recall_score(pred, y_test, average='macro')
f1 = f1_score(pred, y_test, average='macro')

print("average='macro'일 때\n=>", precision, recall, f1)

average='micro'일 때
=> 0.7123287671232876 0.7123287671232876 0.7123287671232877
average='macro'일 때
=> 0.7030340507754758 0.7449670935600474 0.7140522110447666


### GridSearch를 이용한 파라미터 최적화
+ estimator : 사용할 모델 객체
+ param_grid : 지정 파라미터 리스트로 구성된 딕셔너리
+ scoring : 최적화하고자하는 성능 지표
+ cv : 교차검증 분할 개수

In [21]:
from sklearn.model_selection import GridSearchCV

gs = GridSearchCV(estimator=mnb, 
                  param_grid={'alpha':[0.001, 0.01, 0.1, 1.],},
                  scoring='accuracy',
                  cv=10)
gs.fit(x, y)

print(gs.best_score_)
print(gs.best_params_)

0.8897820965842167
{'alpha': 0.001}
