CountVectorizer로 벡터화

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

news = fetch_20newsgroups()

x = news.data
y = news.target

cv = CountVectorizer()
x = cv.fit_transform(x)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)



(7919, 130107) (7919,) (3395, 130107) (3395,)


In [2]:
print(x_train[0])
#(0, 56979) >> 0번째에 56979번 인덱스의 단어

  (0, 56979)	1
  (0, 50527)	3
  (0, 111322)	1
  (0, 87620)	1
  (0, 95162)	1
  (0, 64095)	1
  (0, 90379)	1
  (0, 89362)	1
  (0, 76032)	1
  (0, 114455)	3
  (0, 68766)	1
  (0, 115475)	2
  (0, 32311)	1
  (0, 123796)	1
  (0, 66608)	1
  (0, 27436)	1
  (0, 56283)	1
  (0, 29573)	1
  (0, 124147)	1
  (0, 28146)	1
  (0, 124332)	1
  (0, 28601)	1
  (0, 124026)	1
  (0, 35805)	1
  (0, 75901)	2
  :	:
  (0, 108950)	1
  (0, 107353)	1
  (0, 16896)	1
  (0, 52651)	1
  (0, 69771)	1
  (0, 64085)	1
  (0, 51142)	1
  (0, 128529)	3
  (0, 27130)	2
  (0, 128133)	3
  (0, 44902)	2
  (0, 45075)	1
  (0, 54775)	2
  (0, 108784)	1
  (0, 128416)	1
  (0, 68759)	1
  (0, 27871)	2
  (0, 105585)	1
  (0, 106904)	1
  (0, 46888)	1
  (0, 123190)	1
  (0, 128616)	1
  (0, 90798)	1
  (0, 23407)	1
  (0, 38960)	1


In [3]:
from sklearn.metrics import accuracy_score



## 로지스틱 회귀(Logistic Reggression)

- 이진분류(0, 1)을 위한 모델 (감성분석) >> 시그모이드 함수 (sigmoid)
- 다중분류에는 적합하지 않음


In [4]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(x_train, y_train)

pred = lr.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.8733431516936672


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## 서포트 벡터머신(Support Vector Machines)

- 회귀, 분류, 이상치 탐지 등에 사용되는 지도학습 방법
- 클래스 사이의 경계에 위치한 데이터 포인트 >> 서포트 벡터
- 클래스 사이의 결정 경계를 구분하는데 얼마나 중요한지 학습
- 서포트 벡터 사이의 마진이 가장 큰 방향으로 학습
- 서포트 벡터까지의 거리와 서포트 벡터의 중요도 기반으로 예측

In [5]:
from sklearn import svm

svm = svm.SVC(kernel = 'linear')
svm.fit(x_train, y_train)

pred = svm.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.8191458026509573


## 나이브 베이스 분류기 (Native Bayers Classification)

- 베이즈 정리를 적용한 확률적 분류 알고리즘
- 모든 특성이 독립임을 가정
- 입력 특성에 따라 3개의 분류기 존재
  - 가우시안 나이브
  - 베르누이 나이브
  - 다항 나이브

DTM을 이용한 나이브 베이즈

In [6]:
from sklearn.naive_bayes import MultinomialNB

nb = MultinomialNB()
nb.fit(x_train, y_train)

pred = nb.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.8279823269513991


tf-idf를 이용한 정확도 향상

In [7]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf = TfidfTransformer()
x_train_tf = tfidf.fit_transform(x_train)
x_test_tf = tfidf.fit_transform(x_test)

nb.fit(x_train_tf, y_train)

pred = nb.predict(x_test_tf)
acc = accuracy_score(pred, y_test)
print(acc)

0.8306332842415317


## 결정트리 (Decision Tree)

- 분류와 회귀에 사용되는 지도 학습 방법
- 결정 규칙을 통해 값을 예측
- if-then-else 결정 규칙을 통해 데이터 학습
- 트리의 깊이가 깊을 수록 복잡한 모델

In [8]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier()
dt.fit(x_train, y_train)

pred = dt.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.6306332842415316


## XGBoost

- 트리기반의 앙상블 기법


In [11]:
from xgboost import XGBClassifier

xgb = XGBClassifier(n_estimators=30, learning_rate=0.05, max_depth=3)
xgb.fit(x_train, y_train)

pred = xgb.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

0.7072164948453609


## 교차검증

- 일반검증은 학습 데이터(train)가 테스트 데이터로 사용 x
- 데이터를 n개의 집합으로 나눔 >> 정확도 계산 >> 학습데이터로 사용된 데이터도 테스트 데이터로 사용
- 모델의 일반화가 잘 되어 있는지 평가 가능
- 나이브 베이즈 모델을 교차검증

In [12]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(nb, x, y, cv=5)
print(scores, scores.mean())

[0.83870968 0.83826779 0.82368537 0.83031374 0.83642794] 0.833480903927519


## 정밀도와 재현률
* 정밀도(accuracy)는 양성 클래스(정답)으로 예측한 샘플이 양성 클래스일 확률을 의미
* 모델이 얼마나 양성 클래스를 잘 예측하는지를 나타냄
* 재현률(recall)은 양성 클래스인 샘플에서 모델이 양성 클래스로 예측한 샘플 비율을 의미하며, 모델이 얼마나 실제 상황을 재현하는지를 나타냄
* 정밀도와 재현율의 가중조화평균인 F1-score라는 지표는 정확도에 비해 더 효과적인 모델 분석 지표로 알려져 있음
* 직접 계산할 수도 있으나, scikit-learn은 이를 편리하게 계산해주는 함수를 제공

* 다중 클래스 분류 문제에서 정밀도와 재현률을 계산할 때는 클래스간의 지표를 어떻게 합칠지 지정 필요

  * None - 클래스간 지표를 합치지 말고 그대로 출력
  * micro - 정밀도와 재현률이 같음, 이로 인해 f1-score도 정밀도, 재현률과 동일
  * macro - 클래스간 지표를 단순 평균한 값
  * weighted - 클래스간 지표를 가중 평균한 값

In [13]:
from sklearn.metrics import precision_score, recall_score, f1_score

precision = precision_score(pred, y_test, average='micro')
recall = recall_score(pred, y_test, average='micro')
f1 = f1_score(pred, y_test, average='micro')

print(precision, recall, f1)

0.7072164948453609 0.7072164948453609 0.7072164948453608


In [14]:
precision = precision_score(pred, y_test, average='macro')
recall = recall_score(pred, y_test, average='macro')
f1 = f1_score(pred, y_test, average='macro')

print(precision, recall, f1)

0.7037355124622485 0.7483448814726981 0.7179093463021038


## 그리드 검색을 이용한 파라미터 최적화

* 그리드 검색을 사용하면 분류기에 사용하는 파라미터 최적화 가능
* 그리드 검색을 통해 앞서 구성한 나이브 베이즈 모델의 'alpha' 파라미터를 최적화시키는 예제

* `estimator`: 사용 모델 객체     
* `param_grid`: 사용 객체:지정 파라미터 리스트로 구성된 딕셔너리    
* `scoring`: 최적화하고자 하는 성능 지표   
* `cv`: 교차 검증 분할 개수      

In [17]:
from sklearn.model_selection import GridSearchCV

gs = GridSearchCV(estimator=nb, param_grid={'alpha':[0.0006, 0.0008, 0.001]}, scoring='accuracy', cv=10)
gs.fit(x, y)

print(gs.best_score_)
print(gs.best_params_)

0.8897820965842167
{'alpha': 0.001}
