# E1 sklearn으로 분류하기

일시: 2020년 1월 7일 목요일

## (1) 필요한 모듈 import하기

In [160]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier #의사결정나무
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트
from sklearn import svm #서포트 벡터 머신
from sklearn.linear_model import SGDClassifier # SGD 분류기
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀
from sklearn.metrics import confusion_matrix # 오차행렬

## (2) 데이터 준비

In [181]:
digits = load_digits()

## (3) 데이터 이해하기

In [190]:
print(type(dir(digits))) #  객체가 어떤 변수와 메서드를 가지고 있는지 나열
print(digits.keys()) # digits에 담긴 정보 확인
print(digits.feature_names) # fearture의 이름 확인(64개)

##(i) Feature Data 지정하기
digits_data = digits.data
print(digits_data.shape) # 데이터 크기 확인 

##(ii) Label Data 지정하기
digits_label = digits.target # 머신러닝 모델이 출력해야 하는 정답인 라벨, 타겟 보기
print(digits_label.shape)

##(iii) Target Names 출력해 보기
print(digits.target_names) # 라벨 이름 확인

##(iv) 데이터 Describe해 보기
print(digits.DESCR) # 데이터셋 설명

<class 'list'>
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']
(1797, 64)
(1797,)
[0 1 2 3 4 5 6 7 8 9]
.. _digits_dataset:


## (4) train, test 데이터 분리

In [191]:
X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## (i) 분리가 잘 되었나 보기
print(X_train.shape,y_train.shape)
print(X_test.shape,y_test.shape)

(1437, 64) (1437,)
(360, 64) (360,)


## (5) 모델 학습 및 예측

### (i) 의사결정나무

In [192]:
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("의사결정나무의 정확도: ", accuracy)

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360

의사결정나무의 정확도:  0.8555555555555555


### (ii) 랜덤포레스트

In [193]:
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("랜덤포레스트의 정확도: ",accuracy)

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360

랜덤포레스트의 정확도:  0.9638888888888889


### (iii) 서포트 벡터 머신

In [197]:
svm_model = svm.SVC()

svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("서포트 벡터 머신의 정확도: ",accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

서포트 벡터 머신의 정확도:  0.9888888888888889


array([[43,  0,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0, 42,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0, 40,  0,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 34,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0, 37,  0,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 28,  0,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0, 28,  0,  0,  0],
       [ 0,  0,  0,  0,  0,  0,  0, 33,  0,  0],
       [ 0,  2,  0,  0,  0,  1,  0,  0, 40,  0],
       [ 0,  0,  0,  0,  0,  1,  0,  0,  0, 31]])

### (iv) SGD 분류기

In [198]:
sgd_model = SGDClassifier()

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy_score(y_test, y_pred)
print("SGD 분류기의 정확도: ",accuracy)
confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.90      0.85        42
           2       0.97      0.97      0.97        40
           3       0.77      0.97      0.86        34
           4       0.97      0.97      0.97        37
           5       0.90      1.00      0.95        28
           6       0.96      0.93      0.95        28
           7       0.94      0.97      0.96        33
           8       0.94      0.72      0.82        43
           9       0.96      0.78      0.86        32

    accuracy                           0.92       360
   macro avg       0.92      0.92      0.92       360
weighted avg       0.92      0.92      0.92       360

SGD 분류기의 정확도:  0.9888888888888889


array([[42,  0,  0,  1,  0,  0,  0,  0,  0,  0],
       [ 0, 38,  0,  3,  0,  0,  0,  0,  0,  1],
       [ 0,  0, 39,  1,  0,  0,  0,  0,  0,  0],
       [ 0,  0,  0, 33,  0,  0,  0,  1,  0,  0],
       [ 0,  0,  0,  0, 36,  0,  1,  0,  0,  0],
       [ 0,  0,  0,  0,  0, 28,  0,  0,  0,  0],
       [ 0,  1,  0,  0,  0,  0, 26,  0,  1,  0],
       [ 0,  0,  0,  1,  0,  0,  0, 32,  0,  0],
       [ 0,  6,  1,  2,  1,  1,  0,  1, 31,  0],
       [ 0,  2,  0,  2,  0,  2,  0,  0,  1, 25]])

### (v) 로지스틱 회귀

In [196]:
logistic_model = LogisticRegression(solver='lbfgs', max_iter=1500)

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("로지스틱 회귀의 정확도: ",accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       1.00      1.00      1.00        37
           5       0.79      0.96      0.87        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.84      0.88        43
           9       0.97      0.88      0.92        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.96      0.95      0.95       360

로지스틱 회귀의 정확도:  0.9527777777777777


 모델의 성능은 정확도로만 표현하면 안되고, 특히 label이 불균형하게 분포되어있는 데이터를 다룰 때는 더 조심해야 합니다. 해당 데이터는 report의 support를 보면 알 수 있듯이, 숫자마다 라벨이 골고루 분포하고 있습니다. 따라서 정확도를 성능지표로 보고 모델을 평가해도 될 것으로 사료됩니다.
 정확도를 평가지표로 봤을 때 가장 뛰어난 모델은 정확도 98.8%의 결과를 도출한 '서포트 벡터 머신'과 'SGD 분류기'입니다. 이 둘 중에서 더 뛰어난 모델을 고르자면 재현율과 정밀도가 더 높은 '서포트 벡터 머신'이라고 생각합니다.  