# E1 sklearn으로 분류하기

일시: 2020년 1월 7일 목요일

## (1) 필요한 모듈 import하기

In [12]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier #의사결정나무
from sklearn.ensemble import RandomForestClassifier # 랜덤포레스트
from sklearn import svm #서포트 벡터 머신
from sklearn.linear_model import SGDClassifier # SGD 분류기
from sklearn.linear_model import LogisticRegression # 로지스틱 회귀
from sklearn.metrics import confusion_matrix # 오차행렬

## (2) 데이터 준비

In [26]:
breast_cancer = load_breast_cancer()

## (3) 데이터 이해하기

In [27]:
print(type(dir(breast_cancer))) #  객체가 어떤 변수와 메서드를 가지고 있는지 나열
print(breast_cancer.keys()) # digits에 담긴 정보 확인
print(breast_cancer.feature_names) # fearture의 이름 확인(64개)

##(i) Feature Data 지정하기
breast_cancer_data = breast_cancer.data
print(breast_cancer_data.shape) # 데이터 크기 확인 

##(ii) Label Data 지정하기
breast_cancer_label = breast_cancer.target # 머신러닝 모델이 출력해야 하는 정답인 라벨, 타겟 보기
print(breast_cancer_label.shape)

##(iii) Target Names 출력해 보기
print(breast_cancer.target_names) # 라벨 이름 확인

##(iv) 데이터 Describe해 보기
print(breast_cancer.DESCR) # 데이터셋 설명

<class 'list'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
(569, 30)
(569,)
['malignant' 'benign']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - ra

## (4) train, test 데이터 분리

In [28]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## (i) 분리가 잘 되었나 보기
print(X_train.shape,y_train.shape)
print(X_test.shape,y_test.shape)

(455, 30) (455,)
(114, 30) (114,)


## (5) 모델 학습 및 예측

### (i) 의사결정나무

In [29]:
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("의사결정나무의 정확도: ", accuracy)

confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114

의사결정나무의 정확도:  0.9122807017543859


array([[33,  7],
       [ 3, 71]])

### (ii) 랜덤포레스트

In [30]:
random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("랜덤포레스트의 정확도: ",accuracy)

confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114

랜덤포레스트의 정확도:  1.0


array([[40,  0],
       [ 0, 74]])

### (iii) 서포트 벡터 머신

In [31]:
svm_model = svm.SVC()

svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("서포트 벡터 머신의 정확도: ",accuracy)
confusion_matrix(y_test, y_pred)

confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114

서포트 벡터 머신의 정확도:  0.9035087719298246


array([[29, 11],
       [ 0, 74]])

### (iv) SGD 분류기

In [32]:
sgd_model = SGDClassifier()

sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy_score(y_test, y_pred)
print("SGD 분류기의 정확도: ",accuracy)
confusion_matrix(y_test, y_pred)

confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      0.70      0.82        40
           1       0.86      1.00      0.92        74

    accuracy                           0.89       114
   macro avg       0.93      0.85      0.87       114
weighted avg       0.91      0.89      0.89       114

SGD 분류기의 정확도:  0.9035087719298246


array([[28, 12],
       [ 0, 74]])

### (v) 로지스틱 회귀

In [33]:
logistic_model = LogisticRegression(solver='lbfgs', max_iter=2000)

logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

accuracy = accuracy_score(y_test, y_pred)
print("로지스틱 회귀의 정확도: ",accuracy)

confusion_matrix(y_test, y_pred)

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114

로지스틱 회귀의 정확도:  0.9473684210526315


array([[34,  6],
       [ 0, 74]])

 모델의 성능은 정확도로만 표현하면 안되고, 특히 label이 불균형하게 분포되어있는 데이터를 다룰 때는 더 조심해야 합니다. 해당 데이터는 report의 support를 보면 알 수 있듯이, 0(악성)과 1(양성)의 차이가 거의 2배가 됩니다.
 
 암의 경우에는 양성이면 성장속도가 느리고 종양만 제거되면 생명의 위협이 적은 편이지만, 악성이면 성장속도가 빠르고 증식이 멈추지 않아 생명의 지장을 줄 가능성이 높습니다. 따라서 악성인데 양성으로 판단하는 경우가 적어야 할 것입니다. 따라서 재현율(Recall)이 높은 것이 좋은 것이라고 생각합니다. 
 
 이런 이유로 이번 분류는 재현율을 성과지표로 삼겠습니다. 다른 모델이 무색하게 wine처럼 이번 모델도 '랜덤포레스트'가 1의 결과를 도출해 가장 분류를 잘 해낸 모델로 보입니다. 