In [84]:
# 데이터 불러오기
from sklearn.datasets import load_digits
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_cancer

# 학습 및 결과에 필요한 패키지들
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
import numpy as np

## 1. 데이터 준비
- 손글씨 분류 (load_digits)
- 와인 분류 (load_wine)
- 유방암 분류 (load_breast_cancer)

In [85]:
#객체 생성
digits = load_digits()
wine = load_wine()
breast_cancer = load_breast_cancer()

# 각 데이터 컬럼 확인 확인
print(digits.keys())
print(wine.keys())
print(breast_cancer.keys())

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


# 손글씨 분류하기

## 데이터 이해하기

In [86]:
# digits의 featuredata
print("digit feature")
print(digits.data)
print(digits.data.shape)
# digits의 labeldata
print("digit label")
print(digits.target)
print(digits.target.shape)
print("digit target_names")
print(digits.target_names)

# 데이터 Describe
print("digit describe")
print(digits.DESCR)

digit feature
[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
(1797, 64)
digit label
[0 1 2 ... 8 9 8]
(1797,)
digit target_names
[0 1 2 3 4 5 6 7 8 9]
digit describe
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made 

feature들의 정보를 이용해서 0~9까지의 숫자를 판별하는 데이터 세트  
1797개의 데이터수, 64 feature

## train, test 데이터 분리

In [87]:
# 데이터셋 분리 훈련 데이터 0.8, 테스트 데이터 0.2의 비율
X_train, X_test, y_train, y_test = train_test_split(digits.data, 
                                                    digits.target,
                                                    test_size = 0.2,
                                                    random_state=7)

print('X_train 개수: ', X_train.shape, ", X_test 개수", X_test.shape)
print('y_train 개수: ', y_train.shape, ", y_test 개수", y_test.shape)

X_train 개수:  (1437, 64) , X_test 개수 (360, 64)
y_train 개수:  (1437,) , y_test 개수 (360,)


## 다양한 모델로 학습시켜보기

### Decision Tree

In [88]:
from sklearn.tree import DecisionTreeClassifier

# 객체 생성
decision_tree = DecisionTreeClassifier(random_state=32)
# 모델 학습
decision_tree.fit(X_train, y_train)
# 모델 예측
y_pred = decision_tree.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.98      1.00      0.99        42
           1       0.81      0.81      0.81        42
           2       0.82      0.79      0.80        42
           3       0.91      0.79      0.85        39
           4       0.95      0.83      0.89        42
           5       0.96      0.90      0.93        30
           6       0.93      0.84      0.88        31
           7       0.82      0.96      0.89        28
           8       0.65      0.88      0.75        32
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.87      0.86      0.86       360

[[42  0  0  0  0  0  0  0  0  0]
 [ 0 34  0  1  0  1  0  0  5  1]
 [ 0  3 33  0  1  0  0  0  4  1]
 [ 1  1  2 31  0  0  0  1  1  2]
 [ 0  0  0  0 35  0  2  2  1  2]
 [ 0  1  0  0  0 27  0  1  0  1]
 [ 0  1  1  0  0  0 26  0  3  0]
 [ 0  0  1

### RandomForest

In [89]:
from sklearn.ensemble import RandomForestClassifier

# 객체 생성
random_forest = RandomForestClassifier(random_state=32)
# 모델 학습
random_forest.fit(X_train, y_train)
# 모델 예측
y_pred = random_forest.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.98      1.00      0.99        42
           1       1.00      0.93      0.97        45
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      0.93      0.96        40
           5       0.96      0.90      0.93        30
           6       0.96      1.00      0.98        27
           7       0.97      0.94      0.96        34
           8       0.84      1.00      0.91        36
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360

[[42  0  0  0  0  0  0  0  0  0]
 [ 0 42  0  0  0  0  0  0  3  0]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 1  0  0  0 37  0  1  0  1  0]
 [ 0  0  0  0  0 27  0  0  1  2]
 [ 0  0  0  0  0  0 27  0  0  0]
 [ 0  0  0

### SVM

In [90]:
from sklearn import svm

# 객체 생성
svm_model = svm.SVC(C=1, kernel='rbf')
# 모델 학습
svm_model.fit(X_train, y_train)
# 모델 예측
y_pred = svm_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       1.00      0.95      0.98        44
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       1.00      0.93      0.97        30
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       0.93      1.00      0.96        40
           9       0.97      1.00      0.98        31

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 42  0  0  0  0  0  0  2  0]
 [ 0  0 40  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 28  0  0  1  1]
 [ 0  0  0  0  0  0 28  0  0  0]
 [ 0  0  0

## SVC 모델 파라미터
SVC모델을 사용할땐 오류율을 조절해줘야한다. default는 1이다.  
오류율 파라미터는 C 이고, C = 1 은 아웃 라이어를 하용하지 않는 하드 마진이라고 한다. 하드 마진은 마진이 적은것을 의미하고, 그래서 overfitting 문제에 빠질 수가 있다.  
반대로 파라미터를 C = 0 에 가깝게 설정하면 소프트 마진이라고하고, 마진이 커지게된다. 그러다보니 학습이 제대로 안되는 underfitting 문제가 발생할 수 있다.  


추가로 kernel옵션도 있다. default는 rbf이다.   
경계선의 모양을 여러가지로 결정할 수 있는 옵션이다. 'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'

### SGD

In [91]:
from sklearn.linear_model import SGDClassifier

# 객체 생성
sgd_model = SGDClassifier(random_state=32)
# 모델 학습
sgd_model.fit(X_train, y_train)
# 모델 예측
y_pred = sgd_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.85      0.90        47
           2       1.00      0.98      0.99        41
           3       0.94      0.89      0.91        36
           4       0.97      1.00      0.99        36
           5       1.00      0.93      0.97        30
           6       0.93      0.96      0.95        27
           7       0.97      0.97      0.97        33
           8       0.88      0.88      0.88        43
           9       0.72      0.96      0.82        24

    accuracy                           0.94       360
   macro avg       0.94      0.94      0.94       360
weighted avg       0.94      0.94      0.94       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 40  0  0  0  0  1  0  4  2]
 [ 0  0 40  0  0  0  0  0  1  0]
 [ 0  1  0 32  0  0  0  1  0  2]
 [ 0  0  0  0 36  0  0  0  0  0]
 [ 0  0  0  0  0 28  0  0  0  2]
 [ 0  0  0  0  1  0 26  0  0  0]
 [ 0  0  0

### Logistic Regression

In [92]:
from sklearn.linear_model import LogisticRegression

# 객체 생성
logistic_model = LogisticRegression(max_iter=2100)
# 모델 학습
logistic_model.fit(X_train, y_train)
# 모델 예측
y_pred = logistic_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       1.00      0.98      0.99        41
           3       0.97      0.94      0.96        35
           4       1.00      1.00      1.00        37
           5       0.96      0.79      0.87        34
           6       0.96      1.00      0.98        27
           7       0.97      0.94      0.96        34
           8       0.81      0.92      0.86        38
           9       0.88      0.97      0.92        29

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360

[[43  0  0  0  0  0  0  0  0  0]
 [ 0 40  0  0  0  0  0  0  2  0]
 [ 0  0 40  0  0  0  0  0  1  0]
 [ 0  0  0 33  0  0  0  1  0  1]
 [ 0  0  0  0 37  0  0  0  0  0]
 [ 0  0  0  0  0 27  0  0  4  3]
 [ 0  0  0  0  0  0 27  0  0  0]
 [ 0  0  0

## ConvergenceWarning: lbfgs failed to converge (status=1)
기존 예제대로 진행하다보니 위와같은 에러가 발생하였다.
이 에러를 찾아보니 해결방법은
1) iteration의 max 크기를 늘려주거나
2) https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression 이 링크를 따라 데이터를 조정해줘야한다고 한다.

첫번째 방법 시도해봤다.
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html?highlight=logisticregression#sklearn.linear_model.LogisticRegression
이 문서를 찾아보니 max_iter의 defaul 값은 100이라고 나와있다.
이 값을 2000까지 올렸을때는 warning이 떴으나 2100부터는 나오지 않았다.

## 성능평가
첫번째로 성능 평가의 중점을 두었던건 accuracy였다. 하지만 accuracy는 데이터의 불균형이 있을때 값을 신뢰할 수 없을 경우가 있다. 예를들어 데이터가 0이 80% 3이 20% 있을때 0으로만 판단해도 정확도는 80%가 나오기 때문이다.
두번째로 성능 평가를 따진것은 오차 행렬을 이용한 성능 지표들이였다.  
precicion과 recall의 조화평균인 f1-score로 모델의 성능을 평가 하였다. 그렇게해서 가장 좋은 성능을 보인 모델은 svm 모델이였다.  
옳게 평가가 된것인지 궁금해서 오차행렬을 한번 프린트 해보고, 모델이 잘못 추론한 값을 살펴보았다.  
오차행렬의 대각행은 positive True인 행으로 옳은값을 추론한것이고, 그 외에 행은 값을 잘못 추론한 행이다.  
따라서 옳은값을 추론한 행을 뺀 나머지의 합을 구하면 잘못 추론한 행을 구할수 있어서 시도해 보았고, 역시나 svm모델이 제일 적게 틀린 모습을 볼수 있었다.  

## 와인데이터 분류하기
## 데이터 이해하기

In [93]:
# wine의 featuredata
print("wine feature")
print(wine.data)
print(wine.data.shape)
# wine의 labeldata
print("wine label")
print(wine.target)
print(wine.target.shape)
print("wine target_names")
print(wine.target_names)

# 데이터 Describe
print("wine describe")
print(wine.DESCR)

wine feature
[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]
(178, 13)
wine label
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
(178,)
wine target_names
['class_0' 'class_1' 'class_2']
wine describe
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances

와인의 특성들을 활용해서, 클래스 0~2를 판별하는 데이터세트  
178개의 데이터, 13개의 feature

## train, test 데이터 분리

In [94]:
#데이터셋 분리, 훈련 데이터 0.8, 테스트 데이터 0.2 비율
X_train, X_test, y_train, y_test = train_test_split(wine.data,
                                                   wine.target,
                                                   test_size=0.2,
                                                   random_state=21)
print('X_train 개수: ', X_train.shape, ", X_test 개수", X_test.shape)
print('y_train 개수: ', y_train.shape, ", y_test 개수", y_test.shape)

X_train 개수:  (142, 13) , X_test 개수 (36, 13)
y_train 개수:  (142,) , y_test 개수 (36,)


## 다양한 모델로 학습시켜보기

### Decision Tree

In [97]:
# 객체 생성
decision_tree = DecisionTreeClassifier(random_state=32)
# 모델 학습
decision_tree.fit(X_train, y_train)
# 모델 예측
y_pred = decision_tree.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      0.88      0.94        17
           1       0.80      0.80      0.80        10
           2       0.73      0.89      0.80         9

    accuracy                           0.86        36
   macro avg       0.84      0.86      0.85        36
weighted avg       0.88      0.86      0.86        36

[[15  1  1]
 [ 0  8  2]
 [ 0  1  8]]
wrong predict :  5


### RandomForest

In [98]:
# 객체 생성
random_forest = RandomForestClassifier(random_state=32)
# 모델 학습
random_forest.fit(X_train, y_train)
# 모델 예측
y_pred = random_forest.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        11

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

[[15  0  0]
 [ 0 10  0]
 [ 0  0 11]]
wrong predict :  0


### SVM

In [99]:
# 객체 생성
svm_model = svm.SVC(C=1, kernel='linear')
# 모델 학습
svm_model.fit(X_train, y_train)
# 모델 예측
y_pred = svm_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       0.90      1.00      0.95         9
           2       1.00      0.92      0.96        12

    accuracy                           0.97        36
   macro avg       0.97      0.97      0.97        36
weighted avg       0.98      0.97      0.97        36

[[15  0  0]
 [ 0  9  0]
 [ 0  1 11]]
wrong predict :  1


### UndefinedMetricWarning: Recall and F-score are ill-defined and being set to 0.0 in labels with no true samples
이 에러의 경우 f1-score를 구하는 과정에서 0으로 나누려 하다보니 나오는 warning 이였다.  
추천 옵션으로는 confusion_matrix()의 파라미터에 zero_division="warn" 인것을 0 or 1 로 바꾸라는 것이였다.  
하지만 위에서 알아 본것처럼 커널을 변경하면 제대로 예측을해서 이러한 문제점이 없어지진 않을까 시도해봤다.
kernel을 linear로 바꿔보니 class 2의 예측이 0에서 11로 증가해 이 warning이 사라졌다.

### SGD

In [100]:
# 객체 생성
sgd_model = SGDClassifier(random_state=32)
# 모델 학습
sgd_model.fit(X_train, y_train)
# 모델 예측
y_pred = sgd_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())


              precision    recall  f1-score   support

           0       0.73      0.92      0.81        12
           1       1.00      0.42      0.59        24
           2       0.00      0.00      0.00         0

    accuracy                           0.58        36
   macro avg       0.58      0.44      0.47        36
weighted avg       0.91      0.58      0.66        36

[[11  0  1]
 [ 4 10 10]
 [ 0  0  0]]
wrong predict :  15


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### SGD model의 zero_division
이경우도 class 2의 예측이 실패해서 나타는 경우이다.  
sgd 모델의 파라미터값들을 살펴 보았지만. 어느것을 건들어야 성능이 좋아질지는 아직 몰라서 넘어갔다.  
class sklearn.linear_model.SGDClassifier(loss='hinge', *, penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, warm_start=False, average=False)

### Logistic Regression

In [101]:
# 객체 생성
logistic_model = LogisticRegression(max_iter=3100)
# 모델 학습
logistic_model.fit(X_train, y_train)
# 모델 예측
y_pred = logistic_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       1.00      1.00      1.00        10
           2       1.00      1.00      1.00        11

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

[[15  0  0]
 [ 0 10  0]
 [ 0  0 11]]
wrong predict :  0


max_iter의 값이 3100이 되서야 warning이 뜨지 않았다.

## 성능평가
수치적인 성능으로만 봤을때는 RandomForest와 logistic regression 모델이 둘다 100%의 예측을 보여주었다.  
그래서 학습 데이터 양과 테스트 양의 변화가 있을때 두 모델이 어떤 변화가 있는지 궁금해 아래 추가적으로 실험을 해봤다.  
그랬더니 randomforest의 결과 값이 우세한 모습을 보여주었다.  
따라서 wine data에서는 randomforest의 모델이 좋은것으로 판단된다.

In [102]:
X_train, X_test, y_train, y_test = train_test_split(wine.data,
                                                   wine.target,
                                                   test_size=0.4,
                                                   random_state=21)
print('X_train 개수: ', X_train.shape, ", X_test 개수", X_test.shape)
print('y_train 개수: ', y_train.shape, ", y_test 개수", y_test.shape)

X_train 개수:  (106, 13) , X_test 개수 (72, 13)
y_train 개수:  (106,) , y_test 개수 (72,)


In [103]:
# 객체 생성
random_forest = RandomForestClassifier(random_state=32)
# 모델 학습
random_forest.fit(X_train, y_train)
# 모델 예측
y_pred = random_forest.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        23
           1       1.00      1.00      1.00        23
           2       1.00      1.00      1.00        26

    accuracy                           1.00        72
   macro avg       1.00      1.00      1.00        72
weighted avg       1.00      1.00      1.00        72

[[23  0  0]
 [ 0 23  0]
 [ 0  0 26]]
wrong predict :  0


In [104]:
# 객체 생성
logistic_model = LogisticRegression(max_iter=4100)
# 모델 학습
logistic_model.fit(X_train, y_train)
# 모델 예측
y_pred = logistic_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      0.96      0.98        24
           1       0.96      0.96      0.96        23
           2       0.96      1.00      0.98        25

    accuracy                           0.97        72
   macro avg       0.97      0.97      0.97        72
weighted avg       0.97      0.97      0.97        72

[[23  1  0]
 [ 0 22  1]
 [ 0  0 25]]
wrong predict :  2


## 유방암 데이터 분류하기
## 데이터 이해하기

In [105]:
#데이터 이해
# breast_cancer의 featuredata
print("breast_cancer feature")
print(breast_cancer.data)
print(breast_cancer.data.shape)
# breast_cancer의 labeldata
print("breast_cancer label")
print(breast_cancer.target)
print(breast_cancer.target.shape)
print("breast_cancer target_names")
print(breast_cancer.target_names)

# 데이터 Describe
print("breast_cancer describe")
print(breast_cancer.DESCR)

breast_cancer feature
[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]
(569, 30)
breast_cancer label
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 

다양한 유방암 특성들을 활용해 양성인지 음성인지 판단하는 세트  
569개의 데이터, 30개의 feature

In [106]:
# train test 데이터 분리
# 데이터셋 분리 훈련 데이터 0.8, 테스트 데이터 0.2의 비율
X_train, X_test, y_train, y_test = train_test_split(breast_cancer.data,
                                                    breast_cancer.target,
                                                    test_size = 0.2,
                                                    random_state=7)

print('X_train 개수: ', X_train.shape, ", X_test 개수", X_test.shape)
print('y_train 개수: ', y_train.shape, ", y_test 개수", y_test.shape)

X_train 개수:  (455, 30) , X_test 개수 (114, 30)
y_train 개수:  (455,) , y_test 개수 (114,)


### DecisionTree

In [107]:
# 객체 생성
decision_tree = DecisionTreeClassifier(random_state=32)
# 모델 학습
decision_tree.fit(X_train, y_train)
# 모델 예측
y_pred = decision_tree.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.82      0.92      0.87        36
           1       0.96      0.91      0.93        78

    accuracy                           0.91       114
   macro avg       0.89      0.91      0.90       114
weighted avg       0.92      0.91      0.91       114

[[33  3]
 [ 7 71]]
wrong predict :  10


### RandomForest

In [108]:
# 객체 생성
random_forest = RandomForestClassifier(random_state=32)
# 모델 학습
random_forest.fit(X_train, y_train)
# 모델 예측
y_pred = random_forest.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114

[[40  0]
 [ 0 74]]
wrong predict :  0


### SVM

In [109]:
# 객체 생성
svm_model = svm.SVC(C=0.5, kernel='linear')
# 모델 학습
svm_model.fit(X_train, y_train)
# 모델 예측
y_pred = svm_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.85      1.00      0.92        34
           1       1.00      0.93      0.96        80

    accuracy                           0.95       114
   macro avg       0.93      0.96      0.94       114
weighted avg       0.96      0.95      0.95       114

[[34  0]
 [ 6 74]]
wrong predict :  6


### SVM 파라미터 바꿔보기
1. rbf  
- C = 1 wrong predict : 11  
- C = 0.5 wrong predict : 11  


2. linear
- C = 1 wrong predict : 6  
- C = 0.5 wrong predict : 6  


default 파라미터인 rbf보다, linear의 성능이 살짝 향상 되었다.

### SGD

In [110]:
# 객체 생성
sgd_model = SGDClassifier(random_state=32)
# 모델 학습
sgd_model.fit(X_train, y_train)
# 모델 예측
y_pred = sgd_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_pred, y_test))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.70      1.00      0.82        28
           1       1.00      0.86      0.92        86

    accuracy                           0.89       114
   macro avg       0.85      0.93      0.87       114
weighted avg       0.93      0.89      0.90       114

[[28  0]
 [12 74]]
wrong predict :  12


### LogisticRegression

In [111]:
# 객체 생성
logistic_model = LogisticRegression(max_iter=2100)
# 모델 학습
logistic_model.fit(X_train, y_train)
# 모델 예측
y_pred = logistic_model.predict(X_test)
# 모델 성능 평가
print(classification_report(y_pred, y_test))
# 오차행렬 표시
print(confusion_matrix(y_test, y_pred))
# 대각 행렬은 정확하게 예측한곳, 그외는 잘못 예측한 계수
cm = confusion_matrix(y_pred, y_test)
print("wrong predict : ", cm.sum() - np.diag(cm).sum())

              precision    recall  f1-score   support

           0       0.85      1.00      0.92        34
           1       1.00      0.93      0.96        80

    accuracy                           0.95       114
   macro avg       0.93      0.96      0.94       114
weighted avg       0.96      0.95      0.95       114

[[34  6]
 [ 0 74]]
wrong predict :  6


## 성능평가
유방암 데이터 셋에서 중요한건 암 환자를 정상인으로 판단하는 오류이다.   
유방암 환자는(malignant) 데이터에서 0을 나타내고 있고, confusion matrix에서 0번째 행을 나타낸다.  
따라서 유방암 환자를 정상인으로 잘못 예측한 (0,1) 요소를 잘 봐야했고. 여기서 logisticregression과 decisontree는 탈락하게 되었다.  
이제 남은 모델은 치명적인 예측의 실수는 없었지만. 제일 정확하게 판단한 randomforest 모델이 가장 성능이 좋았다.  


이번 Exploration을 통해서 sklearn에 대해 좀더 알수 있었고, 같은 데이터라도 모델에 따라서 결과값이 다르고, 각 모델도 파라미터에 따라서 결과가 달라진다는 것을 알게 되어서 좋았다.