In [316]:
### 모듈 import 
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_score

### models
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

---
# 프로젝트 (1) load_digits : 손글씨를 분류해 봅시다

### 모델 성능 판단 기준치에 대한 생각

각 글씨를 정확하게 판별하는 것, 즉 해당 글씨를 다른 글씨로 판단하지 않는 것이 가장 중요하다고 생각하기 때문에, <b>precision 의 평균</b>을 성능을 판단하는 기준치로 사용하는 것이 좋다고 생각한다.

In [317]:
### 데이터 불러오기
digits = load_digits()
digit_data = digits.data
digit_label = digits.target

In [318]:
### 데이터 이해하기
print(digit_data.shape)
print(digit_data)
print(digit_label.shape)
print(digit_label)
# 64개의 feature( 8x8 => 64픽셀 ) 를 가진 1797개의 데이터
print(digits.DESCR)

(1797, 64)
[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
(1797,)
[0 1 2 ... 8 9 8]
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits fr

In [319]:
### train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(digit_data, 
                                                    digit_label, 
                                                    test_size=0.2, 
                                                    random_state=10)
# print(X_train)
# print(X_test)
print(X_train.shape)
print(X_test.shape)

(1437, 64)
(360, 64)


## 다양한 모델로 학습시켜보기

In [320]:
### Decision tree
decision_tree = DecisionTreeClassifier(random_state=10)
decision_tree.fit(X_train,y_train)
y_pred = decision_tree.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (1) 손글씨를 분류해 봅시다')
print('DecisionTreeClassifier ' 'accuracy : {}'.format(accuracy))
print('DecisionTreeClassifier ' 'classification')
print(classification)

프로젝트 (1) 손글씨를 분류해 봅시다
DecisionTreeClassifier accuracy : 0.8527777777777777
DecisionTreeClassifier classification
              precision    recall  f1-score   support

           0       0.94      0.92      0.93        37
           1       0.91      0.91      0.91        34
           2       0.81      0.88      0.85        34
           3       0.79      0.85      0.82        40
           4       0.73      0.79      0.76        34
           5       0.91      0.91      0.91        32
           6       0.94      0.92      0.93        37
           7       0.95      0.88      0.91        40
           8       0.74      0.70      0.72        33
           9       0.81      0.77      0.79        39

    accuracy                           0.85       360
   macro avg       0.85      0.85      0.85       360
weighted avg       0.86      0.85      0.85       360



In [321]:
### Random Forest
random_forest = RandomForestClassifier(random_state = 10)
random_forest.fit(X_train,y_train)
y_pred = random_forest.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (1) 손글씨를 분류해 봅시다')
print('RandomForestClassifier ' 'accuracy : {}'.format(accuracy))
print('RandomForestClassifier ' 'classification')
print(classification)

프로젝트 (1) 손글씨를 분류해 봅시다
RandomForestClassifier accuracy : 0.9666666666666667
RandomForestClassifier classification
              precision    recall  f1-score   support

           0       1.00      0.97      0.99        37
           1       0.94      0.91      0.93        34
           2       0.97      1.00      0.99        34
           3       0.97      0.97      0.97        40
           4       0.97      0.94      0.96        34
           5       0.94      1.00      0.97        32
           6       1.00      1.00      1.00        37
           7       0.93      1.00      0.96        40
           8       0.94      0.91      0.92        33
           9       1.00      0.95      0.97        39

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360



In [322]:
### SVM
svm = SVC()
svm.fit(X_train,y_train)
y_pred = svm.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (1) 손글씨를 분류해 봅시다')
print('SVM ' 'accuracy : {}'.format(accuracy))
print('SVM ' 'classification')
print(classification)

프로젝트 (1) 손글씨를 분류해 봅시다
SVM accuracy : 0.9833333333333333
SVM classification
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        37
           1       0.97      1.00      0.99        34
           2       0.97      1.00      0.99        34
           3       1.00      0.97      0.99        40
           4       1.00      0.94      0.97        34
           5       0.97      1.00      0.98        32
           6       1.00      1.00      1.00        37
           7       1.00      1.00      1.00        40
           8       0.91      0.97      0.94        33
           9       1.00      0.95      0.97        39

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360



In [323]:
### SGD
sgd = SGDClassifier(random_state = 10)
sgd.fit(X_train,y_train)
y_pred = sgd.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (1) 손글씨를 분류해 봅시다')
print('SGD ' 'accuracy : {}'.format(accuracy))
print('SGD ' 'classification')
print(classification)

프로젝트 (1) 손글씨를 분류해 봅시다
SGD accuracy : 0.9583333333333334
SGD classification
              precision    recall  f1-score   support

           0       1.00      0.97      0.99        37
           1       0.86      0.94      0.90        34
           2       1.00      1.00      1.00        34
           3       1.00      0.97      0.99        40
           4       0.94      0.91      0.93        34
           5       0.94      0.97      0.95        32
           6       1.00      1.00      1.00        37
           7       0.98      1.00      0.99        40
           8       0.86      0.91      0.88        33
           9       1.00      0.90      0.95        39

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



In [324]:
### Logistic Regression
lreg = LogisticRegression( max_iter=10000 )
lreg.fit(X_train,y_train)
y_pred = lreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (1) 손글씨를 분류해 봅시다')
print('LogisticRegression ' 'accuracy : {}'.format(accuracy))
print('LogisticRegression ' 'classification')
print(classification)

프로젝트 (1) 손글씨를 분류해 봅시다
LogisticRegression accuracy : 0.9527777777777777
LogisticRegression classification
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        37
           1       0.91      0.91      0.91        34
           2       0.92      1.00      0.96        34
           3       0.97      0.95      0.96        40
           4       0.94      0.94      0.94        34
           5       0.94      0.94      0.94        32
           6       0.97      0.97      0.97        37
           7       0.97      0.95      0.96        40
           8       0.89      0.94      0.91        33
           9       1.00      0.92      0.96        39

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



# 프로젝트 (1) '손글씨 분류' 결론


각 모델의 precision 평균 값을 비교하자면, (가중평균기준)    
- DecisionTreeClassifier : 0.86
- RandomForestClassifier : 0.97
- SVM : 0.98
- SGD : 0.96
- LogisticRegression : 0.95

SVM 의 precision 평균 값이 가장 높은 것을 알 수 있다.

### 따라서, 프로젝트 1에서 가장 성능이 우수한 모델은 SVM 이라고 할 수 있다.

---
# 프로젝트 (2) load_wine : 와인을 분류해 봅시다

### 모델 성능 판단 기준치에 대한 생각

각 와인의 종류를 잘 분류하는 것이 목표이기 대문에, 전체적인 분류 성공도를 나타낼 수 있는 <b>accuracy</b>를 기준으로 판단하는 것이 좋다고 생각한다.   

In [325]:
from sklearn.datasets import load_wine
wines = load_wine()
wine_data = wines.data
wine_label = wines.target

In [326]:
print(wine_data.shape)
print(wine_data)
print(wine_label.shape)
print(wine_label)
print(digits.DESCR)
# 13개의 feature를 가진 178개의 데이터

(178, 13)
[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]
(178,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 6

In [327]:
### train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# print(X_train)
# print(X_test)
print(X_train.shape)
print(X_test.shape)

(142, 13)
(36, 13)


In [328]:
### Decision tree
decision_tree = DecisionTreeClassifier(random_state=10)
decision_tree.fit(X_train,y_train)
y_pred = decision_tree.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (2) 와인을 분류해 봅시다')
print('DecisionTreeClassifier ' 'accuracy : {}'.format(accuracy))
print('DecisionTreeClassifier ' 'confusion_matrix')
print(cm)
print('DecisionTreeClassifier ' 'classification')
print(classification)

프로젝트 (2) 와인을 분류해 봅시다
DecisionTreeClassifier accuracy : 0.9444444444444444
DecisionTreeClassifier confusion_matrix
[[ 7  0  0]
 [ 0 17  0]
 [ 1  1 10]]
DecisionTreeClassifier classification
              precision    recall  f1-score   support

           0       0.88      1.00      0.93         7
           1       0.94      1.00      0.97        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.94      0.94      0.94        36
weighted avg       0.95      0.94      0.94        36



In [329]:
### Random Forest
random_forest = RandomForestClassifier(random_state = 10)
random_forest.fit(X_train,y_train)
y_pred = random_forest.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (2) 와인을 분류해 봅시다')
print('RandomForestClassifier ' 'accuracy : {}'.format(accuracy))
print('RandomForestClassifier ' 'confusion_matrix')
print(cm)
print('RandomForestClassifier ' 'classification')
print(classification)

프로젝트 (2) 와인을 분류해 봅시다
RandomForestClassifier accuracy : 1.0
RandomForestClassifier confusion_matrix
[[ 7  0  0]
 [ 0 17  0]
 [ 0  0 12]]
RandomForestClassifier classification
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [330]:
### SVM
svm = SVC()
svm.fit(X_train,y_train)
y_pred = svm.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (2) 와인을 분류해 봅시다')
print('SVM ' 'accuracy : {}'.format(accuracy))
print('SVM ' 'confusion_matrix')
print(cm)
# 실제 0인 7개에 대해 0이라고 한 경우(정답)는 6번, 2라고 한 경우(오답)은 1번 => 0의 Recall = 6/(6+1)
# 실제 2인 12개에 대해 2라고 한 경우(정답)는 1번, 1이라고 한 경우(오답)은 11번 => 2의 Recall = 1/(1+11)
# 2번이라고 판단한 경우 3번, 그 중 진짜 2번인 경우는 1번 => 2의 Precision = 1/(3)
print('SVM ' 'classification')
print(classification)

프로젝트 (2) 와인을 분류해 봅시다
SVM accuracy : 0.6111111111111112
SVM confusion_matrix
[[ 6  0  1]
 [ 1 15  1]
 [ 0 11  1]]
SVM classification
              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



프로젝트 (2) 와인분류에서 SVM 을 사용하면 비교적 낮은 정확도를 얻는 것을 알 수 있는데,
classification report, confusion_matrix 를 살펴보면
그 이유는 모델이 실제로 2번에 해당하는 데이터를 1번으로 인식하도록 학습되었기 때문이라고 생각할 수 있다.

In [331]:
### SGD
sgd = SGDClassifier( random_state = 10)
sgd.fit(X_train,y_train)
y_pred = sgd.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

cm = confusion_matrix(y_test,y_pred)
# classification = classification_report(y_test,y_pred)
# f1_score 를 계산하는 과정에서 0/0, zero division 경고가 발생한다.
# 실제로, confusion_matrix 를 살펴보면, 2의 precision 을 구해보면 0/0 꼴이 된다.
# 만약, zero_division 경고를 무시하고 싶다면, 무시 옵션을 넣어서 무시할 수 있다.
classification = classification_report(y_test,y_pred, zero_division=1)
# 단, 이렇게 할 경우, 2번의 precision 이 1로 표시되는 것을 알 수 있는데, 그런 의미에서 주의해야 할 것 같다!

print('프로젝트 (2) 와인을 분류해 봅시다')
print('SGD ' 'accuracy : {}'.format(accuracy))
print('SGD ' 'confusion_matrix')
print(cm)
print('SGD ' 'classification')
print(classification)

프로젝트 (2) 와인을 분류해 봅시다
SGD accuracy : 0.5833333333333334
SGD confusion_matrix
[[ 7  0  0]
 [ 3 14  0]
 [ 6  6  0]]
SGD classification
              precision    recall  f1-score   support

           0       0.44      1.00      0.61         7
           1       0.70      0.82      0.76        17
           2       1.00      0.00      0.00        12

    accuracy                           0.58        36
   macro avg       0.71      0.61      0.46        36
weighted avg       0.75      0.58      0.48        36



프로젝트 (2) 와인분류에서 SGD 를 사용하면 비교적 낮은 정확도를 얻는 것을 알 수 있는데,
classification report, confusion_matrix 를 살펴보면
그 이유는 모델이 실제로 2번에 해당하는 데이터를 0번, 1번으로 인식하도록 학습되었기 때문이라고 생각할 수 있다.

In [332]:
### Logistic Regression
lreg = LogisticRegression(max_iter = 10000)
lreg.fit(X_train,y_train)
y_pred = lreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)
print('프로젝트 (2) 와인을 분류해 봅시다')
print('LogisticRegression ' 'accuracy : {}'.format(accuracy))
print('LogisticRegression ' 'confusion_matrix')
print(cm)
print('LogisticRegression ' 'classification')
print(classification)

프로젝트 (2) 와인을 분류해 봅시다
LogisticRegression accuracy : 0.9722222222222222
LogisticRegression confusion_matrix
[[ 7  0  0]
 [ 0 17  0]
 [ 0  1 11]]
LogisticRegression classification
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.94      1.00      0.97        17
           2       1.00      0.92      0.96        12

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.98        36
weighted avg       0.97      0.97      0.97        36



# 프로젝트 (2) '와인 분류' 결론

정확도를 기준으로 각 모델의 성능을 비교하자면,   
- DecisionTreeClassifier accuracy : 0.9444444444444444
- RandomForestClassifier accuracy : 1.0
- SVM accuracy : 0.6111111111111112
- SGD accuracy : 0.5833333333333334
- LogisticRegression accuracy : 0.9722222222222222

RandomForest 의 정확도가 가장 높은 것을 알 수 있다.

### 따라서, 프로젝트 2에서 가장 성능이 좋은 모델은 RandomForest 라고 할 수 있다.


---
# 프로젝트 (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

### 모델 성능 판단 기준치에 대한 생각

암 진단의 경우, 실제로 양성인 환자를 음성으로 진단하는 경우의 수 (FN, False Negative)의 경우를 최대한 줄여야 한다.
따라서, Recall = TP / (TP+FN) 인 점을 생각했을 때,
<b>실제 환자(1)에 대한 Recall 값</b>을 제 1 기준으로 모델을 평가하고,
Recall 값이 동일한 경우, 전체 accuracy를 기준으로 모델을 평가하는 것이 좋을 것으로 생각된다.

In [333]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer()
bc_data = bc.data
bc_label = bc.target

In [334]:
print(bc_data.shape)
print(bc_data)
print(bc_label.shape)
print(bc_label)
print(bc.DESCR)

(569, 30)
[[1.799e+01 1.038e+01 1.228e+02 ... 2.654e-01 4.601e-01 1.189e-01]
 [2.057e+01 1.777e+01 1.329e+02 ... 1.860e-01 2.750e-01 8.902e-02]
 [1.969e+01 2.125e+01 1.300e+02 ... 2.430e-01 3.613e-01 8.758e-02]
 ...
 [1.660e+01 2.808e+01 1.083e+02 ... 1.418e-01 2.218e-01 7.820e-02]
 [2.060e+01 2.933e+01 1.401e+02 ... 2.650e-01 4.087e-01 1.240e-01]
 [7.760e+00 2.454e+01 4.792e+01 ... 0.000e+00 2.871e-01 7.039e-02]]
(569,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0

In [335]:
### train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(bc_data, 
                                                    bc_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# print(X_train)
# print(X_test)
print(X_train.shape)
print(X_test.shape)
# 30개의 feature 를 가진 569개의 데이터

(455, 30)
(114, 30)


In [336]:
### Decision tree
decision_tree = DecisionTreeClassifier(random_state=10)
decision_tree.fit(X_train,y_train)
y_pred = decision_tree.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)

# 양성에 대한 recall 값
positive_recall_score = cm[1,1]/(cm[1,1] + cm[1,0])

print('프로젝트 (3) 유방암 여부를 진단해 봅시다')
print('DecisionTreeClassifier ' 'accuracy : {}'.format(accuracy))
print('DecisionTreeClassifier ' 'confusion_matrix')
print(cm)
print('DecisionTreeClassifier ' 'classification')
print(classification)
print('DecisionTreeClassifier ' 'positive_recall_score : {}'.format(positive_recall_score))

프로젝트 (3) 유방암 여부를 진단해 봅시다
DecisionTreeClassifier accuracy : 0.9385964912280702
DecisionTreeClassifier confusion_matrix
[[36  4]
 [ 3 71]]
DecisionTreeClassifier classification
              precision    recall  f1-score   support

           0       0.92      0.90      0.91        40
           1       0.95      0.96      0.95        74

    accuracy                           0.94       114
   macro avg       0.93      0.93      0.93       114
weighted avg       0.94      0.94      0.94       114

DecisionTreeClassifier positive_recall_score : 0.9594594594594594


In [337]:
### Random Forest
random_forest = RandomForestClassifier(random_state = 10)
random_forest.fit(X_train,y_train)
y_pred = random_forest.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)


# 양성에 대한 recall 값
positive_recall_score = cm[1,1]/(cm[1,1] + cm[1,0])

print('프로젝트 (3) 유방암 여부를 진단해 봅시다')
print('RandomForestClassifier ' 'accuracy : {}'.format(accuracy))
print('RandomForestClassifier ' 'confusion_matrix')
print(cm)
print('RandomForestClassifier ' 'classification')
print(classification)
print('RandomForestClassifier ' 'positive_recall_score : {}'.format(positive_recall_score))

프로젝트 (3) 유방암 여부를 진단해 봅시다
RandomForestClassifier accuracy : 0.9736842105263158
RandomForestClassifier confusion_matrix
[[37  3]
 [ 0 74]]
RandomForestClassifier classification
              precision    recall  f1-score   support

           0       1.00      0.93      0.96        40
           1       0.96      1.00      0.98        74

    accuracy                           0.97       114
   macro avg       0.98      0.96      0.97       114
weighted avg       0.97      0.97      0.97       114

RandomForestClassifier positive_recall_score : 1.0


In [338]:
### SVM
svm = SVC()
svm.fit(X_train,y_train)
y_pred = svm.predict(X_test)
# print(y_test,y_pred)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)

# 양성에 대한 recall 값
positive_recall_score = cm[1,1]/(cm[1,1] + cm[1,0])

print('프로젝트 (3) 유방암 여부를 진단해 봅시다')
print('SVM ' 'accuracy : {}'.format(accuracy))
print('SVM ' 'confusion_matrix')
print(cm)
print('SVM ' 'classification')
print(classification)

print('SVM ' 'positive_recall_score : {}'.format(positive_recall_score))

프로젝트 (3) 유방암 여부를 진단해 봅시다
SVM accuracy : 0.9035087719298246
SVM confusion_matrix
[[29 11]
 [ 0 74]]
SVM classification
              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114

SVM positive_recall_score : 1.0


In [339]:
### SGD
sgd = SGDClassifier( random_state = 10)
sgd.fit(X_train,y_train)
y_pred = sgd.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)

# 양성에 대한 recall 값
positive_recall_score = cm[1,1]/(cm[1,1] + cm[1,0])

print('프로젝트 (3) 유방암 여부를 진단해 봅시다')
print('SGD ' 'accuracy : {}'.format(accuracy))
print('SGD ' 'confusion_matrix')
print(cm)
print('SGD ' 'classification')
print(classification)

print('SGD ' 'positive_recall_score : {}'.format(positive_recall_score))

프로젝트 (3) 유방암 여부를 진단해 봅시다
SGD accuracy : 0.8070175438596491
SGD confusion_matrix
[[18 22]
 [ 0 74]]
SGD classification
              precision    recall  f1-score   support

           0       1.00      0.45      0.62        40
           1       0.77      1.00      0.87        74

    accuracy                           0.81       114
   macro avg       0.89      0.72      0.75       114
weighted avg       0.85      0.81      0.78       114

SGD positive_recall_score : 1.0


In [340]:
### Logistic Regression
lreg = LogisticRegression(max_iter = 10000)
lreg.fit(X_train,y_train)
y_pred = lreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test,y_pred)
classification = classification_report(y_test,y_pred)

# 양성에 대한 recall 값
positive_recall_score = cm[1,1]/(cm[1,1] + cm[1,0])

print('프로젝트 (3) 유방암 여부를 진단해 봅시다')
print('LogisticRegression ' 'accuracy : {}'.format(accuracy))
print('LogisticRegression ' 'confusion_matrix')
print(cm)
print('LogisticRegression ' 'classification')
print(classification)

print('LogisticRegression ' 'positive_recall_score : {}'.format(positive_recall_score))

프로젝트 (3) 유방암 여부를 진단해 봅시다
LogisticRegression accuracy : 0.9473684210526315
LogisticRegression confusion_matrix
[[34  6]
 [ 0 74]]
LogisticRegression classification
              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114

LogisticRegression positive_recall_score : 1.0


# 프로젝트 (3) '유방암 여부 진단' 결론
제 1기준으로 생각하였던 실제 환자(1) 에 대한 Recall 값을 비교해보자면,

- DecisionTreeClassifier positive_recall_score : 0.9594594594594594    
- RandomForestClassifier positive_recall_score : 1.0   
- SVM positive_recall_score : 1.0   
- SGD positive_recall_score : 1.0    
- LogisticRegression positive_recall_score : 1.0    

DecisionTree를 제외하고 모두 1.0, 즉 양성인 환자를 모두 걸러내는 결과를 보여주었기 대문에, 제 1 기준에는 4개 모델이 동일하게 우수하다.

전체 정확도를 비교해보자면,    
- DecisionTreeClassifier accuracy : 0.9385964912280702    
- RandomForestClassifier accuracy : 0.9736842105263158    
- SVM accuracy : 0.9035087719298246     
- SGD accuracy : 0.8070175438596491    
- LogisticRegression accuracy : 0.9473684210526315   

제 1 기준에서 동등하게 좋은 성능을 보여준 4개의 모델 중 RandomForest가 가장 높은 정확도를 보여주는 것을 알 수 있다.   
### 따라서, 프로젝트 3에서 가장 성능이 좋은 모델은 RandomForest라고 할 수 있다.

---
# 결과 보고서

지도 학습에서 분류 문제를 해결할 수 있는 모델에 대해 알아보고, scikit-learn 라이브러리를 통해 사용해보았다.
scikit-learn 에서 모델을 생성하는 함수 외에도, 모델을 통해 얻어낸 예측 값을 실제 값과 비교하는 것을 유용하게 해주는 함수들도 사용해보았다.

사용해보는 과정에서, 예상치 못한 경고 문구 두 가지를 마주했었다.
- Linear Regression 에서 iteration 수가 부족하여 convergence가 이루어지지 않았다는 경고
- classification report 생성 시, 특정 클래스의 precision 값이 0/0 꼴이라는 경고

각각 모델 생성 시 iteration 의 횟수 제한을 늘리고, zero_divide를 허용하는 옵션을 부여하는 방법으로 해결해봤었다.
다만, zero_divide를 허용하는 경우, precision 의 값이 1로 나타나는 것을 발견하였는데, 사실 해당 클래스에 대한 예측이 한 번도 일어나지 않았기 때문에 1이라고 보는 것이 어렵다는 생각이 들었다. 이런 맥락에서 scikit-leran 라이브러리에서 경고를 발생시켜 주는 것이라는 생각이 들었다.

### 모델 비교 기준에 대한 고민

그리고, 풀고자 하는 문제 상황에서 더 좋은 성능을 발휘하는 모델을 선정하는 비교 기준에 대해 고민해볼 수 있었다.
단순히 모데