# 1. load_digits : 손글씨 분류

## (1) 필요한 모듈 import

In [1]:
# 손글씨 데이터
from sklearn.datasets import load_digits 
# 와인 데이터
from sklearn.datasets import load_wine 
 # 유방암 데이터
from sklearn.datasets import load_breast_cancer            

from sklearn.model_selection import train_test_split        
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

## (2) 데이터 준비

In [2]:
digits = load_digits()

dir(digits)

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']

## (3) 데이터 이해하기
- Feature Data 지정하기
- Label Data 지정하기
- Target Names 출력해 보기
- 데이터 Describe 해 보기

In [3]:
# Feature Date 지정
digits_features = digits.data
print(digits_features)
print("------------------------------------------------------------")

# Label Data 지정
digits_labels = digits.target
print(digits_labels)
print("------------------------------------------------------------")

# Target Names 출력
print(digits.target_names)
print("------------------------------------------------------------")

# 데이터 Describe
print(digits.DESCR)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
------------------------------------------------------------
[0 1 2 ... 8 9 8]
------------------------------------------------------------
[0 1 2 3 4 5 6 7 8 9]
------------------------------------------------------------
.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains ima

## (4) train, test 데이터 분리
- train_test_split() : scikit-learn 패키지 중 model_selection에 들어있는 데이터 분할을 위한 함수
- train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)
    - arrays : 분할시킬 데이터를 입력
    - test_size : 학습 데이터셋의 비율(float)이나 갯수(int)
    - random_state : 데이터 분할시 셔플이 이루어지는데 이를 위한 시드값
    - shuffle : 셔플여부결정(default = True)
    - stratify : 지정한 Data의 비율을 유지

In [4]:
X_train, X_test, y_train, y_test = train_test_split(digits_features, digits_labels, test_size=0.2, random_state=42 )

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


## (5) 다양한 모델로 학습 및 평가
- Decision Tree 사용해 보기
- Random Forest 사용해 보기
- SVM 사용해 보기
- SGD Classifier 사용해 보기
- Logistic Regression 사용해 보기

In [8]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=32)

# Random Forest 
random_forest = RandomForestClassifier(random_state=32)

# SVM
svm_model = svm.SVC()

# SGD Classifier
sgd = SGDClassifier()

# Logistic Regression
logistic_regression = LogisticRegression()

### 1. Decision Tree

In [9]:
# 모델 학습
decision_tree.fit(X_train, y_train)

# 예측
y_pred_decision_tree = decision_tree.predict(X_test)

In [11]:
# accuracy 확인
print(classification_report(y_test, y_pred_decision_tree))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_decision_tree))

              precision    recall  f1-score   support

           0       0.97      0.88      0.92        33
           1       0.81      0.79      0.80        28
           2       0.87      0.82      0.84        33
           3       0.79      0.91      0.85        34
           4       0.81      0.85      0.83        46
           5       0.91      0.83      0.87        47
           6       0.94      0.94      0.94        35
           7       0.81      0.85      0.83        34
           8       0.85      0.77      0.81        30
           9       0.80      0.88      0.83        40

    accuracy                           0.85       360
   macro avg       0.86      0.85      0.85       360
weighted avg       0.86      0.85      0.85       360

[[29  0  0  0  2  1  0  0  0  1]
 [ 0 22  1  0  1  0  1  1  1  1]
 [ 1  1 27  2  1  1  0  0  0  0]
 [ 0  0  0 31  0  0  0  0  2  1]
 [ 0  2  0  0 39  0  0  5  0  0]
 [ 0  0  3  0  1 39  1  1  0  2]
 [ 0  0  0  0  2  0 33  0  0  0]
 [ 0  0  0

### accuracy = 85%
- 모든 숫자를 잘 맞추는게 중요한데 Decision Tree는 정확도가 낮은편이다
- precision을 보면 평균보다 낮은 값이 6개나 된다
- recall을 보면 평균보다 낮은 값이 4개가 있다
- confusion matrix를 보면 실제 5인데 세개가 2로 분류되었다는걸 알 수 있다

### 2. Random Forest

In [22]:
# 모델 학습
random_forest.fit(X_train, y_train)

# 예측
y_pred_random_forest = random_forest.predict(X_test)

In [23]:
# accuracy 확인
print(classification_report(y_test,y_pred_random_forest))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.93      1.00      0.97        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        46
           5       0.96      0.98      0.97        47
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       1.00      0.93      0.97        30
           9       0.97      0.95      0.96        40

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360

[[33  0  0  0  0  0  0  0  0  0]
 [ 0 28  0  0  0  0  0  0  0  0]
 [ 0  0 33  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 0  0  0  0 46  0  0  0  0  0]
 [ 0  0  0  0  0 46  1  0  0  0]
 [ 0  0  0  0  0  1 34  0  0  0]
 [ 0  0  0

### accuracy = 98%
- Random Forest는 앞에 있는 Decision Tree보다 훨씬 높은 정확도를 보인다
- 그치만 precision을 보면 평균보다 낮은 값이 5개나 있다
- confusion matrix에서 보면 실제 8인 데이터의 분류가 가장 안된걸로 보인다

### 3. SVM

In [24]:
# 모델 학습
svm_model.fit(X_train, y_train)

# 예측
y_pred_svm_model = svm_model.predict(X_test)

In [25]:
# accuracy 확인
print(classification_report(y_test,y_pred_svm_model))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       1.00      1.00      1.00        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        46
           5       0.98      0.98      0.98        47
           6       0.97      1.00      0.99        35
           7       0.97      0.97      0.97        34
           8       1.00      0.97      0.98        30
           9       0.95      0.95      0.95        40

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

[[33  0  0  0  0  0  0  0  0  0]
 [ 0 28  0  0  0  0  0  0  0  0]
 [ 0  0 33  0  0  0  0  0  0  0]
 [ 0  0  0 34  0  0  0  0  0  0]
 [ 0  0  0  0 46  0  0  0  0  0]
 [ 0  0  0  0  0 46  1  0  0  0]
 [ 0  0  0  0  0  0 35  0  0  0]
 [ 0  0  0

### accuracy = 99%
- 정확도는 99%로 분류를 거의 완벽하게 했다고 볼 수 있다
- precision을 보면 평균보다 낮은 값이 2개 존재한다
- confusion matrix를 보면 5개 데이터를 제외하고는 분류를 잘 했다고 볼 수 있다

### 4. SGD Classifier

In [26]:
# 모델 학습
sgd.fit(X_train, y_train)

# 예측
y_pred_sgd = sgd.predict(X_test)

In [27]:
# accuracy 확인
print(classification_report(y_test,y_pred_sgd))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       1.00      0.79      0.88        28
           2       0.97      1.00      0.99        33
           3       1.00      0.91      0.95        34
           4       1.00      0.98      0.99        46
           5       0.92      0.98      0.95        47
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       0.67      0.97      0.79        30
           9       1.00      0.85      0.92        40

    accuracy                           0.94       360
   macro avg       0.95      0.94      0.94       360
weighted avg       0.95      0.94      0.94       360

[[32  0  0  0  0  0  0  1  0  0]
 [ 0 22  1  0  0  0  0  0  5  0]
 [ 0  0 33  0  0  0  0  0  0  0]
 [ 0  0  0 31  0  1  0  0  2  0]
 [ 0  0  0  0 45  0  1  0  0  0]
 [ 0  0  0  0  0 46  0  0  1  0]
 [ 0  0  0  0  0  1 34  0  0  0]
 [ 0  0  0

### accuracy = 94%
- 정확도는 94%로 낮지 않은 값이다
- precision을 보면 1인값도 있는 반면에 0.67으로 현저하게 낮은 값도 있다
- precision과 recall의 편차가 큰편이다
- confusion_matrix를 보면 실제 9인 데이터 5개를 8로 분류한 것을 볼 수 있다

### 5. Logistic Regression

In [18]:
# 모델 학습
logistic_regression.fit(X_train, y_train)

# 예측
y_pred_logistic_regression = logistic_regression.predict(X_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


####  * default max_iter 100으로는 converged가 되지 않아서 반복 횟수의 max를 크게 해줘서 경고 해결

In [19]:
logistic_regression = LogisticRegression(max_iter=5000)

In [20]:
# 모델 학습
logistic_regression.fit(X_train, y_train)

# 예측
y_pred_logistic_regression = logistic_regression.predict(X_test)

In [21]:
# accuracy 확인
print(classification_report(y_test,y_pred_logistic_regression))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_logistic_regression))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.97      1.00      0.98        28
           2       0.97      1.00      0.99        33
           3       0.97      0.97      0.97        34
           4       1.00      0.98      0.99        46
           5       0.92      0.94      0.93        47
           6       0.97      0.97      0.97        35
           7       1.00      0.97      0.99        34
           8       0.97      0.97      0.97        30
           9       0.97      0.95      0.96        40

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360

[[33  0  0  0  0  0  0  0  0  0]
 [ 0 28  0  0  0  0  0  0  0  0]
 [ 0  0 33  0  0  0  0  0  0  0]
 [ 0  0  0 33  0  1  0  0  0  0]
 [ 0  1  0  0 45  0  0  0  0  0]
 [ 0  0  1  0  0 44  1  0  0  1]
 [ 0  0  0  0  0  1 34  0  0  0]
 [ 0  0  0

### accuracy = 97%
- 정확도는 높은 편이다
- precision과 recall을 보면 평균에 거의 모여있는 것 같다(편차가 작음)
- confusion_matrix를 보면 5개의 데이터를 제외하고는 잘 분류했다고 볼 수 있다

## (6) 결론
- 손글씨 데이터의 경우에는 모든 숫자를 정확하게 맞추는게 중요하다. 즉, accuracy와 F1-score가 높을 수록 좋은 모델이다
- accuracy와 confusion matrix를 확인했을 때, 손글씨 데이터의 경우 SVM을 사용하는 것이 가장 좋다고 판단한다

# 2. load_wine : 와인 분류

## (1) 데이터 준비

In [5]:
wine = load_wine()

dir(wine)

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']

## (2) 데이터 이해하기

In [6]:
# Feature Date 지정
wine_features = wine.data

# Label Data 지정
wine_labels = wine.target

# Target Names 출력
print(wine.target_names)
print()

# 데이터 Describe
print(wine.DESCR)

['class_0' 'class_1' 'class_2']

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
  

## (3) train,test 데이터 분리

In [25]:
X_train, X_test, y_train, y_test = train_test_split(wine_features, wine_labels, test_size=0.2, random_state=32 )

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


## (4) 다양한 모델로 학습 및 평가

In [26]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=32)

# Random Forest 
random_forest = RandomForestClassifier(random_state=32)

# SVM
svm_model = svm.SVC()

# SGD Classifier
sgd = SGDClassifier()

# Logistic Regression
logistic_regression = LogisticRegression(max_iter=5000)

### 1. Decision Tree

In [9]:
# 모델 학습
decision_tree.fit(X_train, y_train)

# 예측
y_pred_decision_tree = decision_tree.predict(X_test)


print(y_pred_decision_tree)
print(y_test)

[1 1 0 1 2 0 0 2 0 0 0 2 0 0 0 2 1 1 0 0 1 2 2 2 1 2 0 0 0 0 2 0 2 1 0 1]
[1 1 0 2 2 0 0 2 0 0 1 2 0 0 0 2 1 1 0 0 1 2 2 2 1 2 0 0 0 0 1 0 2 1 0 1]


In [10]:
# accuracy 확인
print(classification_report(y_test, y_pred_decision_tree))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_decision_tree))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       0.89      0.80      0.84        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.90      0.90        36
weighted avg       0.92      0.92      0.91        36

[[16  0  0]
 [ 1  8  1]
 [ 0  1  9]]


### accuracy = 92%
- 정확도는 92%
- 와인 데이터는 모든 클래스를 잘 맞추는 것이 중요한데 f1-score를 보면 평균보다 많이 낮은 값이 존재한다
- confusion matrix 를 보면 3개의 데이터를 빼고는 전부 잘 맞췄다고 볼 수 있다

### 2. Random Forest

In [11]:
# 모델 학습
random_forest.fit(X_train, y_train)

# 예측
y_pred_random_forest = random_forest.predict(X_test)

In [12]:
# accuracy 확인
print(classification_report(y_test,y_pred_random_forest))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        16
           1       1.00      0.90      0.95        10
           2       0.91      1.00      0.95        10

    accuracy                           0.97        36
   macro avg       0.97      0.97      0.97        36
weighted avg       0.97      0.97      0.97        36

[[16  0  0]
 [ 0  9  1]
 [ 0  0 10]]


### accuracy = 97%
- 정확도는 97%로 높은 편이다
- precision과 recall을 보면 1인 클래스가 두개 존재한다
- confusion matrix를 보면 실제 class1인 데이터를 한개를 class2로 분류한 것을 알 수 있다

### 3. SVM

In [17]:
# 모델 학습
svm_model.fit(X_train, y_train)

# 예측
y_pred_svm_model = svm_model.predict(X_test)

In [18]:
# accuracy 확인
print(classification_report(y_test,y_pred_svm_model, zero_division=1))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       0.93      0.81      0.87        16
           1       0.41      0.90      0.56        10
           2       1.00      0.00      0.00        10

    accuracy                           0.61        36
   macro avg       0.78      0.57      0.48        36
weighted avg       0.80      0.61      0.54        36

[[13  3  0]
 [ 1  9  0]
 [ 0 10  0]]


### accuracy = 61%
- 정확도가 상당히 낮은 편이다
- 특히 재현율을 나타내는 recall을 보면 class2는 0으로 아예 맞추지 못했다
- confusion matrix를 보면 실제 class2인데 class1이라고 분류한 데이터가 10개가 존재하는 것을 알 수 있다

### 4. SGD Classifier

In [19]:
# 모델 학습
sgd.fit(X_train, y_train)

# 예측
y_pred_sgd = sgd.predict(X_test)

In [20]:
# accuracy 확인
print(classification_report(y_test,y_pred_sgd, zero_division=1))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       0.62      1.00      0.76        16
           1       0.75      0.60      0.67        10
           2       0.50      0.10      0.17        10

    accuracy                           0.64        36
   macro avg       0.62      0.57      0.53        36
weighted avg       0.62      0.64      0.57        36

[[16  0  0]
 [ 3  6  1]
 [ 7  2  1]]


### accuracy = 64%
- 정확도가 64%로 낮다
- precision과 recall 또한 평균이 0.62, 0.57인걸로 보아 분류가 잘 안됐음을 알 수 있다
- confusion matrix를 보면 실제 class2인 데이터를 7개를 class0으로 분류한 것을 알 수 있다

### 5. Logistic Regression

In [27]:
# 모델 학습
logistic_regression.fit(X_train, y_train)

# 예측
y_pred_logistic_regression = logistic_regression.predict(X_test)

In [28]:
# accuracy 확인
print(classification_report(y_test,y_pred_logistic_regression))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_logistic_regression))

              precision    recall  f1-score   support

           0       0.94      1.00      0.97        16
           1       0.89      0.80      0.84        10
           2       0.90      0.90      0.90        10

    accuracy                           0.92        36
   macro avg       0.91      0.90      0.90        36
weighted avg       0.92      0.92      0.91        36

[[16  0  0]
 [ 1  8  1]
 [ 0  1  9]]


### accuracy = 92%
- 정확도는 92%로 앞에 SGD Classifier에 비교하면 훨씬 높은 값이다
- recall을 보면 실제 class0인 데이터의 분류가 잘 됐음을 알 수 있다
- confusion matrix를 보면 3개의 데이터를 제외하고는 분류가 잘 됐음을 알 수 있다

## (5) 결론
- 와인 데이터의 경우에는 모든 클래스를 정확하게 맞추는게 중요하다. 즉, accuracy와 F1-score가 높을 수록 좋은 모델이다
- accuracy가 97%이고 한개의 데이터를 제외하고 정확히 분류한 Random Forest을 사용하는 것이 가장 좋다고 판단한다

# 3. load_breast_cancer : 유방암 여부 진단

## (1) 데이터 준비

In [29]:
breast_cancer = load_breast_cancer()

dir(breast_cancer)

['DESCR',
 'data',
 'data_module',
 'feature_names',
 'filename',
 'frame',
 'target',
 'target_names']

## (2) 데이터 이해하기

In [31]:
# Feature Date 지정
breast_cancer_features = breast_cancer.data

# Label Data 지정
breast_cancer_labels = breast_cancer.target

# Target Names 출력
print(breast_cancer.target_names)
print()

# 데이터 Describe
print(breast_cancer.DESCR)

['malignant' 'benign']

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instan

## (3) train, test 데이터 분리

In [56]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_features, breast_cancer_labels, test_size=0.2, random_state=42 )

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


## (4) 다양한 모델로 학습 및 평가

In [57]:
# Decision Tree
decision_tree = DecisionTreeClassifier(random_state=32)

# Random Forest 
random_forest = RandomForestClassifier(random_state=32)

# SVM
svm_model = svm.SVC()

# SGD Classifier
sgd = SGDClassifier()

# Logistic Regression
logistic_regression = LogisticRegression(max_iter=5000)

### 1. Decision Tree

In [46]:
# 모델 학습
decision_tree.fit(X_train, y_train)

# 예측
y_pred_decision_tree = decision_tree.predict(X_test)

In [47]:
# accuracy 확인
print(classification_report(y_test, y_pred_decision_tree))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_decision_tree))

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114

[[40  3]
 [ 3 68]]


### accuracy = 92% / class 0의 recall = 0.93
- 정확도는 92%
- breast_cancer 데이터의 경우 유방암인 환자를 잘 찾아내는게 중요한데 그래서 recall도 중요한 지표가 된다 (malignant == 0)
- confusion matrix를 보면 실제 유방암인 환자 3명을 정상으로 분류한 것을 알 수 있다

### 2. Random Forest

In [58]:
# 모델 학습
random_forest.fit(X_train, y_train)

# 예측
y_pred_random_forest = random_forest.predict(X_test)

In [59]:
# accuracy 확인
print(classification_report(y_test,y_pred_random_forest))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_random_forest))

              precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114

[[40  3]
 [ 1 70]]


### accuracy = 96% / class 0의 recall = 0.93
- 정확도는 96%으로 높은 편이다.
- confusion matrix를 보면 실제 유방암인 환자 3명을 정상으로 분류했음을 알 수 있다

### 3. SVM

In [50]:
# 모델 학습
svm_model.fit(X_train, y_train)

# 예측
y_pred_svm_model = svm_model.predict(X_test)

In [51]:
# accuracy 확인
print(classification_report(y_test,y_pred_svm_model))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_svm_model))

              precision    recall  f1-score   support

           0       1.00      0.86      0.92        43
           1       0.92      1.00      0.96        71

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114

[[37  6]
 [ 0 71]]


### accuracy = 95% / class 0의 recall = 0.86
- class 0의 recall을 보면 0.86으로 낮다
- confusion matrix를 확인해보면 실제 유방암인 환자 6명을 정상으로 분류했음을 알 수 있다

### 4. SGD Classifier

In [60]:
# 모델 학습
sgd.fit(X_train, y_train)

# 예측
y_pred_sgd = sgd.predict(X_test)

In [61]:
# accuracy 확인
print(classification_report(y_test,y_pred_sgd))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       0.95      0.93      0.94        43
           1       0.96      0.97      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114

[[40  3]
 [ 2 69]]


### accuracy = 96% / class 0의 recall = 0.93
- 정확도는 96%으로 높은 편이다
- 실제 유방암인 환자 3명을 정상으로 분류했으며, 정상인 2명을 유방암 환자로 분류했음을 confusion matrix를 통해 알 수 있다

### 5. Logistic Regression

In [54]:
# 모델 학습
logistic_regression.fit(X_train, y_train)

# 예측
y_pred_logistic_regression = logistic_regression.predict(X_test)

In [55]:
# accuracy 확인
print(classification_report(y_test,y_pred_logistic_regression))

# confusion_matrix

print(confusion_matrix(y_test, y_pred_logistic_regression))

              precision    recall  f1-score   support

           0       0.97      0.91      0.94        43
           1       0.95      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.96      0.95      0.95       114
weighted avg       0.96      0.96      0.96       114

[[39  4]
 [ 1 70]]


### accuracy = 96% / class 0의 recall = 0.91
- 정확도는 96%으로 높은 편이다
- 실제 유방암인 환자 4명을 정상으로 분류했음을 알 수 있다

## (5) 결론
- breast_cancer 데이터의 경우, 유방암인 환자를 잘 찾아내는 것이 무엇보다 중요하다. 
- 그래서 accuracy도 중요하지만 유방암에 대한 recall도 중요한 지표가 된다
- Random Forest와  SGD Classifier 둘다 accuracy가 96%이고 유방암에 대한 recall이 0.93으로 동일한데 confusion matrix를 보면 실제 유방암이 아닌사람을 유방암으로 분류한 수가 SGD Classifier가 1명 더 많다.
- 무엇보다 유방암인 환자를 잘 찾아내는 것이 중요하므로, accuracy와 유방암에 대한 recall이 높은 Random Forest와  SGD Classifier 둘다 성능이 좋다고 결론을 낼 수 있다