# Exploration 노드 2

## (1) 손글씨 분류

In [72]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [73]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# (2) 데이터 준비
iris = load_iris()
iris_data = iris.data
iris_label = iris.target

# (3) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



### 데이터 준비

In [74]:
# 손글씨 데이터 로딩
digits = load_digits()

### 데이터 이해하기

In [75]:
# 데이터셋에 대한 설명 
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

In [76]:
# Feature data의 종류 확인
digits.feature_names

['pixel_0_0',
 'pixel_0_1',
 'pixel_0_2',
 'pixel_0_3',
 'pixel_0_4',
 'pixel_0_5',
 'pixel_0_6',
 'pixel_0_7',
 'pixel_1_0',
 'pixel_1_1',
 'pixel_1_2',
 'pixel_1_3',
 'pixel_1_4',
 'pixel_1_5',
 'pixel_1_6',
 'pixel_1_7',
 'pixel_2_0',
 'pixel_2_1',
 'pixel_2_2',
 'pixel_2_3',
 'pixel_2_4',
 'pixel_2_5',
 'pixel_2_6',
 'pixel_2_7',
 'pixel_3_0',
 'pixel_3_1',
 'pixel_3_2',
 'pixel_3_3',
 'pixel_3_4',
 'pixel_3_5',
 'pixel_3_6',
 'pixel_3_7',
 'pixel_4_0',
 'pixel_4_1',
 'pixel_4_2',
 'pixel_4_3',
 'pixel_4_4',
 'pixel_4_5',
 'pixel_4_6',
 'pixel_4_7',
 'pixel_5_0',
 'pixel_5_1',
 'pixel_5_2',
 'pixel_5_3',
 'pixel_5_4',
 'pixel_5_5',
 'pixel_5_6',
 'pixel_5_7',
 'pixel_6_0',
 'pixel_6_1',
 'pixel_6_2',
 'pixel_6_3',
 'pixel_6_4',
 'pixel_6_5',
 'pixel_6_6',
 'pixel_6_7',
 'pixel_7_0',
 'pixel_7_1',
 'pixel_7_2',
 'pixel_7_3',
 'pixel_7_4',
 'pixel_7_5',
 'pixel_7_6',
 'pixel_7_7']

In [77]:
# Label 종류 확인
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

digits의 데이터셋을 살펴보면, features는 8x8 크기의 이미지 파일의 각 픽셀값을 나타내고, 우리가 분류하려는 class/label은 0~9의 숫자라는 것을 확인할 수 있다.

In [78]:
# 데이터셋의 Feature Data와 Label Data를 나눠서 저장
digits_data = digits.data
digits_labels = digits.target

In [79]:
digits_data.shape

(1797, 64)

In [80]:
digits_labels.shape

(1797,)

In [81]:
import numpy as np
unique_elements, counts_elements = np.unique(digits_labels, return_counts=True)
print("Frequency of unique values of the said array:")
print(np.asarray((unique_elements, counts_elements)))

Frequency of unique values of the said array:
[[  0   1   2   3   4   5   6   7   8   9]
 [178 182 177 183 181 182 181 179 174 180]]


Feature data와 Label들을 각각 digits_data와 digits_label에 저장하였다. shape을 확인하니 digits data의 DESCR 내용과 일치하여 제대로 데이터를 불러왔다는 것을 확인하였다. 또한, 데이터의 구성을 확인하면 0~9 각 class별로 대략 180개의 데이터가 있어, 모두 비슷하게 분포되어 있다는 것도 알 수 있다. 

### Train과 Test 데이터로 분리

In [160]:
X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_labels, test_size = 0.2, random_state = 42)

In [83]:
print("X_train shape : ", X_train.shape)
print("X_test shape : ", X_test.shape)
print("y_train shape : ", y_train.shape)
print("y_test shape : ", y_test.shape)


X_train shape :  (1437, 64)
X_test shape :  (360, 64)
y_train shape :  (1437,)
y_test shape :  (360,)


### 모델 학습
#### (1) Decision Tree 모델

In [84]:
# 필요한 Classifier 불러오기
from sklearn.tree import DecisionTreeClassifier

In [85]:
# Classifier 생성
decision_tree = DecisionTreeClassifier(random_state = 42)

# 데이터에 fit (학습)
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=42)

In [86]:
# Test 데이터로 예측 
y_pred = decision_tree.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.88      0.97      0.92        30
           1       0.79      0.85      0.81        26
           2       0.73      0.86      0.79        28
           3       0.85      0.76      0.81        38
           4       0.91      0.84      0.87        50
           5       0.85      0.89      0.87        45
           6       0.91      0.97      0.94        33
           7       0.91      0.82      0.86        38
           8       0.70      0.75      0.72        28
           9       0.82      0.75      0.79        44

    accuracy                           0.84       360
   macro avg       0.84      0.84      0.84       360
weighted avg       0.85      0.84      0.84       360



#### (2) Random Forest 모델

In [87]:
from sklearn.ensemble import RandomForestClassifier

In [88]:
# Classifier 생성
random_forest = RandomForestClassifier(random_state = 42)

# 데이터에 fit (학습)
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=42)

In [89]:
# Test 데이터로 예측
y_pred = random_forest.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.97      1.00      0.98        32
           1       1.00      0.97      0.98        29
           2       1.00      1.00      1.00        33
           3       0.94      1.00      0.97        32
           4       1.00      0.98      0.99        47
           5       0.96      0.94      0.95        48
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       0.97      0.97      0.97        30
           9       0.95      0.95      0.95        40

    accuracy                           0.97       360
   macro avg       0.97      0.97      0.97       360
weighted avg       0.97      0.97      0.97       360



#### (3) SVM(Support Vector Machine) 모델

In [90]:
from sklearn import svm

In [91]:
# Classifier 생성
svm_model = svm.SVC()

# 데이터에 fit(학습)
svm_model.fit(X_train, y_train)

SVC()

In [92]:
# Test 데이터로 예측
y_pred = svm_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       1.00      1.00      1.00        28
           2       1.00      1.00      1.00        33
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        46
           5       0.98      0.98      0.98        47
           6       1.00      0.97      0.99        36
           7       0.97      0.97      0.97        34
           8       0.97      1.00      0.98        29
           9       0.95      0.95      0.95        40

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



#### (4) SGD Classifier 모델

In [93]:
from sklearn.linear_model import SGDClassifier

In [94]:
# Classifier 생성
sgd_model = SGDClassifier()

# 데이터에 fit(학습)
sgd_model.fit(X_train, y_train)

SGDClassifier()

In [95]:
# Test 데이터로 예측
y_pred = sgd_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.82      1.00      0.90        23
           2       1.00      1.00      1.00        33
           3       0.97      1.00      0.99        33
           4       0.98      0.98      0.98        46
           5       0.96      0.96      0.96        47
           6       0.97      0.97      0.97        35
           7       0.97      1.00      0.99        33
           8       0.97      0.74      0.84        39
           9       0.90      0.95      0.92        38

    accuracy                           0.96       360
   macro avg       0.95      0.96      0.95       360
weighted avg       0.96      0.96      0.95       360



#### (5) Logistic Regression 모델

In [96]:
from sklearn.linear_model import LogisticRegression

In [161]:
# Classifier 생성
logistic_model = LogisticRegression(solver = 'liblinear')

# 데이터에 fit(학습)
logistic_model.fit(X_train, y_train)

LogisticRegression(solver='liblinear')

ConvergenceWarning이 발생하여 이를 해결하기 위해서 solver를 따로 지정해주었다. 

In [162]:
# Test 데이터로 예측
y_pred = logistic_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        33
           1       0.96      0.93      0.95        29
           2       1.00      0.97      0.99        34
           3       0.97      1.00      0.99        33
           4       0.96      1.00      0.98        44
           5       0.96      0.94      0.95        48
           6       0.97      0.94      0.96        36
           7       0.97      1.00      0.99        33
           8       0.93      0.85      0.89        33
           9       0.90      0.97      0.94        37

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360



### 모델 평가
모델을 평가할 지표를 선택한 후 모델들을 그 지표로 비교하면 된다. 주로 사용하는 지표들은 주로 Precision, Recall, F1 점수, Accuracy 등이 존재한다.   
  
우리는 현재 이미지 속의 숫자를 올바르게 구분할 수 있는 모델을 만들고자 한다. 단순히 이미지 속의 숫자가 무엇인지 맞추는 것 자체가 목적이기 때문에 Precision과 Recall 중에 어느 것이 특별히 더 중요하다고 하기 어렵다고 생각한다. 그렇기 때문에 여기서 True Negative와 False Positive가 모두 고려가 되는 __F1 점수를 사용하여 평가하는 것이 적절하다__. 또한 확실하지는 않지만, 어떤 예측 결과가 실제로 틀린 경우를 옳다고 하는 False Postive인지 또는 옳았는데 틀렸다고 하는 False Negative인지보다는 이렇게 예측하여 결국 맞았는지 틀렸는지 자체가 중요하기 때문에, F1점수 외에도 Accuracy를 사용해도 크게 문제가 되지 않을 것 같다. 
  
그래도 일단 F1 점수를 모델별로 비교해본다면, SVM 모델이 평균적으로 0.99의 f1-score를 갖는데 이것이 다섯 모델 중 가장 높다는 것을 확인할 수 있다. 또한 F1 점수뿐만 아니라 Precision, Recall, Accuracy 모두 0.99가 나와, 다른 지표를 이용해도 SVM이 가장 성능이 좋다고 판단할 수 있다. 

## (2) 와인 분류

In [99]:
from sklearn.datasets import load_wine

### 데이터 준비

In [100]:
# 와인 데이터 로딩
wine = load_wine()

### 데이터 이해하기

In [101]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [102]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [103]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

와인 데이터는 손글씨 데이터보다 DESCR이 자세하게 기술되어 있다. 사실 feature 이름이나 class/label 이름 모두 DESCR에 나와있지만 다시 한번 확인하기 위해서 출력하였다. 와인 데이터에는 와인에 대한 화학적 성분 또는 색깔 등의 여러 특징인 13개의 feature에 대한 정보가 포함되어 있고, class/label은 class 0~2, 즉 3개의 클래스로 구성되어 있다. 와인 데이터의 DESCR에는 클래스별 데이터의 분포에 대한 정보도 있는데, class_0은 59, class_1은 71, class_2는 48, 이렇게 분포되어 있다. 1800장 가까이 있던 손글씨 데이터셋에 비해 양이 거의 10분의 1밖에 되지 않는다.

In [104]:
# 데이터셋의 Feature Data와 Label Data를 나눠서 저장
wine_data = wine.data
wine_labels = wine.target

In [105]:
wine_data.shape

(178, 13)

In [145]:
wine_labels.shape

(178,)

Feature data와 Label들을 각각 digits_data와 digits_label에 저장하였다. 데이터의 개수는 DESCR에 기술되어 있는 것과 일치한다. 

### Train과 Test 데이터로 분리

In [163]:
X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_labels, test_size=0.2, random_state=42)

In [147]:
print("X_train shape : ", X_train.shape)
print("X_test shape : ", X_test.shape)
print("y_train shape : ", y_train.shape)
print("y_test shape : ", y_test.shape)

X_train shape :  (142, 13)
X_test shape :  (36, 13)
y_train shape :  (142,)
y_test shape :  (36,)


### 모델 학습
#### (1) Decision Tree 모델

In [148]:
# Classifier 생성
decision_tree = DecisionTreeClassifier(random_state = 42)

# 데이터에 fit (학습)
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=42)

In [149]:
# Test 데이터로 예측 
y_pred = decision_tree.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        14
           1       1.00      0.93      0.97        15
           2       0.88      1.00      0.93         7

    accuracy                           0.94        36
   macro avg       0.93      0.95      0.94        36
weighted avg       0.95      0.94      0.94        36



#### (2) Random Forest 모델

In [150]:
# Classifier 생성
random_forest = RandomForestClassifier(random_state = 42)

# 데이터에 fit (학습)
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=42)

In [151]:
# Test 데이터로 예측
y_pred = random_forest.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



#### (3) SVM(Support Vector Machine) 모델

In [152]:
# Classifier 생성
svm_model = svm.SVC()

# 데이터에 fit(학습)
svm_model.fit(X_train, y_train)

SVC()

In [153]:
# Test 데이터로 예측
y_pred = svm_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.79      0.73      0.76        15
           2       0.50      0.57      0.53         7

    accuracy                           0.81        36
   macro avg       0.76      0.77      0.76        36
weighted avg       0.81      0.81      0.81        36



#### (4) SGD Classifier 모델

In [154]:
# Classifier 생성
sgd_model = SGDClassifier()

# 데이터에 fit(학습)
sgd_model.fit(X_train, y_train)

SGDClassifier()

In [155]:
# Test 데이터로 예측
y_pred = sgd_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      0.67      0.80        21
           1       0.07      1.00      0.13         1
           2       0.62      0.36      0.45        14

    accuracy                           0.56        36
   macro avg       0.57      0.67      0.46        36
weighted avg       0.83      0.56      0.65        36



#### (5) Logistic Regression 모델

In [164]:
# Classifier 생성
logistic_model = LogisticRegression(solver = 'liblinear')

# 데이터에 fit(학습)
logistic_model.fit(X_train, y_train)

LogisticRegression(solver='liblinear')

In [165]:
# Test 데이터로 예측
y_pred = logistic_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.93      1.00      0.96        13
           1       1.00      0.93      0.97        15
           2       1.00      1.00      1.00         8

    accuracy                           0.97        36
   macro avg       0.98      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36



### 모델 평가
이 데이터셋의 경우에도 손글씨 분류와 비슷한 느낌으로 와인의 3가지 종류를 분류하는 것 자체가 목적이다. 그렇기 때문에 비슷하게 Precision이나 Recall 한 쪽에 중점을 주는 것보다 False Positive와 False Negative를 모두 반영한 __F1점수를 평가 지표로 활용하는 것이 적절하다__.  
  
고민을 해보니, Precision 또는 Recall 중 하나를 더 중요하게 보는 상황은 이런 여러 클래스로 분류하는 multiclass classification의 경우보다 이진분류(binary classification)의 경우에 더 적합할 것 같다. 이번 노드에서 예시로 든 암환자 또는 스팸메일과 같은 경우 모두 암인지 아닌지, 스팸인지 아닌지처럼 이진분류이다. 이렇게 클래스가 여러 개인 경우에서는 하나의 틀린 케이스가 갖는 의미가 이진분류에서만큼 크거나 확실하지 않아서인 것 같다.  
  
어쨋든, F1 점수를 이용하여 다섯 모델을 비교해보면, Random Forest 모델이 1.0 가장 높다. 뿐만 아니라, 이 모델은 test set을 완벽하게 분류하여 recall, precision, accuracy 모두 1.0으로 완벽한 성능을 보여주었다. 아마 데이터셋의 크기가 작기 때문에 가능했을 것 같다. 

## (3) 유방암 여부 진단


In [166]:
from sklearn.datasets import load_breast_cancer

### 데이터 준비

In [171]:
# 유방암 데이터 로딩
cancer = load_breast_cancer()

### 데이터 이해하기

In [172]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [173]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [174]:
cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

이번 데이터셋의 DESCR도 데이터에 대해 자세하게 기술되어있다. 총 데이터의 개수는 569개이고 label/class는 악성과 양성을 뜻하는 WDBC-Malignant와 WDBC-Benign 두 개로 각각 212, 357개가 존재한다. Feature는 총 30개로, radius, texture와 같은 attribute 10가지가 각각 mean, standard error, worst 3 종류씩 계산이 되어 30개가 된다. 이번 데이터셋을 통해서 이진분류(binary classification)를 할 예정이다. 

In [175]:
# 데이터셋의 Feature Data와 Label Data를 나눠서 저장
cancer_data = cancer.data
cancer_labels = cancer.target

In [176]:
cancer_data.shape

(569, 30)

In [177]:
cancer_labels.shape

(569,)

유방암 데이터셋을 Feature Data와 Label Data로 나누어 cancer_data와 cancer_labels에 저장하였다. shape을 확인하니 제대로 나뉜 것을 확인할 수 있다. 

### Train과 Test 데이터로 분리

In [178]:
X_train, X_test, y_train, y_test = train_test_split(cancer_data, cancer_labels, test_size=0.2, random_state=42)

In [179]:
print("X_train shape : ", X_train.shape)
print("X_test shape : ", X_test.shape)
print("y_train shape : ", y_train.shape)
print("y_test shape : ", y_test.shape)

X_train shape :  (455, 30)
X_test shape :  (114, 30)
y_train shape :  (455,)
y_test shape :  (114,)


### 모델 학습
#### (1) Decision Tree 모델

In [180]:
# Classifier 생성
decision_tree = DecisionTreeClassifier(random_state = 42)

# 데이터에 fit (학습)
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=42)

In [181]:
# Test 데이터로 예측 
y_pred = decision_tree.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



#### (2) Random Forest 모델

In [182]:
# Classifier 생성
random_forest = RandomForestClassifier(random_state = 42)

# 데이터에 fit (학습)
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=42)

In [183]:
# Test 데이터로 예측
y_pred = random_forest.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.93      0.98      0.95        41
           1       0.99      0.96      0.97        73

    accuracy                           0.96       114
   macro avg       0.96      0.97      0.96       114
weighted avg       0.97      0.96      0.97       114



#### (3) SVM(Support Vector Machine) 모델

In [185]:
# Classifier 생성
svm_model = svm.SVC()

# 데이터에 fit(학습)
svm_model.fit(X_train, y_train)

SVC()

In [186]:
# Test 데이터로 예측
y_pred = svm_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.86      1.00      0.92        37
           1       1.00      0.92      0.96        77

    accuracy                           0.95       114
   macro avg       0.93      0.96      0.94       114
weighted avg       0.95      0.95      0.95       114



#### (4) SGD Classifier 모델

In [187]:
# Classifier 생성
sgd_model = SGDClassifier()

# 데이터에 fit(학습)
sgd_model.fit(X_train, y_train)

SGDClassifier()

In [188]:
# Test 데이터로 예측
y_pred = sgd_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.72      1.00      0.84        31
           1       1.00      0.86      0.92        83

    accuracy                           0.89       114
   macro avg       0.86      0.93      0.88       114
weighted avg       0.92      0.89      0.90       114



#### (5) Logistic Regression Model

In [189]:
# Classifier 생성
logistic_model = LogisticRegression(solver = 'liblinear')

# 데이터에 fit(학습)
logistic_model.fit(X_train, y_train)

LogisticRegression(solver='liblinear')

In [190]:
# Test 데이터로 예측
y_pred = logistic_model.predict(X_test)

# 예측 결과에 대한 평가
print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.91      0.97      0.94        40
           1       0.99      0.95      0.97        74

    accuracy                           0.96       114
   macro avg       0.95      0.96      0.95       114
weighted avg       0.96      0.96      0.96       114



### 모델 평가

이런 암 환자 진단과 같은 경우에는 Recall이 확실하게 Precision보다 중요하다. 그 이유는 실제로 음성인데 양성 판정을 한다면(False Positive - Precision에 영향) 좀 번거로울 수는 있어도 크게 문제가 되지 않는데, 양성이 음성 판정을 받는다면(False Negative- Recall에 영향), 환자가 치료를 받지 못 하게 되어 심각한 문제가 된다. 또한 데이터의 분포에 있어 두 클래스 간에 심각한 불균형이 있는 것은 아니기 때문에 오로지 Recall만 보고 판단해도 괜찮다. 
  
이는 앞서 다룬 데이터와의 차이가 있는데, 암 환자 진단에 있어서 False Negative와 False Positive가 주는 영향이 서로 다르다면, 손글씨 분류 또는 와인 분류는 False Negative든 False Positive든 일단 틀렸다는 점이 중요하다는 것이다. 이전에는 F1 점수나 accuracy를 평가 지표로 이용했지만, 현재 암 환자 진단의 경우에는 recall을 이용하는 이유이다.    
  
어쨋든 그럼 Recall을 바탕으로 모델들을 평가하면, Random Forest 모델이 Recall macro average 0.97로 가장 성능이 뛰어나다. 근데 이전 데이터셋들에서와 마찬가지로 Recall뿐만 아니라 Precision, F1 점수, Accuracy 모두에서 다른 모델들보다 성능이 좋기 때문에 확실하게 이 경우에서는 Random Forest모델을 성능이 좋다고 할 수 있다. 