## (1) load_digits : 손글씨를 분류해 봅시다

In [1]:
# (1)필요한 모듈 import하기

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score # 모델 평가에 사용

In [2]:
# (2) 데이터 준비
# load_digits 메서드를 사용

digits = load_digits()
print(dir(digits))

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']


In [3]:
# (3)데이터 이해하기

# (3)-1. Feature Data 지정

digits_data = digits.data
digits_data.shape    ## shape는 배열의 형상정보를 출력(데이터 형태)

(1797, 64)

In [4]:
    ## digits_data에 저장된 데이터 양과 형식 확인
    ## 1797개의 digit 데이터와 각각의 데이터에 64개의 픽셀값이 저장되어 있음.

In [5]:
# (3)-2. Label Data 지정

digits_label = digits.target
print(digits_label.shape)
digits_label

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

In [6]:
# (3)-3. Target Names 출력

digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
    ## Target_Name는 0~9까지의 숫자

In [8]:
# (3)-4. 데이터 Describe 해 보기

print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

In [9]:
# (4) train, test 데이터 분리

# 모델 학습과 테스트용 문제지와 정답지를 준비
# X_train, X_test, y_train, y_test를 생성하는 방법을 참고


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


In [10]:
    ## digits 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
    ## test 데이터 셋의 크기는 전체 데이터셋의 20%
    ## 1797개의 데이터셋 - 학습용 데이터: 1437개, 테스트용 데이터: 360개

In [11]:
# (5) 다양한 모델로 학습시켜보기
# 학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 보자.


# (5)-1. Decision Tree 사용해 보기

from sklearn.tree import DecisionTreeClassifier # 모델을 import해서 가져오기

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) # decision_tree 라는 변수에 모델을 저장
y_pred = decision_tree.predict(X_test) # Decision Tree 모델, 학습 - 결과


digit_acc={}   # 손글씨 데이터의 정확도 dictionary
digit_acc['Decision Tree'] = accuracy_score(y_test, y_pred) # Decision Tree 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Decision Tree'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360

0.8555555555555555


In [12]:
# Decision Tree, accuracy : 86%    
    
    
    ## Precision
        ## 0, 5, 7, 8 을 제외한 나머지에서 평균 precision(macro avg)보다 낮음.
        ## 0, 5, 7, 8 의 경우, 다른 숫자들에 비해서 정밀한 예측.

    ## Recall
        ## 0, 3, 4, 5, 6 을 제외한 나머지에서 평균 recall(macro avg)보다 낮음.
        ## 0, 3, 4, 5, 6 의 경우, 해당 숫자 내에서 정확한 예측.

        
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.

In [13]:
# (5)-2. Random Forest 사용해 보기

from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

digit_acc['Random Forest'] = accuracy_score(y_test, y_pred) ## Random Forest 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Random Forest'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360

0.9638888888888889


In [14]:
# Decision Tree, accuracy : 91%
    ## 해당 데이터는 악성/양성 종양에 대한 데이터이므로,
    ## accuracy 자체보다는, Recall의 값이 중요함.

    ## Precision
        ## 0, 2, 3, 6, 8 을 제외한 나머지에서 평균 precision(macro avg)보다 낮음.
        ## 0, 2, 3, 6, 8 의 경우, 다른 숫자들에 비해서 정밀한 예측.
        
    ## Recall
        ## 1, 2, 3, 4, 5, 6, 7 을 제외한 나머지에서 평균 recall(macro avg)보다 낮음.
        ## 1, 2, 3, 4, 5, 6, 7 의 경우, 해당 숫자 내에서 정확한 예측.
        ### 특히, 8의 경우, recall값 : 0.84 - 실제 8 데이터 중에서 8이라고 예측한 결과가 굉장히 적음.

        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.

In [15]:
# (5)-3. # SVM 사용해 보기

from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

classifier


In [16]:
# SVM 모델 학습 - 결과
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

digit_acc['SVM'] = accuracy_score(y_test, y_pred) ## SVM 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['SVM'])

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

0.9888888888888889


In [17]:
# SVM, accuracy : 99%

    ## 99%라는 너무 높은 accuracy를 갖기 때문에, 믿을 수 있는 수치인지 의문.
    
    
    ## Precision
        ## 1, 5 에서 평균 precision(macro avg)보다 낮음.
        ## 대부분 정밀한 예측.
        
    ## Recall
        ## 8, 9 에서 평균 recall(macro avg)보다 낮음.
        ## 대부분 해당 숫자 내에서 정확한 예측.
        
        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖음.
        ## but, 99%의 정확도는 굉장히 높은 수치이며, 해당 모델의 성능에 대한 의심.
        ## if, 해당 모델의 성능이 사실이라면, 해당 프로젝트에서는 SVM 모델을 사용하는 것이 가장 좋음.

In [18]:
# (5)-4. # SGD Classifier 사용해 보기

from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

classifier


In [19]:
# SGD 모델 학습 - 결과
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

digit_acc['SGD Classifier'] = accuracy_score(y_test, y_pred) ## SGD 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['SGD Classifier'])

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.94      0.81      0.87        42
           2       0.98      1.00      0.99        40
           3       0.94      0.91      0.93        34
           4       0.95      1.00      0.97        37
           5       0.93      0.96      0.95        28
           6       1.00      0.93      0.96        28
           7       0.97      0.97      0.97        33
           8       0.74      0.91      0.81        43
           9       0.96      0.84      0.90        32

    accuracy                           0.93       360
   macro avg       0.94      0.93      0.93       360
weighted avg       0.94      0.93      0.93       360

0.9305555555555556


In [20]:
# SGD, accuracy : 95%
 
    
    ## Precision
        ## 3, 5, 8, 9 를 제외한 나머지에서 평균 precision(macro avg)보다 높음.
        ## 3, 5, 8, 9 의 경우, 다른 숫자들에 비해서 정밀도가 떨어짐.
        
    ## Recall
        ## 1, 8, 9 을 제외한 나머지에서 평균 recall(macro avg)보다 높음.
        ## 1, 8, 9 의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적음.
        ### 특히, 1의 경우, recall값 : 0.83 - 실제 1 데이터 중에서 1이라고 예측한 결과가 굉장히 적음.
        
        
    ## but, 일부 label에서 precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
        ## 이유? SGD의 특성으로 인한 결과!
        ## SGD는 추출된 데이터 한개에 대해서 그래디언트를 계산하고, 경사 하강 알고리즘을 적용하는 방식.
        ## 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용.
        ## 속도가 매우 빠르지만, 학습 중간 과정에서 결과의 진폭이 크고 불안정.
        ## 데이터를 하나씩 처리하기 때문에 오차율이 크고, GPU의 성능을 모두 활용하지 못함.

In [21]:
# (5)-5. # Logistic Regression 사용해 보기

from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

classifier


In [22]:
# Logistic Regression 모델 학습 - 결과
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

digit_acc['Logistic Regression'] = accuracy_score(y_test, y_pred) ## Logistic Regression 모델 평가

print(classification_report(y_test, y_pred))
print(digit_acc['Logistic Regression'])

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360

0.9527777777777777


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [23]:
# Logistic Regression, accuracy : 95%


    ## precision
        ## 5, 8 를 제외한 나머지에서 평균 precision(macro avg)보다 높음.
        ## 5, 8 의 경우, 다른 숫자들에 비해서 정밀도가 떨어짐.
        
    ## Recall
        ## 8, 9을 제외한 나머지에서 평균 recall(macro avg)보다 높음.
        ## 8, 9의 경우, 해당 숫자 내에서 정확한 예측을 한 비율이 적음.
        
        
        ## 오류
            ## 학습에 따른 모델의 convergence가 이루어지지 않았기에 발생함.
            ## 학습에 대한 모델의 최적화가 이루어지지 않음.
        
        ## 해결방법?
            ## 학습 데이터의 양이 증가하면, 해당 오류를 해결할 수 있지 않을까 생각함.

In [24]:
# (6) 모델을 평가해 보기
# 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
# 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.

In [25]:
# Decision Tree, accuracy : 86%
# Random Forest, accuracy : 96%
# SVM, accuracy : 99%
# SGD, accuracy : 95%
# Logistic Regression, accuracy : 95%


# Decision Tree, accuracy : 86%
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.


# Random Forest, accuracy : 96%
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.


# SVM, accuracy : 99%
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖음.
        ## but, 99%의 정확도는 굉장히 높은 수치이며, 해당 모델의 성능에 대한 의심.
        ## if, 해당 모델의 성능이 사실이라면, 해당 프로젝트에서는 SVM 모델을 사용하는 것이 가장 좋음.


# SGD, accuracy : 95%
    ## 일부 label에서 precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
        ## 이유? SGD의 특성으로 인한 결과!
        ## SGD는 추출된 데이터 한개에 대해서 그래디언트를 계산하고, 경사 하강 알고리즘을 적용하는 방식.
        ## 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용.
        ## 속도가 매우 빠르지만, 학습 중간 과정에서 결과의 진폭이 크고 불안정.
        ## 데이터를 하나씩 처리하기 때문에 오차율이 크고, GPU의 성능을 모두 활용하지 못함.


# Logistic Regression, accuracy : 95%
        ## 오류
            ## 학습에 따른 모델의 convergence가 이루어지지 않았기에 발생함.
            ## 학습에 대한 모델의 최적화가 이루어지지 않음.
        
        ## 해결방법?
            ## 학습 데이터의 양이 증가하면, 해당 오류를 해결할 수 있지 않을까 생각함.


In [26]:
# sklearn.metrics 에서 제공하는 평가지표

    ## 사이킷런 패키지에서 지원하는 분류 성능평가 명령
    ## 사이킷런 패키지는 metrics 서브패키지에서 다음처럼 다양한 분류용 성능평가 명령을 제공.

        # confusion_matrix(y_true, y_pred)
        # accuracy_score(y_true, y_pred) *
        # precision_score(y_true, y_pred)
        # recall_score(y_true, y_pred)
        # fbeta_score(y_true, y_pred, beta)
        # f1_score(y_true, y_pred)
        # classfication_report(y_true, y_pred) *
        # roc_curve
        # auc

## digits datasets의 경우 사실 Recall과 Precision등의 영향을 받지 않는 데이터임.
## digit의 경우 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다 오류를 바르게 예측하는게 더 중요함.
## 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용하면 될 것 같음.
    ## classfication_report(y_true, y_pred)를 사용하여 결과값과 정확성을 알 수 있지만
    ## 한눈에 보기 쉽게 각 모델들의 ccuracy값을 accuracy_score(y_true, y_pred)로 정리.
    
for i in digit_acc.items():
    print("{0:<20} : {1}".format(i[0],i[1]))

Decision Tree        : 0.8555555555555555
Random Forest        : 0.9638888888888889
SVM                  : 0.9888888888888889
SGD Classifier       : 0.9305555555555556
Logistic Regression  : 0.9527777777777777


In [27]:
# 회고

# 정리하자면, 정확도가 가장 높은 수치를 보인 모델은 98%로 SVM이다.
# 해당 프로젝트의 경우, SVM 모델의 성능이 가장 좋다고 생각한다.

# digit의 경우 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다
# 오류를 바르게 예측하는게 더 중요하다고 생각했다.
# 따라서, 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용했다.

# (마지막에 각 모델들의 성능을 한눈에 보기 위해 dictionary의 .items() 함수를 사용했다.)

## (2) load_wine : 와인을 분류해 봅시다

In [1]:
# (1)필요한 모듈 import하기

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report 

In [2]:
# (2) 데이터 준비
# load_wine 메서드를 사용

wine = load_wine()
print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [3]:
# (3)데이터 이해하기

# (3)-1. Feature Data 지정

wine_data = wine.data
wine_data.shape    ## shape는 배열의 형상정보를 출력(데이터 형태)

(178, 13)

In [4]:
    ## wine_data에 저장된 데이터 양과 형식 확인.
    ## 178개의 wine 데이터와 각각의 데이터에 13개의 픽셀값(특성)이 저장되어 있음.

In [5]:
# (3)-2. Label Data 지정

wine_label = wine.target
print(wine_label.shape)
wine_label

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [6]:
# (3)-3. Target Names 출력

wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [7]:
    ## Target_Name은 'class_0', 'class_1', 'class_2 3가지 클래스를 가짐.

In [8]:
# (3)-4. 데이터 Describe 해 보기

print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [9]:
    ## 총 178개의 데이터.
    ## 특성은 총 13개, 모두 정수형 데이터.
    ## 누락된 특성 값 없음. (NaN 값이 없음.)
    ## class_0 (59), class_1 (71), class_2 (48) : 클래스 별 데이터 개수가 균등하지 않음.

In [10]:
# (4) train, test 데이터 분리

# 모델 학습과 테스트용 문제지와 정답지를 준비
# X_train, X_test, y_train, y_test를 생성하는 방법을 참고


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [11]:
    ## wine 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
    ## test 데이터 셋의 크기는 전체 데이터셋의 20%
    ## 178개의 데이터셋 - 학습용 데이터: 142개, 테스트용 데이터: 36개

In [12]:
# (5) 다양한 모델로 학습시켜보기
# 학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 보자.


# 다양한 모델들의 정확도를 한꺼번에 계산하기 위해 예측값들을 저장하는 변수 추가
y_pred_list = []


# (5)-1. Decision Tree 사용해 보기

from sklearn.tree import DecisionTreeClassifier # 모델을 import해서 가져오기

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) # decision_tree 라는 변수에 모델을 저장

y_pred = decision_tree.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) # Decision Tree 모델 평가

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36



In [13]:
# Decision Tree, accuracy : 94%    
    
    
    ## Precision
        ## class 1의 경우 평균 precision(macro avg)보다 낮음.

    ## Recall
        ## class 2의 경우 평균 recall(macro avg)보다 낮음.
        
    ## 각각의 label에 따라서 precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 말할 수 없음.

In [14]:
# (5)-2. Random Forest 사용해 보기

from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)

y_pred = random_forest.predict(X_test) 
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) ## Random Forest 모델 평가

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [15]:
# Random Forest, accuracy : 100%


    ## Precision
        ## class 1, 2, 3 모두 정밀한 예측.
        
    ## Recall
        ## class 1, 2, 3 모두 정밀한 예측.
        
    ## precision과 recall의 각 label 별 편차가 대체적으로 크지 않고,
    ## 전반적으로 0.9 이상의 값을 갖기때문에, 모델의 성능이 좋다고 말할 수 있음.

In [16]:
# (5)-3. # SVM 사용해 보기

from sklearn import svm
svm_model = svm.SVC()

print(svm_model._estimator_type)

classifier


In [17]:
# SVM 모델 학습 - 결과
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred)) ## SVM 모델 평가

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.58      0.88      0.70        17
           2       0.33      0.08      0.13        12

    accuracy                           0.61        36
   macro avg       0.59      0.61      0.56        36
weighted avg       0.55      0.61      0.54        36



In [18]:
# SVM, accuracy : 61%

    
    ## Precision
        ## class 1, 2 에서 평균 precision(macro avg)보다 낮음.
        ## class 0의 경우 평균 precision(macro avg)보다 높음.
        
    ## Recall
        ## class 1, 2 에서 평균 recall(macro avg)보다 높음.
        ## class 0의 경우 해당 class 내에서 정확한 예측을 한 비율이 현저하게 적음.
        
        
    ## 전체적으로 오답률이 높았고, 특히 class 2의 경우 대부분이 오답.
    ## 61% 의 굉장히 낮은 정확도.

In [19]:
# (5)-4. # SGD Classifier 사용해 보기

from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

classifier


In [20]:
# SGD 모델 학습 - 결과
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.88      1.00      0.93         7
           1       0.57      0.94      0.71        17
           2       0.00      0.00      0.00        12

    accuracy                           0.64        36
   macro avg       0.48      0.65      0.55        36
weighted avg       0.44      0.64      0.52        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [21]:
# SGD, accuracy : 64%
 
    
    ## Precision
        ## class 0, 1의 경우 평균 precision(macro avg)보다 높음.
        ## class 2 의 경우 평균 precision(macro avg)보다 낮음.
        
    ## Recall
        ## class 0, 2의 경우 평균 recall(macro avg)보다 높음.
        ## class 1 의 경우 평균 recall(macro avg)보다 낮음.
        ## precision과 recall 값이 다른 label에 비해서 많이 낮음.
        
    ## 오류
        ## 예측 샘플이 없는 labels에서 predicted 및 f1-score가 잘못 정의되어 0.0으로 설정됨.
        ## 해결하려면 'zero_division' 매개 변수를 사용하면 됨.

In [22]:
# (5)-5. # Logistic Regression 사용해 보기

from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()

print(logistic_model._estimator_type)

classifier


In [23]:
# Logistic Regression 모델 학습 - 결과
logistic_model.fit(X_train, y_train)

y_pred = logistic_model.predict(X_test)
y_pred_list.append(y_pred)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       1.00      0.86      0.92         7
           1       0.94      1.00      0.97        17
           2       1.00      1.00      1.00        12

    accuracy                           0.97        36
   macro avg       0.98      0.95      0.96        36
weighted avg       0.97      0.97      0.97        36



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [24]:
# Logistic Regression, accuracy : 97%


    ## Precision
        ## class 0, 2의 경우 평균 precision(macro avg)보다 높음.
        ## class 1 의 경우 평균 precision(macro avg)보다 낮음.
        
    ## Recall
        ## class 1, 2의 경우 평균 recall(macro avg)보다 높음.
        ## class 0 의 경우 평균 recall(macro avg)보다 낮음.
        
    ## 오류
        ## 수렴 경고 : 수렴 실패(status=1), 중지 : 총 반복 횟수가 한계에 도달함.
        ## 해결하려면, 반복 횟수를 늘리거나(max_iter) 데이터를 확장해야 함.

In [25]:
# (6) 모델을 평가해 보기
# 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
# 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.

In [26]:
from sklearn.metrics import f1_score
# 0: decision tree, 1: random forest, 2: svm, 3: sgd classifier, 4: logistic regression
for idx, y_pred in enumerate(y_pred_list):
    accuracy = f1_score(y_test, y_pred, average='weighted')
    print(f'{idx} : {accuracy}')

0 : 0.9434624017957352
1 : 1.0
2 : 0.5405684754521964
3 : 0.5172839506172839
4 : 0.9715506715506714


In [27]:
# classification_report의 accuracy로 본 모델들의 정확도를 비교하자면,

# Decision Tree, accuracy : 94%
    ## precision과 recall의 편차가 큰 편이기에, 모델의 성능이 좋다고 판단할 수 없음.

    
# Random Forest, accuracy : 100%
    ## 대부분 class 모두 정밀한 예측. precision과 recall의 편차가 크지 않고
    ## 전반적으로 0.9 이상의 값을 갖기 때문에 모델 성능이 좋다고 판단.

    
# SVM, accuracy : 61%
    ## 전반적으로 오답률이 높았고 굉장히 낮은 정확도를 보임. 성능이 좋다고 판단할 수 없음.

    
# SGD, accuracy : 58%
    ## precision과 recall의 편차가 큰 편이고 굉장히 낮은 정확도를 보임.
    ## 모델의 성능이 좋다고 판단할 수 없음.


# Logistic Regression, accuracy : 97%
    ## 단 하나의 오답을 제외하고 전반적으로 높은 정확도를 보임. 성능이 좋다고 판단할 수 있음.


## wine datasets의 경우 digits와 같은 분류 문제. (Recall과 Precision등의 영향을 받지 않는 데이터.)
## wine의 경우도 정답 또는 오류를 틀리게 예측한 것을 파악하는 것보다 오류를 바르게 예측하는게 더 중요하다고 생각했다.
## 단순히 정확도만 확인해도 무방하기 때문에 Accuracy를 평가지료로 사용하면 될 것 같았다.
## 그렇게 따지면, 정확도가 가장 높은 수치를 보인 모델은 100%로 Random Forest이다.

# 그런데, 해당 프로젝트 target의 class들의 데이터 개수는 균등하지 않게 분포한다는 걸 알 수 있다.
# 보통 분류 문제의 경우 classification_report 와 accuracy_score를 이용를 이용한다.
# 하지만 데이터의 불균형으로 정확한 판단이 힘들다고 생각해 accuracy_score가 아닌 f1 score average를 평가지표로 선택했다.

In [28]:
# 회고

# 정리하자면, 해당 프로젝트의 경우 RandomForestClassifier 모델의 성능이 가장 좋다고 생각한다.
# 그렇지만, Logistic Regression 의 사용도 고려해볼만 하다.

# 일단, RandomForest Classifier의 f1-score는 1.0이다.
    ## f1 score는 큰 값에 패널티를 주면서 작은 값 위주로 평균을 구하기 때문에 불균형한 데이터에서 잘 작동을 한다.
    ## f1 score average로 weighted를 사용한 이유 : weighted 옵션은 라벨 불균형을 고려해 점수를 계산하기 때문에 선택했다.    
# 결과만 놓고 보자면 accuracy_score 나, f1_score 나 RandomForest 모델이 가장 성능이 좋게 나왔다.

# 하지만 Random Forest 는 Logistic Regression 모델보다 많은 메모리를 사용하며
# 데이터가 많아질시 훈련과 예측이 느리다.
# 따라서 정확도 약 97% 를 가지는 Logistic Regression 의 사용도 고려해볼 수 있다.

# 이번 프로젝트를 통해 f1_score 를 어떻게 해석하고 사용하는지 알 수 있었다.
# 모델의 정확도가 높다고 해서 모델의 성능이 가장 좋다고 할 수 없고,
# 상황과 모델의 특성을 파악해서 선택해야한다는걸 알 수 있었다.

## (3) load_breast_cancer : 유방암 여부를 진단해 봅시다

In [1]:
# (1)필요한 모듈 import하기

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [2]:
# (2) 데이터 준비
# load_breast_cancer 메서드를 사용

breast_cancer = load_breast_cancer()

breast_cancer_data = breast_cancer.data
breast_cancer_label = breast_cancer.target
print(breast_cancer_data.shape)

(569, 30)


In [3]:
    ## breast_cancer_data에 저장된 데이터 양과 형식 확인.
    ## 569개의 breast_cancer 데이터와 각각의 데이터에 30개의 feature이 저장되어 있음.

In [4]:
# (3)데이터 이해하기

# (3)-1. Feature Data 지정

breast_cancer.feature_names
breast_cancer_data[0]

array([1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
       3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
       8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
       3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
       1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01])

In [5]:
# (3)-2. Label Data 지정

breast_cancer_label = breast_cancer.target
print(breast_cancer_label.shape)
print(breast_cancer_label[:])

(569,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 0
 1 0 1 0 0 1 1 1 0 0 1 0 0 0 1 1 1 0 1 1 0 0 1 1 1 0 0 1 1 1 1 0 1 1 0 1 1
 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 0 1 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 1 0 0 0 1 0
 1 0 1 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 0 1 1
 1 0 1 1 1 1 1 0 0 1 1 0 1 1 0 0 1 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1
 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 0 0 1 1
 1 1 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0
 0 1 0 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1
 1 0 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 0 1 1 1 1 1 0 1 1
 0 1 0 1 1 0 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 0

In [6]:
## breast_cancer_label에 저장된 데이터 양과 형식 확인.
## 569개의 데이터가 저장.

In [7]:
# (3)-3. Target Names 출력

breast_cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [8]:
    ## Target_Name은 'malignant', 'benign'

In [9]:
# (3)-4. 데이터 Describe 해 보기

print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [10]:
    ## 총 569개의 데이터.
    ## 특성은 총 30개.
    ## 2개의 라벨 - Malignant(악성 종양) 212개 , Benign(양성 종양) 357개.

In [11]:
# (4) train, test 데이터 분리

# 모델 학습과 테스트용 문제지와 정답지를 준비
# X_train, X_test, y_train, y_test를 생성하는 방법을 참고


from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


In [12]:
    ## wine 데이터 셋을 학습용 데이터와 테스트용 데이터로 분리
    ## test 데이터 셋의 크기는 전체 데이터셋의 20%
    ## 569개의 데이터셋 - 학습용 데이터: 455개, 테스트용 데이터: 114개

In [13]:
# (5) 다양한 모델로 학습시켜보기
# 학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 보자.


# (5)-1. Decision Tree 사용해 보기

from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train) # decision_tree 라는 변수에 모델을 저장
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred)) # Decision Tree 모델 평가
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.82      0.87        40
           1       0.91      0.96      0.93        74

    accuracy                           0.91       114
   macro avg       0.91      0.89      0.90       114
weighted avg       0.91      0.91      0.91       114

[[33  7]
 [ 3 71]]


In [14]:
# Decision Tree, accuracy : 91%
    
    
    ## 해당 데이터는 악성/양성 종양에 대한 데이터이므로,
    ## accuracy 자체보다는, Recall의 값이 중요함.
    
    ## Recall : 0.82의 값으로 측정.
    ## test set 중, 7명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함.

In [15]:
# (5)-2. Random Forest 사용해 보기

from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred)) ## Random Forest 모델 평가
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        40
           1       1.00      1.00      1.00        74

    accuracy                           1.00       114
   macro avg       1.00      1.00      1.00       114
weighted avg       1.00      1.00      1.00       114

[[40  0]
 [ 0 74]]


In [16]:
# Random Forest, accuracy : 100%


    ## 해당 모델의 정확도는 100%.
    ## 모든 악성 종양 환자에게 정확한 진단을 함.

In [17]:
# (5)-3. # SVM 사용해 보기

from sklearn import svm

svm_model = svm.SVC()
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred)) ## SVM 모델 평가
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0.94      0.86      0.89       114
weighted avg       0.92      0.90      0.90       114

[[29 11]
 [ 0 74]]


In [18]:
# SVM, accuracy : 90%

    
    ## 해당 데이터는 악성/양성 종양에 대한 데이터이므로,
    ## accuracy 자체보다는, Recall의 값이 중요.
    
    ## Recall : 0.72의 값으로 측정.
    ## test set 중, 11명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함.

In [19]:
# (5)-4. # SGD Classifier 사용해 보기

from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.70      0.82        40
           1       0.86      1.00      0.92        74

    accuracy                           0.89       114
   macro avg       0.93      0.85      0.87       114
weighted avg       0.91      0.89      0.89       114

[[28 12]
 [ 0 74]]


In [20]:
# SGD, accuracy : 90%
 
    
    ## 해당 데이터는 악성/양성 종양에 대한 데이터이므로,
    ## accuracy 자체보다는, Recall의 값이 중요함.

    ## Recall : 0.72의 값으로 측정.
    ## test set 중, 11명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함.

In [21]:
# (5)-5. # Logistic Regression 사용해 보기

from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.85      0.92        40
           1       0.93      1.00      0.96        74

    accuracy                           0.95       114
   macro avg       0.96      0.93      0.94       114
weighted avg       0.95      0.95      0.95       114

[[34  6]
 [ 0 74]]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [22]:
# Logistic Regression, accuracy : 95%


    ## 해당 데이터는 악성/양성 종양에 대한 데이터이므로,
    ## accuracy 자체보다는, Recall의 값이 중요함.
    
    ## Recall : 0.85의 값으로 측정.
    ## test set 중, 6명의 악성 종양 환자에게 양성 종양이라는 잘못된 판단을 함.
        
    ## 오류
        ## 수렴 경고 : 수렴 실패(status=1), 중지 : 총 반복 횟수가 한계에 도달함.
        ## 해결하려면, 반복 횟수를 늘리거나(max_iter) 데이터를 확장해야 함.

In [23]:
# (6) 모델을 평가해 보기

# 학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요?
# 모델의 성능을 평가하는 지표로는 무엇이 좋을까요?
# sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요.
# 선택하신 이유도 설명해 주세요.

In [24]:
# 평가지표로 confusion_matrix를 사용한 이유?
    ## [recall_score]를 이용하고 싶었는데 어째서인지 자꾸 모든 데이터값이 1로 나와서
    ## 올바른 비교와 판단이 힘들어 [confusion_matrix]를 사용했다.

# 해당 프로젝트에서는 reall값이 중요하다고 판단했다.
    ## reall값이란 예측값으로 해당 프로젝트의 데이터 상에 암인데 암이 아닌 것으로 예측하는 것보다
    ## 암이 아닌 것을 암으로 예측하는 것이 낫기 때문에 recall값을 평가지료로 사용했다.

# 일단 모든 모델들의 accuracy로 보자면, 
    ## Decision Tree: 91% (Recall = 0.82)
    ## Random Forest: 100% (Recall = 1.00)
    ## SVM: 90% (Recall = 0.72)
    ## SGD Classifier: 89% (Recall = 0.70)
    ## Logistic Regression: 95% (Recall = 0.85)
    ## 모든 모델이 89%이상의 정확도를 보여준다.

# 해당 프로젝트에서 Random Forest를 제외한 나머지 모델에서는 Recall 값이 0.70~0.85 사이의 값을 갖는 것으로 확인.
    ## 즉, 악성 종양 환자를 양성 종양 환자로 판단한 케이스가 6~12명.

# 따라서 Random Forest를 제외한 나머지 4개의 모델은 해당 데이터에 적합한 모델이 아니라고 판단.

    ## 환자 입장에서는 암이 존재한다고 했을 때 놓치지 않고 검출하는 것이 가장 좋을 것.
    ## 만약 암의 존재를 알아차라지 못하면 치료가 늦어져서 생명에 위험이 생기기 때문.
    ## 하지만 암이 존재하지 않는데도 불구하고 존재한다고 검출을 했을 때는 결과적으로는 문제가 없음.

In [25]:
# 회고

# 정리하자면, 해당 프로젝트의 경우 Random ForestClassifier 모델의 성능이 가장 좋다고 생각한다.
# Random Forest Classifier의 recall은 1.0이다. 즉, 모든 악성 종양 환자에게 정확한 진단을 했다.
# 해당 프로젝트 같은 사람의 생명이 걸린 문제에서는 적절한 모델을 사용하여 최대한 정확한 진단을 필요로 한다. 

# 전체 프로젝트에서 Random Forest 모델이 대체적으로 성능이 높았다.
# 그러나, RandomForest의 경우 느린 속도와 많은 메모리 차지를 하는 단점을 가지고 있어서 상황에 맞게 선택해야 할 것 같다.
# 프로젝트(3)과 같이 생명이 걸린 경우 속도보다 정확한 예측과 진단이 필요하기 때문에 Random Forest 모델이 적합하다. 

# 이번 EXPLORATION을 통해 다양한 데이터들을 관찰하고 이해하며, 데이터에 맞는 분류 모델을 알아봤다.
# 데이터와 문제, 상황 등 적합한 모델을 고르기 위해 고려해야할 사항이 존재했다.
# 또한, 성능이 좋다는 것이 무조건 정확도가 높다는 걸로 판단할 수 없었다.