# 손글씨 분류하기

In [2]:
import sklearn

print(sklearn.__version__)

1.1.1


## Step 1. 필요한 모듈 import 하기

In [3]:
from sklearn.datasets import load_digits # sklearn 라이브러리의 datasets 패키지에서 load_digits 함수를 임포트
from sklearn.model_selection import train_test_split # sklearn model_selection패키지의 train_test_split 함수를 임포트
from sklearn.metrics import classification_report # sklearn metrics패키지의 classification_report 함수를 임포트

## Step 2. 데이터 준비

In [4]:
digits = load_digits()
# load_digits 함수는 digits 데이터셋을 로드하는 함수
# 로드된 digits 데이터셋을 digits라는 변수에 저장

print(dir(digits))

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']


In [5]:
digits_data = digits.data
# keys에서 확인한 정보 중 data를 따로 digits_data 변수에 저장

print(digits_data.shape)
# 1797의 행과 각각 64개의 열로 구성

(1797, 64)


## Step 3. 데이터 이해하기

In [10]:
# Feature Data 지정하기
digits.feature_names
# digits.data에서 확인한 64개 정보의 변수명 확인

['pixel_0_0',
 'pixel_0_1',
 'pixel_0_2',
 'pixel_0_3',
 'pixel_0_4',
 'pixel_0_5',
 'pixel_0_6',
 'pixel_0_7',
 'pixel_1_0',
 'pixel_1_1',
 'pixel_1_2',
 'pixel_1_3',
 'pixel_1_4',
 'pixel_1_5',
 'pixel_1_6',
 'pixel_1_7',
 'pixel_2_0',
 'pixel_2_1',
 'pixel_2_2',
 'pixel_2_3',
 'pixel_2_4',
 'pixel_2_5',
 'pixel_2_6',
 'pixel_2_7',
 'pixel_3_0',
 'pixel_3_1',
 'pixel_3_2',
 'pixel_3_3',
 'pixel_3_4',
 'pixel_3_5',
 'pixel_3_6',
 'pixel_3_7',
 'pixel_4_0',
 'pixel_4_1',
 'pixel_4_2',
 'pixel_4_3',
 'pixel_4_4',
 'pixel_4_5',
 'pixel_4_6',
 'pixel_4_7',
 'pixel_5_0',
 'pixel_5_1',
 'pixel_5_2',
 'pixel_5_3',
 'pixel_5_4',
 'pixel_5_5',
 'pixel_5_6',
 'pixel_5_7',
 'pixel_6_0',
 'pixel_6_1',
 'pixel_6_2',
 'pixel_6_3',
 'pixel_6_4',
 'pixel_6_5',
 'pixel_6_6',
 'pixel_6_7',
 'pixel_7_0',
 'pixel_7_1',
 'pixel_7_2',
 'pixel_7_3',
 'pixel_7_4',
 'pixel_7_5',
 'pixel_7_6',
 'pixel_7_7']

In [6]:
# Label Data 지정하기
digits_label = digits.target
# keys에서 확인한 정보 중 target을 따로 digits_label 변수에 저장

print(digits_label.shape)
digits_label
# 1797개의 숫자만 가지고 있음.

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

In [8]:
# Target Names 출력해보기
digits.target_names

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
# 데이터 Describe 해보기
print(digits.DESCR)

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

In [12]:
import pandas as pd

print(pd.__version__)

1.4.4


In [13]:
digits_df = pd.DataFrame(data=digits_data, columns=digits.feature_names)

digits_df # 손글씨 데이터프레임 확인

Unnamed: 0,pixel_0_0,pixel_0_1,pixel_0_2,pixel_0_3,pixel_0_4,pixel_0_5,pixel_0_6,pixel_0_7,pixel_1_0,pixel_1_1,...,pixel_6_6,pixel_6_7,pixel_7_0,pixel_7_1,pixel_7_2,pixel_7_3,pixel_7_4,pixel_7_5,pixel_7_6,pixel_7_7
0,0.0,0.0,5.0,13.0,9.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,6.0,13.0,10.0,0.0,0.0,0.0
1,0.0,0.0,0.0,12.0,13.0,5.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,11.0,16.0,10.0,0.0,0.0
2,0.0,0.0,0.0,4.0,15.0,12.0,0.0,0.0,0.0,0.0,...,5.0,0.0,0.0,0.0,0.0,3.0,11.0,16.0,9.0,0.0
3,0.0,0.0,7.0,15.0,13.0,1.0,0.0,0.0,0.0,8.0,...,9.0,0.0,0.0,0.0,7.0,13.0,13.0,9.0,0.0,0.0
4,0.0,0.0,0.0,1.0,11.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,2.0,16.0,4.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1792,0.0,0.0,4.0,10.0,13.0,6.0,0.0,0.0,0.0,1.0,...,4.0,0.0,0.0,0.0,2.0,14.0,15.0,9.0,0.0,0.0
1793,0.0,0.0,6.0,16.0,13.0,11.0,1.0,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,6.0,16.0,14.0,6.0,0.0,0.0
1794,0.0,0.0,1.0,11.0,15.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,2.0,9.0,13.0,6.0,0.0,0.0
1795,0.0,0.0,2.0,10.0,7.0,0.0,0.0,0.0,0.0,0.0,...,2.0,0.0,0.0,0.0,5.0,12.0,16.0,12.0,0.0,0.0


## Step 4. train, test 데이터 분리

In [11]:
X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
# 나눠야 할 데이터(문제지, x) : digits_data
# 데이터의 라벨(정답, y) : digits_label
# digits_data와 digits_label을 각각 train:test = 8:2 비율로 자름

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  1437 , X_test 개수:  360


In [14]:
y_train, y_test
# label이 잘 분리되었는지 확인

(array([2, 2, 2, ..., 1, 3, 3]),
 array([6, 0, 5, 9, 2, 9, 0, 4, 1, 0, 1, 8, 2, 5, 2, 8, 1, 8, 9, 1, 0, 2,
        0, 4, 5, 3, 3, 0, 0, 4, 1, 4, 4, 4, 6, 1, 4, 0, 6, 6, 0, 9, 3, 6,
        6, 2, 0, 1, 9, 6, 2, 8, 9, 9, 0, 2, 0, 8, 4, 6, 8, 5, 8, 7, 8, 7,
        7, 4, 1, 4, 5, 5, 4, 6, 2, 0, 1, 3, 7, 5, 8, 2, 4, 4, 2, 5, 1, 9,
        3, 7, 6, 3, 3, 5, 6, 2, 1, 0, 1, 9, 4, 1, 1, 3, 1, 6, 9, 0, 3, 7,
        6, 9, 3, 8, 0, 8, 3, 8, 8, 6, 3, 7, 3, 9, 0, 3, 0, 9, 8, 1, 2, 2,
        3, 6, 9, 4, 0, 5, 4, 2, 9, 1, 0, 2, 5, 0, 2, 2, 7, 4, 6, 9, 8, 2,
        6, 0, 4, 4, 8, 5, 0, 2, 4, 6, 8, 2, 3, 7, 2, 9, 0, 3, 5, 9, 1, 6,
        8, 7, 5, 3, 0, 4, 2, 1, 3, 3, 6, 0, 2, 8, 4, 1, 4, 7, 5, 7, 6, 6,
        8, 1, 0, 6, 8, 7, 1, 1, 9, 8, 5, 5, 3, 6, 8, 1, 2, 0, 7, 5, 3, 0,
        8, 2, 0, 4, 0, 9, 4, 8, 4, 7, 9, 7, 3, 6, 2, 5, 1, 5, 9, 2, 9, 9,
        8, 2, 1, 6, 7, 1, 7, 5, 7, 8, 9, 5, 7, 4, 3, 7, 8, 8, 2, 8, 9, 5,
        3, 2, 8, 0, 4, 2, 1, 0, 8, 4, 1, 7, 1, 4, 7, 7, 1, 8, 3, 8, 4, 3,
     

## Step 5. 다양한 모델로 학습시켜보기

In [15]:
# Decision Tree 사용해보기
from sklearn.tree import DecisionTreeClassifier # DecisionTree분류기 사용을 위해 import

decision_tree = DecisionTreeClassifier(random_state=32) # DecisionTree분류기 객체 생성
decision_tree.fit(X_train, y_train) # 훈련
y_pred = decision_tree.predict(X_test) # 예측
# nameerror 발생 - 원인 : sklearn.tree패키지의 DecisionTreeClassifier함수를 임포트 해주어야 하는데 안해줌.

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.81      0.81      0.81        42
           2       0.79      0.82      0.80        40
           3       0.79      0.91      0.85        34
           4       0.83      0.95      0.89        37
           5       0.90      0.96      0.93        28
           6       0.84      0.93      0.88        28
           7       0.96      0.82      0.89        33
           8       0.88      0.65      0.75        43
           9       0.78      0.78      0.78        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.85       360



In [16]:
# Random Forest 사용해보기
from sklearn.ensemble import RandomForestClassifier # RandomForest분류기 사용을 위해 import

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       0.93      1.00      0.96        37
           5       0.90      0.96      0.93        28
           6       1.00      0.96      0.98        28
           7       0.94      0.97      0.96        33
           8       1.00      0.84      0.91        43
           9       0.94      0.94      0.94        32

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.97      0.96      0.96       360



In [20]:
# SVM 사용해보기
from sklearn import svm # Support Vector Machine을 사용하기 위해 import

svm_model = svm.SVC(random_state=32) # 모델 객체 만들기
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test) #예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      1.00      0.98        42
           2       1.00      1.00      1.00        40
           3       1.00      1.00      1.00        34
           4       1.00      1.00      1.00        37
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        28
           7       1.00      1.00      1.00        33
           8       1.00      0.93      0.96        43
           9       1.00      0.97      0.98        32

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360



In [21]:
# SGD Classifier 사용해보기
from sklearn.linear_model import SGDClassifier # 선형분류기인 SGDClassifier를 사용하기 위한 import

sgd_model = SGDClassifier(random_state=32) # 모델 객체 생성
sgd_model.fit(X_train, y_train) # 훈련
y_pred = sgd_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.85      0.95      0.90        42
           2       0.98      1.00      0.99        40
           3       0.89      0.94      0.91        34
           4       1.00      0.97      0.99        37
           5       0.93      1.00      0.97        28
           6       0.96      0.93      0.95        28
           7       0.97      0.97      0.97        33
           8       0.88      0.88      0.88        43
           9       0.96      0.72      0.82        32

    accuracy                           0.94       360
   macro avg       0.94      0.94      0.94       360
weighted avg       0.94      0.94      0.94       360



In [24]:
# Logiistic Regression 사용해보기
import warnings
warnings.filterwarnings("ignore") # 경고메세지 없애기

from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression(random_state=32) # 모델 객체 생성
logistic_model.fit(X_train, y_train) # 훈련
y_pred = logistic_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        43
           1       0.95      0.95      0.95        42
           2       0.98      1.00      0.99        40
           3       0.94      0.97      0.96        34
           4       0.97      1.00      0.99        37
           5       0.82      0.96      0.89        28
           6       1.00      0.96      0.98        28
           7       0.97      0.97      0.97        33
           8       0.92      0.81      0.86        43
           9       0.97      0.91      0.94        32

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360



## Step 6. 모델을 평가해 보기
Decision Tree를 제외하고는 전체적으로 accuracy가 높은 편이다. 특히 SVM은 99%의 accuracy를 가졌다. SVM의 경우 분류기준(Hyperplane)을 각 데이터와 균등하게 위치시킴으로써 마진을 최대한을 가져가 새로운 데이터에 대한 분류를 정확하게 하는데 그 분류기준이 적절하게 잘 위치되어서 높은 accuracy를 가진 거 같다.<br>
하지만 accuracy만 높다고 잘 학습된 모델이라고 단정할 수 없다. 특히 손글씨 분류에 있어서는 모델의 성능을 평가하는 지표로 precision이 적합하다고 생각한다. 해당 숫자가 아닌 경우 음성(negative), 해당 숫자가 맞는 경우 양성(positive)이라고 했을 때 해당 숫자가 맞는데 아니라고 판단하는 경우보다 해당 숫자가 아니지만 맞다고 판단하는 경우가 더 큰 문제를 야기할 수 있기 때문이다. SVM의 경우 다른 모델에 비해 pricision 역시 높은 편이고 그 외에 recall이나 f1-score도 높은 편이다.<br>
따라서 손글씨 분류에는 전체적으로 높은 비율을 가진 SVM 모델이 가장 적합하다고 생각한다.

## 회고
1. feature와 label 선정을 위한 데이터 분석과정 전개하기 : digits 데이터셋을 로드하면서 digits의 디렉토리를 열어 확인하고 feature data와 label data를 지정해주었다. 숫자를 분류하기 위해 총 64가지의 feature가 있었고, 0~9까지 10가지로 분류되었다.
2. 모델학습 및 테스트가 정상적으로 수행되고, 결과값 얻기 : train 데이터와 test 데이터를 분류한 후에 모델학습을 하였고 각 모델마다 결과값을 얻었다. 하지만 이 과정에서 아직은 모델 학습의 모델들이 어떤 원리로 작동되는지와 각 모델들의 장단점 등 이해를 못한 부분이 많았다. 앞으로 반복해서 읽어보면서 깨닫는 부분이 많을 것이라고 생각된다.
3. 모델학습을 통해 얻은 결과물을 바탕으로 평가 지표를 선택하고, 본인의 의견 서술하기 : 평가지표인 recall, precision, F1 score 등이 어떤 기준을 가지고 있는지 파악해보았고, 손글씨 분류에 있어서는 precision이 가장 적합하다는 결론에 닿았다. 그리고 그 값이 가장 높은 SVM 모델이 가장 적합하다고 생각했다.
4. 도구를 사용하기 위해서는 대체로 import를 해주어야 하는데 계속 잊는다. 항상 기본적으로 import를 떠올려주기로 했다.  
5. 전반적으로 LMS를 바탕으로 거의 모든 코드를 짰기 때문에 에러가 크게 없었다. 하지만 LogisticRegression 사용시 경고메세지가 떴다. 경고메세지의 의미를 제대로 파악 못해서 일단 경고를 무시하고 광석님의 도움을 받아 경고창을 없앴 후 나중에 찾아봤는데 정확하게 파악하지는 못했다. 근데 종종 사람들이 경고메세지 무시하고 없애기를 하는 듯 보였다. 경고메세지가 나타나는 이유는 더 찾아보도록 해야겠다.
6. random_state=숫자 라고 종종 쓰는데 왜 사용될까 궁금했다. 다른 숫자를 사용했을 때 accuracy가 바뀌는 경우도 있고 그렇지 않은 경우도 있었다. 이렇게 바뀌는 이유는 숫자에 따라 데이터가 다른 순서로 섞이기 때문이다. 아무 숫자나 입력해도 괜찮은데 dataset이 많을수록 큰 영향이 없다고 한다.
7. 프로젝트를 진행하면서 느낀 점 : LMS도 많이 참고하고 조원들의 도움을 받아 프로젝트를 완성하기는 했지만 내가 진행한 과정을 다른 사람에게 설명하라고 했을 때 과연 완벽하게 설명할 수 있는가에 있어서 의문점이 남았다. 물론 반복학습으로 개념도 좀 더 명확히 알게 되고 좀 더 깊은 지식을 얻을 수 있을 거라고 믿지만 공부를 할 때 그냥 받아들이는 것보다 언제나 왜? 라는 생각을 가지고 한다면 누가 물어봐도 대답할 수 있게 되지 않을까 생각이 든다. 그리고 LMS에 나온 순서대로 따라가는 공부만 했지만 프로젝트 가이드라인을 읽기 전에 내가 먼저 가이드라인을 세워보기로 다짐했다. 다음 프로젝트는 조금 더 주체적으로 해야겠다.

## reference 
[데이터 분리, random_state](https://wikidocs.net/33274)  
[SVM](https://muzukphysics.tistory.com/entry/ML-8-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-SVM-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90%EA%B3%BC-%EC%9E%A5%EB%8B%A8%EC%A0%90-Support-Vector-Machine)<br>
[경고 메세지](https://computer-science-student.tistory.com/275)


----------------------------------------------------------------------------------------------------------------------


# 와인 분류하기

## Step 1. 필요한 모듈 import하기

In [2]:
import sklearn

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## Step 2. 데이터 준비

In [3]:
wine = load_wine()
# load_wine 함수는 wine 데이터셋을 로드하는 함수
# 로드된 wine 데이터셋을 wine이라는 변수에 저장

print(dir(wine))

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [4]:
wine_data = wine.data
# keys에서 확인한 정보 중 data를 따로 wine_data 변수에 저장

print(wine_data.shape)
# 178의 행(데이터)과 13개의 열(정보)

(178, 13)


## Step 3. 데이터 이해하기

In [5]:
# Feature Data 지정하기
wine.feature_names
# wine.data에서 확인한 13개 정보의 변수명 확인

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [6]:
# Label Data 지정하기
wine_label = wine.target
# keys에서 확인한 정보 중 target을 따로 wine_label 변수에 저장

print(wine_label.shape)
wine_label
# 178개의 숫자만 가지고 있음

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [7]:
# Target Names 출력해보기
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [8]:
# 데이터 Describe 해보기
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [9]:
import pandas as pd

wine_df = pd.DataFrame(data=wine_data, columns=wine.feature_names)

wine_df # 와인 데이터프레임 확인

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


## Step 4. train, test 데이터 분리

In [10]:
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=10)
# 나눠야 할 데이터(문제지, x) : wine_data
# 데이터의 라벨(정답, y) : wine_label
# wine_data와 wine_label을 각각 train:test = 8:2 비율로 자름

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  142 , X_test 개수:  36


In [11]:
y_train, y_test
# label이 잘 분리되었는지 확인

(array([1, 1, 0, 1, 1, 0, 2, 1, 0, 1, 2, 1, 1, 0, 2, 1, 2, 0, 2, 1, 0, 1,
        2, 0, 0, 2, 2, 2, 2, 1, 1, 1, 2, 1, 0, 0, 1, 0, 0, 0, 1, 2, 0, 0,
        2, 0, 0, 0, 2, 2, 0, 2, 2, 0, 1, 2, 0, 1, 2, 2, 1, 2, 0, 1, 0, 1,
        0, 1, 1, 2, 2, 1, 0, 2, 1, 0, 2, 2, 1, 0, 0, 0, 1, 1, 1, 2, 0, 1,
        0, 0, 0, 0, 2, 1, 1, 2, 2, 1, 1, 2, 1, 0, 0, 0, 0, 0, 1, 2, 1, 0,
        1, 1, 2, 1, 0, 1, 2, 2, 0, 1, 1, 1, 1, 0, 2, 1, 0, 1, 2, 0, 0, 1,
        0, 2, 2, 2, 1, 1, 1, 0, 1, 0]),
 array([1, 1, 0, 1, 0, 1, 1, 0, 2, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 2, 0, 2,
        0, 0, 1, 2, 1, 2, 1, 1, 2, 2, 1, 2, 1, 0]))

## Step 5. 다양한 모델로 학습시켜보기

In [12]:
# Decision Tree 사용해보기
from sklearn.tree import DecisionTreeClassifier # DecisionTree분류기 사용을 위해 import

decision_tree = DecisionTreeClassifier(random_state=32) # DecisionTree분류기 객체 생성
decision_tree.fit(X_train, y_train) # 훈련
y_pred = decision_tree.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94        18
           2       0.80      1.00      0.89         8

    accuracy                           0.94        36
   macro avg       0.93      0.96      0.94        36
weighted avg       0.96      0.94      0.95        36



In [13]:
# Random Forest 사용해보기
from sklearn.ensemble import RandomForestClassifier # RandomForest분류기 사용을 위해 import

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94        18
           2       0.80      1.00      0.89         8

    accuracy                           0.94        36
   macro avg       0.93      0.96      0.94        36
weighted avg       0.96      0.94      0.95        36



In [14]:
# SVM 사용해보기
from sklearn import svm # Support Vector Machine을 사용하기 위해 import

svm_model = svm.SVC(random_state=32) # 모델 객체 만들기
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.88      0.70      0.78        10
           1       0.81      0.72      0.76        18
           2       0.42      0.62      0.50         8

    accuracy                           0.69        36
   macro avg       0.70      0.68      0.68        36
weighted avg       0.74      0.69      0.71        36



In [15]:
# SGD Classifier 사용해보기
import warnings
warnings.filterwarnings("ignore") # 경고메세지 없애기

from sklearn.linear_model import SGDClassifier # 선형분류기인 SGDClassifier를 사용하기 위한 import

sgd_model = SGDClassifier(random_state=32) # 모델 객체 생성
sgd_model.fit(X_train, y_train) # 훈련
y_pred = sgd_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.62      0.80      0.70        10
           1       0.70      0.89      0.78        18
           2       0.00      0.00      0.00         8

    accuracy                           0.67        36
   macro avg       0.44      0.56      0.49        36
weighted avg       0.52      0.67      0.58        36



In [16]:
# Logiistic Regression 사용해보기
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression(random_state=32) # 모델 객체 생성
logistic_model.fit(X_train, y_train) # 훈련
y_pred = logistic_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.91      1.00      0.95        10
           1       1.00      0.83      0.91        18
           2       0.80      1.00      0.89         8

    accuracy                           0.92        36
   macro avg       0.90      0.94      0.92        36
weighted avg       0.93      0.92      0.92        36



## Step 6. 모델을 평가해 보기
SVM과 SGD의 경우 accuracy가 현저하게 낮았다. SVM의 경우 마진이 최대화되지 못해서 발생한 일이라고 생각한다. SGD의 경우 Globla minimum에 도달하지 못한 것으로 보인다.<br>
특이한 점은 Decision Tree와 Random Forest의 수치가 정확하게 일치했다는 것이다. Random Forest의 경우 수많은 Decision Tree가 모여서 생성되는 것이라 그 기반이 Decision Tree에 있고 데이터의 수가 적기 때문에 이러한 결과가 나온 것으로 추측된다. accuracy 측면에서는 Decision Tree와 Random Forest, Logistic Regression 모델이 90%대로 큰 차이가 없었다.<br>
하지만 accuracy뿐만 아니라 precision과 recall, f1-score도 고려를 해야한다. accuracy만 고려했을 때 불균형한 데이터에서 모델의 성능을 제대로 파악하지 못할 수 있기 때문이다. 전체적으로 봤을 때 precision이나 recall, f1-score까지도 더 높은 Decision Tree나 Random Forest 모델이 적합해보인다. 그리고 두 모델 중에 하나를 선택해야 한다면 Decision Tree의 오버피팅 문제를 해결해줄 수 있는 Random Forest 모델이 가장 적합할 것으로 보인다. 

## 회고
1. feature와 label 선정을 위한 데이터 분석과정 전개하기 : wine 데이터셋을 로드하면서 wine의 디렉토리를 열어 확인하고 feature data와 label data를 지정해주었다. 와인을 분류하기 위해서 총 13가지의 feature가 있었고, 와인은 총 3가지로 분류가 되었다.
2. 모델학습 및 테스트가 정상적으로 수행되고, 결과값 얻기 : train 데이터와 test 데이터를 분류한 후에 모델학습을 하였고 각 모델마다 결과값을 얻었다. SVM과 SGD는 값이 현저하게 낮았고, Decision Tree와 Random Forest는 값이 같아 그 이유를 찾기위해 고민하는 시간을 가졌다. 다른 분들의 블로그를 보면서 이유를 유추하기는 했지만 맞는 이유인지 확신은 없다. 
3. 모델학습을 통해 얻은 결과물을 바탕으로 평가 지표를 선택하고, 본인의 의견 서술하기 : Decision Tree와 Random Forest의 값이 같았고 전체적으로 이 두 모델이 제일 높은 값이 나왔기 때문에 만약 하나를 선택해야 한다면 어떤 모델이 가장 적합할지 고민해보았다. 각 모델의 장단점을 다시 보면서 Random Forest 모델이 가장 적합할 것이라는 결론이 나왔다. 
4. 전반적으로 LMS를 바탕으로 거의 모든 코드를 짰기 때문에 에러가 크게 없었다. 하지만 이번에는 SGD와 Logistic Regression 사용시 경고메세지가 떴다. SGD 모델 경고는 어떤 의미를 가지고 있는지 파악을 못했고, Logistic Regression 모델 경고에 이터레이션의 번호가 한계에 도달하였다고 적혀있었는데 무슨 의미인지 정확하게 파악이 안됐다. 계속해서 경고가 가지는 의미가 무엇인지 찾아보도록 해야겠다.
5. 프로젝트를 진행하면서 느낀 점 : LMS도 많이 참고하고 조원들의 도움도 받고 모르는 것은 구글링 하면서 두번째 프로젝트를 완성했다. 확실히 처음 손글씨 분류 프로젝트를 할 때보다 익숙해진 코드도 있고 복습하는 느낌이 들었다. 여전히 모르는 게 더 많지만 처음에는 30%정도만 설명할 수 있었다면 다시 코드를 반복하면서 50%정도 설명할 수 있게 됐다. 그리고 내가 먼저 가이드라인을 세워보기로 다짐했지만 아직은 나에게 너무 어려운 일이었다. 그래도 이렇게 하다보면 가이드라인 뿐만 아니라 코드까지도 혼자서 짤 수 있는 날이 올 것이라 믿는다.

## reference
[Decision Tree vs. Random Forest](https://swalloow.tistory.com/92)<br>
[SVM](https://muzukphysics.tistory.com/entry/ML-8-머신러닝-SVM-기본-개념과-장단점-Support-Vector-Machine)<br>
[SGD](https://gooopy.tistory.com/69)


----------------------------------------------------------------------------------------------------------------------


# 유방암여부 진단하기

## Step 1. 필요한 모듈 import하기

In [17]:
import sklearn

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

## Step 2. 데이터 준비

In [18]:
breast_cancer = load_breast_cancer()
# load_breast_cancer 함수는 breast_cancer 데이터셋을 로드하는 함수
# 로드된 breast_cancer 데이터셋을 breast_cancer이라는 변수에 저장

print(dir(breast_cancer))

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


In [19]:
breast_cancer_data = breast_cancer.data
# keys에서 확인한 정보 중 data를 따로 breast_cancer_data 변수에 저장

print(breast_cancer_data.shape)
# 569의 행과 30개의 열(feature)

(569, 30)


## Step 3. 데이터 이해하기

In [20]:
# Feature Data 지정하기
breast_cancer.feature_names
# breast_cancer.data에서 확인한 30개 정보의 변수명 확인

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [21]:
# Label Data 지정하기
breast_cancer_label = breast_cancer.target
# keys에서 확인한 정보 중 target을 따로 breast_cancer_label 변수에 저장

print(breast_cancer_label.shape)
breast_cancer_label
# 569개의 숫자만 가지고 있음

(569,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [22]:
# Target Names 출력해보기
breast_cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [23]:
# 데이터 Describe 해보기
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [24]:
import pandas as pd

breast_cancer_df = pd.DataFrame(data=breast_cancer_data, columns=breast_cancer.feature_names)

breast_cancer_df # 유방암 데이터프레임 확인

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


## Step 4. train, test 데이터 분리

In [25]:
X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, 
                                                    breast_cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=10)
# 나눠야 할 데이터(문제지, x) : breast_cancer_data
# 데이터의 라벨(정답, y) : breast_cancer_label
# breast_cancer_data와 breast_cancer_label을 각각 train:test = 8:2 비율로 자름

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  455 , X_test 개수:  114


In [26]:
y_train, y_test
# label이 잘 분리되었는지 확인

(array([0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0,
        1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1,
        1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1,
        1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0,
        1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0,
        0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1,
        0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1,
        0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
        0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1,
        0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1,
        0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1,
        0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 

## Step 5. 다양한 모델로 학습시켜보기

In [27]:
# Decision Tree 사용해보기
from sklearn.tree import DecisionTreeClassifier # DecisionTree분류기 사용을 위해 import

decision_tree = DecisionTreeClassifier(random_state=32) # DecisionTree분류기 객체 생성
decision_tree.fit(X_train, y_train) # 훈련
y_pred = decision_tree.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.82      0.95      0.88        39
           1       0.97      0.89      0.93        75

    accuracy                           0.91       114
   macro avg       0.90      0.92      0.91       114
weighted avg       0.92      0.91      0.91       114



In [28]:
# Random Forest 사용해보기
from sklearn.ensemble import RandomForestClassifier # RandomForest분류기 사용을 위해 import

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.95      1.00      0.97        39
           1       1.00      0.97      0.99        75

    accuracy                           0.98       114
   macro avg       0.98      0.99      0.98       114
weighted avg       0.98      0.98      0.98       114



In [33]:
# SVM 사용해보기
from sklearn import svm # Support Vector Machine을 사용하기 위해 import

svm_model = svm.SVC(random_state=32) # 모델 객체 만들기
svm_model.fit(X_train, y_train) # 훈련
y_pred = svm_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.94      0.82      0.88        39
           1       0.91      0.97      0.94        75

    accuracy                           0.92       114
   macro avg       0.93      0.90      0.91       114
weighted avg       0.92      0.92      0.92       114



In [34]:
# SGD Classifier 사용해보기
from sklearn.linear_model import SGDClassifier # 선형분류기인 SGDClassifier를 사용하기 위한 import

sgd_model = SGDClassifier(random_state=32) # 모델 객체 생성
sgd_model.fit(X_train, y_train) # 훈련
y_pred = sgd_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.90      0.90      0.90        39
           1       0.95      0.95      0.95        75

    accuracy                           0.93       114
   macro avg       0.92      0.92      0.92       114
weighted avg       0.93      0.93      0.93       114



In [32]:
# Logiistic Regression 사용해보기
import warnings
warnings.filterwarnings("ignore") # 경고메세지 없애기

from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression(random_state=32) # 모델 객체 생성
logistic_model.fit(X_train, y_train) # 훈련
y_pred = logistic_model.predict(X_test) # 예측

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.88      0.92      0.90        39
           1       0.96      0.93      0.95        75

    accuracy                           0.93       114
   macro avg       0.92      0.93      0.92       114
weighted avg       0.93      0.93      0.93       114



## Step 6. 모델을 평가해 보기
전체적으로 봤을 때 accuracy가 90% 초반대로 낮은 것은 아니었지만 Random Forest는 98%로 가장 높았다.<br>
하지만 accuracy만 높다고 잘 학습된 모델이라고 단정할 수 없고, 유방암 진단의 경우 악성을 positive, 양성을 negative라고 했을 때, 암에 걸린 것을 놓치면 안되기 때문에 positive를 negative라고 판단하는 일은 없어야한다. 이런 점들을 바탕으로 볼 때 특히 recall 면에서 중요한데, Random Forest의 경우 recall 면에서 다른 모델들에 비해 높다. recall뿐만 아니라 precision이나 f1-score에서도 다른 모델들에 비해 높아 가장 적합한 모델은 Random Forest라고 생각한다.

## 회고
1. feature와 label 선정을 위한 데이터 분석과정 전개하기 : breast_cancer 데이터셋을 로드하면서 breast_cancer의 디렉토리를 열어 확인하고 feature data와 label data를 지정해주었다. 유방암여부를 진단하기 위해서 총 30가지의 feature가 있었고, 유방암은 악성과 양성 총 2가지로 분류가 되었다.
2. 모델학습 및 테스트가 정상적으로 수행되고, 결과값 얻기 : train 데이터와 test 데이터를 분류한 후에 모델학습을 하였고 각 모델마다 결과값을 얻었다. 모델들의 값이 전체적으로 다 높은 편이었지만, Random Forest가 가장 높았다.
3. 모델학습을 통해 얻은 결과물을 바탕으로 평가 지표를 선택하고, 본인의 의견 서술하기 : 암진단에서는 특히 recall 부분이 중요했기 때문에 recall 부분부터 비교했고, 가장 높은 모델은 Random Forest였다. 그 외에도 precision이나 f1-score, accuracy 면에서도 Random Forest가 가장 높아 가장 적합한 모델이라고 생각했다. 
4. 전반적으로 LMS를 바탕으로 거의 모든 코드를 짰기 때문에 에러가 크게 없었다. 이번에는 Logistic Regression 사용시에만 경고메세지가 떴다. 역시 경고의 의미를 정확하게 파악하지는 못했지만 경고는 숨겼다.
5. 프로젝트를 진행하면서 느낀 점 : 데이터셋은 다르지만 머신러닝을 학습시키고 예측하는 방법은 손글씨 분류와 와인 분류, 유방암 여부 진단에 있어 비슷했기 때문에 계속 반복해보니 더 친숙해진 느낌이다. 역시 100% 설명은 불가하지만 적어도 LMS를 많이 참고하여 짠 이 코드에 있어서는 70%는 설명할 수 있을 거 같다. 아직 많이 부족해도 이렇게 하나씩 알아가는 재미도 있고, 아직 LMS 상에 있는 거 외에는 더 나아가기 힘들지만 다음에는 더 좋은 결과물을 낼 수 있도록 더욱 노력할 것이다.

## reference
[Logistic Regression](https://hleecaster.com/ml-logistic-regression-concept/)