# [E-02]sklearn dataset classification
- task : sklearn.datasets에 있는 digits, wine, breast cancer data를 분류한다.
- 5가지 machine learning 알고리즘으로 분류한다. 
    - Decision Tree, Random Forest, SVM, SGD Classifier, Logistic Regression
- confusion matrix를 이해하고, dataset에 따라 적합한 평가지표를 선정해 평가한다.

---

# project(1). digits classification
## 01. load dataset 
- sklearn.datasets 모듈을 import해서 dataset을 가져온다.
- digits dataset : 0~9까지 10개의 숫자를 쓴 글씨   

In [5]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd

digits = load_digits() # 모듈을 변수에 저장한다.
print("digits's type is", type(dir(digits)))   # dir()을 사용하면 객체가 갖고있는 변수와 메서드를 나열한다. 
print(digits.keys())
features = digits.data   # key를 사용해 feature와 label을 변수에 저장한다. 
labels = digits.target
print("digits's target name:", digits.target_names)
print("digits's feature name:", digits.feature_names)
print(digits.DESCR)    # dataset에 대한 description을 볼 수 있다. 

digits's type is <class 'list'>
dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])
digits's target name: [0 1 2 3 4 5 6 7 8 9]
digits's feature name: ['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pi

## 02. split data

- sklearn.model_selection 모듈을 사용해 train, test로 데이터를 나눈다.
- shuffle=False 파라미터를 설정하지 않으면 기본값으로 랜덤한 값으로 섞어서 나눠진다.
- random_state 파라미터를 통해 시드(seed)를 고정시킬 수 있다. 

In [6]:
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=16)

print(len(x_train), len(x_test))
print(len(y_train), len(y_test))

1437 360
1437 360


- 데이터 분포확인   
    : 고르게 분포되어있다.

In [7]:
from collections import Counter
Counter(digits['target'])

Counter({0: 178,
         1: 182,
         2: 177,
         3: 183,
         4: 181,
         5: 182,
         6: 181,
         7: 179,
         8: 174,
         9: 180})

## 03. train with various model
- Decision Tree
- Random Forest
- SVM
- SGD Classifier
- Logistic Regression

(1) Decision Tree

In [8]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state=16)

decision_tree.fit(x_train, y_train)
y_pred = decision_tree.predict(x_test)

print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       0.89      0.94      0.91        33
           1       0.76      0.72      0.74        36
           2       0.86      0.83      0.85        36
           3       0.81      0.79      0.80        38
           4       0.79      0.84      0.82        37
           5       0.80      0.86      0.83        28
           6       0.97      0.81      0.88        42
           7       0.80      0.95      0.86        37
           8       0.72      0.79      0.75        33
           9       0.83      0.72      0.77        40

    accuracy                           0.82       360
   macro avg       0.82      0.82      0.82       360
weighted avg       0.83      0.82      0.82       360



### 성능 평가 : accuracy  
각 label의 평가 지표가 고르게 분포되어있다.   
때문에 전체 정확도를 평가하는 accuracy를 평가지표로 채택하였다. 

In [9]:
from sklearn import metrics

accuracy = metrics.accuracy_score(y_pred, y_test)
print('decision tree acc is', accuracy)

decision tree acc is 0.8222222222222222


(2) Random Forest

In [10]:
from sklearn.ensemble import RandomForestClassifier

random_forest = RandomForestClassifier(random_state=16)

random_forest.fit(x_train, y_train)
y_pred = random_forest.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('random forest acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       1.00      1.00      1.00        34
           2       1.00      1.00      1.00        35
           3       0.97      1.00      0.99        36
           4       1.00      0.95      0.97        41
           5       0.93      1.00      0.97        28
           6       1.00      1.00      1.00        35
           7       0.98      0.98      0.98        44
           8       0.94      0.92      0.93        37
           9       0.94      0.94      0.94        35

    accuracy                           0.98       360
   macro avg       0.98      0.98      0.98       360
weighted avg       0.98      0.98      0.98       360

random forest acc is 0.9777777777777777


- classification report에서 accuracy, macro avg, weighted avg모두 동일하게 나왔고, 분포가 고르다고 판단돼 accuracy로 평가하였다. 


(3) SVM

In [11]:
from sklearn import svm

svm = svm.SVC()

svm.fit(x_train, y_train)
y_pred = svm.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('svm model acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       1.00      0.97      0.99        35
           2       1.00      1.00      1.00        35
           3       1.00      1.00      1.00        37
           4       1.00      1.00      1.00        39
           5       1.00      1.00      1.00        30
           6       1.00      1.00      1.00        35
           7       0.98      1.00      0.99        43
           8       0.97      0.97      0.97        36
           9       0.97      0.97      0.97        35

    accuracy                           0.99       360
   macro avg       0.99      0.99      0.99       360
weighted avg       0.99      0.99      0.99       360

svm model acc is 0.9916666666666667


(4) SGD Classifier

In [12]:
from sklearn.linear_model import  SGDClassifier

sgd_classifier = SGDClassifier()

sgd_classifier.fit(x_train, y_train)
y_pred = sgd_classifier.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('sgd classifier acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       0.91      0.82      0.86        38
           2       1.00      1.00      1.00        35
           3       0.97      0.95      0.96        38
           4       0.95      0.97      0.96        38
           5       0.93      0.97      0.95        29
           6       0.91      1.00      0.96        32
           7       0.91      1.00      0.95        40
           8       0.94      0.92      0.93        37
           9       0.97      0.89      0.93        38

    accuracy                           0.95       360
   macro avg       0.95      0.95      0.95       360
weighted avg       0.95      0.95      0.95       360

sgd classifier acc is 0.95


(5) Logistic Regression

In [13]:
from sklearn.linear_model import LogisticRegression

logistic_regression = LogisticRegression(max_iter=5000)

logistic_regression.fit(x_train, y_train)
y_pred = logistic_regression.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('logistic regression acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        35
           1       0.97      0.89      0.93        37
           2       0.94      1.00      0.97        33
           3       0.97      1.00      0.99        36
           4       0.95      0.90      0.92        41
           5       0.97      0.94      0.95        31
           6       1.00      1.00      1.00        35
           7       0.91      0.98      0.94        41
           8       0.92      0.92      0.92        36
           9       0.97      0.97      0.97        35

    accuracy                           0.96       360
   macro avg       0.96      0.96      0.96       360
weighted avg       0.96      0.96      0.96       360

logistic regression acc is 0.9583333333333334


# project(2). wine classification
## 01. load dataset 
- 모듈을 import해서 dataset을 가져온다.

In [14]:
from sklearn.datasets import load_wine

wine = load_wine()
print("wine's type is", type(dir(wine)))
print(wine.keys())
features = wine.data
labels = wine.target
print("wine's target name:", wine.target_names)
print("wine's target name:", wine.feature_names)
print(wine.DESCR)

wine's type is <class 'list'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])
wine's target name: ['class_0' 'class_1' 'class_2']
wine's target name: ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
 

## 02. split data
- starify 파라미터    
    : 데이터의 분포가 고르지 않아서 몇 모델에서의 결과가 정상적으로 출력되지 않았다.   
     때문에 설정한 변수에 대한 비율을 동일하게 split해주는 starify 파라미터로 label간 분포를 일정하게 유지시켰다.

In [28]:
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, 
                                                    random_state=16,
                                                    stratify=labels)

print(len(x_train), len(x_test))
print(len(y_train), len(y_test))

142 36
142 36


- 데이터 분포 확인   
    : label간 분포의 차이가 있다. 분포가 고르지 않다.

In [29]:
from collections import Counter
Counter(wine['target'])

Counter({0: 59, 1: 71, 2: 48})

## 03. train with various model
- Decision Tree
- Random Forest
- SVM
- SGD Classifier
- Logistic Regression

(1) Decision Tree

In [30]:
decision_tree = DecisionTreeClassifier(random_state=32)

decision_tree.fit(x_train, y_train)
y_pred = decision_tree.predict(x_test)

print(classification_report(y_pred, y_test))

              precision    recall  f1-score   support

           0       1.00      0.92      0.96        13
           1       0.86      1.00      0.92        12
           2       1.00      0.91      0.95        11

    accuracy                           0.94        36
   macro avg       0.95      0.94      0.95        36
weighted avg       0.95      0.94      0.95        36



In [31]:
accuracy = metrics.accuracy_score(y_pred, y_test)
print('decision tree acc is', accuracy)

decision tree acc is 0.9444444444444444


(2) Random Forest

In [32]:
random_forest = RandomForestClassifier(random_state=32)

random_forest.fit(x_train, y_train)
y_pred = random_forest.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('random forest acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       0.93      1.00      0.96        13
           2       1.00      0.91      0.95        11

    accuracy                           0.97        36
   macro avg       0.98      0.97      0.97        36
weighted avg       0.97      0.97      0.97        36

random forest acc is 0.9722222222222222


### 성능 평가 : accuracy  
decision tree와 random forest는 데이터의 분포가 고르게 나타났다.(**support**는 각 label당 데이터의 개수를 나타낸다.)   
때문에 정확도를 평가하는 **accuracy**를 사용해 평가하였다.

(3) SVM

In [33]:
from sklearn import svm

svm = svm.SVC()

svm.fit(x_train, y_train)
y_pred = svm.predict(x_test)

print(classification_report(y_pred, y_test, zero_division=0))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('svm model acc is', accuracy)

              precision    recall  f1-score   support

           0       0.92      0.85      0.88        13
           1       0.71      0.67      0.69        15
           2       0.40      0.50      0.44         8

    accuracy                           0.69        36
   macro avg       0.68      0.67      0.67        36
weighted avg       0.72      0.69      0.70        36

svm model acc is 0.6944444444444444


In [38]:
# svm = svm.SVC()

svm.fit(x_train, y_train)
y_pred = svm.predict(x_test)

print(classification_report(y_pred, y_test, zero_division=0))

weighted_f1_score = metrics.f1_score(y_pred, y_test, average='weighted')
print('svm model weighted f1 score is', weighted_f1_score)

              precision    recall  f1-score   support

           0       0.92      0.85      0.88        13
           1       0.71      0.67      0.69        15
           2       0.40      0.50      0.44         8

    accuracy                           0.69        36
   macro avg       0.68      0.67      0.67        36
weighted avg       0.72      0.69      0.70        36

svm model weighted f1 score is 0.7038995317156237


(4) SGD Classifier

In [39]:
sgd_classifier = SGDClassifier()

sgd_classifier.fit(x_train, y_train)
y_pred = sgd_classifier.predict(x_test)

print(classification_report(y_pred, y_test, zero_division=0))

weighted_f1_score = metrics.f1_score(y_pred, y_test, average='weighted')
print('sgd classifier weighted f1 score is', weighted_f1_score)

              precision    recall  f1-score   support

           0       0.92      0.79      0.85        14
           1       0.86      0.67      0.75        18
           2       0.40      1.00      0.57         4

    accuracy                           0.75        36
   macro avg       0.72      0.82      0.72        36
weighted avg       0.83      0.75      0.77        36

sgd classifier weighted f1 score is 0.7675518925518925


### 성능 평가 : weighted f1 score
와인을 분류하는 task는 거짓 긍정, 거짓 부정보다 전반적인 정확도가 더 중요하다.  
때문에 정확도(accuracy) 혹은 정밀도(presision)와 재현율(recall)의 평균인 f1 score를 평가 지표로 채택하려 한다.  
**svm model**과 **sgd classifier**에서는 데이터의 분포가 치우쳐져 있기 때문에,  
데이터 분포에 따른 가중치를 적용한 **Weighted f1 score**를 최종적인 평가 지표로 채택하였다.

(5) Logistic Regression

In [87]:
logistic_regression = LogisticRegression(max_iter=5000)

logistic_regression.fit(x_train, y_train)
y_pred = logistic_regression.predict(x_test)

print(classification_report(y_pred, y_test))

accuracy = metrics.accuracy_score(y_pred, y_test)
print('logistic regression acc is', accuracy)

              precision    recall  f1-score   support

           0       1.00      0.92      0.96        13
           1       0.86      1.00      0.92        12
           2       1.00      0.91      0.95        11

    accuracy                           0.94        36
   macro avg       0.95      0.94      0.95        36
weighted avg       0.95      0.94      0.95        36

logistic regression acc is 0.9444444444444444


# project(3). breast cancer classification
## 01. load dataset 
- 모듈을 import해서 dataset을 가져온다.

In [43]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
print("cancer's type is", type(dir(cancer)))
print(cancer.keys())
features = cancer.data
labels = cancer.target
print("cancer's target name:", cancer.target_names)
print("cancer's target name:", cancer.feature_names)
print(cancer.DESCR)

cancer's type is <class 'list'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
cancer's target name: ['malignant' 'benign']
cancer's target name: ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the cla

## 02. split data

In [44]:
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, 
                                                    random_state=16, stratify=labels)

print(len(x_train), len(x_test))
print(len(y_train), len(y_test))

455 114
455 114


- 데이터 분포 확인   
    : 데이터가 살짝 치우쳐져있다. 
- stratify=labels로 label의 분포를 동일하게 설정하였다.

In [46]:
Counter(cancer['target'])

Counter({0: 212, 1: 357})

## 03. train with various model
- Decision Tree
- Random Forest
- SVM
- SGD Classifier
- Logistic Regression

(1) Decision Tree

In [61]:
decision_tree = DecisionTreeClassifier(random_state=16)

decision_tree.fit(x_train, y_train)
y_pred = decision_tree.predict(x_test)

print(classification_report(y_pred, y_test))

recall = metrics.recall_score(y_pred, y_test, average='weighted')
print('decision tree recall is', recall)

              precision    recall  f1-score   support

           0       0.86      0.86      0.86        42
           1       0.92      0.92      0.92        72

    accuracy                           0.89       114
   macro avg       0.89      0.89      0.89       114
weighted avg       0.89      0.89      0.89       114

decision tree recall is 0.8947368421052632


In [48]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

array([[36,  6],
       [ 6, 66]])

(2) Random Forest

In [60]:
random_forest = RandomForestClassifier(random_state=16)

random_forest.fit(x_train, y_train)
y_pred = random_forest.predict(x_test)

print(classification_report(y_pred, y_test))

recall = metrics.recall_score(y_pred, y_test, average='weighted')
print('random forest recall is', recall)

              precision    recall  f1-score   support

           0       0.86      0.97      0.91        37
           1       0.99      0.92      0.95        77

    accuracy                           0.94       114
   macro avg       0.92      0.95      0.93       114
weighted avg       0.94      0.94      0.94       114

random forest recall is 0.9385964912280702


In [50]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

array([[36,  6],
       [ 1, 71]])

(3) SVM

In [57]:
from sklearn import svm

svm = svm.SVC()

svm.fit(x_train, y_train)
y_pred = svm.predict(x_test)

print(classification_report(y_pred, y_test))

recall = metrics.recall_score(y_pred, y_test, average='weighted')
print('svm model recall is', recall)

              precision    recall  f1-score   support

           0       0.79      1.00      0.88        33
           1       1.00      0.89      0.94        81

    accuracy                           0.92       114
   macro avg       0.89      0.94      0.91       114
weighted avg       0.94      0.92      0.92       114

svm model recall is 0.9210526315789473


(4) SGD Classifier

In [58]:
sgd_classifier = SGDClassifier()

sgd_classifier.fit(x_train, y_train)
y_pred = sgd_classifier.predict(x_test)

print(classification_report(y_pred, y_test))

recall = metrics.recall_score(y_pred, y_test, average='weighted')
print('sgd classifier recall is', recall)

              precision    recall  f1-score   support

           0       0.93      0.78      0.85        50
           1       0.85      0.95      0.90        64

    accuracy                           0.88       114
   macro avg       0.89      0.87      0.87       114
weighted avg       0.88      0.88      0.88       114

sgd classifier recall is 0.8771929824561403


(5) Logistic Regression

In [59]:
logistic_regression = LogisticRegression(max_iter=5000)

logistic_regression.fit(x_train, y_train)
y_pred = logistic_regression.predict(x_test)

print(classification_report(y_pred, y_test))

recall = metrics.recall_score(y_pred, y_test, average='weighted')
print('logistic regression recall is', recall)

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        42
           1       0.96      0.96      0.96        72

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114

logistic regression recall is 0.9473684210526315


##  성능 평가 : accuracy
전체 데이터를 살펴보면 0, 1 두 label중 1에 조금 치우친 분포를 볼 수 있었다.
유방암 데이터셋 특성 상, 악성을 양성이라고 판단하는 것(0을 1로 예측)이 위험하기 때문에 재현율(recall)을 평가지표로 삼고자한다.  
또한 label의 분포가 치우쳐져있기 때문에 가중치를 average 파라미터로 적용시켜 평가하였다.

# 정리
---
1. 손글씨(digits), 와인(wine), 유방암(breast cancer) dataset을 sklearn모듈을 이용해 load한다.   
    - 데이터가 각 label당 고르게 분포하였는지 확인한다.
    - 데이터 description을 출력해 해당 데이터의 특성을 파악한다.
2. 학습과 평가를 위해 train, test 두 개의 dataset으로 나눈다.   
    - 이 때, 시드를 고정시기고, label의 분포를 고정시켜 학습 시 분포를 일정하게 유지하였다.  
3. 의사결정트리, 랜덤포레스트, SVM, SGD 분류, 로지스틱 회귀 **총 5개의 머신러닝 모델로 학습**한다.   
4. confusion matrix를 확인할 수 있는 classification report를 통해 정밀도, 재현율, f1 스코어를 확인한다.
5. 데이터 분포, 특성 등을 총합해 모델의 성능을 평가할 지표를 선택한다.

# 루브릭 평가
---
1. **3가지 데이터셋의 구성이 합리적으로 진행되었는가?**   
    - 각 데이터셋을 분석, 모델에 적용, 평가한 내용을 코드의 주석과 위 *#정리* 에 정리하였다.  
2. **3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가?**  
    - 데이터의 분포를 고려하지 않았을 때는 wine 데이터셋의 학습에서 특정 label이 전혀 나오지 않아 학습이 되지 않았다.  
    - 이를 해결하기 위해 데이터 분포를 고정시키는 **stratify** 파라미터를 적용하여 해결했다.  
3. **3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가?**  
    - Counter() 함수로 전체 데이터셋의 분포를 확인하였고, classification report의 support로 테스트 데이터셋의 분포를 재확인하였다.  
    - 정밀도, 재현율, f1 스코어에 대한 의미를 파악하고, 각 데이터셋의 특성에 따라 중요도를 판단하였다.  
    
# 회고
---
## 새롭게 알게된(혹은 다시 정립한) 개념
- **random_state**와 **stratify**의 차이  

    (1) random_state  
    데이터셋을 train, test로 나눌 때 shuffle=False 파라미터를 설정하지 않으면 자동으로 무작위로 섞게 된다. 여기에서 무작위란 어떤 특정한 숫자로부터 시작한 난수처럼 보이는 수열을 말한다. 수열이 시작되는 특정한 숫자를 시드(seed)라고 하며, 이 시드를 수동으로 설정하고 다음에도 동일한 시드를 사용하면 동일하게 나눠진 데이터를 얻을 수 있다.
     따라서 데이터를 섞되 일정하게 섞고 싶을 때 사용하는 것이 seed이고, 이를 설정하는 파라미터가 random_state이다.  
     
    (2) stratify  
    label당 데이터의 분포를 일정하게 고정하는 파라미터이다. 예를 들어 label=[0, 1]이라면, 매 split을 진행할 때마다 70:30의 비율로 고정할 수 있다. ~~비율을 어떻게 정하는 지는 더 공부해봐야겠다.~~ 
    해당 파라미터는 classification report에서 학습이 제대로 되지 않아 특정 label의 모든 지표와 데이터 개수가 0으로 나오는 바람에 찾아보게 되었다. 
    

- **confusion matrix**와 **평가지표**  

    (1) 정밀도(precision)  
    정밀도는 예측한 모든 y_pred 중에 정확하게 예측한 값이 어느정도 있는가를 측정한 지표이다. 참과 거짓이 있다면 참이라고 예측한 값들 중 진짜 참은 얼마나 있는가?! 라고 말할 수 있다.  
    정밀도를 통해 **우리는 예측하고자 하는 label을 얼마나 정확하게 예측하는지**를 알 수 있다. 
    
    (2) 재현율(recall)  
    재현율은 참과 거짓이 있다면 모든 참 중 참이라고 예측한 값이 얼마나 있는가를 측정한 지표이다. 이를 통해 **우리가 예측한 결과가 얼마나 정확한지**를 알 수 있다. 
    
    (3) trouble shooting  
    true positive+false posivie==0 이면, 정밀도를 정의할 수 없기에 0으로 출력되고, true positive+false negative==0 이면, 재현율을 정의할 수 없어 0으로 출력된다.


## 느낀 점
confusion matrix를 이해하고 정밀도, 재현율에 대한 차이를 이해하는 것이 어려웠다. 아직 완벽하게 체화하지 못했지만 앞으로 다른 데이터에도 적용하면서 체화할 수 있을 것이라고 생각한다. 머신러닝 모델을 모듈을 사용해서 세 줄로 학습, 예측, 평가까지 끝낼 수 있다는게 놀라웠고 코드가 짧은 만큼 다양한 파라미터가 있는 것 같다. nn을 사용할 때 loss가 0으로 수렴하는 과정을 보다가 1초도 안되는 시간안에 학습을 끝낸다는 것이 놀라우면서 학습과정을 보지 못해 답답하기도 했다. 또한 데이터의 특성에 따라 성과지표가 다를 수 있다는 것은 매우 중요한 포인트라고 생각한다. 학습 모델을 구축하기 전에 평가지표에 대한 정립을 하는 과정이 필요하다는 것을 배울 수 있었다. 