# 평가 지표
## 분류모델 평가 지표
1. 정확도 (Accuracy)
1. 정밀도 (Precision)
1. 재현률 (Recall)
1. F1점수 (F1 Score)
1. PR Curve, AP score
1. ROC Curve, AUC score

## 회귀모델 평가 지표
1. MSE (Mean Squared Error)
1. RMSE (Root Mean Squared Error)
1. $R^2$ (결정계수)

# TODO 머신 모델을 이용해 학습
- 데이터는 `MNIST` 데이터셋 사용 위에서 분리한 X,y 값
    - `y = np.where(y==9, 1, 0)`
- DecisionTreeClassifier 사용 (max_depth=3, random_state=0)
    - 변수 `tree`에 할당
- RandomForestClassifier 사용 (n_estimators=100, max_depth=3, random_state=0)
    - 변수 `rfc`에 할당
- 모델생성
- 학습(train)
- 평가(train/test)
    - accuracy, recall, precision, f1 score, confusion_matrix 확인

In [2]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import (confusion_matrix, 
                             ConfusionMatrixDisplay, 
                             recall_score, 
                             accuracy_score, 
                             precision_score, 
                             f1_score)

In [3]:
# 데이터 로드 및 분리
from sklearn.datasets import load_digits
mnist = load_digits()

X, y = mnist['data'], mnist['target']

# 9 값을 찾는 문제로, 9가 아닌 나머지를 0으로, 9를 1로 바꿔
# 이진 분류 문제로 변환
y = np.where(y==9, 1, 0)

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    stratify=y, 
                                                    test_size=0.25, 
                                                    random_state=0
                                                   )
X_train.shape, X_test.shape

((1347, 64), (450, 64))

## `%%writefile 파일명.py` : 
- 해당 셀의 내용을 ".py" 파일로 저장


## `%load 파일명.py` : 
- 해당 셀에 "파일명.py"의 내용을 옮긴다.

# TODO
- breast_cancer data 모델링
1. breast cancer data 로딩 및 
1. train/test set으로 분리
1. 모델링 (DecisionTreeClassifier(max_depth=3), RandomForestClassifier(max_depth=2, n_estimators=200)
1. 평가 (Test set)
    - 평가지표
        - accuracy, recall, precision, f1 score, confusion matrix
        - PR curve 그리고 AP 점수 확인
        - ROC curve 그리고 AUC 점수확인
        - random_state=0

In [4]:
# import 
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (accuracy_score, recall_score, precision_score, f1_score,
                             confusion_matrix, ConfusionMatrixDisplay,
                             precision_recall_curve, PrecisionRecallDisplay, average_precision_score,
                             roc_curve, RocCurveDisplay, roc_auc_score)
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [5]:
# 데이터 로딩
X, y = load_breast_cancer(return_X_y=True)

# Train/Test set 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                   stratify=y, random_state=0)
X_train.shape, X_test.shape

((455, 30), (114, 30))

## 예제

> #### Dataset 생성 함수
> - make_xxxxx() 함수
>     - 머신러닝 학습을 위한 dummy dataset 구현 함수
>     - 필요한 설정을 직접하여 테스트할 수 있는 데이터셋을 생성해준다.
> - make_regression(): 회귀 문제를 위한 dummy dataset 생성
> - make_classification(): 분류 문제를 위한 dummy dataset 생성

> #### Noise란 
>  같은 Feature를 가진 데이터포인트가 다른 label을 가지는 이유를 Noise(노이즈)라고 한다. 단 그 이유는 현재 상태에선 모른다. 예를 들어 나이란 Feature가 있고 구매량이란 target이 있을때 같은 나이인데 구매량이 다른 경우 그 이유를 우리는 알 수 없다. 그 차이를 만드는 나이 이외의 Feature가 있는데 그것이 수집이 되지 않은 것이다.  그래서 데이터 수집하고 전처리 할 때 그 이유가 되는 Feature를 찾아야 한다. 찾으면 성능이 올라가는 것이고 못찾으면 모르는 이유가 되어 모델 성능이 떨어진다. 

# Overfitting, Underfitting, Generalization