## 과적합 vs 과소적합
* 훈련 데이터가 가지고 있는 특성을 너무 많이 반영해서 훈련데이터의 패턴을
* 너무 잘 인식하게 되는 문제
    + 이럴 경우 새로운 데이터가 주어지면 정확하게 예측하는 일반화 능력은 떨어짐

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [9]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

### 분석 시작1

In [11]:
# 데이터 준비
iris = load_iris()
data = iris.data
target = iris.target

In [13]:
# 분류분석 후 모델 평가
dtclf = DecisionTreeClassifier() # 분류기 선언
dtclf.fit(data, target)          # 분류기로 학습
pred = dtclf.predict(data)       # 분류기로 예측

accuracy_score(target, pred) # 예측값과 실제값 비교 - 정확도 검증

1.0

### 모델 성능 평가 : 정확도
* 실제 정답(레이블)과 예측값 비교
    + 정확도 1.0 출력 => 뭔가 이상?????
* 모델 학습시킬 때 사용한 데이터를 모델 평가할때에도 사용함 - 과적합
    + 비유) 문제집으로 시험공부했는데 시험문제가 문제집에서 다 나온 경우 100점 맞음
    + 이런 문제를 피하려면 데이터셋을 훈련/데스트로 나눠 학습/평가를 수행해야 함

### 훈련 데이터와 테스트 데이터
* 기계학습 모델을 만들기 위해서는 데이터집합이 필요
* 과적합을 방지하기 위해서는 `데이터를 훈련/테스트 데이터`로 나눠
* 교차검증방식으로 모델을 만들고 성능을 평가함
* 훈련데이터 : 모델 추정 및 학습이 목적
* 테스트데이터 : 모델 성능 평가가 목적
    + 분할 비율은 7:3 또는 8:2로 설정함

### 데이터를 학습/평가용 데이터로 분할 1
* 학습/평가 데이터 비율은 7:3으로 설정
* iris 데이터셋의 총 갯수는 150개
    + 따라서, 105:45 로 나눔

In [17]:
data_train = iris.data[:105, ]
data_test = iris.data[105:, ]

In [18]:
target_train = iris.target[:105, ]
target_test = iris.target[105:, ]

In [19]:
dtclf = DecisionTreeClassifier() 
dtclf.fit(data_train, target_train)      
pred = dtclf.predict(data_test)    

accuracy_score(target_test, pred) # 예측값과 실제값 비교 - 정확도 검증

0.7777777777777778

In [21]:
pd.DataFrame(target_train)[0].value_counts()

0
0    50
1    50
2     5
Name: count, dtype: int64

In [22]:
pd.DataFrame(target_test)[0].value_counts()

0
2    45
Name: count, dtype: int64

In [None]:
# 학습은 setosa, versicolor 위주로 하고
# 평가는 virginica 위주로 함
# 따라서, setosa, versicolor는 잘 예측하지만,
# verginica는 잘 예측하지 못함

## 데이터를 학습/평가용 데이터로 분할 2
* 독립변수 속성들의 분포를 고려한 표본추출이 필요함
    + sklearn의 `train_test_split`를 이용
    + train_test_split(feature변수, target변수, 훈련데이터크기, 평가데이터크기, 계층추출기준, 난수초기값)

In [23]:
from sklearn.model_selection import train_test_split

In [25]:
X_train, X_test, y_train, y_test = train_test_split(data, target, train_size=0.7, test_size=0.3,
                stratify=target, random_state=2309211445)

In [29]:
pd.DataFrame(y_train)[0].value_counts()

0
2    35
1    35
0    35
Name: count, dtype: int64

In [30]:
pd.DataFrame(y_test)[0].value_counts()

0
1    15
0    15
2    15
Name: count, dtype: int64

In [31]:
dtclf = DecisionTreeClassifier(random_state=1)
dtclf.fit(X_train, y_train)      
pred = dtclf.predict(X_test)    

accuracy_score(y_test, pred)

1.0