# 붓꽃(Iris) 품종 데이터 예측하기



<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#DataFrame" data-toc-modified-id="DataFrame-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>DataFrame</a></span></li><li><span><a href="#Train/Test-데이터-나누어-학습하기" data-toc-modified-id="Train/Test-데이터-나누어-학습하기-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Train/Test 데이터 나누어 학습하기</a></span></li><li><span><a href="#데이터-학습-및-평가하기" data-toc-modified-id="데이터-학습-및-평가하기-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>데이터 학습 및 평가하기</a></span></li><li><span><a href="#교차-검증-(Cross-Validation)" data-toc-modified-id="교차-검증-(Cross-Validation)-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>교차 검증 (Cross Validation)</a></span><ul class="toc-item"><li><span><a href="#교차검증-종류" data-toc-modified-id="교차검증-종류-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>교차검증 종류</a></span></li><li><span><a href="#Kfold" data-toc-modified-id="Kfold-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Kfold</a></span></li><li><span><a href="#StratifiedKFold" data-toc-modified-id="StratifiedKFold-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>StratifiedKFold</a></span></li><li><span><a href="#LeaveOnOut" data-toc-modified-id="LeaveOnOut-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>LeaveOnOut</a></span></li></ul></li></ul></div>

In [6]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt


from sklearn import * 
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

## DataFrame

In [16]:
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data,columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [17]:
iris_df.shape

(150, 5)

## Train/Test 데이터 나누어 학습하기

In [18]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                    test_size = 0.3,
                                                    random_state = 100)

## 데이터 학습 및 평가하기

사용 할 모델_ LGBM
```python 
from lightgbm import LGBMClassifier
model_lgbm = LGBMClassifier() # 모델정의하기 
model_lgbm.fit(???,???) # 모델학습
model_lgbm.score(???,???) # 모델점수보기 
model_lgbm.predict(???,???) # 모델 학습결과저장 
```

In [None]:
# 모델정의하기 
# 모델학습
# 모델점수보기 
# 모델 학습결과저장 

## 교차 검증 (Cross Validation)


### 교차검증 종류 
1. K-fold Cross-validation
 - 데이터셋을 K개의 sub-set으로 분리하는 방법 
 - 분리된 K개의 sub-set중 하나만 제외한 K-1개의 sub-sets를 training set으로 이용하여 K개의 모델 추정
 - 일반적으로 K=5, K=10 사용 (-> 논문참고)
 - K가 적어질수록 모델의 평가는 편중될 수 밖에 없음
 - K가 높을수록 평가의 bias(편중된 정도)는 낮아지지만, 결과의 분산이 높을 수 있음


2. LOOCV (Leave-one-out Cross-validation)
 - fold 하나에 샘플 하나만 들어있는 K겹 교차 검증
 - K를 전체 숫자로 설정하여 각 관측치가 데이터 세트에서 제외될 수 있도록 함
 - 데이터셋이 클 때는 시간이 매우 오래 걸리지만, 작은 데이터셋에서는 좋은 결과를 만들어 냄
 - 장점 : Data set에서 낭비 Data 없음
 - 단점 : 측정 및 평가 고비용 소요
 

 
3. Stratified K-fold Cross-validation
 - 정답값이 모든 fold에서 대략 동일하도록 선택됨
 - 각 fold가 전체를 잘 대표할 수 있도록 데이터를 재배열하는 프로세스



### Kfold
```python
from sklearn.model_selection import KFold
kfold = KFold(n_splits = 5, shuffle=False) # 교차검증 방법 설정

from sklearn.model_selection import cross_val_score, cross_validate
cross_val_score(????, iris.data, iris.target, cv=kfold)

```

### StratifiedKFold
```python
from sklearn.model_selection import StratifiedKFold
skfold = StratifiedKFold(n_splits = 5, shuffle=False)  #교차검증 방법 설정 

cross_val_score(???,
                       iris.data,
                       iris.target,
                       cv=skfold  # 나눌 덩어리 횟수
                       )
```

### LeaveOnOut 
```python 
from sklearn.model_selection import LeaveOneOut
leavefold = LeaveOneOut()  #교차검증 방법 설정 

cross_val_score(???,
                       iris.data,
                       iris.target,
                       cv=leavefold  # 나눌 덩어리 횟수
                       )

```