In [1]:
'''
    교차검증 ( cross validation)
    
    1. KFold API 활용
        - 불균형 데이터 사용 불가
        - split(훈련데이터)
        
    2. StratifiedKFold API 활용
        - 불균형인 데이터 경우에는 사용됨.
        - split(훈련데이터, label) # label 반드시 지정
        
    3. cross_validate 함수
       리턴값:
       {'fit_time':[...],
        'score_time':[...],
        'test_score':[...] #검증데이터 
       }
       
    4. cross_val_score 함수
       리턴값: cross_validate 함수 반환 값 중에서 'test_score'값만 반환한다.
       이름은 test_score 이지만 검증 데이터의 폴드 점수이다.
'''

'\n    교차검증 (cross validation)\n    \n    1. KFold API 활용\n    \n    KFold(n_splits=5,shuffle=False,random_state=None) \n    gen = KFold.split(훈련데이터) ==> generater 반환\n    X_train,X_valid=next(gen) ==> index 반환\n    \n    2. 검증 데이터와 이전 실습의 test 데이터 구별필수\n    spec 에서는 검증데이터 대신에 test 데이터로 명시되어 있음.\n    \n    우리는 마지막에 쓰는 test 데이터만 test데이터라 부르기로 함\n    \n    3. 특징: 불균형 데이터 경우에는 사용안됨 ==> Stratified KFold\n    \n'

In [1]:
import pandas as pd
import numpy as np

### 1. 데이터 수집

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,cross_validate

In [3]:
iris=load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
iris_data=iris.data
iris_data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [5]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [6]:
iris_target=iris.target
iris_target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [7]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

### 데이터를 쉽게 이해하기 위해 df로 변경한다.

In [8]:
df=pd.DataFrame(iris.data,columns=iris.feature_names)
df['species']=iris.target
df['species_name']=iris.target_names[iris.target]
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,species_name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


### 붓꽃 종류 빈도수 확인 

In [9]:
df['species'].value_counts()

0    50
1    50
2    50
Name: species, dtype: int64

### 모델 생성

In [10]:
from sklearn.tree import DecisionTreeClassifier #결정트리
dtc=DecisionTreeClassifier()

### 2. cross_validate 함수

In [13]:
score = cross_validate(dtc,iris_data,iris_target,cv=5,scoring='accuracy',return_train_score=True)
score

{'fit_time': array([0.00082898, 0.        , 0.        , 0.        , 0.00142384]),
 'score_time': array([0.00049686, 0.00100422, 0.00125241, 0.00099778, 0.00049186]),
 'test_score': array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ]),
 'train_score': array([1., 1., 1., 1., 1.])}

In [14]:
'검증데이터 평균 score:{}'.format(np.mean(score['test_score']))

'검증데이터 평균 score:0.9600000000000002'

### 3. cross_val_score 함수

In [18]:
val_score = cross_val_score(dtc,iris_data,iris_target,cv=5,scoring='accuracy')
val_score

array([0.96666667, 0.96666667, 0.9       , 1.        , 1.        ])

In [19]:
'검증 데이터 평균: score:{}'.format(np.mean(val_score))

'검증 데이터 평균: score:0.9666666666666668'