# scikit-learn

In [1]:
!pip install scikit-learn



In [1]:
import sklearn

print(sklearn.__version__)

1.0


----

## 붓꽃 품종 예측하기
```classification```  지도학습 방법의 하나이다. 다양한 피처와 레이블 데이터로 모델을 학습한 후에 테스트 데이터 세트에서 미지의 레이블을 예측한다.

```sklearn.datasets``` 내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임이다.

```sklearn.tree``` 내의 모듈은 트리 기반 ML알고리즘을 구현한 클래스의 모임이다.

```sklearn.model_selection``` 은 학습데이터,검증데이터,예측데이터로 데이터를 분리하거나 최적의 하이퍼파라미터로 평가하기 위한 다양한 모듈의 모임이다.

```하이퍼파라미터``` ML알고리즘별로 최적의 학습을 위해 직접 이력하는 파라미터를 통칭한다.


In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [3]:
import pandas as pd

iris=load_iris() #붓꽃 데이터 세트 로딩
iris_data=iris.data #iris 데이터 세트에서 피처만으로 된 데이터
iris_label=iris.target #iris 데이터 세트에서 레이블 데이터

print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


In [4]:
iris_df=pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


``피처``sepal length,sepal width 등이 있다.

``label``은 0(Setosa),1(versicolor),2(virginica)를 의미한다. 

### 학습용 데이터와 테스터용 데이터 분리

In [5]:
X_train,X_test,y_train,y_test=train_test_split(iris_data,iris_label,test_size=0.2,random_state=11)
#train_test_split(피처데이터세트,레이블데이터세트,전체 중에 테스트데이터 세트 비율,난수 발생 값) 
#난수 발생 값을 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 만들 수 있다.

In [6]:
dt_clf=DecisionTreeClassifier(random_state=11) #DecisionTreeClassifier객체 생성
dt_clf.fit(X_train,y_train) #학습수행

DecisionTreeClassifier(random_state=11)

In [7]:
pred=dt_clf.predict(X_test)

``정확도``예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표이다.

In [8]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


-----------

### 내장된 예제 데이터세트

```data``` 피처의 데이터 세트

```target``` 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트

```target_names``` 개별 레이블의 이름

```feature_names``` 피처의 이름

```DESCR``` 데이터 세트와 각 피처에 대한 설명

In [9]:
from sklearn.datasets import load_iris

iris_data=load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


``Bunch`` 클래스는 파이썬 딕셔너리 자료형과 유사하다.

In [10]:
keys=iris_data.keys()
print('붓꽃 데이터 세트의 키들:',keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [11]:
print('feature_names의 type:',type(iris_data.feature_names))
print('feature_name의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)

feature_names의 type: <class 'list'>
feature_name의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [12]:
print('target_names 의 type:',type(iris_data.target_names))
print('target_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)

target_names 의 type: <class 'numpy.ndarray'>
target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']


In [13]:
print('data의 type:',type(iris_data.data))
print('data의 shape:',iris_data.data.shape)
print(iris_data['data'])

data의 type: <class 'numpy.ndarray'>
data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1

In [14]:
print('target 의 type:', type(iris_data.target))
print('target 의 shpae:', iris_data.target.shape)
print(iris_data['target'])

target 의 type: <class 'numpy.ndarray'>
target 의 shpae: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


----

# Model Selection 모듈

## train_test_split()-학습/테스트 데이터 세트 분리

In [15]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris=load_iris()
dt_clf=DecisionTreeClassifier()
train_data=iris.data
train_label=iris.target
dt_clf.fit(train_data,train_label)

pred=dt_clf.predict(train_data)
print('예측 정확도:', accuracy_score(train_label,pred))

예측 정확도: 1.0


정확도가 100%인 이유는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문이다. 따라서 예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 데이터 세트여야 한다.

```test_size```전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할 것인가를 결정한다.(Default:0.25)

```train_size```전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링 할 것인가를 결정한다. 하지만 ``test_size parameter``를 통상적으로 사용하기 때문에 잘 사용하지 않는다.

```shuffle``` 데이터를 분리하기 전에 미리 섞을지를 결정한다.(Default:True)

```trian_test_split()``` 반환 값은 튜플 형태이다.

In [25]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

df_clf=DecisionTreeClassifier()
iris_data=load_iris()

X_train,X_test,y_train,y_test=train_test_split(iris_data.data,iris_data.target,test_size=0.3,random_state=121)

dt_clf.fit(X_train,y_train)
pred=dt_clf.predict(X_test)
print('예측 정확도:{0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도:0.9556


붓꽃의 데이터는 150개의 데이터로 데이터 양이 크지 않아 전체의 30%는 45개 정도 밖에 되지 않는다. 그래서 알고리즘의 예측 성능을 판단하기에는 적절치 않다. 학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 중요하지만 학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해보는 것도 중요하다.

----

## 교차검증
고정된 학습 데이터와 테스트 데이터로 평가를 하다보면 최적의 성능을 발휘할 수 있도록 편향되게 만들어지는 ```과적합```발생하게 된다. 그래서 해당 테스트 데이터 외에 다른 테스트용 데이터가 들어오면 성능이 저하된다. 이를 방지하기 위해 교차검증을 이용해 다양한 학습과 평가를 수행한다.

### K 폴드 교차 검증
가장 보편적인 교차 검증 기법이며,K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 기법이다.

In [20]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris=load_iris()
features=iris.data
label=iris.target
dt_clf=DecisionTreeClassifier(random_state=156)
 #붓꽃 데이터 세트와 DecisionTreeClassifier 생성

kfold=KFold(n_splits=5) #5개의 폴드 세트로 분리
cv_accuracy=[] #폴드 세트별 정확도를 담을 리스트 객체 생성
print('붓꽃 데이터 세트 크기:',features.shape[0])

붓꽃 데이터 세트 크기: 150


In [23]:
n_iter=0

#KFold 객체의 split()를 호출하면 폴드 별 학습용,검증용 테스트의 row index를 array로 반환
for train_index,test_index in kfold.split(features):
    X_train,X_test=features[train_index],features[test_index]
    y_train,y_test=label[train_index],label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred=dt_clf.predict(X_test)
    n_iter +=1
    #반복 시마다 정확도 측정
    accuracy=np.round(accuracy_score(y_test,pred),4)
    train_size=X_train.shape[0]
    test_size=X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기 :{2}, 검증 데이터 크기:{3}'
          .format(n_iter,accuracy,train_size,test_size))
    print('\n#{0} 교차 검증 세트 인덱스:{1}'.format(n_iter,test_size))
    cv_accuracy.append(accuracy)
    
#개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:',np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기 :120, 검증 데이터 크기:30

#1 교차 검증 세트 인덱스:30

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기 :120, 검증 데이터 크기:30

#2 교차 검증 세트 인덱스:30

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기 :120, 검증 데이터 크기:30

#3 교차 검증 세트 인덱스:30

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기 :120, 검증 데이터 크기:30

#4 교차 검증 세트 인덱스:30

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기 :120, 검증 데이터 크기:30

#5 교차 검증 세트 인덱스:30

## 평균 검증 정확도: 0.9


교차 검증 시마다 검증 세트의 인덱스가 달라짐을 알 수 있고, 검증 세트 인덱스를 보면 교차 검증 시마다 split()함수가 어떻게 인덱스를 할당한지 알 수 있다.

------

### Stratified K 폴드
Stratified K 폴드는 불균형한 분포도(편향적인 분포도)를 가진 레이블 데이터 집합을 위한 K폴드 방식이다. Stratified K 폴드는 K폴드가 제대로 분배하지 못하는 경우의 문제를 해결해 준다.

In [25]:
import pandas as pd

iris=load_iris()
iris_df=pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [39]:
kfold=KFold(n_splits=3)
n_iter=0
for train_index,test_index in kfold.split(iris_df):
    n_iter +=1
    label_train=iris_df['label'].iloc[train_index]
    label_test=iris_df['label'].iloc[test_index]
    print('## 교차 검증 :{0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())
    #iris_df['label'].value_counts() ??

## 교차 검증 :1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증 :2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증 :3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


학습 레이블 데이터는 1,2 값이 50 개씩 있고 검증 레이블 데이터는 0값이 50개 추출 되었다. 서로 갖고 있는 값이 다르기 때문에 예측정확도는 0이 된다.

----
Stratified K 폴드는 이렇게 KFold로 분할된 레이블 데이터 세트가 전체 레이블 값의 분포도를 반영하지 못하는 문제를 해결한다.

In [41]:
from sklearn.model_selection import StratifiedKFold

skf=StratifiedKFold(n_splits=3)
n_iter=0

for trian_index,test_index in skf.split(iris_df,iris_df['label']):
    n_iter+=1
    label_train=iris_df['label'].iloc[train_index]
    label_test=iris_df['label'].iloc[test_index]
    print('## 교차 검증 :{0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증 :1
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증 :2
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증 :3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


In [43]:
df_clf=DecisionTreeClassifier(random_state=156)

skfold=StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

for train_index,test_index in skfold.split(features,label):
    X_train,X_test=features[train_index],features[test_index]
    y_train,y_test=label[train_index],label[test_index]
    #학습 및 예측
    dt_clf.fit(X_train,y_train)
    pred=dt_clf.predict(X_test)

    #반복 시마다 정확도 측정
    n_iter +=1
    accuracy=np.round(accuracy_score(y_test,pred),4)
    train_size=X_train.shape[0]
    test_size=X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기 :{2}, 검증 데이터 크기:{3}'
          .format(n_iter,accuracy,train_size,test_size))
    print('\n#{0} 교차 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
print('\n## 교차 검증별 정확도:',np.round(cv_accuracy,4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :0.98, 학습 데이터 크기 :100, 검증 데이터 크기:50

#1 교차 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도 :0.94, 학습 데이터 크기 :100, 검증 데이터 크기:50

#2 교차 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도 :0.98, 학습 데이터 크기 :100, 검증 데이터 크기:50

#3 교차 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9666666666666667


3개의 Stratified K 폴드로 교차 검증한 결과 평균 검증 정확도는 ```96.66%```로 측정됐다. 왜곡된 레이블 데이터 세트에서는 반드시 Stratified K 폴드를 이용해 교차검증을 해야한다. 일반적으로 ```분류```에서의 교차검증은 Stratified K 폴드로 분할돼야한다.