# Chapter 02. 사이킷런으로 시작하는 머신러닝

## 01. 사이킷런 소개와 특징
파이썬 기반의 머신러닝은 사이킷런을 사용하는 것을 의미할 만큼 역사가 오래되었고 가장 파이썬슬운 API를 제공한다.

## 02. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

* sklearn.datasets : 사이킷런에서 자체적으로 제공하는 데이터셋 모듈 모임
* sklearn.tree : 트리 기반 ML 알고리즘 클래스 모임
* sklearn.model_selection : 학습/검증/예측 데이터 분리, 하이퍼 파라미터 평가 등 다양한 모듈의 모임

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [8]:
import pandas as pd

# 붓꽃 데이터 셋 로딩
iris = load_iris()
# 피처만으로 구성된 데이터 data
iris_data = iris.data
print(iris_data[:5])
# 타겟값으로 구성된 데이터 target
iris_label = iris.target
print('iris target 값 : \n', iris_label)
print('iris target 명 : ', iris.target_names)

#데이터프레임 변환
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(5)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
iris target 값 : 
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명 :  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [9]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                   test_size = 0.2, random_state = 11)

In [11]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

# 학습 수행
dt_clf.fit(X_train, y_train)

# 예측 수행
pred = dt_clf.predict(X_test)

from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


## 03. 사이킷런의 기반 프레임워크 익히기

* 지도학습 :\
fit() : 모델 학습\
predict() : 학습된 모델로 예측


* 비지도학습 : \
fit() : 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조 맞추는 작업\
transform() : 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등\
fit_transform() : 두 작업을 하나로 결합

### 사이킷런의 주요 모듈

* 예제 데이터 :\
sklearn.datasets - 사이킷런에 내장된 데이터셋
* 피처 처리 :\
sklearn.preprocessing - 전처리에 필요한 다양한 가공 기능(문자열 인코딩, 정규화, 스케일링 등)\
sklearn.feature_selection - 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 선택하는 작업을 수행하는 다양한 기능 제공\
sklearn.feature_extraction - 텍스트나 이미지 데이터의 벡터화된 피처 추출에 사용. Count Vectorizer, Tf-idf Vectorizer 등
* 피처 처리 & 차원 축소 :\
sklearn.decomposition - 차원 축소 관련 알고리즘 PCA, NMF, Truncated SVD 등
* 데이터 분리, 검증 & 파라미터 튜닝 :\
sklearn.model_selection - 교차 검증을 위한 학습/테스트 분리, 그리드 서치 등
* 평가 :\
sklearn.metrics - 분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법. Accuracy, Precision, Recall 등
* ML 알고리즘  :\
sklearn.ensemble - 앙상블 알고리즘. 랜덤포레스트, 에이다 부스트, 그래디언트 부스팅 등\
sklearn.linear_model - 회귀, 릿지, 라쏘, 로지스틱 회귀 등. SGD(Stochastic Gradient Descent) 포함\
sklearn.naive_bayes - 나이브 베이즈 알고리즘. 가우시한 NB, 다항 분포 NB 등\
sklearn.neighbors - 최근접 이웃 알고리즘. K-NN 등\
sklearn.svm - 서포트 벡터 머신 알고리즘\
sklearn.tree - 의사결정트리 알고리즘\
sklearn.cluster - 비지도 클러스터링 알고리즘. K-평균, 계층형, DBSCAN 등
* 유틸리티 :\
sklearn.pipeline - 파이프라인

#### 일반적인 머신러닝 프로세스 : 피처 처리(피처 가공, 변경, 추출) -> ML 알고리즘 학습/예측 수행 -> 모델 평가

### 내장된 예제 데이터 셋
* datasets.load_데이터명 : 내장되어 있어 바로 불러와 사용할 수 있다.\
data - 데이터셋, target - 타겟 데이터, target_names - 타겟 레이블 이름, feature_names - 피처 이름, DESCR - 데이터에 대한 설명
* fetch 계열 : 크기가 커서 인터넷에서 내려받아 사용
* 표본 생성기 : 학습을 위한 데이터를 무작위로 생성하는 기능\
datasets.make_classifications() - 분류를 위한 데이터셋\
datasets.make_blobs() - 클러스터링을 위한 데이터셋

In [12]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data)) 

<class 'sklearn.utils.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다.

In [13]:
keys = iris_data.keys()
keys

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

어떤 key들을 가지고 있는지 알 수 있다.

* feature_names

In [14]:
type(iris_data.feature_names)

list

In [15]:
len(iris_data.feature_names)

4

In [16]:
iris_data.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

* target_names

In [17]:
type(iris_data.target_names)

numpy.ndarray

In [18]:
len(iris_data.target_names)

3

In [19]:
iris_data.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

* target

In [25]:
iris_data.target.shape

(150,)

In [26]:
type(iris_data.target)

numpy.ndarray

In [27]:
iris_data.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

* data

In [21]:
type(iris_data.data)

numpy.ndarray

In [22]:
len(iris_data.data)

150

In [28]:
iris_data.data[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

## 04. Model Selectioin 모듈 소개

### 학습/테스트 데이터 분리 - train_test_split()
* test_size : 테스트 데이터셋 비율
* train_size : 학습 데이터셋 비율
* shuffle : 데이터 섞을지 여부. 디폴트는 True

train_test_split()의 반환값은 튜플 형태이다. X_train, X_test, y_train, y_test 순서이다.

### 교차 검증
![image.png](attachment:image.png)

#### K 폴드 교차 검증
K개의 데이터 폴드 세트를 통해 K번 학습 및 검증을 반복 수행하는 방법이다. KFold와 StratifiedKFold 클래스를 이용할 수 있다.
![image.png](attachment:image.png)

In [31]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
print('붓꽃 데이터 셋 크기 :', features.shape[0])
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

# 5-fold 교차 검증
kfold = KFold(n_splits = 5)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(features):
    # 각 반복에서의 학습/테스트 데이터
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 각 반복에서의 정확도
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print("\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}"
         .format(n_iter, accuracy, train_size, test_size))
    print("#{0} 검증 세트 인덱스 : {1}".format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 각 반복의 정확도의 평균 계산
print("\n## 평균 검증 정확도 : ", np.mean(cv_accuracy))

붓꽃 데이터 셋 크기 : 150

#1 교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#1 검증 세트 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#2 검증 세트 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#3 검증 세트 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#4 검증 세트 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#5 검증 세트 인덱스 : [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도 :  0.9


#### Stratified K 폴드
불균형한  자료에서 전체 데이터셋의 레이블 분포와 유사한 비율로 데이터를 분배하기 위한 방법이다. Stratifeid K 폴드는 전체 데이터셋의 레이블 분포를 반영하여 데이터를 분배한다.

먼저, KFold로 생성시 발생하는 이슈를 확인해보자.

In [38]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
print('전체 데이터의 레이블 분포 : ', iris_df['label'].value_counts())

kfold = KFold(n_splits = 3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print("\n## 교차 검증: {0}".format(n_iter))
    print("학습 데이터 레이블 분포 : \n", label_train.value_counts())
    print("테스트 데이터 레이블 분포 : \n", label_test.value_counts())

전체 데이터의 레이블 분포 :  0    50
1    50
2    50
Name: label, dtype: int64

## 교차 검증: 1
학습 데이터 레이블 분포 : 
 1    50
2    50
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 0    50
Name: label, dtype: int64

## 교차 검증: 2
학습 데이터 레이블 분포 : 
 0    50
2    50
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 1    50
Name: label, dtype: int64

## 교차 검증: 3
학습 데이터 레이블 분포 : 
 0    50
1    50
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 2    50
Name: label, dtype: int64


각 폴드마다 한 레이블은 완전히 배제된 이슈를 확인할 수 있다.

이번에는 StratifiedKFold를 이용해보자. 사용 방법은 비슷하나, 타겟이 무엇인지 알려줘야 그 분포를 반영할 수 있다.

In [39]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print("\n## 교차 검증: {0}".format(n_iter))
    print("학습 데이터 레이블 분포 : \n", label_train.value_counts())
    print("테스트 데이터 레이블 분포 : \n", label_test.value_counts())


## 교차 검증: 1
학습 데이터 레이블 분포 : 
 2    34
0    33
1    33
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 0    17
1    17
2    16
Name: label, dtype: int64

## 교차 검증: 2
학습 데이터 레이블 분포 : 
 1    34
0    33
2    33
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 0    17
2    17
1    16
Name: label, dtype: int64

## 교차 검증: 3
학습 데이터 레이블 분포 : 
 0    34
1    33
2    33
Name: label, dtype: int64
테스트 데이터 레이블 분포 : 
 1    17
2    17
0    16
Name: label, dtype: int64


레이블의 분포가 잘 반영되어 분배되었음을 확인할 수 있다.

회귀에서는 타겟이 연속된 값이므로 Straitified K 폴드가 지원되지 않는다.

#### 교차검증을 편하게 : cross_val_score()

cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')

* estimator : 분류/회귀 모델. 분류 모델 입력시 Stratified K 폴드 방식이 적용됨.
* X, y : 피처, 타겟 데이터셋
* scoring : 예측 성능 평가 지표
* cv : 교차 검증 폴드 수

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
import numpy as np

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증 정확도 : ', np.round(scores, 4))
print('평균 검증 정확도 : ', np.round(np.mean(scores), 4))

교차 검증 정확도 :  [0.98 0.94 0.98]
평균 검증 정확도 :  0.9667


비슷하게, cross_validate()를 사용할 수 있는데, 이는 여러 개의 평가 지표를 반환할 수 있다는 장점이 있다.

### GridSearCV - 교차 검증과 하이퍼 파라미터 튜닝을 한 번에

* estimator : 분류/회귀 모델 또는 파이프라인
* param_grid : key + 리스트 형태의 튜닝용 파라미터
* scoring : 평가 지표
* cv : 교차 검증 폴드 수
* refit : 디폴트 True로, 최적 하이퍼 파라미터를 찾은 뒤 해당 파라미터로 재학습 시킴.

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import pandas as pd

iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size = 0.2, random_state = 121)
dtree = DecisionTreeClassifier()

# 파라미터 딕셔너리
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}
grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv = 3, refit = True)
grid_dtree.fit(X_train, y_train)

# 그리드서치 결과
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 
          'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [10]:
from sklearn.metrics import accuracy_score

estimator = grid_dtree.best_estimator_
print('최적 하이퍼 파라미터 : ', estimator)
pred = estimator.predict(X_test)
print('정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

최적 하이퍼 파라미터 :  DecisionTreeClassifier(max_depth=3)
정확도 : 0.9667


118쪽