In [0]:
import pandas as pd

# 02 **첫 번째 머신러닝 만들기 - 붓꽃 품종 예측하기**

붓꽃 데이터 세트로 붓꽃의 품종을 분류하는 머신러닝 모델 만들기.

분류는 대표적인 지도학습 방법이다.
- 지도학습은 학습을 위한 다양한 <u>피쳐</u>와 분류 결정값인 <u>레이블</u> 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다.
- 즉, 명확한 정답이 주어진 데이터를 먼저 학습한 뒤, 미지의 정답을 예측하는 방식이다.

먼저 사이킷런에서 사용할 모듈을 임포트한다.
- `sklearn.datasets`(사이킷런에서 제공하는 데이터셋), `sklearn.tree`(트리 기반 ML 알고리즘), `sklearn.model_selection`(데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 모듈).
- `load_iris()`로 붓꽃 데이터셋을 생성하고, `DecisionTreeClassifier()`를 ML 알고리즘으로 사용한다.

In [0]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

붓꽃 데이터셋을 로딩한 후, DataFrame으로 변환한다.

In [4]:
# 붓꽃 데이터셋 로딩
iris = load_iris()

# iris.data는 Iris 데이터셋에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있다.
iris_data = iris.data

# iris.target은 붓꽃 데이터셋에서 레이블 데이터를 numpy로 가지고 있다.
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터셋을 자세히 보기 위해 DataFrame으로 변환한다.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


다음, 학습용 데이터와 테스트용 데이터를 분리해보자.
- `train_test_split()`을 이용하면 데이터를 `test_size` 파라미터 입력 값의 비율로 분할한다.

In [0]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=11)

`train_test_split()`은 호출 시 무작위로 데이터를 분리하므로, `random_state`를 지정하지 않으면 수행할 때마다 다른 분류를 만든다.

이제 이 데이터를 기반으로 의사 결정 트리를 이용해 학습과 예측을 수행해 보자.

In [6]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=11, splitter='best')

학습된 `DecisionTreeClassifier` 객체를 이용해 예측을 수행하자.
- 예측은 **반드시** 학습 데이터가 아닌 다른 데이터를 이용해야 한다.
- `predict()` 메서드에 테스트 세트를 입력해 호출하면 테스트 세트에 대한 예측값을 반환한다.

In [0]:
# 학습이 완료된 DecisionTreeClassifer 객체에서 테스트 세트로 예측 수행.
pred = dt_clf.predict(X_test)

예측 결과를 기반으로 `DecisionTreeClassifier`의 예측 성능을 평가해 보자.
- 성능 평가 방법은 여러 가지가 있는데, 여기서는 정확도를 측정한다. 정확도는 예측값이 실제값과 얼마나 일치하는지 평가하는 지표다.
- 사이킷런은 정확도 측정을 위해 `accuracy_score()` 함수를 제공한다.

In [8]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


붓꽃 데이터셋 분류 프로세스를 정리하면 다음과 같다:
1. **데이터셋 분리**: 데이터를 학습 데이터와 테스트 데이터로 분리한다.
2. **모델 학습**: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다.
3. **예측 수행**: 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측한다.
4. **평가**: 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가한다.

In [9]:
# 전체 과정
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

iris_data = iris.data
iris_label = iris.target

iris_df = pd.DataFrame(iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=.2, random_state=11)

dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(X_train, y_train)

pred = dt_clf.predict(X_test)

print(accuracy_score(y_test, pred))

0.9333333333333333


# 03 **사이킷런의 기반 프레임워크 익히기**

#### **Estimator 이해 및 fit(), predict() 메서드**

사이킷런은 API 일관성과 개발 편의성을 제공하기 위한 노력이 엿보이는 패키지다.
- ML 모델 학습을 위해 `fit()`을, 모델의 예측을 위해 `predict()` 메서드를 제공한다.
- 사이킷런은 많은 유형의 Classifier와 Regressor를 제공하는데, 둘을 합쳐 Estimator 클래스라고 부른다.

evaluation 함수(`cross_val_score()`), 하이퍼 파라미터 튜닝 클래스(`GridSearchCV()`)의 경우 Estimator를 인자로 받는다. 
- `cross_val_score`나 `GridSearchCV()` 함수에 Estimator를 인자로 받고 `fit()`이나 `predict()`를 호출한다.

비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스는 대부분 `fit()`과 `transform()`을 적용한다.
- 여기서 `fit()`은 학습을 의미하는 것이 아니라, 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업.
- 사전 구조를 맞추면 실제 작업은 `transform()`으로 수행한다.

#### **내장된 예제 데이터셋**

사이킷런에 내장되어 있는 데이터셋은 
- 분류나 회귀를 연습하기 위한 예제용도의 데이터셋이나,
- 분류나 클러스터링을 위해 표본 데이터로 생성될 수 있는 데이터셋으로 나뉜다.

예제 데이터:

`datasets.load_boston()`: 회귀 용도. 보스턴 집 피처들과 가격에 대한 데이터셋.

`datasets.load_diabetes()`: 회귀 용도. 당뇨 데이터셋.

`datasets.load_digits()`: 분류 용도. 0~9까지 숫자 이미지 픽셀 데이터셋.

`fetch` 명령
- `fetch` 계열의 명령은 인터넷에서 내려받아 홈 디렉터리 아래의 `scikit_learn_data`라는 서브 디렉터리에 저장 후 추후 불러들이는 데이터다.

`fetch_covtype()`: 회귀 분석용 토지 조사 자료

`fetch_20newsgroups()`: 뉴스 그룹 텍스트 자료

`fetch_olivetti_faces()` `fetch_lfw_people()`, `fetch_lfw_pairs()`: 얼굴 이미지 자료

`fetch_rcv1()`: 로이터 뉴스 말뭉치

`fetch_mldata()`: ML 웹사이트에서 다운로드

분류와 클러스터링을 위한 표본 데이터 생성기:

`datasets.make_classification()`: 분류를 위한 데이터셋을 만든다. 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 준다.

`datasets.make_blobs()`: 클러스터링을 위한 데이터셋을 무작위로 생성한다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터셋을 쉽게 만들어 준다.

사이킷런에 내장된 분류/회귀 데이터셋은 일반적으로 딕셔너리 형태로 되어있다.
- 키는 보통 `data`, `target`, `target_name`, `feature_names`, `DESCR`로 구성되어 있다.

`data`, `target`은 넘파이 배열(ndarray)타입, `target_names`, `feature_names`는 넘파이 배열 또는 리스트 타입. `DESCR`는 스트링 타입.
- 피처의 데이터 값을 반환받기 위해선 내장 데이터셋 API를 호출한 뒤에 그 Key 값을 지정하면 된다.

In [10]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


Bunch 클래스는 파이썬 딕셔너리 자료형과 유사하다.
- 딕셔너리 형태이므로 `load_iris()` 데이터셋의 key 값을 확인해 보자.

In [11]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


# 04 **Model Selection 모듈 소개**

`model_selection` 모듈은 학습/테스트 데이터셋을 분리하거나 교차 검증 분할 및 평가, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위한 다양한 함수와 클래스를 제공한다.

#### **학습/테스트 데이터셋 분리 - train_test_split()**

`train_test_split()`의 반환값은 튜플 형태이다.

붓꽃 데이터셋을 3:7 비율로 분리하고, `random_state`를 121로 변경해 데이터셋을 변화시켜 보자.

In [0]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size=.3, random_state=121)

학습 데이터를 기반으로 `DecisionTreeClassifier`를 학습하고 모델을 이용해 예측 정확도를 측정해 보자.

In [13]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도:{0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도:0.9556


#### **교차 검증**

교차 검증을 간략히 설명하자면 본고사를 치르기 전에 모의고사를 여러 번 보는 것.
- 본고사가 테스트 세트에 대해 평가하는 거라면, 모의고사는 교차 검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것.

대부분의 ML 모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에, 최종적으로 테스트 세트에 적용해 평가하는 프로세스.
- 학습 데이터를 다시 분할하여 학습 데이터와 학습된 모델의 성능을 일차 평가하는 검증 데이터로 나눈다.
- 테스트 세트는 모든 학습/검증 과정이 완료된 후 최종적으로 성능을 평가하기 위한 데이터셋이다.

##### **K 폴드 교차 검증**

K개의 데이터 폴드 세트를 만들어 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행하는 방법.
- 사이킷런에서는 K 폴드 교차 검증 프로세스를 구현하기 위해 `KFold`와 `StratifiedKFold` 클래스를 제공한다.
- 붓꽃 데이터셋에 적용해 보자.

In [14]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터셋 크기:', features.shape[0])

붓꽃 데이터셋 크기: 150


KFold 객체를 생성했으니 교차 검증 점수를 알아보자.

In [15]:
n_iter = 0

# KFold 객체의 split()을 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
  # kfold.split()으로 반환된 인덱스를 이용해 학습, 검증용 테스트 데이터 추출
  X_train, X_test = features[train_index],  features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  n_iter += 1

  # 반복 시마다 정확도 측정
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
        .format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


##### **Stratified K 폴드**

`StratifiedKFold`는 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식.
- 불균형한 분포란 특정 레이블 값이 특이하게 많거나 매우 적어 값의 분포가 한 쪽으로 치우치는 것.

먼저 K 폴드가 어떤 문제를 가지고 있는지 확인하고, 이를 사이킷런의 `StratifiedKFold` 클래스를 이용해 개선해 보자.
- 붓꽃 데이터셋을 간단하게 DataFrame으로 생성하고 레이블 값의 분포도를 확인하자.

In [16]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

모두 50개로 동일하다. 붓꽃 데이터셋 label을 KFold로 3개로 나눠보자.

In [17]:
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
  n_iter +=1 
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


학습 레이블과 검증 레이블이 완전히 다른 값으로 추출되었다. 이런 유형으로 교차 검증 데이터셋을 분할하면 검증 예측 정확도는 0이 될 수밖에 없다.

이번에는 동일한 데이터 분할을 `StratifiedKFold`로 수행하고 학습/검증 레이블 데이터의 분포도를 확인해 보자.
- KFold와 상당히 유사한데, 하나 큰 차이는 `StratifiedKFold`는 레이블 데이터 분포에 따라 데이터를 나누기 때문에, `split()` 메서드에 인자로 피처 데이터셋과 레이블 데이터셋도 반드시 필요하다.

In [18]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter += 1
  label_train = iris_df['label'].iloc[train_index]
  label_test = iris_df['label'].iloc[test_index]
  print('## 교차검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차검증: 1
학습 레이블 데이터 분포:
 2    34
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
0    17
2    16
Name: label, dtype: int64
## 교차검증: 2
학습 레이블 데이터 분포:
 1    34
2    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
0    17
1    16
Name: label, dtype: int64
## 교차검증: 3
학습 레이블 데이터 분포:
 0    34
2    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    16
Name: label, dtype: int64


이제 `StratifiedKFold`를 이용해 붓꽃 데이터를 교차 검증해 보자.

In [19]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter = 0
cv_accuracy = []

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터셋도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
  # split()으로 반환된 인덱스를 이용해 학습, 검증용 테스트 데이터셋 추출
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]

  # 학습 및 예측
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)

  # 반복 시마다 정확도 측정
  n_iter += 1
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print('\n#{0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
        .format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)

print('\n##교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.round(np.mean(cv_accuracy), 4))


#1 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

##교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9667


##### **교차 검증을 보다 간편하게 - `cross_val_score()`**

사이킷런은 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API를 제공한다. 
- `cross_val_score()` 수행 후 반환 값은 `scoring` 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환한다.
- `cross_val_score()`는 classifier가 입력되면 `StratifiedKFold`, regressor인 경우 계층별 교차 검증을 사용할 수 없어 `KFold` 방식으로 분할한다. 

`cross_val_score()`의 자세한 사용법을 살펴보자.

In [20]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


`cross_val_score()`는 `cv`로 지정된 횟수만큼 `scoring` 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환한다.
- 일반적으로 배열을 평균해 평가 수치로 사용한다.

`cross_val_score()`와 비슷한 API로 `cross_validate()`가 있다.
- `cross_val_score()`는 하나의 평가 지표만 가능하지만, `cross_validate()`는 여러 개의 평가 지표를 반환할 수 있다.
- 또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공한다. 하지만 `cross_val_score()`가 더 자주 사용된다.

#### **GridSearchCV() - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에**

하이퍼 파라미터가 정확히 어떤 것인지 아직 설명하지 않았지만, 그래도 그것을 어떻게 튜닝하는지 아는 것이 도움이 될 수 있기에 먼저 들어간다.
- 사이킷런은 `GridSearchCV()`를 이용해 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력해 최적의 파라미터를 도출할 수 있는 방안을 제공한다.

붓꽃 데이터에 `GridSearchCV()`를 적용해 보자.

In [0]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, 
                                                    test_size=.2, random_state=121)
dtree = DecisionTreeClassifier()

### 파라미터를 딕셔너리 형태로 결정
parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]}

`GridSearchCV()` 객체에 `fit()` 메서드를 수행하면 `param_grid`에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고, 그 결과를 `cv_result_` 속성에 기록한다.
- `cv_results_`를 Pandas의 DataFrame으로 변환하면 내용을 좀 더 쉽게 볼 수 있다.

In [22]:
# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 결정.
### refit=True 가 default. True면 가장 좋은 파라미터 설정으로 재학습시킴.
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가.
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- `rank_test_score`이 높을수록 예측 성능이 높다는 것.
- `mean_test_score`는 세 개의 성능 수치를 평균한 것.

`GridSearchCV()` 객체의 `fit()`을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 각각 `best_params_`, `best_score_` 속성에 기록된다.
- `cv_results_`의 `rank_test_score`가 1일 때의 값.

In [23]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{:0.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


이미 학습된 `best_estimator_`를 이용해 앞에서 `train_test_split()`으로 분리한 테스트 데이터셋에 대해 예측하고 성능을 평가해 보자.

In [24]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없다.
pred = estimator.predict(X_test)
print('테스트 데이터셋 정확도:{:0.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터셋 정확도:0.9667


일반적으로 학습 데이터를 `GridSearchCV`를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 평가하는 것이 일반적인 적용 방법이다.

**정리**

In [25]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                    test_size=.2, random_state=121)

dtree = DecisionTreeClassifier()

parameters = {'max_depth': [1, 2, 3],
              'min_samples_split': [2, 3]
              }

grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3)
grid_dtree.fit(X_train, y_train)

cv_results = pd.DataFrame(grid_dtree.cv_results_)
cv_results[['split0_test_score', 'split1_test_score', 'split2_test_score', 'mean_test_score', 'rank_test_score']]

print('최적의 파라미터: ', grid_dtree.best_params_)
print('최적의 스코어:{:0.4f}'.format(grid_dtree.best_score_))

estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test)

print('테스트 데이터셋에 대한 최고 성능:{:.4f}'.format(accuracy_score(y_test, pred)))

최적의 파라미터:  {'max_depth': 3, 'min_samples_split': 2}
최적의 스코어:0.9750
테스트 데이터셋에 대한 최고 성능:0.9667


# 05 **데이터 전처리**

ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 크게 달라질 수 있다.
- 사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 사항이 있다.

1. 결손값은 허용되지 않는다.
  - `Null` 값이 얼마 되지 않으면 평균값 등으로 간단히 대체할 수 있다. `Null` 값이 대부분이라면 해당 피처는 드롭하는게 좋다.

2. ML 알고리즘은 문자열 값을 입력 값으로 허용하지 않는다.
  - 텍스트형 피처는 피처 벡터화 등의 기법으로 인코딩하거나 불필요하다면 드롭한다.

### **데이터 인코딩**

대표적인 인코딩 방식은 **레이블 인코딩**(Label encoding)과 **원-핫 인코딩**(One-Hot encoding)이 있다.

##### **레이블 인코딩**

레이블 인코딩은 `LabelEncoder` 클래스로 구현된다. 객체를 생성한 후 `fit()`, `transform()`을 호출해 인코딩을 수행한다.

In [26]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# LabelEncoder를 객체로 생성 후 fit(), transform()으로 레이블 인코딩 수행.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변환값:', labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


위 예제는 데이터가 작아서 문자열 값이 어떤 숫자 값으로 인코딩됐는지 알 수 있지만, 많은 경우 알지 힘들다.
- 이 경우 LabelEncoder 객체의 `classes_` 속성값으로 확인하면 된다.

In [27]:
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

`classes_` 속성은 0번부터 순서대로 변환된 인코딩 값에 대한 원본값을 가지고 있다.
- `inverse_transform()`을 통해 인코딩된 값을 다시 디코딩할 수 있다.

In [28]:
encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3])

array(['전자레인지', '컴퓨터', '믹서', 'TV', '냉장고', '냉장고', '선풍기', '선풍기'],
      dtype='<U5')

**정리**

In [29]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print('인코딩 클래스:', encoder.classes_)
print('디코딩 클래스:', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3]))

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
디코딩 클래스: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


레이블 인코딩은 간단하게 문자열 값을 숫자형 카테고리 값으로 변환한다. 하지만 예측 성능이 떨어지는 경우가 발생할 수 있다.
- 냉장고가 1, 믹서가 2로 변환되면, 1보다 2가 더 큰 값이므로 특정 ML 알고리즘에서 가중치가 부여될 수 있기 때문에.

이러한 특성 때문에 `LabelEncoder`는 선형 회귀같은 알고리즘에는 적용하지 않아야 한다.
- 트리 계열의 ML 알고리즘은 숫자의 특성을 반영하지 않으므로 레이블 인코딩도 별 문제가 없다.

##### **원-핫 인코딩**(One-Hot Encoding)

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1, 나머지 칼럼에는 0을 표시한다.

원-핫 인코딩은 사이킷런에서 `OneHotEncoder` 클래스로 변환이 가능하다. 하지만 주의할 점이 있다.
- 첫 번째는 모든 문자열 값이 숫자형 값으로 변환되야 한다는 것.
- 두 번째는 입력 값으로 2차원 데이터가 필요하다는 것.

In [30]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환한다.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 데이터로 변환한다.
labels = labels.reshape(-1, 1)

# 원-핫 인코딩을 적용한다.
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


판다스엔 원-핫 인코딩을 쉽게 지원하는 API가 있다. `get_dummies()`를 이용하면 된다.
- 문자열 카테고리 값을 숫자 형으로 변환할 필요 없이 바로 변환할 수 있다.

In [31]:
df = pd.DataFrame({'item': ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


### **피처 스케일링과 정규화**

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 피처 스케일링이라고 한다. 대표적인 방법에는 **표준화**와 **정규화**가 있다.

표준화(Standardization)은 데이터의 평균이 0이고, 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것을 의미한다.
- 표준화를 통해 변환될 피처 $x$의 새 데이터를 $x$라 할 때, 
  $$x=\frac{x_i-\bar{x}}{std(x)}$$

정규화(Normalization)는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 것. 개별 데이터의 크기를 같은 단위로 변경하는 것.
- 정규화된 새로운 데이터 $x$는
  $$x=\frac{x_i-min(x)}{max(x)-min(x)}$$
- 사이킷런의 정규화는 선형대수의 정규화 개념이 적용되었다. 개별 벡터의 크기를 맞추기 위해 변환하는 것.

**정리**
- 표준화는 데이터를 가우시안 정규 분포에 맞게 변환시키는 것.
- 정규화는 데이터를 같은 단위로 변경하는 것.

### **StandardScaler**

가우시안 정규 분포를 가질 수 있도록 데이터를 변환하는 것은 몇몇 알고리즘에 중요하게 작용한다.
- SVM, 선형 회귀, 로지스틱 회귀는 데이터가 가우시안 분포를 가지고 있다 가정하고 구현됐기 때문에 사전에 표준화를 적용하는 것은 예측 성능 향상에 중요한 요소가 될 수 있다.

StandardScaler가 어떻게 데이터 값을 변환하는지 데이터셋으로 확인해 보자.

In [32]:
from sklearn.datasets import load_iris
import pandas as pd

# 붓꽃 데이터셋을 로딩하고 DataFrame으로 변환한다.
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

print('feature들의 평균 값')
print(iris_df.mean())
print('\nfeature들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


이제 StandardScaler를 이용해 각 피처를 한 번에 표준화해 변환해 보자.

In [33]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
scaler = StandardScaler()
# StandardScaler로 데이터셋 변환. fit()과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform() 시 스케일 변환된 데이터셋이 NumPy ndarray로 반환돼 이를 DataFrame으로 변환.
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산 값')
print(iris_df_scaled.var())

feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### **MinMaxScaler**

`MinMaxScaler`는 데이터값을 0과 1 사이 범위 값으로 변환한다.
- 음수 값이 있다면 -1에서 1.

In [34]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler 객체 생성
scaler = MinMaxScaler()
# MinMaxScaler로 데이터셋 변환. fit()과 transform() 호출.
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 스케일 변환된 데이터셋이 NumPy ndarray로 반환되 이름 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### **학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점**

Scaler 객체를 이용해 데이터의 스케일링 변환 시 `fit()`, `transform()`, `fit_transform()` 를 사용한다. 하지만 `fit_transform()`은 주의해야 한다. 
- Scaler 객체를 이용해 학습 데이터셋으로 `fit()`, `transform()`을 적용하면 테스트셋에는 `fit()`을 수행하지 않고 학습 데이터셋에 `fit()`을 수행한 결과를 이용해 `transform()` 변환을 적용해야 한다는 것.

In [35]:
import numpy as np
train_array = np.arange(0, 11).reshape(-1, 1)
test_array = np.arange(0, 6).reshape(-1, 1)

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform()만으로 변환해야 한다.
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


`fit_transform()`은 `fit()`과 `transform()`을 순차적으로 수행하는 메소드라 학습 데이터에서는 상관없지만, 테스트 데이터에서는 절대 사용해선 안된다.
- 이런 상황이 발생하므로 학습/테스트셋으로 분리하기 전에 되도록 전체 데이터셋에 스케일링을 적용한 뒤 분리하는게 낫다.

**정리**
1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습/테스트 데이터로 분리.
2. 1번이 안된다면 테스트 데이터 변환 시 `fit()`이나 `fit_transform()`을 적용하지 않고 학습 데이터로 이미 `fit()`된 Scaler 객체를 이용해 `transform()`으로 변환.

# 06 **사이킷런으로 수행하는 타이타닉 생존자 예측**

### **캐글 셋업**

In [36]:
!pip install kaggle
from google.colab import files
files.upload()



Saving kaggle.json to kaggle.json


{'kaggle.json': b'{"username":"tjdrms2023","key":"420f91d78b4ea1dbbe26e3078903b138"}'}

In [37]:
# 파일 제대로 업로드됐는지 확인하기.
ls -1ha kaggle.json

kaggle.json


In [38]:
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
# Permission Warning 이 일어나지 않도록 
!chmod 600 ~/.kaggle/kaggle.json
# 본인이 참가한 모든 대회 보기 
!kaggle competitions list

ref                                               deadline             category            reward  teamCount  userHasEntered  
------------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
digit-recognizer                                  2030-01-01 00:00:00  Getting Started  Knowledge       2390           False  
titanic                                           2030-01-01 00:00:00  Getting Started  Knowledge      18492            True  
house-prices-advanced-regression-techniques       2030-01-01 00:00:00  Getting Started  Knowledge       4561            True  
connectx                                          2030-01-01 00:00:00  Getting Started  Knowledge        321           False  
nlp-getting-started                               2030-01-01 00:00:00  Getting Started      Kudos       2690           False  
competitive-data-science-predict-future-sales     2020-12-31 23:59:00  Playground           Kudos       6352   

In [39]:
# 타이타닉 데이터 불러오기
! kaggle competitions download -c titanic

Downloading gender_submission.csv to /content
  0% 0.00/3.18k [00:00<?, ?B/s]
100% 3.18k/3.18k [00:00<00:00, 5.61MB/s]
Downloading train.csv to /content
  0% 0.00/59.8k [00:00<?, ?B/s]
100% 59.8k/59.8k [00:00<00:00, 61.8MB/s]
Downloading test.csv to /content
  0% 0.00/28.0k [00:00<?, ?B/s]
100% 28.0k/28.0k [00:00<00:00, 24.6MB/s]


In [40]:
# 불러온 데이터 확인하기
!ls

gender_submission.csv  kaggle.json  sample_data  test.csv  train.csv


### **타이타닉**

In [41]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [42]:
titanic_df = pd.read_csv('train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


로딩된 데이터 칼럼 타입을 확인해 보자.

In [43]:
print('\n ### 학습 데이터 정보 ### \n')
print(titanic_df.info())


 ### 학습 데이터 정보 ### 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


ML 알고리즘은 null 값을 허용하지 않으므로 어떻게 처리할지 결정해야 한다. `fillna()` 함수를 사용한다.
- Age의 경우는 평균 나이, 나머지 칼럼은 'N'값으로 변경한다.

In [44]:
titanic_df['Age'].fillna(titanic_df['Age'].mean(), inplace=True)
titanic_df['Cabin'].fillna('N', inplace=True)
titanic_df['Embarked'].fillna('N', inplace=True)
print('데이터 세트 Null값 개수', titanic_df.isnull().sum().sum())

데이터 세트 Null값 개수 0


주요한 피처 중 문자열 피처는 `Sex`, `Cabin`, `Embarked`. 이 피처들의 값 분류를 살펴보자.

In [45]:
print(' Sex 값 분포 :\n', titanic_df['Sex'].value_counts())
print('\nCabin 값 분포:\n', titanic_df['Cabin'].value_counts())
print('\nEmbarked 값 분포:\n', titanic_df['Embarked'].value_counts())

 Sex 값 분포 :
 male      577
female    314
Name: Sex, dtype: int64

Cabin 값 분포:
 N              687
B96 B98          4
G6               4
C23 C25 C27      4
D                3
              ... 
C103             1
C118             1
C70              1
E40              1
A26              1
Name: Cabin, Length: 148, dtype: int64

Embarked 값 분포:
 S    644
C    168
Q     77
N      2
Name: Embarked, dtype: int64


Cabin 속성의 경우 앞 문자만 추출하자.

In [46]:
titanic_df['Cabin'] = titanic_df['Cabin'].str[:1]
print(titanic_df['Cabin'].head(3))

0    N
1    C
2    N
Name: Cabin, dtype: object


***EDA는 생략한다***.

남아있는 문자열 카테고리 피처를 숫자형 카테고리 피처로 변환하자. `LabelEncoder`를 사용한다.

In [47]:
from sklearn import preprocessing 

def encode_features(dataDF):
  features = ['Cabin', 'Sex', 'Embarked']
  for feature in features:
    le = preprocessing.LabelEncoder()
    le = le.fit(dataDF[feature])
    dataDF[feature] = le.transform(dataDF[feature])

  return dataDF

titanic_df = encode_features(titanic_df)
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,7,3
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,2,0
2,3,1,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,7,3
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,2,3
4,5,0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,7,3


`Sex`, `Cabin`, `Embarked` 속성이 숫자형으로 바뀌었다. 지금까지 피처를 가공한 내역을 정리하고 함수로 만들어 재사용할 수 있도록 만들자.

In [0]:
# Null 처리 함수
def fillna(df):
  df['Age'].fillna(df['Age'].mean(), inplace=True)
  df['Cabin'].fillna('N', inplace=True)
  df['Embarked'].fillna('N', inplace=True)
  return df

# ML 알고리즘에 불필요한 속성 제거
def drop_features(df):
  df.drop(['PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)
  return df

# 레이블 인코딩 수행
def format_features(df):
  df['Cabin'] = df['Cabin'].str[:1]
  features = ['Cabin', 'Sex', 'Embarked']
  for feature in features:
    le = LabelEncoder()
    le = le.fit(df[feature])
    df[feature] = le.transform(df[feature])
  return df

# 앞에서 설정한 데이터 전처리 함수 호출
def transform_features(df):
  df = fillna(df)
  df = drop_features(df)
  df = format_features(df)
  return df 

전처리를 수행하는 함수를 만들었으니 이 함수를 이용해 원본 데이터를 가공해보자.

In [0]:
# 원본 데이터를 재로딩하고, 피처 데이터셋과 레이블 데이터셋 추출.
titanic_df = pd.read_csv('train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived', axis=1)

X_titanic_df = transform_features(X_titanic_df)

`train_test_split()`를 이용해 별도의 테스트 데이터셋을 추출한다.

In [0]:
X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df,
                                                    test_size=.2, random_state=11)

ML 알고리즘인 결정 트리, 랜덤 포레스트, 로지스틱 회귀를 사용해 타이타닉 생존자를 예측해 보자.
- 위 알고리즘들을 사용해 학습/테스트 데이터를 기반으로 ML 모델을 학습하고(`fit()`), 예측한다(`predict()`).

In [54]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# DTC, RF, LR을 위한 클래스 생성
dt_clf = DecisionTreeClassifier()
rf_clf = RandomForestClassifier()
lr_clf = LogisticRegression()

# DTC 학습/예측/평가
dt_clf.fit(X_train, y_train)
dt_pred = dt_clf.predict(X_test)
print('DecisionTreeClassifier 정확도: {:.4f}'.format(accuracy_score(y_test, dt_pred)))

# RF 학습/예측/평가
rf_clf.fit(X_train, y_train)
rf_pred = rf_clf.predict(X_test)
print('RandomForestClassifier 정확도: {:.4f}'.format(accuracy_score(y_test, rf_pred)))

# LR 학습/예측/평가
lr_clf.fit(X_train, y_train)
lr_pred = lr_clf.predict(X_test)
print('LogisticRegression 정확도: {:.4f}'.format(accuracy_score(y_test, lr_pred)))

DecisionTreeClassifier 정확도: 0.7821
RandomForestClassifier 정확도: 0.8492
LogisticRegression 정확도: 0.8492


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


다음은 교차 검증으로 결정 트리 모델을 평가해 보자.

In [57]:
from sklearn.model_selection import KFold

def exec_kfold(clf, folds=5):
  # 폴드 세트가 5개인 KFold 객체를 생성. 폴드 수만큼 예측결과 저장을 위한 리스트 객체 생성.
  kfold = KFold(n_splits=folds)
  scores = []

  # KFold 교차 검증 수행.
  for iter_count, (train_index, test_index) in enumerate(kfold.split(X_titanic_df)):
    # X_titanic_df 데이터에서 교차 검증별로 학습과 검증 데이터를 가리키는 index 생성.
    X_train, X_test = X_titanic_df.values[train_index], X_titanic_df.values[test_index]
    y_train, y_test = y_titanic_df.values[train_index], y_titanic_df.values[test_index]
    # Classifier 학습, 예측, 정확도 계산
    clf.fit(X_train, y_train)
    predictions = clf.predict(X_test)
    accuracy = accuracy_score(y_test, predictions)
    scores.append(accuracy)
    print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))

  # 5개 fold에서의 평균 정확도 계산.
  mean_score = np.mean(scores)
  print('평균 정확도: {0:.4f}'.format(mean_score))
  
# exec_kfold 호출
exec_kfold(dt_clf, folds=5)

교차 검증 0 정확도: 0.7542
교차 검증 1 정확도: 0.7640
교차 검증 2 정확도: 0.7865
교차 검증 3 정확도: 0.7584
교차 검증 4 정확도: 0.8258
평균 정확도: 0.7778


평균 정확도는 약 77.78%. 이번에는 `cross_val_score()`를 사용해 교차 검증을 수행하자.

In [58]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(dt_clf, X_titanic_df, y_titanic_df, cv=5)
for iter_count, accuracy in enumerate(scores):
  print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))

print("평균 정확도: {:.4f}".format(np.mean(scores)))

교차 검증 0 정확도: 0.7430
교차 검증 1 정확도: 0.7865
교차 검증 2 정확도: 0.8202
교차 검증 3 정확도: 0.7865
교차 검증 4 정확도: 0.8315
평균 정확도: 0.7935


정확도가 약간 다른 이유는 `cross_val_score()`에선 `KFold`가 아닌 `StratifiedKFold`를 사용한다.

마지막으로 `GridSearchCV`를 사용해 최적의 하이퍼 파라미터를 찾고 예측 성능을 측정해 보자.

In [59]:
from sklearn.model_selection import GridSearchCV

parameters = {'max_depth': [2, 3, 5, 10],
              'min_samples_split': [2, 3, 5],
              'min_samples_leaf': [1, 5, 8]}

grid_dclf = GridSearchCV(dt_clf, parameters, scoring='accuracy', cv=5)
grid_dclf.fit(X_train, y_train)

print('GridSearchCV 최적 하이퍼 파라미터: ', grid_dclf.best_params_)
print('GridSearchCV 최고 정확도: {:.4f}'.format(grid_dclf.best_score_))
best_dclf = grid_dclf.best_estimator_

# GridSearchCV의 최적 하이퍼 파라미터로 학습된 Estimator로 예측 및 평가 수행.
dpredictions = best_dclf.predict(X_test)
accuracy = accuracy_score(y_test, dpredictions)
print('테스트 세트에서의 DecisionTreeClassifier 정확도: {:.4f}'.format(accuracy))

GridSearchCV 최적 하이퍼 파라미터:  {'max_depth': 3, 'min_samples_leaf': 5, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.7992
테스트 세트에서의 DecisionTreeClassifier 정확도: 0.8715


예측 정확도가 87.15%로 향상되었다.

# 07 **정리**

ML 어플리케이션은:
1. 데이터의 가공 및 변환 과정의 전처리 작업
2. 데이터를 학습/테스트 데이터로 분리하는 데이터셋 분리 작업
3. 학습된 모델을 기반으로 테스트 데이터에 대한 예측
4. 예측값과 실제값과 비교해 ML 모델에 대한 평가

데이터의 전처리 작업은:
- 오류 데이터의 보정이나 결손값 처리같은 데이터 클렌징 작업,
- 레이블 인코딩이나 원-핫 인코딩같은 인코딩 작업,
- 데이터 스케일링과 정규화 작업 등으로 이루어져 있다.

ML 모델은 학습 데이터셋으로 학습한 뒤 반드시 별도의 테스트 데이터셋으로 평가되어야 한다.
- 이를 해결하기 위해 학습/검증 데이터로 구성된 여러 개의 폴드 세트로 분리해 교차 검증을 수행할 수 있다.