## 2. 사이킷런으로 시작하는 머신러닝

### 2-1. 사이킷런 소개와 특징

In [1]:
import sklearn
print(sklearn.__version__)

1.0.2


### 2-2. 첫 번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기

꽃잎의 길이 / 꽃잎의 너비 / 꽃받침의 길이 / 꽃받침의 너비 피처를 기반으로 붓꽆의 품종 예측(분류)

In [2]:
from sklearn.datasets import load_iris                # 아이리스 데이터셋 로드
from sklearn.tree import DecisionTreeClassifier       # 트리 기반 알고리즘
from sklearn.model_selection import train_test_split  # 학습 데이터/테스트 데이터 분리

In [3]:
# 붓꽃 데이터셋 로드

import pandas as pd

iris = load_iris()   

iris_data = iris.data
iris_label = iris.target

print('iris target 값:', iris_label)
print('iris target 명:', iris.target_names)

iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)  # dataframe으로 변환
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [4]:
# train/test split

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state = 11) # test data가 20%

In [5]:
# 1. DecisionTreeClassifier 객체 생성

dt_clf = DecisionTreeClassifier(random_state = 11)


# 2. 모델 학습

dt_clf.fit(X_train, y_train)


# 3. 테스트 데이터로 예측

pred = dt_clf.predict(X_test)


# 4. 평가

from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


### 2-3. 사이킷런의 기반 프레임워크 익히기

#### Estimator 이해 및 fit(), Predict() 메서드

Estimator -> Classifier(분류), Regressor(회귀)로 나뉨

- fit(): 모델 학습
- predict(): 예측

#### 사이킷런의 주요 모듈

- 예제 데이터: sklearn.datasets
- 피처 처리
  - sklearn.preprocessing: 인코딩/정규화/스케일링
  - sklearn.feature_selection: 피처를 우선순위대로 선택
  - sklearn.feature_extraction: 텍스트/이미지 데이터의 벡터화된 피처 추출
- 피처 처리&차원 축소: sklearn.decomposition
- 데이터 분리, 검증 & 파라미터 튜닝: sklearn.model_selection
- 평가: sklearn.metrics
- ML 알고리즘
  - sklearn.ensemble
  - sklearn.linear_model
  - sklearn.naive_bayes
  - sklearn.svm
  - sklearn.tree
  - sklearn.cluster
- 유틸리티: sklearn.pipeline

#### 내장된 예제 데이터 세트

- datasets.load_boston(): 미국 보스턴의 집 피처들과 가격 ( 회귀용 )
- datasets.load_breast_cancer(): 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트 ( 분류용 )
- datasets.load_diabetes(): 당뇨 데이터 세트 ( 회귀용 )
- datasets.load_digits(): 0~9 숫자의 이미지 픽셀 데이터 세트 ( 분류용 )
- datasets.load_iris(): 붓꽃에 대한 피처 ( 분류용 )

fetch 계열: 인터넷에서 내려받아 홈 디렉토리 아래의 scikit_learn_data라는 서브 디렉토리에 저장 후 추후 불러들이는 데이터  
  
- fetch_covtype(): 회귀 분석용 토지 조사 자료
- fetch_20newsgroups(): 뉴스 그룹 텍스트 자료
- fetch_olivetti_faces(): 얼굴 이미지 자료
- fetch_lfw_people(): 얼굴 이미지 자료
- fetch_lfw_pairs: 얼굴 이미지 자료
- fetch_rcv1(): 로이터 뉴스 말뭉치
- fetch_mldata(): ML 웹사이트에서 다운로드

분류와 클러스터링을 위한 표본 데이터 생성  
-> datasets.make_classifications(): 분류를 위한 데이터 무작위 생성  
-> datasests.make_blobs(): 클러스터링을 위한 데이터 무작위 생성

데이터셋의 키
- data:피처의 데이터셋
- target: 레이블 값(분류) or 숫자 결과값(회귀)
- target_names: 개별 레이블의 이름
- feature_names: 피처의 이름
- DESCR: 데이터셋&각 피처에 대한 설명

In [6]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils.Bunch'>


In [7]:
keys = iris_data.keys()
print('붓꽃 데이터셋의 키들:', keys)

붓꽃 데이터셋의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [8]:
print('\n feature_names의 type:', type(iris_data.feature_names))
print('feature_names의 shape:', len(iris_data.feature_names))
print(iris_data.feature_names)

print('\n target_names의 type:', type(iris_data.target_names))
print('target_names의 shape:', len(iris_data.target_names))
print(iris_data.target_names)

print('\n data의 type:', type(iris_data.data))
print('data의 shape:', iris_data.data.shape)
print(iris_data['data'][:10])

print('\n target의 type:', type(iris_data.target))
print('target의 shape:', iris_data.target.shape)
print(iris_data.target)


 feature_names의 type: <class 'list'>
feature_names의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

 target_names의 type: <class 'numpy.ndarray'>
target_names의 shape: 3
['setosa' 'versicolor' 'virginica']

 data의 type: <class 'numpy.ndarray'>
data의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]

 target의 type: <class 'numpy.ndarray'>
target의 shape: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


### 2-4. Model Selection 모듈 소개

#### 학습/테스트 데이터 세트 분리 - train_test_split()

In [9]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

dt_clf = DecisionTreeClassifier() # 모델 생성
train_data = iris.data
train_label = iris.target

dt_clf.fit(train_data, train_label) # 모델 fit

pred = dt_clf.predict(train_data) # 예측
print('예측 정확도:', accuracy_score(train_label, pred)) # 정확도가 100 -> 학습 데이터로 예측을 했기 때문


예측 정확도: 1.0


In [10]:
# train/test split

from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, 
                                                    test_size = 0.3, random_state = 121)

In [11]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


#### 교차 검증

오버피팅 방지를 위해 학습 데이터셋을 학습/검증 셋으로 나눠, 검증 결과 기반으로 하이퍼 파라미터 튜닝 등의 모델 최적화를 거친 후 최종 평가를 하는 것

##### K-fold Cross Validation

![kfold](https://imghub.insilicogen.com/media/photos/cv.png)

In [12]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

kfold = KFold(n_splits = 5)
print('붓꽃 데이터셋 크기:', features.shape[0])

붓꽃 데이터셋 크기: 150


In [13]:
n_iter = 0
cv_accuracy = []

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1

    accuracy = np.round(accuracy_score(y_test, pred), 4)  # 반복 시마다 정확도 측정
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n {0} 교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size ))
    print('{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

print('\n 평균 검증 정확도:', np.mean(cv_accuracy))


 1 교차 검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

 2 교차 검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

 3 교차 검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

 4 교차 검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

 5 교차 검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

 평균 검증 정확도: 0.9


##### Stratified K-fold

레이블의 분포가 불균형할 때 사용 -> 원본 데이터의 레이블 분포와 동일하게 학습/검증 데이터셋 분배  
![stratkfold](https://www.researchgate.net/publication/367073570/figure/fig3/AS:11431281112760036@1673535643645/Schematic-diagram-of-Stratified-K-fold-cross-validation.png)

In [14]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()  # 세 개의 레이블이 균등하게 분포

0    50
1    50
2    50
Name: label, dtype: int64

In [15]:
# 일반 kfold 사용 시 각 교차 검증 시마다 레이블의 분포가 완전히 다르게 추출됨
kfold = KFold(n_splits = 3)
n_iter = 0

for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]

    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())


## 교차 검증: 1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


In [16]:
# stratified kfold 사용 시 레이블 분포

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[test_index]
    label_test = iris_df['label'].iloc[test_index]

    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


In [17]:
dt_clf = DecisionTreeClassifier(random_state = 156)

skfold = StratifiedKFold(n_splits = 3)
n_iter = 0
cv_accuracy = []

for train_index, test_index in skfold.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)

    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]

    print('\n#{0}교차 검증 정확도: {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.mean(cv_accuracy))


#1교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9666666666666667


##### 교차 검증을 보다 간편하게 - cross_val_score()

- k-fold에서 수행했던 폴드 세트 설정 / for 루프로 학습&테스트 데이터 인덱스 추출 / 반복적으로 예측 수행 후 성능 반환 의 과정을 한 번에 수행해주는 API  
- 내부적으로 Stratified K Fold를 사용해서 교차 검증 수행
- cross_validate(): 여러 개의 평가 지표를 반환할 수 있음


In [18]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

# 평가 지표는 accuracy, 폴드 수는 3으로 교차 검증 수행
scores = cross_val_score(dt_clf, data, label ,scoring = 'accuracy', cv = 3) 
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


#### GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

하이퍼 파라미터: 머신러닝 알고리즘을 구성하는 주요 구성 요소. 값을 조정해 알고리즘의 예측 성능 개선
- GridSearchCV: 분류/회귀 알고리즘에 사용되는 파라미터를 여러 개 입력받아 이를 순차적으로 적용하면서 최적화를 수행(for루프의 역할)
  - estimator: classifier / regressor / pipeline
  - param_grid: 파라미터명&파라미터 값 딕셔너리로 지정(key+리스트값)
  - scoring: 예측 성능 측정을 위한 평가 방법 지정
  - cv: 교차 검증 위해 분할되는 학습/테스트셋의 개수 지정
  - refit: True일 때 가장 최적의 하이퍼 파라미터를 찾은 후 입력된 estimator를 해당 하이퍼파라미터로 재학습

In [19]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import pandas as pd

iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size = 0.2, random_state= 121)

dtree = DecisionTreeClassifier()

parameters = {'max_depth': [1,2,3], 'min_samples_split': [2,3]}  # 파라미터를 딕셔너리 형태로 설정

grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv = 3, refit = True) # gridsearch로 교차검증 수행

grid_dtree.fit(X_train, y_train) # 붓꽃 데이터로 param_grid의 하이퍼파라미터 순차적으로 학습&평가

scores_df = pd.DataFrame(grid_dtree.cv_results_)  # 결과 추출하여 df로 변환
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]
# max_depth=3,min_samples_split=2일 때 성능이 가장 좋음

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [20]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750


In [22]:
estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))  # 최적 estimator로 예측 후 정확도 도출

테스트 데이터 세트 정확도: 0.9667


### 2-5. 데이터 전처리

#### 데이터 인코딩

- 레이블 인코딩: 카테고리 피처를 코드형 숫자 값으로 변환  
  - 숫자 값은 몇몇 알고리즘에서 크고 작음에 대한 특성이 순서나 중요도로 작용될 수 있으므로 예측 성능이 떨어질 수 있음
- 원-핫 인코딩: 피처 값의 유형에 따라 새로운 피처 추가, 고유값에 해당하는 칼럼에만 1 표시(나머지는 0)
  - 변환 이전 모든 문자열 값이 숫자형 값으로 변환돼야 함
  - 입력 값으로 2차원 데이터 필요

In [24]:
# 레이블 인코딩

from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder()                   # 객체 생성
encoder.fit(items)                         # fit
labels = encoder.transform(items)          # 레이블 인코딩
print('인코딩 변환값:', labels)               
print('인코딩 클래스:', encoder.classes_)     # 어떤 값이 어떤 숫자로 인코딩 되었는지 확인

print('디코딩 원본값:', encoder.inverse_transform([4,5,2,0,1,1,3,3])) # 인코딩된 값을 다시 디코딩

인코딩 변환값: [0 1 4 5 3 3 2 2]
인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
디코딩 원본값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


In [26]:
# 원-핫 인코딩

from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder() # 먼저 숫자 값으로 변환
encoder.fit(items)
labels = encoder.transform(items)

labels = labels.reshape(-1,1)  # 2차원 데이터로 변환

oh_encoder = OneHotEncoder()  # 원핫인코딩 적용
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [27]:
# 숫자형으로 변환하는 과정 없이 원핫인코딩을 바로 수행할 수 있음 -> get_dummies()

import pandas as pd

df = pd.DataFrame({'item': ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


#### 피처 스케일링과 정규화

- 표준화(Standardization): 데이터의 피처를 각각 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환
$$x_{i}(new) = \frac {x_i - mean(x)}  {stdev(x)} $$
- 정규화(Normalization): 각각 데이터의 크기를 모두 똑같은 단위로 변경하는 것
- $$x_{i}(new) = \frac {x_i}{\sqrt {x_i^2+y_i^2+z_i^2}}

In [28]:
# 표준화: StandardScaler

from sklearn.datasets import load_iris

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

print('feature들의 평균 값')
print(iris_df.mean())
print('\nfeature들의 분산 값')
print(iris_df.var())

feature들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [29]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()  # 객체 생성
scaler.fit(iris_df)        # 데이터셋 변환
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data=iris_scaled, columns = iris.feature_names)
print('feature들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature들의 분산 값')
print(iris_df_scaled.var())

feature들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [30]:
# 정규화: MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler() # 객체 생성
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df) # 데이터셋 변환

iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('feature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

- fit(): 데이터 변환을 위한 기준 정보 설정
- transform(): 설정된 정보를 이용해 데이터 변환
- fit_transform(): 두 개를 동시에 적용  

-> 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용하지 않을 시,  
 학습과 테스트 데이터의 스케일링 기준 정보가 달라져 올바른 예측 결과를 도출하지 못할 수 있음

   
해결책:  

1. 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit()이나 fit_transform()을 적용하지 않고 학습 데이터로 이미 fit()된 Scaler 객체를 이용해 transform() 변환

In [31]:
# 테스트 데이터에 fit()을 적용할 때

from sklearn.preprocessing import MinMaxScaler
import numpy as np

train_array = np.arange(0,11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)

scaler = MinMaxScaler()   
scaler.fit(train_array)                       # train 데이터의 최솟값이 0, 최댓값이 10으로 설정됨
train_scaled = scaler.transform(train_array)  # 0~10인 train 데이터를 0~1 범위로 변환

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale 된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale 된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [33]:
scaler.fit(test_array) # test데이터로 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
test_scaled = scaler.transform(test_array) # 1/5 scale로 test 데이터 반환

print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale 된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2)) 
# train과 test 데이터의 스케일링이 다름 -> 테스트 데이터에 다신 fit()을 적용하면 안됨

원본 test_array 데이터: [0 1 2 3 4 5]
Scale 된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


In [35]:
# 테스트 데이터에 fit()을 적용하지 않을 때

scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale 된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

test_scaled = scaler.transform(test_array) 

print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale 된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2)) 
# train, test 데이터 모두 동일한 비율로 scale 됨

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale 된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
원본 test_array 데이터: [0 1 2 3 4 5]
Scale 된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


### 2-6. 사이킷런으로 수행하는 타이타닉 생존자 예측

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

titanic_df = pd.read_csv('/Users/dayoungcho/Desktop/kaggle/titanic/train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [2]:
print('\n### 학습 데이터 정보 ###  \n')
print(titanic_df.info())


### 학습 데이터 정보 ###  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


In [None]:
# 결측치 확인

titanic_df['Age'].fillna(titanic_df['Age.'])