# Scikit-learn

sci는 science의 sci임

In [1]:
import sklearn

> 하이퍼 파라미터

최적의 학습을 위해 직접 입력하며, 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있다.

## 첫 번째 머신러닝 만들어보기 - 붓꽃 품종 예측하기

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [3]:
import pandas as pd

In [4]:
iris = load_iris() # 붓꽃 데이터 로딩
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [5]:
iris_data = iris.data # 피처 데이터 세트
iris_label = iris.target # 피처 레이블 세트

In [6]:
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df[:3]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [7]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = .2, random_state = 11)

> random_state : 호출할 때마다 같은 학습/테스트 용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값

In [8]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)
dt_clf

DecisionTreeClassifier(random_state=11)

In [9]:
dt_clf.fit(X_train, y_train) # 학습 수행

DecisionTreeClassifier(random_state=11)

In [10]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행

pred = dt_clf.predict(X_test)

In [11]:
# 정확도 측정
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.9333333333333333

> 프로세스

1. 학습/테스트 데이터 세트 분리<br>
2. 모델 학습<br>
3. 예측 수행<br>
4. 평가

## fit, predict()

지도학습 - 간단하게 학습과 예측 결과 반환

## Estimator

지도학습의 모든 알고리즘을 구현한 클래스를 통칭함<br>
Classifier + Regressor

## fit, transform(), fit_transform()

비지도학습과 피처 추출 - 변환을 위한 사전 구조를 맞춘 후 입력 데이터의 차원 변환과 실제 작업 수행

---------------

## 주요 모듈

> sklearn.datasets : 예제 데이터

> sklearn.preprocessing : 데이터 전처리에 필요한 가공 기능 제공 ex.인코딩, 정규화, 스케일링 등

> sklearn.feature_selection : 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공

> sklearn.feature_extraction : 텍스트나 이미지 데이터의 벡터화된 피처를 추출 시 사용

> sklearn.decomposition : 파원 축소와 관련한 알고리즘을 지원하는 모듈

> sklearn.model_selection : 교차 검증을 위한 학습 및 테스트용 분리, 그리고 서치로 최적 파라미터 추출 등 API 제공

> sklearn.metrics : 평가 / 분류, 회귀, 클러스터링 등에 대한 다양한 성능 측정 방법 제공

> sklearn. ensemble : ML 알고리즘으로, 앙상블 알고리즘을 제공 ex. 랜덤 포레스트, 에이다 부스트, 그래디언트 부스팅 등

> sklearn.linear_model : 선형 회귀 및 로지스틱 회귀 등 회귀 관련 알고리즘 지원

> sklearn.tree : 의사 결정 트리 알고리즘 제공

> sklearn.pipline : 피처 처리 등의 변환과 ML 알고리즘 학습, 예측 등을 함께 묶어서 실행할 수 있는 유틸리티 제공

------------

일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 (피처의 가공, 변경, 추출을 수행하는)<br> **피처 처리**, ML 알고리즘 **학습/예측** 수행, 그리고 모델 **평가**의 단계를 **반복**적으로 수행하는 것이다.

data, target은 ndarray 타입,  
target_names, feature_names는 ndarray or python list 타입  
DESCR은 str 타입

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()

type(iris_data)

sklearn.utils._bunch.Bunch

Bunch 클래스는 파이썬 딕셔너리 자료형과 유사함

In [3]:
iris_data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

> 피처 데이터 값을 추출하기 위해서는?

In [6]:
iris_data.data # 방법 1

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [7]:
iris_data['data'] # 방법 2

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

-------------

# Model Selection Module

## 학습/테스트 데이터 세트 분리 - train_test_split()

<span style="color: #2D3748; background-color:#fff5b1;">**예측**을 **수행**하는 데이터 세트</span>는 학습을 수행한 학습용 데이터 세트가 아닌 <span style="color: #2D3748; background-color:#fff5b1;">**테스트 데이터 세트**</span>여야 함

> **주요 파라미터**
- **test_size**[default : 0.25] : 전체 데이터에서 테스트 데이터 세트 크기를 얼마의 비율로 분리할 것인가
- **shuffle**[default : True] : 데이터를 분리하기 전에 미리 섞을지 여부
- **random_state** : 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값 <br>              지정하지 않을 시 수행할 때마다 다른 학습/테스트용 데이터 생성

In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = .3, random_state = 121)

dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
accuracy = accuracy_score(y_test, pred)
accuracy

0.9555555555555556

------------------

## 교차검증(Cross Validation)

본고사를 치르기 전에 모의고사를 여러 번 보는 것과 같음  
**학습, 검증, 테스트 데이터 세트**로 나누어 테스트 데이터 세트 외에 별도의 검증 데이터 세트로 최종 평가 이전에 **다양한 방법**으로 **여러 번 평가**함

- **과적합**(Overfitting)으로 인해 생기는 문제 **예방**<br>
   ㄴ 모델이 학습 데이터만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우에 예측 성능이 과도하게 떨어지는 것을 의미함

### K 폴드 교차 검증

: 원 데이터를 K개의 데이터로 등분한 후 K-1개는 학습용, 1개는 검증(테스트)용으로 학습과 성능 추정을 <span style="color: #2D3748; background-color:#fff5b1;">**K번 반복**</span>
- 시간이 오래 걸리나 과적합에 대한 우려가 적음
- K = 10 또는 20이 많이 쓰임

<p align="center"><img src="./k-fold.png"></p>

In [10]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

kfold = KFold(n_splits = 5) # 5개의 폴드 세트로 분리하는 KFold 객체 생성

cv_accuracy = [] # 폴드 세트별 정확도를 담을 리스트 객체 생성

In [28]:
features.shape[0] # 붓꽃 데이터 세트 크기

150

<span style="color: red">**KFold.split**( )</span> <span style="color: black">는 폴드별 학습용, 검증용 테스트의</span> <span style="color: red">**로우 인덱스**</span>를 **array**로 반환함</span>

In [13]:
n_iter = 0

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter += 1
    
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    cv_accuracy.append(accuracy) # 개별 검증 정확도 계산

np.mean(cv_accuracy) # 평균 정확도 계산

0.9

-----------

### LOOCV(Leave-One-Out Cross-Validation)

: 교차 검증 방법 중 한 번에 한 개의 표본만 검증 데이터로 이용 -> 데이터의 개수가 n개라면 n번의 모형을 생성하여 평균을 냄<br>
k fold CV을 하고 싶으면 cv.knn() 하면 됨
- 모든 표본에 대해 테스트 하기 때문에 randomness 없음
- k-fold CV 보다 일반적으로 안정적임
<br>
- 시간이 오래 걸림
- 모형의 다양성이 떨어짐


그냥 이런 것이 있다고 알아두기

---------

### Stratified K 폴드

: 직역하자면 **계층화된 K 폴드**로,<br> <span style="color: #2D3748; background-color:#fff5b1;">**불균형**한 분포도를 가진</span> **레이블** 데이터</span> 집합*을 위한 K 폴드 방식<br>
      ㄴ 불균형한 분포도를 가진 레이블 데이터 집합이란?  특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것  
      
- 학습 및 테스트 세트를 제대로 분리하지 못하는 경우의 문제를 해결해 줌

In [14]:
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)

iris_df

iris_df['label'] = iris.target
iris_df

iris_df['label'].value_counts() # 레이블 값의 분포도 확인

0    50
1    50
2    50
Name: label, dtype: int64

In [43]:
from sklearn.model_selection import StratifiedKFold

In [45]:
skf = StratifiedKFold(n_splits = 3)

n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    
    print(n_iter) # 교차 검증
    print(label_train.value_counts()) # 학습 레이블 데이터 분포
    print(label_test.value_counts()) # 검증 레이블 데이터 분포

1
2    34
0    33
1    33
Name: label, dtype: int64
0    17
1    17
2    16
Name: label, dtype: int64
2
1    34
0    33
2    33
Name: label, dtype: int64
0    17
2    17
1    16
Name: label, dtype: int64
3
0    34
1    33
2    33
Name: label, dtype: int64
1    17
2    17
0    16
Name: label, dtype: int64


=> 학습 레이블과 검증 레이블 데이터 값의 분포도가 거의 동일하게 할당됐음

> StratifiedKFold를 이용해 데이터 분리 후 교차검증 하기

In [46]:
dt_clf = DecisionTreeClassifier(random_state = 156)

skfold = StratifiedKFold(n_splits = 3)

n_iter = 0
cv_avvuracy = []

# StratifiedKFold의 split()호출 시 반드시 레이블 데이터 세트도 추가 입력 필요
for train_index, test_index in skfold.split(features, label):
    
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 측정
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    print('train_size:', X_train.shape[0]) # 학습 데이터 크기
    print('test_size:', X_test.shape[0]) # 검증 데이터 크기
    
    cv_accuracy.append(accuracy)
    
print(np.round(cv_accuracy, 4)) # 교차 검증별 정확도
print(np.round(np.mean(cv_accuracy), 4)) # 평균 검증 정확도

train_size: 100
test_size: 50
train_size: 100
test_size: 50
train_size: 100
test_size: 50
[1.     0.9667 0.8667 0.9333 0.7333 1.     0.9667 0.8667 0.9333 0.7333
 1.     0.9667 0.8667 0.9333 0.7333 0.98   0.94   0.98  ]
0.9111


In [47]:
# 이렇게 사용해도 됨
print(np.mean(cv_accuracy))
np.mean(cv_accuracy).round(4)

0.911111111111111


0.9111

왜곡된 레이블 데이터 세트에서는 반드시 StratifiedKFold를 이용해 교차 검증해야 함  
일반적으로 <span style="color: #2D3748; background-color:#fff5b1;">**분류**에서의 **교차 검증**은 **StratifiedKFold**로 분할돼야 함</span>   
회귀에서는 StratifiedKFold 지원되지 않음(회귀의 결정값은 연속된 숫자값이기 때문에 결정값별로 분포를 정하는 의미가 없음)

--------------

### cross_val_score()

: 교차 검증을 보다 간편하게 수행  
- <span style="color: #2D3748; background-color:#fff5b1;">**내부적으로 StratifiedKFold를 이용**</span>하기 때문에, 각 교차 검증별 정확도가 평균 검증 정확도와 동일함

> 주요 파라미터
- **estimator** : 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor<br>
- **scoring** : 예측 성능 평가 지표<br>
- **cv** : 교차 검증 폴드 수

In [17]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris.data
label = iris.target

scores = cross_val_score(dt_clf, data, label, scoring = 'accuracy', cv = 3)
print(scores) # 교차 검증별 정확도

np.round(np.mean(scores), 4) # 평균 검증 정확도

[0.98 0.94 0.98]


0.9667

----------

### cross_val_score() vs cross_validate()

|    cross_val_score()       |      cross_validate()      |
|----------------------------|----------------------------|
|단 하나의 평가 지표만 가능   |   여러 개의 평가 지표 가능  |
|성능 평가 결과값 반환        | 성능 평가 결과값 + 수행 시간|

---------------

### GridSearchCV

**교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에~** <br>
  
=> 파라미터를 순차적으로 입력하면서 최적의 파라미터 도출<br>
=> 수행시간이 상대적으로 오래 걸림  
=> 불균형한 DataSet을 위한 k 폴드 방법임

> **하이퍼 파라미터란?**<br>
: 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있음

> **주요 파라미터**
- **estimator** : classifier, regressor, pipeline 사용 가능
- **param_grid** : key + 리스트 값을 가지는 **딕셔너리**가 입력되어야 함, 딕셔너리에는 estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값 존재
- **scoring** : 예측 성능 평가 방법
- **cv** : 교차 검증을 위해 분할되는 학습/테스트 세트 개수
- **refit**[default : Trur] : 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킴

In [31]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split

iris_data = load_iris() # 데이터 로딩

# 학습 데이터와 테스트 데이터 분리
X_train, X_testm, y_train, y_test = train_test_split(iris_data.data, iris_data.target,\
                                                     test_size = .2, random_state = 121)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정

parameters = {'max_depth' : [1,2,3],
              'min_samples_split' : [2,3]}

# 무엇을 실행한 것이 아니라 오브젝트를 생성함
grid_dtree = GridSearchCV(estimator = dtree, param_grid = parameters, cv = 3, refit = True)
grid_dtree

grid_dtree.fit(X_train, y_train) # 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습 및 평가

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


> rank_test_score : 하이퍼 파라미터별 성능이 좋은 score 순위<br>
> mean_test_score : 개별 하이퍼 파라미터별 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값
  
> **속성**
>> cv_results_ : param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습 및 평가를 수행한 결과<br>
>> best_params_ : 최고 성능을 나타낸 하이퍼 파라미터 값<br>
>> best_score_ : 최고 성능을 나타낸 하이퍼 파라미터 값이 입력됐을 때의 평가 결과값<br>
>> best_estimator : GridSearcgCV의 refit으로 이미 학습된 estimator 반환

In [32]:
# GridSearchCV 결과 추출
grid_dtree.cv_results_

{'mean_fit_time': array([0.00033418, 0.00033434, 0.        , 0.        , 0.        ,
        0.        ]),
 'std_fit_time': array([0.00047261, 0.00047283, 0.        , 0.        , 0.        ,
        0.        ]),
 'mean_score_time': array([0.        , 0.        , 0.00066884, 0.00033379, 0.        ,
        0.        ]),
 'std_score_time': array([0.        , 0.        , 0.00047294, 0.00047204, 0.        ,
        0.        ]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_samples_split': 3},
  {'max_depth': 3, 'min_sample

In [33]:
grid_dtree.best_params_

{'max_depth': 3, 'min_samples_split': 2}

In [34]:
grid_dtree.best_score_

0.975

In [35]:
estimator = grid_dtree.best_estimator_

In [36]:
# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요없음
pred = estimator.predict(X_test)
accuracy_score(y_test, pred)

0.26666666666666666

---------

# 데이터 전처리(Data Preprocessing)

- <span style='background-color: #F7DDBE'>**결손값** 즉, NAN과 Null 값을 **허용하지 않음**</span>
- 따라서, 고정된 다른 값으로 변환시켜 주어야 함
- 사이킷런의 머신러닝 알고리즘은 <span style='background-color: #F7DDBE'>**문자열**을 입력값으로 **허용하지 않음**</span>
- 따라서, 모든 문자열 값은 인코딩돼서 숫자 형으로 변환해야 함<br>
<br>
**< 데이터 인코딩 종류 >** <br>
1. 레이블 인코딩(Label encoding)<br>
2. 원-핫 인코딩(One-Hot encoding)

---------

## 레이블 인코딩(Label Encoding)

: 카테고리 피처를 코드형 숫자 값으로 변환<br>
<br>
>방법 <br>

LabelEncoder 클래스로 구현하며, fit()과 transform()을 호출하여 수행

In [38]:
from sklearn.preprocessing import LabelEncoder

In [39]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels # 인코딩 변환값

array([0, 1, 4, 5, 3, 3, 2, 2])

> 속성) **.classes_** : 문자열 값이 어떤 숫자 값으로 인코딩 됐는지

In [48]:
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype='<U5')

TV가 0, 냉장고가 1, 믹서가 2, 선풍기가 3, 전자레인지가 4, 컴퓨터가 5로 인코딩됐음을 알 수 있음

> 속성) **inverse_transform()** : 인코딩된 값을 다시 디코딩 시켜줌

In [50]:
encoder.inverse_transform([4,5,2,0,1,1,3,3])

array(['전자레인지', '컴퓨터', '믹서', 'TV', '냉장고', '냉장고', '선풍기', '선풍기'],
      dtype='<U5')

> **레이블 인코딩의 단점**

숫자형 값으로 변환되면 가중치가 더 부여되거나 더 중요하게 인식할 가능성이 발생할 수 있음<br>
이러한 특성 때문에 레이블 인코딩은 선형회귀와 같은 ML 알고리즘에는 적용하지 않아야 함

---------------

## 원-핫 인코딩(One-Hot encoding)

: 행 형태로 되어 있는 피처의 고유 값을 <span style='background-color: #ffdce0'>**열 형태로 차원을 변환**</span>한 뒤, <span style='background-color: #ffdce0'>**고유 값에 해당하는 컬럼에만 1**</span>을 표시하고 <span style='background-color: #ffdce0'>**나머지 컬럼에는 0**</span>을 표시함

> **주의할 점**

- 입력값으로 **2차원**의 데이터 필요
- 변환된 값이 희소 행렬(Sparse Matrix) 형태이므로 이를 다시 **toarray()** 메서드를 이용해 **밀집 행렬(Dense Matrix)로 변환**해야 함

In [41]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

In [42]:
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

> <span style='background-color: #ffdce0'>**중요!!!!!!!**</span> 입력의 형태가 세로로 쭈우우욱 나열되어야 함!!!! 아래처럼

In [43]:
items = np.array(items).reshape(-1,1) # 2차원 ndarray로 변환

In [44]:
items

array([['TV'],
       ['냉장고'],
       ['전자레인지'],
       ['컴퓨터'],
       ['선풍기'],
       ['선풍기'],
       ['믹서'],
       ['믹서']], dtype='<U5')

In [45]:
encoder = OneHotEncoder()

encoder.fit(items)

labels = encoder.transform(items)

In [46]:
labels.toarray() # 원-핫 인코딩 데이터

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [47]:
labels.shape # 원-핫 인코딩 데이터 차원

(8, 6)

----------------

## get_dummies()

Pandas에서 더 쉽게 <span style='background-color: #F7DDBE'>**원-핫 인코딩** </span>하는 방법

In [51]:
# 방법 1
import pandas as pd
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
pd.get_dummies(items) # 숫자형 값으로 변환 없이도 바로 변환이 가능함

Unnamed: 0,TV,냉장고,믹서,선풍기,전자레인지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [50]:
# 방법 2
import pandas as pd

df = pd.DataFrame({'items' : ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})

pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


----------

# 피처 스케일링과 정규화

> **피처 스케일링이란?**

서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업

> **정규화(Normalization)**
 - 서로 다른 피처의 크기를 통일하기 위해 크기를 변환
 - **최소 0 ~ 최대 1의 값**
 - 사이킷런의 Normalizer 모듈은 개별 벡터를 모든 피처 벡터의 크기로 나누어 줌

$x_{i}$_new = $\frac{x_{i} - min(x)}{max(x) - min(x)}$

> **표준화(Standardization)**
 - 데이터의 피처 각각이 **평균이 0**이고 **분산이 1인** 가우시안 정규 분포를 가진 값으로 변환

$x_{i}$_new : $\frac{x_{i}-mean(x)}{stdev(x)}$

-----------

In [88]:
from sklearn.datasets import load_iris
iris = load_iris()

In [84]:
iris = iris.data
iris_df = pd.DataFrame(iris)
iris_df

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


> 최댓값 확인

In [69]:
iris_df.max()

0    7.9
1    4.4
2    6.9
3    2.5
dtype: float64

> 최솟값 확인

In [70]:
iris_df.min()

0    4.3
1    2.0
2    1.0
3    0.1
dtype: float64

------------

## 정규화(Normalization)

: <span style='background-color: #ffdce0'>**최솟값을 0, 최댓값을 1**로 변환함</span><br>
이는 변수를 모두 동일한 크기 단위로 비교하기 위함임<br>
즉, 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것임<br>

### MinMaxScaler

: **데이터 값을 0과 1 사이의 범위 값**으로 변환<br>
(음수 값이 있으면 -1에서 1 값으로 변환)

#### 강사님 코드

In [71]:
def min_max(x):
    return (x - x.min()) / (x.max() - x.min())

In [85]:
iris_df.apply(min_max)

Unnamed: 0,0,1,2,3
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


> lambda식으로 표현

iris_df.apply(labmda x : (x - x.min()) / (x.max() - x.min()))

In [73]:
iris_df.apply(min_max).max()

0    1.0
1    1.0
2    1.0
3    1.0
dtype: float64

#### 책 코드

In [58]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(iris_df)

iris_scaled = scaler.transform(iris_df)

In [78]:
iris_scaled # ndarray 형태

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

In [59]:
# DataFrame 형태로 변환

iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
iris_df_scaled

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [60]:
iris_df_scaled.max()

sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64

In [61]:
iris_df_scaled.min()

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

-----------

## 표준화(Standardization)

데이터 내 개별 피처를 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환하는 것

### StandardScaler

#### 책 코드

In [53]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)

In [98]:
iris_df.mean() # feature 들의 평균 값

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [99]:
iris_df.var() # feature 들의 분산 값

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [54]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [55]:
# transform 시 스케일 변환된 데이터 세트가 ndarray형태이기 때문에 이를 DataFrame으로 변환해주어야 함
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

In [56]:
iris_df_scaled.mean() # feature들의 평균값

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

In [57]:
iris_df_scaled.var() # feature들의 분산값

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

=> 모든 컬럼 값의 평균이 0에 아주 가까운 값으로, 그리고 분산은 1에 아주 가까운 값으로 변환되면 잘 된 것임!

#### 강사님 방식

In [62]:
def standardize(x):
    return (x - x.mean()) / x.std()

In [109]:
iris_df.apply(standardize) # 각각의 컬럼 별로 함수 적용

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.897674,1.015602,-1.335752,-1.311052
1,-1.139200,-0.131539,-1.335752,-1.311052
2,-1.380727,0.327318,-1.392399,-1.311052
3,-1.501490,0.097889,-1.279104,-1.311052
4,-1.018437,1.245030,-1.335752,-1.311052
...,...,...,...,...
145,1.034539,-0.131539,0.816859,1.443994
146,0.551486,-1.278680,0.703564,0.919223
147,0.793012,-0.131539,0.816859,1.050416
148,0.430722,0.786174,0.930154,1.443994


In [110]:
iris_df.apply(standardize).mean()

sepal length (cm)   -1.457168e-15
sepal width (cm)    -1.638319e-15
petal length (cm)   -1.292300e-15
petal width (cm)    -5.543714e-16
dtype: float64

In [111]:
iris_df.apply(standardize).var()

sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64

-------------

## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의할 점

<span style='background-color: #ffdce0'>전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리하자</span>

> 이유 설명

train에서 fit하고, test에서 fit하면 안됨<br>
train에서 한 fit을 유지해야 하기 때문임(기준 달라지는 문제 발생 방지)<br>
애당초 처음에 train과 test를 분리하기 전에 fit을 시키는 것이 좋음<br>
<br>
즉, 쪼개기 전에 fit 시키자! 쪼개놓고 정규화 하지 말고! 그래야 동일하게 0과 1을 적용시킬 수 있음!

----------