# 01 - 소개/특징
---

Scikit-Learn은 파이썬 머신러닝 라이브러리 중 가장 많이 사용됨


### 특징

- 굉장히 파이썬스러운 API를 제공함. 사용하기가 쉽다
- 머신러닝을 위한 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공함
- 오랜 기간 실전에서 검증된 성숙한 Library다

# 02 - 머신러닝 만들어 보기 : 붓꽃 품종 예측
---

![image-3.png](attachment:image-3.png)


### Import

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

### Data Load

In [2]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다. 
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다. 
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다. 
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다. 
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


### Train test 데이터 분리

In [3]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,            # random_state : 고정 난수 지정
                                                    test_size=0.2, random_state=11)   # test_size : 분리 비율

### 모델 선정/학습

In [4]:
# DecisionTreeClassifier 객체 생성 
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행 
dt_clf.fit(X_train, y_train)

### 예측

In [5]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행. 
pred = dt_clf.predict(X_test)

### 평가

In [6]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


### 프로세스 정리

1. 데이터 세트 분리 : Train과 test에 사용될 데이터를 나눠준다

2. 모델 학습 : 학습 데이터를 기반으로 ML알고리즘을 통해 학습시켜준다

3. 예측 : 학습된 ML모델을 이용해 테스트 데이터를 분류 예측한다

4. 평가 : 예측된 결과값과 정답 target값을 비교해 모델 성능을 평가한다

# 03 - 사이킷런 기반 프레임워크 익히기
--- 

- estimator : Classifier + Regressor  (지도학습의 모든 클래스를 통칭해서 estimator라 부름)
              fit()과 predict()만으로 간단하게 학습과 예측 결과를 반환받을 수 있다
              


### 사이킷런 주요모듈

| 분류 | 모듈명 | 설명 |
|---|---|---|
| 예제 데이터 | sklearn.datasets | 사이킷런 내장 예제데이터 세트|
||||
| 피처처리 | sklearn.preprocessing| 데이터 전처리 가공 기능제공(문자열 숫자형 코드 값으로 인코딩,정규화,스케일링 등|
| 피처처리 | sklearn.feature_selection| 피처의 우선순위대로 셀렉션 작업 수행하는 기능 제공|
| 피처처리 | sklearn.feature_extraction| 텍스트 데이터나 이미지 데이터의 벡터화된 피처 추출|
||||
| 피처처리 & 차원 축소 | sklearn.decomposition | 차원 축소 관련 알고리즘 지원 모듈(PCA, NMF, Truncaled SVD 등|
||||
| 데이터 분리.검증 & 파라미터 튜닝 | sklearn.model_selection | 교차 검증 위한 학습/테스트 분리, 그리드 서치 최적 파라미터 추출 API|
||||
| 평가 | sklearn.metrics | 분류, 회귀, 클러스터링, 페어와이즈에 대한 성능 측정 방법제공|
||||
| ML 알고리즘| sklearn.ensemble | 앙상블 알고리즘(랜덤포레스트, 에이다 부스트, 그래디언트 부스팅 등|
| ML 알고리즘| sklearn.naive_bayes | 나이브 베이즈 알고리즘(가우시안 NB, 다항 분포 NB 등)|
| ML 알고리즘| sklearn.linear_model | 선형회귀, 릿지, 라쏘, 로지스틱 회귀 등 SGD 관련 알고리즘도 포함함|
| ML 알고리즘| sklearn.svm | 서포트 벡터 머신|
| ML 알고리즘| sklearn.tree | 의사 결정 트리 알고리즘|
| ML 알고리즘| sklearn.cluster | 비지도 클러스터링 알고리즘(K-평균, 계층형, DBSCAN 등|
||||
| 유틸리티 | sklearn.pipeline | 피처 처리 등의 변환,ML 알고리즘 학습, 예측 등을 묶어서 실행할 수 있는 유틸리티 제공|

일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처가공, 변경, 추출등을 수행하는 feature processing, ML 알고리즘 학습/예측 수행, 그리고 모델 평가의 단계를 반복적으로 수행함.

sklearn은 이러한 프로세스를 지원하기 위해 위와 같은 매우 편리하고 모듈을 지원함.

- scikit-learn API
https://scikit-learn.org/stable/modules/classes.html

### 내장 예제 데이터 세트

sklearn은 별도의 외부 웹사이트에서 데이터 세트를 내려받을 필요없이 예제 데이터 세트가 내장되어 있음.


- 분류나 회귀 연습용 세트

| API명 | 설명 |
|---|---|
| datasets.load_boston() | 회귀 용도, 미국 보스턴의 집 피처들과 가격|
| datasets.load_breast_cancer() | 분류 용도, 위스콘신 유방암 피처들과 악성/음성 레이블 세트|
| datasets.load_diabetes() | 회귀 용도, 당뇨병 데이터 세트|
| datasets.load_digits() | 분류 용도, 0~9까지 숫자의 이미지 픽셀 데이터|
| datasets.load_iris() | 분류 용도, 붓꽃에 대한 피처를 가진 데이터 세트|


- fetch

fetch 데이터는 용량이 커서 처음부터 패키지에 저장되어있지 않고 인터넷에서 내려받아 홈 디렉토리 아래의 scikit_learn_data라는 서브 디렉토리에 저장한 뒤에 불러들인다. 최초 사용시에 인터넷에 연결돼 있어야함

    fetch_covtype() : 회귀 분석용 토지 조사 자료

    fetch_20newsgroups() : 뉴스 그룹 텍스트 자료

    fetch_olivetti_faces() : 얼굴 이미지 자료

    fetch_lfw_people() : 얼굴 이미지 자료

    fetch_lfw_pairs() : 얼굴 이미지 자료

    fetch_rcv1() : 로이터 뉴스 말뭉치

    fetch_mldata() : ML웹사이트에서 다운로드

- 분류와 클러스터링 표본 데이터 생성기

| API 명 | 설명 |
|---|---|
| datasets.make_classifications() | 분류를 위한 데이터 세트만듬.특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해줌|
|||
| datasets.make_blobs() | 클러스터링을 위한 데이터 세트를 무작위로 생성해줌. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트 만들어 줌|


---

sklearn에 내장된 데이터는 일반적으로 딕셔너리 형태를 띔

- data : 피처의 데이터 세트
- target : 분류 시 레이블 값, 회귀 시엔 숫자 결괏값 데이터 세트
- target_names : 개별 레이블 이름
- feature_names : 피처의 이름
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명

In [7]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


bunch 클래스는 파이썬 딕셔너리 자료형과 비슷함.

In [8]:
keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들:', keys)

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [2]:
print('\n feature_names 의 type:',type(iris_data.feature_names))
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)
print('----------------------------')

print('\n target_names 의 type:',type(iris_data.target_names))
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)
print('----------------------------')


print('\n data 의 type:',type(iris_data.data))
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'][:5,:])
print('----------------------------')


print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)

NameError: name 'iris_data' is not defined

# 04 - Model_Selection
---


데이터를 분리하거나, 교차 검증 분할, 평가, 하이퍼 파라미터 튜닝을 하기 위한 함수와 클래스 제공





## 학습/테스트 데이터 세트 분리 - train_test_split()

In [10]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 셋으로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:',accuracy_score(train_label,pred))

예측 정확도: 1.0


Test 데이터 없이 Train 데이터만 사용할 경우 모의 고사의 답을 알고 시험을 보는 경우와 비슷할 거임

그래서 train 데이터를 통해 학습한 모델을 실험/검증 해볼 데이터가 따로 필요함

In [11]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier( )
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, 
                                                    test_size=0.3, random_state=121)

위와 같이 훈련과 테스트 데이터로 나눠줄 수 있다.

#### 파라미터

- test_size : 전체 데이터에서 test 데이터의 비율 설정값, Defalt는 0.25
- train_size : 전체 데이터에서 학습용 데이터의 비율 설정값. 이거보다는 test_size를 많이 사용함
- shuffle : 데이터를 분리하기 전 데이터를 미리 섞을 지 여부. Defalt는 True. 데이터 순서대 비율에 맞게 자르기 때문에 섞어줌
- random_state : 호출 할 때 마다 동일한 train/test 데이터를 생성해주기 위해 입력되는 난수값.
- stratify : label 별로 데이터를 뽑아와 줌. target data를 넣어주면 됩니다.

반환값은 튜플 형태로 순서대로 훈련용 피처데이터, 테스트용 피처데이터, 훈련용 레이블 데이터, 테스트용 레이블 데이터가 반환된다

In [12]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


조금 더 일반적으로 바뀐다

하지만 150개의 데이터 중에 30%는 45개 정도밖에 되지 않음. 예측 성능을 판단하기에 그렇게 적절하지는 않다

정해진 데이터를 가지고 학습과 평가를 반복하다보면 정해진 데이터에서만 성능이 좋을 수 있음

## 교차 검증

이러한 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 

교차검증(cross validation)을 사용한다

### K-Fold 교차 검증

- 가장 보편적인 교차 검증 기법
- K개의 데이터 폴드 세트를 만들어서 K번 만큼 돌아가면서 학습과 검증을 반복하는 수행방법

![image.png](attachment:image.png)

In [13]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성.
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:',features.shape[0])

붓꽃 데이터 세트 크기: 150


In [14]:
n_iter = 0

# KFold객체의 split( ) 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환  
for train_index, test_index  in kfold.split(features):
    # kfold.split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측 
    dt_clf.fit(X_train , y_train)    
    pred = dt_clf.predict(X_test)
    n_iter += 1
    # 반복 시 마다 정확도 측정 
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산 
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


### Stratified K 폴드

- 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식임(특정 레이블 값이 특이하게 많거나 적은 상태)
- 만약 대출 사기가 1000건 중에 1건 발생하는 데이터 집합이라면 k-fold로 나누더라도 0과 1의 비율을 제대로 맞추지 못하는 경우가 생김

In [15]:
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [16]:
kfold = KFold(n_splits=3)
# kfold.split(X)는 폴드 세트를 3번 반복할 때마다 달라지는 학습/테스트 용 데이터 로우 인덱스 번호 반환. 
n_iter =0
for train_index, test_index  in kfold.split(iris_df):
    n_iter += 1
    label_train= iris_df['label'].iloc[train_index]
    label_test= iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


In [17]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train= iris_df['label'].iloc[train_index]
    label_test= iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


In [18]:
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)
n_iter=0
cv_accuracy=[]

# StratifiedKFold의 split( ) 호출시 반드시 레이블 데이터 셋도 추가 입력 필요  
for train_index, test_index  in skfold.split(features, label):
    # split( )으로 반환된 인덱스를 이용하여 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측 
    dt_clf.fit(X_train , y_train)    
    pred = dt_clf.predict(X_test)

    # 반복 시 마다 정확도 측정 
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
# 교차 검증별 정확도 및 평균 정확도 계산 
print('\n## 교차 검증별 정확도:', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도:', np.round(np.mean(cv_accuracy), 4))


#1 교차 검증 정확도 :0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도 :0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도 :0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도: [0.98 0.94 0.98]
## 평균 검증 정확도: 0.9667


- 대신에 회귀 문제에는 Stratified가 지원되지 않음
- 당연하게도 연속값들이 회귀의 결정값이기 때문

![image.png](attachment:image.png)

## cross_val_score()

교차검증을 더 편리하게 수행가능한 모듈

1. 폴드 세트 설정

2. for 루프 돌면서 train 및 test 데이터 인덱스 추출

3. 예측 수행, 성능 반환

이런 과정들 한번에 수행해주는 API

In [19]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score , cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy) , 교차 검증 세트는 3개 
scores = cross_val_score(dt_clf , data , label , scoring='accuracy',cv=3)
print('교차 검증별 정확도:',np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs, verbose=0, fit_params=None,
                pre_dispatch='2*n_jobs')
                
estimator : ML알고리즘

X : 피처 데이터 세트

y : 레이블 데이터 세트(정답값)

scoring : 예측 성능 평가지표

cv : 교차 검증 폴드 수

return값은 scoring 평가지표 성능 측정값을 배열형태로 반환

평가지표를 여러개 사용하고싶다면 cross_validate() 함수를 사용하면 됨. 평가지표로 나온 지표와 수행시간도 제공함

## GridSearchCV

교차 검증과 최적 하이퍼 파라미터 튜닝 모듈 지원

Grid 격자라는 뜻으로 촘촘하게 파라미터를 입력하면서 테스트하는 방식

In [20]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습데이타와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, 
                                                    test_size=0.2, random_state=121)
dtree = DecisionTreeClassifier()

### parameter 들을 dictionary 형태로 설정
parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

시간이 많이 걸리기 때문에 유의해서 사용할 것.

- GridSearch 주요 파라미터

    - estimator : classifier, regressor, pipeline 등
    - param_grid : key + 리스트인 딕셔너리. 사용할 파라미터명과 사용될 여러 파라미터 값 지정
    - scoring : 평가지표
    - cv : 폴드 갯수
    - refit : 최적의 하이퍼파라미터 찾은 뒤에 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습 시킴.디폴트는 True

In [21]:
import pandas as pd

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정.  
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴.  
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 .
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과 추출하여 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', \
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- 결과 반환 값을 통해 0번째, 1번째, 2번째 score값을 얻을 수 있다
- 그리고 평균값으로 순위 매김(낮을 수록 좋은 거)

In [22]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750


- 제일 좋았던 파라미터와 그 때의 평가 결과 값이 best_params_와 best_score_에 저장됨

In [23]:
# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도: 0.9667


일반적으로 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 뒤에

별도로 테스트 세트에서 이걸 평가하는 것이 일반적인 머신러닝 모델 적용 방법.

# 05 - 데이터 전처리

ML 알고리즘은 데이터에 기반하기 때문에 어떤 데이터를 입력으로 가지냐에 따라 결과가 크게 달라질 수 있습니다

GOOD INPUT, BEST OUTPUT !

따라서, 머신러닝 알고리즘을 적용하기 전에 데이터를 먼저 처리해줄 필요가 있습니다

---
1. 결손값

머신러닝에 Nan값이 허용되지 않는다. 그래서 따로 처리해야함

Null이 값이 얼마 되지 않는 다면 피처의 평균값 등으로 대체가 가능할 수 있음

하지만, Null값이 대부분이라면 drop 해버리는 게 좋을 수 있다

Null값이 일정 수준이상이라면 결정하기가 어려운데 

해당 피처가 중요도가 높은 피처일 때 단순히 평균값으로 대체할 경우 예측 왜곡이 심할 수 있음

그래서, 업무 로직 등을 상세히 검토해서 정밀한 대체 값을 선정해줘야함

---

2. 문자열

사이킷런 머신러닝 알고리즘은 문자열 또한 허용하지않음

그래서, 숫자형으로 인코딩 해줘야함

카테고리형 피처는 코드값으로, 텍스트형 피처는 벡터화 하거나 불필요한 데이터일 때는 삭제하는 게 좋음(주민번호나 id 등등)

## 데이터 인코딩

- 레이블 인코딩

In [24]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후 , fit( ) 과 transform( ) 으로 label 인코딩 수행. 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)    
print('인코딩 변환값:',labels) 

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [25]:
print('인코딩 클래스:',encoder.classes_) # 0번부터 순서대로 변환된 인코딩 값에 대한 원본 저장소. classes_ 속성

print('디코딩 원본 값:',encoder.inverse_transform([4, 5, 2, 0, 1, 1, 3, 3])) # 반대로 다시 돌리고 싶을 경우 invers_transform()

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
디코딩 원본 값: ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


문제점
    
    :숫자 값의 크고 작은 특성이 작용하기 때문에 
     레이블 인코딩 같은 경우 일괄적인 숫자값으로 변환되면서 몇몇 알고리즘에 적용할 경우 예측 성능이 떨어질 수 있음
     따라서, 트리계열은 숫자의 이러한 특성을 반영하지않지만 선형회귀같은 고려하기 때문에 적용하면 좋지 않음

## 원-핫 인코딩(One-Hot-Encoding)

값의 유형에 따라 컬럼을 추가해주고 해당하는 컬럼에만 1을 넣어주고 나머지 컬럼에는 0을 넣어줌


In [26]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 2차원 ndarray로 변환합니다.
items = np.array(items).reshape(-1, 1)

# 원-핫 인코딩을 적용합니다. 
oh_encoder = OneHotEncoder()
oh_encoder.fit(items)
oh_labels = oh_encoder.transform(items)   # fit_transform으로 한번에 가능

# OneHotEncoder로 변환한 결과는 희소행렬이므로 toarray()를 이용해 밀집 행렬로 변환. 
print('원-핫 인코딩 데이터')
print(oh_labels.toarray())  # 밀집 행렬 형태로 만든다기보다 0을 포함한 계산이 가능하도록 만들어주는 것 같음.
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


- 희소행렬(sparse Matrix)
    : 값 대부분이 0인 행렬을 말함     (sparse : 드문, 희박한)
     
- 밀집 행렬(Dense Matrix)
    : 희소 행렬의 반대. 의미있는 값들로 채워져있는 행렬.

In [27]:
oh_labels   # 희소 행렬이기 때문에 의미있는 값만 저장되어있는 형태 인 것 같음.
               # (요소 인덱스와 데이터 차원 같이 그냥 내 생각임 더 찾아봐야 댐)

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

pandas를 사용한다면 get_dummies()로 가능 >> 할 수 있다면 편하게 이거 쓰는 게 좋을 거 같음

## 피처 스케일링과 정규화

대표적인 방법
- 표준화 : 평균 0, 표준편차 1인 가우시안 정규 분포를 가진 값으로 변환
- 정규화 : 서로 다른 피처 크기를 통일하기 위해 크기를 변환해주는 개념. 표준화의 조금 더 일반적인 변환이라고 볼 수 있을 것 같음

### StandardScaler

표준화를 쉽게 지원하기 위한 클래스. 개별 피처를 평균이 0이고 분산이 1인 정규분포로 변환시켜준다

SVM, LinearRegression, LogisticRegression 등은 데이터가 가우시안 분포를 가지고 있다고 가정하고 구현됬기 때문에,

사전에 표준화를 하는 게 예측 성능 향상에 중요한 요소가 될 수 있음

In [28]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())

feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [29]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

#transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 분산 값')
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


![image.png](attachment:image.png)

모든 컬럼 값의 평균이 0에 아주 가까운 값을 변환된 걸 확인 해볼 수 있음. 분산은 1

### MinMaxScaler

데이터값을 0과 1사이의 범위 값으로 변환함.(음수 값이 있으면 -1에서 1사이)

데이터 분포가 가우시안 분포가 아닐 경우에 MinMaxScaler를 적용해 볼 수 있음.

In [30]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()
# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최솟값')
print(iris_df_scaled.min())
print('\nfeature들의 최댓값')
print(iris_df_scaled.max())

feature들의 최솟값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최댓값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


![image.png](attachment:image.png)

scikit-learn의 Normalizer와는 큰 개념에서는 같지만 개별 샘플에 모든 피처 벡터의 크기로 나눠줌

![image.png](attachment:image.png)

특성벡터의 모든 길이가 1이 되도록 조정 합니다(반지름 1인 원에 투영하는 느낌)

    : 특성벡터의 길이는 상관없고, 데이터의 방향이나 각도가 중요할 경우 사용합니다.


![image.png](attachment:image.png)

## 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점

- fit : 데이터 변환을 위한 기준 정보 설정(최댓값, 최솟값 설정)
- transform : 설정된 정보를 통해 데이터를 변환
- fit_transform : fit과 transform 한번에 진행

학습 데이터 세트와 테스트 데이터 세트에 fit과 transform을 적용할 때 주의가 필요함

Scaler 객체를 사용할 때 train set에 fit과 transform을 적용했다면 test set에는 fit이 아닌 transform변환만 해야합니다

train과 test 데이터에 대해 각각 기준 정보를 만들게 되면 스케일링 정보가 달라지기 때문에 올바른 예측 결과를 도출하지 못할 수도 있음.

In [31]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 학습 데이터는 0 부터 10까지, 테스트 데이터는 0 부터 5까지 값을 가지는 데이터 세트로 생성
# Scaler클래스의 fit(), transform()은 2차원 이상 데이터만 가능하므로 reshape(-1, 1)로 차원 변경
train_array = np.arange(0, 11).reshape(-1, 1)
test_array =  np.arange(0, 6).reshape(-1, 1)

In [32]:
# MinMaxScaler 객체에 별도의 feature_range 파라미터 값을 지정하지 않으면 0~1 값으로 변환
scaler = MinMaxScaler()

# fit()하게 되면 train_array 데이터의 최솟값이 0, 최댓값이 10으로 설정.
scaler.fit(train_array)

# 1/10 scale로 train_array 데이터 변환함. 원본 10-> 1로 변환됨.
train_scaled = scaler.transform(train_array)

print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]


In [33]:
# MinMaxScaler에 test_array를 fit()하게 되면 원본 데이터의 최솟값이 0, 최댓값이 5로 설정됨
scaler.fit(test_array)

# 1/5 scale로 test_array 데이터 변환함. 원본 5->1로 변환.
test_scaled = scaler.transform(test_array)

# test_array의 scale 변환 출력.
print('원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))


원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.2 0.4 0.6 0.8 1. ]


확인 해보면 train과 test에 스케일링이 맞지 않아짐.

윗 코드에선 train은 1/10, test는 1/5로 스케일링 되었음.

학습과 테스트의 서로 다른 원본데이터값이 같은 값으로 스케일링되는 문제가 생김.

머신러닝은 학습데이터를 기반으로 학습되기 때문에 반드시 테스트데이터는 학습데이터의 스케일링 기준을 따라야함.

테스트 데이터의 1값은 학습 데이터와 동일하게 0.1로 변환되야함

In [35]:
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print('원본 train_array 데이터:', np.round(train_array.reshape(-1), 2))
print('Scale된 train_array 데이터:', np.round(train_scaled.reshape(-1), 2))

# test_array에 Scale 변환을 할 때는 반드시 fit()을 호출하지 않고 transform() 만으로 변환해야 함. 
test_scaled = scaler.transform(test_array)
print('\n원본 test_array 데이터:', np.round(test_array.reshape(-1), 2))
print('Scale된 test_array 데이터:', np.round(test_scaled.reshape(-1), 2))

원본 train_array 데이터: [ 0  1  2  3  4  5  6  7  8  9 10]
Scale된 train_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]

원본 test_array 데이터: [0 1 2 3 4 5]
Scale된 test_array 데이터: [0.  0.1 0.2 0.3 0.4 0.5]


위와 같이 test에는 transform만 적용시켜서 train과 test의 스케일을 맞춰준다

그래서 보통은 학습과 테스트를 분리하기 전에 전체 데이터 세트에 대해 스케일링을 진행하고 분리하는 것이 좋다

1. 가능하면 전체 데이터에 스케일링 변환을 적용한다. 그 다음 학습, 테스트 분리

2. 1이 여의치 않다면 테스트 데이터 변환 시에는 fit이나 fit_transform을 적용하지 
   않고 학습데이터로 fit된 scaler 객체를통해 transform 한다.
   
나중에 PCA와 같은 차원 축소 변환이나 텍스트 피처 벡터화 변환 시에도 동일하게 적용됨