<a href="https://colab.research.google.com/github/lovegohome/ML/blob/main/wLGM/2_Model_Selection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Model Selection 모듈 소개



## 학습/테스트 데이터 셋 분리 – train_test_split()

### 사이킷런 model_selection 모듈의 주요 기능
- 학습 데이터와 테스트 데이터 세트 분리
- 교차 검증 분할 및 평가
- Estimator의 하이퍼 파라미터 튜닝

**학습 데이터와 테스트 데이터 세트 분리**
- train_test_split() 함수 사용

**학습 데이터 세트**
- 머신러닝 알고리즘의 학습을 위해 사용
- 데이터의 속성(피처)과 결정값(레이블) 모두 포함
- 학습 데이터를 기반으로 머신러닝 알고리즘이 데이터 속성과 결정값의 패턴을 인지하고 학습

**테스트 데이터 세트** 
- 학습된 머신러닝 알고리즘 테스트용
- 머신러닝 알고리즘은 제공된 속성 데이터를 기반으로 결정값 예측
- 학습 데이터와 별도의 세트로 제공

**train_test_split() 함수**

train_test_split(feature_dataset, label_dataset, test_size, train_size, random_state, shuffle, stratify)


- feature_dataset : 피처 데이터 세트
    - 피처(feature)만으로 된 데이터(numpy) [5.1, 3.5, 1.4, 0.2],...
- label_dataset : 레이블 데이터 세트
    - 레이블(결정 값) 데이터(numpy) [0 0 0 ... 1 1 1 .... 2 2 2]
- label_dataset : 테스트 데이터 세트 비율
    - 전체 데이터 세트 중 테스트 데이터 세트 비율
    - 지정하지 않으면 0.25
- random_state : 세트를 섞을 때 해당 int 값을 보고 섞음
    - 수행할 때마다 동일한 데이터 세트로 분리하기 위해 시드값 고정(실습용)
    - 0 또는 4가 가장 많이 사용
    - 하이퍼 파라미터 튜닝시 이 값을 고정해두고 튜닝해야 매번 데이터셋이 변경되는 것을 방지할 수 있음
    
- shuffle : 분할하기 전에 섞을지 지정
    - default=True (보통은 default 값으로 놔둠)
- stratify : 지정된 레이블의 클래스 비율에 맞게 분할
    - default=None
    - classification을 다룰 때 매우 중요한 옵션값
    - stratify 값을 target으로 지정해주면 각각의 class 비율(ratio)을 train/ validation에 유지해 줌(한 쪽에 쏠려서 분배되는 것을 방지)
    - 이 옵션을 지정해 주지 않고 classification 문제를 다룬다면, 성능의 차이가 많이 날 수 있음
    
   
   
예. train_test_split(iris_data, iris_label, test_size=0.3, random_state=11)


train_test_split() 반환값
* X_train : 학습용 피처 데이터 세트 (feature)
* X_test : 테스트용 피처 데이터 세트 (feature)
* y_train : 학습용 레이블 데이터 세트 (target)
* y_test : 테스트용 레이블 데이터 세트 (target)
* feature : 대문자 X_
* label(target) : 소문자 y_

### (1) 학습/테스트 데이터 셋 분리하지 않고 예측


In [1]:
# (1) 학습/테스트 데이터 셋 분리하지 않고 예측
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

train_data = iris_data.data
train_label = iris_data.target

# 학습 수행 
dt_clf.fit(train_data, train_label)

# 테스트
pred = dt_clf.predict(train_data)
print("예측 정확도 : ", accuracy_score(train_label, pred))

예측 정확도 :  1.0


- 예측을 train_data로 했기 때문에 결과 1.0 (100%)으로 출력 (잘못됨)
- 예측은 테스트 데이터로 해야 함

### (2) 학습/테스트 데이터 셋 분리하고 예측

In [None]:
# (2) 학습/테스트 데이터 셋 분리하고 예측 
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

# 학습/테스트 분할(split)
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                test_size=0.2, random_state=4)
print(y_train)

In [None]:
# 학습 수행
dt_clf.fit(X_train, y_train)

# 예측 수행
pred = dt_clf.predict(X_test)
print("예측 정확도 : ", accuracy_score(y_test, pred))

# random_state=21 어떻게주느냐에 따라 예측 정확도가 조금씩 
# 달라진다. 
# test_size=0.2 도 어떻게 주느냐에 따라 값이 달라짐
# 손 맛 

In [None]:
# 넘파이 ndarray 뿐만 아니라 판다스 DataFrame/Series도 train_test_split( )으로 분할 가능

import pandas as pd

iris_df = pd.DataFrame(iris_data.data, 
                       columns = iris_data.feature_names)
iris_df['target'] = iris_data.target
iris_df.head(3)

In [None]:
# 피처 데이터프레임 반환(마지막 열 전까지, 마지막 열 제외)
feature_df = iris_df.iloc[:, :-1]

# 타겟 데이터프레임 반환
target_df = iris_df.iloc[:, -1]

# 학습 / 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(feature_df, 
                                                    target_df,
                                                    test_size=0.3, 
                                                    random_state=4)
print(y_train)
# 즉, 판다스로도 분할 되는 걸 확인함. 

In [None]:
type(X_train)

In [None]:
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측정확도: {0: .3f}'.format(accuracy_score(y_test, pred)))

## Data Split과 모델 검증

- 언제
    - "충분히 큰" 데이터 세트를 가용할 때
    - "충분히 큰" 데이터가 없을 때에는 교차 확인(Cross Validation) 고려
    

- 왜
    - 학습에 사용되지 않은 데이터를 사용하여 예측을 수행함으로써 모델의 일반적인 성능에 대한 적절한 예측을 함
    

- 어떻게
    - 홀드-아웃(Hold-out)
    - 교차검증(Cross Validation,CV)
    - 필요에 따라 Stratified Sampling

### 홀드-아웃 방식
- 데이터를 두 개 세트로 나누어 각각 Train과 Test 세트로 사용
- Train과 Test의 비율을 7:3 ~ 9:1로 널리 사용하나, 알고리즘의 특성 및 상황에 따라 적절한 비율을 사용
- Train – Validation - Test로 나누기도 함

![image.png](attachment:image.png)
https://algotrading101.com/learn/train-test-split-2/


부적합한 데이터 선별로 인한 문제점
- ML은 데이터에 기반하고, 
- 데이터는 이상치, 분포도, 다양한 속성값, 피처 중요도 등 
- ML에 영향을 미치는 다양한 요소를 가지고 있음
- 특정 ML 알고리즘에 최적으로 동작할 수 있도록
- 데이터를 선별해서 학습한다면
- 실제 데이터 양식과는 많은 차이가 있을 것이고
- 결국 성능 저하로 이어질 것임

문제점 개선 ---> 교차 검증을 이용해 더 다양한 학습 평가 수행

### 교차검증(Cross Validation, CV)
- k-fold Cross Validation이라고도 함
- 전체 데이터 세트를 임의로 k개의 그룹으로 나누고, 그 가운데 하나의 그룹을 돌아가면서 테스트 데이터 세트로, 나머지 k-1개 그룹은 학습용 데이터 세트로 사용하는 방법
- 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행


- 사용 목적
    - 데이터에 적합한 알고리즘인지 평가하기 위해 
    - 모델에 적절한 hyperparameter 찾기 위해
    - 과대적합 예방
    - 데이터 편중을 막기 위해
    

    
![image.png](attachment:image.png)


http://karlrosaen.com/ml/learning-log/2016-06-20/

### 교차 검증 방법
- K 폴드 교차 검증
- Stratified K 폴드 교차 검증

### K 폴드 교차 검증
- K개의 데이터 폴드 세트를 만들어서
- K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행
- 가장 보편적으로 사용되는 교차 검증 기법


- 5-폴드 교차 검증

![image.png](attachment:image.png)

**K 폴드 교차 검증 프로세스 구현을 위한 사이킷런 클래스**

(1) KFold 클래스 : 폴드 세트로 분리하는 객체 생성
- kfold = KFold(n_splits=5)

(2) split() 메소드 : 폴드 데이터 세트로 분리
- kfold.split(features)
- 각 폴드마다  
    학습용, 검증용, 테스트 데이터 추출  
    학습용 및 예측 수행  
    정확도 측정  

(3) 최종 평균 정확도 계산
* K 폴드 예제

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

iris = load_iris()
features = iris.data
label = iris.target

#iris.shape 
#features.shape[0]
features.shape

In [None]:
# DecisionTreeClassifier 객체 생성 
dr_clf = DecisionTreeClassifier(random_state=156)
# 5개의 폴드 세트로 분리하는 KFold 객체 생성
kfold = KFold(n_splits=5)
# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy =  [] # 빈리스트 만들고 

In [None]:
kfold.split(features) # 짠 나눠짐 

In [None]:
# 폴드 별 학습용, 검증용 데이터 세트의 행 인덱스 확인
for train_index, test_index in kfold.split(features):
    print(train_index, test_index)

In [None]:
import numpy as np 

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train = label[train_index]
    y_test = label[test_index]
    
    dt_clf.fit(X_train, y_train) # 학습
    # 강사님 dr_clf로 객체 생성하신거같아요~??
    pred = dt_clf.predict(X_test) # 앞에서 5번 나눈 거 대로
    
#    acc = accuracy_score(y_test, pred)
    acc = np.round(accuracy_score(y_test, pred), 3) # 소수점 조절 
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('정확도: %f, 학습데이터 크기: %d, 검증데이터 크기: %d,' 
          %(acc, train_size, test_size))
    cv_accuracy.append(acc) 
    
print('평균 검증 정확도: ', np.mean(cv_accuracy).round(1))

# 옴... cv_accuaracy
# accuracy???
# 왜 교수님은 0.9로 뜨는데 난 왜이렇게 길게 나오지..?

# 데이터 세트가 어떻게 구성되느냐에 따라 다른 평균값이 나오기 때문에
# 생기는 차이가 아닐까 합니다.
# print('평균 검증 정확도 : ', np.mean(cv_accuracy).round(1))
# 이렇게 바꾸시면 0.9
# 위에서 round 처리 한 것은 acc의 값이지 
# cv_accuracy의 값이 아니기 때문에 cv_accuracy의 출력에는 
# 영향을 미치지 않습니다.

# random_state가 모든 PC가 완벽히 같은 값을 뽑게 해주는게 아니라
# 거의 같은 값을 뽑게 해주는거라서 차이가 있는 거다..?

### Stratified K 폴드 교차 검증
- 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식

### 불균형한 데이터(imbalanced data) 문제
- 관심 대상 데이터가 상대적으로 매우 적은 비율로 나타나는 데이터 문제

- 분류 문제인 경우 : 클래스들이 균일하게 분포하지 않은 문제를 의미
    - 예. 불량률이 1%인 생산라인에서 양품과 불량품을 예측하는 문제
    - 사기감지탐지(fraud detection), 이상거래감지(anomaly detection), 의료진단(medical diagnosis) 등 에서 자주 나타남

- 회귀 문제인 경우 : 극단값이 포함되어 있는 "치우친" 데이터 사례
    - 예. 산불에 의한 피해 면적을 예측하는 문제
    (https://www.kaggle.com/aleksandradeis/regression-addressing-extreme-rare-cases)


**우회/극복하는 방법**
- 데이터 추가 확보


- Re-Sampling
    - Under-sampling(과소표집)
        - 다른 클래스에 비하여 상대적으로 많이 나타나는 클래스의 개수를 줄임
        - 균형은 유지할 수 있으나 유용한 정보에 대한 손실이 있을 수 있음
    - Over-Sampling(과대표집)
        - 상대적으로 적게 나타나는 클래스의 데이터를 복제하여 데이터의 개수를 늘림
        - 정보 손실은 없이 학습 성능은 높아지는 반면, 과적합의 위험이 있음
        - 이를 회피하기 위해서 SMOTE 와 같이 임의의 값을 생성하여 추가하는 방법 사용
        
        
![image.png](attachment:image.png)    

* 먼저 K 폴드 문제점 확인하고, 
* 사이킷런의 Stratified K 폴드 교차 검증 방법으로 개선
* 붓꽃 데이터 세트를 DataFrame으로 생성하고 
* 레이블 값의 분포도 확인

In [None]:
import pandas as pd

iris = load_iris()

irisf_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df.head()

In [None]:
iris_df['label'].value_counts()
# 레이블 값은 0, 1, 2 값 모두 50개로 동일
# 즉, Setosa, Versicolor, virginica 각 품종 50개 씩 

In [None]:
kfold = KFold(n_splits=3)

n = 0
for train_index, test_index in kfold.split(iris_df):
    n += 1 
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print("[교차검증: %d]" %(n))
    print("  학습용 : \n ", label_train.value_counts())
    print("  검증용 : \n ", label_test.value_counts())

In [None]:
########## 참고 : 3개의 폴드 세트로 KFold 교차 검증 : 정확도 : 0 ###########

In [None]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=156)

# 3개의 폴드 세트로 분리하는 KFold 객체 생성
kfold = KFold(n_splits=3)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

n=0
for train_index, test_index in kfold.split(iris_df):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n += 1 
    
    # 반복 시 마다 정확도 측정
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('%d \n정확도: %f, 학습데이터크기: %d, 검증데이터: %d'
         %(n, acc, train_size, test_size))
    
    cv_accuracy.append(accuracy)
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도: ', np.mean(cv_accuracy))

In [None]:
########## 참고 끝   ###########

- 위 코드 결과의 문제점
    - 학습하지 않은 데이터를 검증 데이터로 사용
    - 원할한 학습과 예측이 어려움
    - 검증 정확도는 0

StratifiedKFold 클래스
- 원본 데이터의 레이블 분포를 고려한 뒤 이 분포와 동일하게 학습과 검증데이터 세트를 분배

- KFold 사용법과 거의 비슷
- 차이점
  - 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에
  - split() 메서드에 인자로 피처 데이터 세트뿐 아니라 
  - 레이블 데이터 세트도 반드시 필요하다는 것

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n = n + 1
    
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print("[교차검증 : %d]" %n)
    print('학습용 레이블 분포: \n', label_train.value_counts())
    print('검증용 레이블 분포: \n', label_test.value_counts())

In [None]:
# StratifiedfKFold를 이용해 붓꽃 데이터 교차 검증
dt_clf = DecisionTreeClassifier(random_state = 156)

# 3개의 폴드 세트로 분리하는 StratifiedKFold 객체 생성
skfold = StratifieldKFold(n_splits=3)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

n=0
for train_index, test_index in skfold.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시 마다 정확도 측정
    n += 1 
    
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('%d \n정확도: %f, 학습데이터: %d, 검증데이터크기: %d'
         %(n, acc, train_size, test_size))
    
    cv_accuracy.append(acc)

# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도: ', np.mean(cv_accuracy))

Stratified K 폴드의 경우
- 원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트를 만들 수 있으므로
- 왜곡된 레이블 데이터 세트에서는 반드시 Stratified K 폴드를 이용해서 교차 검증해야 함
- 일반적으로 분류(Classification)에서의 교차 검증은 K 폴드가 아니라 Stratified K 폴드로 분할되어야 함
- 회귀(Regression)에서는 Stratified K 폴드 지원되지 않음
    - 이유 : 회귀의 결정값은 이산값 형태의 레이블이 아니라 연속된 숫자값이기 때문에
    - 결정값별로 분포를 정하는 의미가 없기 때문

## 교차검증을 보다 간편하게 

- 교차 검증 (Cross Validation) 과정
    1. 폴드 세트 설정
    2. for 문에서 반복적으로 학습 및 검증 데이터 추출 및 학습과 예측 수행
    3. 폴드 세트별로 예측 성능을 평균하여 최종 성능 평가

### cross_val_score( ) 함수
- 1 ~ 3 단계의 교차 검증 과정을 한꺼번에 수행
- 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation) 시켜주므로
- 간단하게 교차 검증 수행 가능

![image.png](attachment:image.png)

### 붓꽃 자료를 3개 폴드로 분할하여 학습 및 검증

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

features = iris.date
label = iris.target

scores = cross_val_score(dt_clf, features, label, scoring='accuracy'
                        ,cv = 3)
print('교차 검증별 정확도: ', scores)
print('평균 검증 정확도: ', np.round(np.mean(scores), 4))


- cross_val_score()는 cv로 지정된 횟수만큼
- scoring 파라미터로 지정된 평가 지표로 평가 결과값을 배열로 반환
- 일반적으로 평가 결과값 평균을 평가 수치로 사용

## 교차 검증과 최적의 하이퍼파라미터 튜닝을 한번에

하이퍼파라미터(Hyper parameter)
- 머신러닝 알고리즘을 구성하는 요소
- 이 값들을 조정해 알고리즘의 예측 성능을 개선할 수 있음

### 사이킷런의 GridSearchCV클래스

- Classifier나 Regressor와 같은 알고리즘에 사용되는
- 하이퍼 파라미터를 순차적으로 입력하면서
- 최적의 파라미터를 편리하게 도출할 수 있는 방법 제공  
-(Grid는 격자라는 의미 : 촘촘하게 파라미터를 입력하면서 테스트 하는 방식)

즉,  
- 머신러닝 알고리즘의 여러 하이퍼 파라미터를  
- 순차적으로 변경하면서 최고 성능을 가지는 파라미터를 찾고자 한다면  
- 파라미터의 집합을 만들어 순차적으로 적용하면서 최적화 수행  

**GridSearchCV 클래스 생성자의 주요 파라미터**

- estimator : classifier, regressor, peipeline


- param_grid : key + 리스트 값을 가지는 딕셔너리 (estimator 튜닝을 위한 하이퍼 파라미터 )
     - key: 파라미터명, 리스트값:파라미터 값
     
     
- scoring : 예측 성능을 측정할 평가 방법 
     - 성능 평가 지표를 지정하는 문자열
     - 예: 정확도인 경우 'accuracy'
     
     
- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수


- refit : 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습 여부
     - 디폴트 : True    

In [None]:
# GridSearchCV를 이용해
# 결정 트리 알고리즘의 여러 가지 최적화 파라미터를 순차적으로 적용해서
# 붓꽃 데이터 예측 분석
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                   iris.target,
                                                   test_size = 0.2,
                                                   random_state=121)
dt_clf = DecisionTreeClassifier()

parameters = {'max_depth': [1,2,3], 'min_samples_split': [2,3]}
# 하이퍼파라미터는 딕셔너리 형식으로 지정
# key : 결정트리의 하이파라미터
# value : 하이퍼파라미터의 값

min_samples_split : 자식 규칙 노드를 분할해서 만드는데 필요한 최소 샘플 데이터 개수
- min_samples_split=4로 설정하는 경우
    - 최소 샘플 개수가 4개 필요한데
    - 3개만 있는 경우에는 더 이상 자식 규칙 노드를 위한 분할을 하지 않음


트리 깊이도 줄어서 더 간결한 결정 트리 생성


![image.png](attachment:image.png)

In [None]:
grid_tree = GridSearchCV(dt_clf, param_grid=parameters, cv=3, 
                         refit=True, return_train_score=True)
grid_tree.fit(X_train, y_train)

scores_df = pd.DataFrame(grid_tree.cv_results_)
scores_df

In [None]:
# 파라미터 확인
grid_tree.cv_results_

In [None]:
# GridSearchCV 결과 세트로 딕셔너리 형태인 cv_results_를 
# DataFrame으로 변환 후 일부 파라미터 확인 
scores_df[['params', 'mean_test_score', 'rank_test_score']]

In [None]:
# 최고 성능을 가지는 파라미터 조합 및 예측 성능 1위 값 출력
print('최적 파라미터: ', grid_tree.best_params_)
print('최고 정확도: ', grid_tree.best_score_)

In [None]:
# GridSearchCV 객체의 생성 파라미터로 refit = True로 설정된 경우(디폴트)
# GridSearchCV가 최적 성능을 나타내는 하이퍼 파리미터로 Estimator를 학습하고
# best_estimator_ 로 저장
# (GridSearchCV의 refit으로 이미 학습이 된 estimator)
best_dt = grid_tree.best_estimator_

# best_estimator_는 이미 최적 학습이 됐으므로 별도 학습 필요 없이
# 바로 예측 가능

pred = best_dt.predict(X_test)
accuracy_score(y_test, pred)

**일반적인 머신러닝 모델 적용 방법**

- 일반적으로 학습 데이터를 GridSearchCV를 이용해
- 최적 하이퍼 파라미터 튜닝을 수행한 뒤에
- 별도의 테스트 세트에서 이를 평가하는 방식

# 2. 데이터 전처리

- 데이터를 분석하기에 좋은 형태로 만드는 과정
- Garbage In Garbage Out
    - 데이터 전처리가 중요한 근본적인 이유
    - 데이터 품질은 분석 결과 품질의 출발점
    
![image.png](attachment:image.png)

### 데이터 전처리의 필요성
- 데이터 품질이 높은 경우에도 전처리 필요
    - 구조적 형태가 분석 목적에 적합하지 않은 경우
    - 사용하는 툴, 기법에서 요구하는 데이터 형태
    - 데이터가 너무 많은 경우
    - 데이터 분석의 레벨이 데이터 저장 레벨과 다른 경우


- 데이터 품질을 낮추는 요인
    - 불완전(incomplete) : 데이터 필드가 비어 있는 경우
    - 잡음(noise) : 데이터에 오류가 포함된 경우
    - 모순(inconsistency) : 데이터 간 정합성, 일관성이 결여된 경우

### 데이터 전처리 주요 기법
- 데이터 정제
    - 결측치, 이상치, 잡음


- 데이터 결합


- 데이터 변환
    - Normalization, scaling


- 차원 축소
    - Feature selection
        - filter, wrapper, embedded
    - Feature extraction
        - PCA, SVD, FA, NMF


![image-2.png](attachment:image-2.png)

### 결측값(missing value) 처리
- 해당 데이터 행을 모두 제거(완전제거법)
- 수작업으로 채워 넣음
- 특정값 사용
- 핫덱(hot-deck) 대체법
    - 동일한 조사에서 다른 관측값으로부터 얻은 자료를 이용해 대체
    - 관측값 중 결측치와 비슷한 특성을 가진 것을 무작위 추출하여 대체
- 평균값 사용 (전체 평균 혹은 기준 속성 평균)
    - 표준오차 과소추정 발생
- 가장 가능성이 높은 값 사용 (회귀분석, 보간법 등)

## 데이터 인코딩

- 문자열을 숫자형으로 변환


- 인코딩 방식
    - 레이블 인코딩(Label encoding)
    - 원-핫 인코딩(One-hot encoding)

### 레이블 인코딩 (Label encoding)
- 문자열 데이터를 숫자로 코드화
- 범주형 자료의 수치화

![image.png](attachment:image.png)

**사이킷런의 레이블 인코딩 클래스 : LabelEncoder**
1. LabelEncoder 객체 생성
2. fit() 메서드
    - 레이블 인코더를 맞춤
3. transform() 메서드
    - 인코딩된 레이블 반환

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기',
       '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print(labels)

In [None]:
# LabelEncoder 객체의 classes_ : 인코딩된 문자열 값 목록 확인
# 인코딩 전 원래의 값 확인 : encoder.classes_ 속성
encoder.classes_

In [None]:
# inverse_transform() : 인코딩된 값을 다시 디코딩
# 인코딩된 값 디코딩
encoder.inverse_transform([3,0,2,1])

- 레이블 인코딩된 데이터른 회귀와 같은 ML 알고리즘에 적용해서는 안됨
    - 변환된 수치의 크기가 의미가 없기 때문에

### 원-핫 인코딩(One-Hot encoding)

- feature 값의 유형에 따라 새로운 feature를 추가하여
- 고유 값에 해당하는 컬럼만 1을 표시하고 나머지 컬럼에는 0을 표시

- 범주형 변수를 독립변수로 갖는 회귀분석의 경우 범주형 변수를 dummy 변수로 변환

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

**사이킷런에서 원-핫 인코딩 클래스 : OneHotEncoder**

**원-핫 인코딩 변환 과정**
1. 문자열 값을 숫자형 값으로 변환
2. 입력 값을 2차원 데이터로 변환
3. OneHotEncoder 클래스로 원-핫 인코딩 적용
    - fit()
    - transform()

In [None]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기',
       '믹서', '믹서']

# 1. 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

In [None]:
# 2. 2차원 데이터로 변환
labels = labels.reshape(-1,1) #-1: 모든 행, 1은 열 1개 # ( , 1)
labels

In [None]:
# 3. 원-핫 인코딩을 적용
one_encoder = OneHotEncoder()
one_encoder.fit(labels)
one_labels = one_encoder.transform(labels)
one_labels
# sparse matrix : 희소행렬 (행렬의 값이 대부분 0인 경우)

In [None]:
print(one_labels)

In [None]:
one_labels.shape

In [None]:
# 2차원 형태로 출력
one_labels.toarray()

In [None]:
# 원-핫 인코딩 전체 과정
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
import numpy as np

items=['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

# 1. 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2. 2차원 데이터로 변환합니다. 
labels = labels.reshape(-1,1)

# 3. 원-핫 인코딩을 적용합니다.
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

### Pandas API 사용 원-핫 인코딩 수행
- get_dummies() 메서드 사용
- 숫자형으로 변환없이 바로 변환


In [None]:
### Pandas API 사용 원-핫 인코딩 수행
- get_dummies() 메서드 사용
- 숫자형으로 변환없이 바로 변환

In [None]:
pd.get_dummies(df)

In [None]:
# Pandas 데이터프레임을 Numpy 배열로 변환
pd.get_dummies(df).to_numpy()

### 피처 스케일링과 정규화

- 피처 스케일링(feature scaling)
    - 서로 다른 변수의 값 범위를 일정한 수준으로 맞춤


- 방식
    - Z-scaling
        - 표준화(standardization)
        - 평균이 0이고 분산이 1인 가우지안 정규분포로 변환
        - 정규화(Normalization)
        - sklearn.preprocessing의  StandardScaler 모듈

    - Min-max
        -  0~1로 변환
        - sklearn.preprocessing의  MinMaxScaler 모듈

    - 벡터 정규화
        - Sklearn의 Nomalizer 모듈
        - 선형대수의 정규화 개념
        - 개별 벡터의 크기를 맞추기 위해 모든 피처벡터의 크기로 나누어 변환

![image-2.png](attachment:image-2.png)

StandardScaler
* 표준화 지원 클래스
* 개별 피처를 평균이 0이고 분산이 1인 값으로 변환


In [None]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)

print(iris_df.mean())
print(iris_df.std())

StandardScaler 이용 표준화해서 변환
1.  StandardScaler 객체 생성
2. fit() : 데이터 변환을 위한 기준 정보 설정
3. transform() : fit()에서 설정된 정보를 이용해 데이터 변환
    - scale 변환된 데이터 셋이 numpy ndarry로 반환


In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# print(iris_scaled.mean()) #e의 -15승. 거의 0 
# print(iris_scaled.std())
# print(iris_scaled)
iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print(iris_scaled_df.mean())
print(iris_scaled_df.std())

MinMaxScaler
* 데이터값을 0과 1사이의 범위 값으로 변환
* 음수인 경우 -1에서 1사이의 값으로 변환
* 데이터의 분포가 가우시안 분포가 아닌 경우 Min, Max Scale 적용 가능

MinMaxScaler 이용 변환
1. MinMaxScaler 객체 생성
2. fit()
3. transform() : scale 변환된 데이터 셋이 numpy ndarry로 반환

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# print(iris_scaled)

iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print(iris_scaled_df.mean())
print(iris_scaled_df.std())

In [None]:
# 각 피처 값 확인
iris_scaled

학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
* 학습 데이터와 테스트 데이터의 스케일링 기준 정보 달라지지 않게 주의
* 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에
* 반드시 테스트 데이터는 학습 데이터의 스케일러 기준에 따라야 함
* Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면
* 테스트 데이터에 다시 fit()을 적용해서는 안 되며 
* 학습 데이터로 이미 fit()이 적용된 Scaler객체를 이용해 transform()으로 변환해야 함

## [참고] 데이터 변환

**자료 변환을 통해 자료의 해석을 쉽고 풍부하게 하기 위한 과정**

**데이터 변환 목적**
- 분포의 대칭화
- 산포를 비슷하게
- 변수 간의 관계를 단순하게 하기 위해

**데이터 변환 종류**
- 모양 변환 : pivot, unpivot
- 파생변수/요약변수
- Normalization (scaling)
- 데이터 분포 변환 : 제곱근 변환, 제곱변환, 지수변환, 로그변환, 박스콕스변환

### 모양변환
**Pivot**
- 행,열 별 요약된 값으로 정렬해서 분석을 하고자 할 때 사용
![image-2.png](attachment:image-2.png)


**Unpivot**
- 컬럼 형태로 되어 있는 것을 행 형태로 바꿀 때 사용 (wide form→long form)
![image-3.png](attachment:image-3.png)

https://support.microsoft.com/ko-kr/office/%ED%94%BC%EB%B2%97-%EC%97%B4-%ED%8C%8C%EC%9B%8C-%EC%BF%BC%EB%A6%AC-abc9c8da-3be9-44c4-886e-0be331ab387a
![image-4.png]

### 파생변수/요약변수
**파생변수**
- 이미 수집된 변수를 활용해 새로운 변수 생성하는 경우
- 분석자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 주관적일 수 있으며 논리적 타당성을 갖추어 개발해야 함
- 예. 주구매 매장, 구매상품다양성, 가격선호대, 라이프스타일

**요약 변수**
- 원 데이터를 분석 Needs에 맞게 종합한 변수
- 데이터의 수준을 달리하여 종합하는 경우가 많음
- 예. 총구매금액, 매장별 방문횟수, 매장이용횟수, 구매상품목록

### 정규화(Normalization)
- 단위 차이, 극단값 등으로 비교가 어렵거나 왜곡이 발생할 때, 표준화하여 비교 가능하게 만드는 방법
- Scale이 다른 여러 변수에 대해 Scale을 맞춰 모든 데이터 포인트가 동일한 정도의 중요도로 비교되도록 함
- Scaling 여부가 모델링의 성능에도 영향을 주기도 함

![image-2.png](attachment:image-2.png)

**대표적인 Normalization**
![image.png](attachment:image.png)

![image.png](attachment:image.png)
https://stats.stackexchange.com/questions/287425/why-do-you-need-to-scale-data-in-knn
http://hleecaster.com/ml-normalization-concept/

### 데이터 분포의 변환
- 정규분포를 가정하는 분석 기법을 사용할 때 입력데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법

- Positively Skewed
    - $sqrt(x)$
    - $log_{10}{(x)}$
    - $1 / x$


- Negatively Skewed
    - $sqrt(max(x+1) – x)$
    - $log_{10}(max(x+1) –x)$
    - $1 / (max(x+1) - x)$
    
![image-2.png](attachment:image-2.png)

https://www.datanovia.com/en/lessons/transform-data-to-normal-distribution-in-r/


# 3.

## 사이킷런으로 수행하는 타이타닉 생존자 예측

* 캐글에서 제공하는 타이타닉 탑승자 데이터 기반으로
* 생존자 예측을 사이킷런으로 수행

* 타이타닉 생존자 데이터
    - 머신러닝에 입문하는 데이터 분석가/과학자를 위한 기초 예제로 제공
    - 많은 캐글 이용자가 자신의 방법으로 타이타닉 생존자 예측을 수행하고
    - 수행 방법을 캐글에 공유

* 캐글 : 데이터 분석 오픈 포탈
    - 세계적인 ML 기반 분석 대회를 온라인 상에서 주관
    
캐글사이트 : https://www.kaggle.com/c/titanic/data
![image-2.png](attachment:image-2.png)

## 변수 별 정보

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
get_ipython().run_line_magic('matplotlib', 'inline')

titanic_df = pd.read_csv('./titanic_train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


* Passengerid: 탑승자 데이터 일련번호
* survived: 생존 여부, 0 = 사망, 1 = 생존
* Pclass: 티켓의 선실 등급, 1 = 일등석, 2 = 이등석, 3 = 삼등석
* sex: 탑승자 성별
* name: 탑승자 이름
* Age: 탑승자 나이
* sibsp: 같이 탑승한 형제자매 또는 배우자 인원수
* parch: 같이 탑승한 부모님 또는 어린이 인원수
* ticket: 티켓 번호
* fare: 요금
* cabin: 선실 번호
* embarked: 중간 정착 항구 C = Cherbourg, Q = Queenstown, S = Southampton

In [2]:
titanic_df.shape

In [None]:
# 데이터 칼럼 타입 확인
titanic_df.info()

데이터 정보 확인
- RangeIndex: 891 entries, 0 to 890 : 전체 행 (891개 행)
- Data columns (total 12 columns): 칼럼 수 (12개)
- float64 : 2개
- int64 : 5개
- object(string) : 5개
 - (판다스는 넘파이 기반으로 만들어졌는데
 - 넘파이의 String 타입의 길이 제한이 있기 때문에 
 - 이에 대한 구분을 위해 object 타입으로 명기)
- Age : 714개 (Null값(NaN): 177개)
- Cabin : 204개 (Null값(NaN): 687개)
- Embarked : 889개 (Null값(NaN): 2개)

## 결측치 파악

In [None]:
# Null 값 개수 확인
#titanic_df['Age'].isnull()
titanic_df['Age'].isnull().sum()

In [None]:
titanic_df['Cabin'].isnull().sum()

In [None]:
titanic_df['Embarked'].isnull().sum()

##  데이터 전처리 : 결측치 처리

### NULL 컬럼들에 대한 처리

- 사이킷 머신러닝 알고리즘은 Null 값을 허용하지 않으므로
- Null 값을 어떻게 처리할지 결정
- DataFrame()의 fillna() 메서드를 사용해서 
- Null 값을 평균 또는 고정 값으로 변경
- Age : 평균 나이로 변경
- 나머지 칼럼 : 'N'으로 변경

In [None]:
# Null 처리
# titanic_df['Age'].mean()
titanic_df['Age'].fillna(titanic_df['Age'].mean, inplace=True)
titanic_df['Cabin'].fillna("N", inplace = True)
titanic_df['Embarked'].fillna('N', inplace =True)

# 모든 칼럼의 Null 값을 합산해서 Null 값이 없는지 확인
titanic_df.isnull().sum()

### 문자열 변수(피처) 빈도 분포 확인 : value_counts()

In [None]:
# 문자열 피처 (Sex, Cabin, Embarked) 값 분류 확인
print('Sex분포: \n', titanic_df['Sex'].value_counts())
print('\nCabin분포: \n', titanic_df['Cabin'].value_counts())
print('\nEmbarked분포: \n', titanic_df['Embarked'].value_counts())

### 문자열 변수 Cabin값 변경

In [None]:
# Cabin 칼럼 값 중에서 첫 번째 문자만 추출
titanic_df['Cabin'].str[:1]

In [None]:
# Cabin 값을 선실등급만으로 표기 (선실 번호 제외)
titanic_df['Cabin'] = titanic_df['Cabin'].str[:1]

# 선실등급 별 개수 확인
titanic_df['Cabin'].value_counts()

## 성별에 따른 생존자수 분포(EDA)

머신러닝 알고리즘 적용해서 예측 수행 전에 데이터 탐색
- 어떤 유형의 승객이 생존 확률이 높았는지 확인
- 성별이 생존 확률에 어떤 영향을 미쳤는지 확인
- 성별에 따른 생존자 수 비교


In [None]:
# 성별(Sex) 분포 확인
titanic_df.groupby('Sex')['Sex'].count()

In [None]:
# 생존(Survived) 분포 확인
titanic_df.groupby('Survived')['Survived'].count()
# 0 사망, 1 생존

In [None]:
# 성별(Sex) 생존(Survived) 확인
# 사망 : 0
# 생존 : 1
# Survived 칼럼 : 레이블로 결정 클래스 값

titanic_df.groupby(['Sex', 'Survived'])['Survived'].count()

In [None]:
# 성별 생존자: 막대 그래프 (barplot)
sns.barplot(x='Sex', y='Survived', data=titanic_df)

In [None]:
# 객실 등급별/성별 생존 확률
sns.barplot(x='Pclass', y='Survived', hue='Sex', data=titanic_df)