# EDA시 기본 코드

ref: https://youtu.be/Yo9CTL0wOB8

In [4]:
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as pyplot

mpl.rc('font', family='Malgun Gothic')

In [5]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV

from sklearn.metrics import accuracy_score

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

from sklearn.preprocessing import LabelEncoder

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE

from sklearn.pipeline import Pipeline


### train_test_split

```
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state= 42)
```

### accuracy_score

```
from sklearn.metrics import accuracy_score

Y_train_pred = best_model = best_model.predict(X_train)
Y_test_pred = best_model = best_model.predict(X_test)

accuracy_score(Y_train, Y_train_pred)
accuracy_score(Y_test, Y_test_pred)
```

## 특성 공학 (Feature Engineering)
  - 특성 공학: 컴퓨터가 학습할 때, 일반화 된 수식을 도출할 수 있도록 데이터를 깔끔하게 다듬는 작업  



1. Imputation (Missing Value에 대한 대치): 결측되어 있는 값을 다른 값(평균, 중앙, 최빈)으로 대치
2. Scaling & Encoding:
   * Scaling: 숫자데이터의 서로 다른 차원(Scale)을 맞춰주는 작업
   * Encoding: 문자데이터를 숫자데이터로 변환
3. Cross Validation: 데이터셋이 모두 학습에 참여할 수 있도록, 학습데이터 셋을 교차로 바꿔가며 학습을 진행하는 방법
4. Hyper Parameter Tuning: 데이터를 학습할 때 발생하는 알고리즘의 수학적 구조를 사용자가 통제
5. Sampling: 서로 다른 비율의 데이터를 맞춰주는 작업
   * Under Sampling: 데이터의 비율이 적은쪽으로 데이터를 맞추는 작업
   * Over Sampling: 데이터의 비율이 큰 쪽으로 데이터를 생성하는 작업

### Imputation

```
from sklearn.impute import SimpleImputer

model_miss = SimpleImputer(stratege='mean' or 'median' or 'mode')
model_miss.fit(df2)
model_miss.transfrom(df2)
```

### Scaling & Encoding:

1. Scaling: 숫자 데이터의 서로 다른 차원(Sclae)을 맞춰주는 작업
     1. Standard Scaling: 평균 0, 표준편차 1
     2. Min Max Scaling: 최소값 0, 최대값 1
     3. Roust Scaling: 중앙값 0, 사분범위 1  <--- 실무에서 자주 사용
2. Encoding: 문자데이터를 숫자데이터로 변환
     1. Label Encoding
     2. One Hot Encoding


* Scaling
```
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler

scaler1 = StandardScaler()
scaler2 = MinMaxScaler()
scaler3 = RobustScaler()

scaler.fit(df2)
scaler.transform(df2)
```

* Encoding
```
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
encoder.fit(df1)
encoder.fit_transfrom(df1)


[One Hot Encoding]
from pandas as pd

pd.get_dummies(df1)
```

### Cross Validation

* Cross Validation: 데이터를 번갈아가며, 학습 및 검증 작업 진행
```
from sklearn.model_selection import cross_val_score

model = DecisionTreeClassifier()
score = cross_val_score(model, X_train, Y_train, cv=5)


import numpy as np
np.mean(score)
```

### Hyper Parameter Tuning

* Hyper Parameter Tuning: 데이터를 학습할 때 발생하는 알고리즘의 수학적 구조를 사용자가 통제

1. Random Search: 무작위로 알고리즘의 수학적 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성
2. Grid Search: 사용자가 설정한 임의의 알고리즘 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성


```
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

model = DecisionTreeClassifier()

Hyper_parameter = {'max_depth': [3,4,5,6,7,8]}
grid_model = GridSearchCV(model, param_grid=hyper_parameter, cv=5)
grid_model.fit(X_train, Y_train)

best_model = grid_model.best_estimator_

Y_train_pred = best_model.predict(X_train)
Y_test_pred = best_model.predict(X_test)

accuracy_score(Y_train, Y_train_pred)
accuracy_score(Y_test, Y_test_pred)
```


### Sampling

* Sampling: 서로 다른 비율의 데이터를 맞춰주는 작업

1. Under Sampling: 더 적은 데이터를 기준으로 Sampling 진행
     * Random Under Sampling / Tomek's link
2. Over Sampling: 더 많은 데이터를 기준으로 적은 데이터 군집의 가짜 데이터를 생성하여 Sampling 진행
     * SMOTE, ADASYN, Random Over Sampling
  
<br>
  
* Under Sampling
```
from imblearn.under_sampling import RandomUnderSampler

sampler = RandomUnderSampler()
sampler.fit(X, Y)

X_under, Y_under = sampler.fit_resample(X, Y)
```

* Over Sampling
```
from imblearn.over_sampling import SMOTE

sampler = SMOTE()
sampler.fit(X, Y)

X_over, Y_over = sampler.fit_resample(X, Y)
```

### Scikit Learn Pipe Line
* 특성 공학과 학습을 동시에 수행 시킬 수 있는 구조

Pipe line 구성
   * Scaling/Impute/PCA + Model + HyperParameter Tuning + CV


```
from sklearn.pipeline import Pipeline

pipe_list = [('impoute',SimpleImputer(strategy='mean')),
             ('model', DecisionTreeClassifier())]
pipe_model = Pipeline(pipe_list)

pipe_model

hyper_parameter = {'model__max_depth': [2,3,4,5,6,7,8]}

grid_model = GridSearchCV(pipe_model, param_grid = hyper_parameter, cv = 3)
grid_model.fit(X_train, Y_train)

best_model = grid_model.best_estimator_


Y_train_pred = best_model = best_model.predict(X_train)
Y_test_pred = best_model = best_model.predict(X_test)

accuracy_score(Y_train, Y_train_pred)
accuracy_score(Y_test, Y_test_pred)
```

# 주피터 노트북 기본 단축키

### Cell command mode

#### [esc] or [Ctrl] + [m]을 눌러 cell command mode 진입

* a: 위에 새로운 셀 추가
* b: 아래 새로운 셀 추가
* c: 셀 복사하기
* v: 셀 붙여넣기
* dd: 셀 삭제
* p: 셀 아래 붙여넣기
* o: 실행결과 열기/닫기
* m: Markdown으로 변경
* y: Code로 변경
* Shift + m: 선택 셀과 아래 셀 병합
* s / [Ctrl] + s: 파일 저장
* [Enter]: Edit Mode로 돌아가기

### Cell edit mode

* [Ctrl] + [Enter]: 입력 셀 실행
* [Shift] + [Enter]: 입력 셀 실행 후 아래 셀 이동(없으면 새로운 셀 추가)
* [Alt] + [Enter]: 입력영역 실행 후 아래 새로운 영역 추가
* [Ctrl] + [a]: 선택 셀의 코드 전체 선택
* [Ctrl] + [z]: 선택 셀 내 실행 취소
* [Ctrl] + [y]: 선택 셀 내 다시 실행
* [Ctrl] + [/]: 커서 위치 라인 주석처리
* [Shift] + [Ctrl] + [-]: 커서 위치에서 셀 둘로 나누기