# Data Preprocessing Tools

## Importing the libraries

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset

In [None]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


In [None]:
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## Taking care of missing data

nan 값을 평균값으로 채우는 과정

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

In [None]:
print(X)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## Encoding categorical data

### Encoding the Independent Variable

One Hot Encoding = String 값을 컴퓨터가 인식하기 쉬운 이진벡터로 생성한다. EX) France = 1.0, 0.0, 0.0
<br>
단순 int값이 아닌 이유는 머신러닝중 코드간 상관관계가 있다고 인식할 수 있기 때문

In [None]:
"""One Hot Encoding = 국가를 각 나라의 이진벡터로 생성함"""
"""EX) France = 1,0,0,0,0,0"""
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [None]:
print(X)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### Encoding the Dependent Variable

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

[0 1 0 0 1 1 0 1 0 1]


## Splitting the dataset into the Training set and Test set

Trainig set과 Test set을 분리한 후 Feature Scaling을 해야하는 이유 : 
<br>
Feature scaling을 먼저하게 되면 Test set의 평군과 표준편차에 Training set의 평균과 포준편차가 영향을 끼치기 때문

In [None]:
"""Traning set과 Test set을 분리한후 Featuer Scaling을 해야하는 이유"""
"""Feature scaling을 먼저 하게 되면 Test set의 평균과 표준편차에 Training set의 
   평균과 표준편차가 영항을 끼치기 때문"""
from sklearn.model_selection import train_test_split
#train_test_split의 인자 : 특징행렬(X), 종속행렬(y), split_size(일반적으로 8:2), random_state(1 = seed를 고정해서 항상 같은 split을 갖게함)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

In [None]:
print(X_train)

[[0.0 0.0 1.0 38.77777777777778 52000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 35.0 58000.0]]


In [None]:
print(X_test)

[[0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


In [None]:
print(y_train)

[0 1 0 0 1 1 0 1]


In [None]:
print(y_test)

[0 1]


## Feature Scaling

Feature Scaling = 모든 변수나 특징을 Scaling 함. 모든 값이 같은 단위값이 되게끔함.
<br>
머신러닝 모델에 의해 무시되는 일을 막기 위한 장치
<br>
Feature의 평균과 표준편차를 구하는 기술

표준화 VS 정규화
<br>
-3 <= 표준화 = (x -mean(x))/표준편차(x) <= 3
<br>
0 <= 정규화 = (x - min(x))/(max(x) - min(x)) <= 1
<br>
표준화가 대부분의 상황에서 좋음.

특성 행렬의 가변수에 특성 스케일링/표준화를 적용해야 하는가?
<br>

No 이미 가변수는 0과 1을 값으로 갖고있기 때문에 할 필요가 없다. 하게되면 특성을 잃게된다.

fit vs transform
<br>
fit : 열의 평균과 표준편차를 구한다.
<br>

transform : 정해진 공식을 수행한다.

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:]) #OnHotEncoding을 하면 값이 앞으로 나가기때문에 범용성을 위해 3부터 끝까지 범위로 둠
X_test[:, 3:] = sc.transform(X_test[:, 3:]) #모델이 training set에 적용된 scaler를 사용해 훈련될거라 예측을 하려면 같은 scaler를 사용해야 하기때문에 새로운 scaler를 만드는 fit을 사용하지 않는다.

In [None]:
print(X_train)

[[0.0 0.0 1.0 -0.19159184384578545 -1.0781259408412425]
 [0.0 1.0 0.0 -0.014117293757057777 -0.07013167641635372]
 [1.0 0.0 0.0 0.566708506533324 0.633562432710455]
 [0.0 0.0 1.0 -0.30453019390224867 -0.30786617274297867]
 [0.0 0.0 1.0 -1.9018011447007988 -1.420463615551582]
 [1.0 0.0 0.0 1.1475343068237058 1.232653363453549]
 [0.0 1.0 0.0 1.4379472069688968 1.5749910381638885]
 [1.0 0.0 0.0 -0.7401495441200351 -0.5646194287757332]]


In [None]:
print(X_test)

[[0.0 1.0 0.0 -1.4661817944830124 -0.9069571034860727]
 [1.0 0.0 0.0 -0.44973664397484414 0.2056403393225306]]
