In [1]:
import pandas as pd

In [4]:
df = pd.read_csv('data/train.csv')

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## Column Definition and Key value


|  Variable   | Definition          | Key                                            |
|-------------|---------------------|------------------------------------------------|
| PassengerId | PassengerID         | 
| Survived    | Survival            | 0 = No, 1 = Yes                                |
| Pclass      | Ticket class        | 1 = 1st, 2 = 2nd, 3 = 3rd                      |
| Name        | Name                |                                                |
| Sex         | Sex                 |                                                |
| Age	      | Age in years        |	                                             |
| SibSp	      | # of siblings / spouses aboard the Titanic |                         |
| Parch	      | # of parents / children aboard the Titanic	|                        |
| Ticket      | Ticket number       |                                                |
| Fare	      | Passenger fare      |	                                             |
| Cabin	      | Cabin number        |                                                |
| Embarked    | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |

# 1. Standardization or Normalization
- <span style = 'font-size:1.2em;line-height:1.5em'>사용하는 ML모델에 따라서 데이터를 표준 정규 분포 스케일로 표준화(Standardize)하거나 0-1스케일로 정규화 해야할 때가 있습니다.</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>scikit-learn에서는 train, test set에서 같은 스케일로 데이터를 변환하도록 하는 기능을 제공합니다. </span>

- <span style = 'font-size:1.2em;line-height:1.5em'><b>Normalization (MinMaxScaling)</b></span>
$$Z = {(x-\mu)\over\sigma} $$
- <span style = 'font-size:1.2em;line-height:1.5em'><b>Standrdization</b></span>
$$Z = {(x-x_{min})\over(x_{max}-x_{min})} $$

## 사용 예시

### 먼저, 사용할 변수만을 정의하고 해당 변수에 대한 데이터를 추출합니다.

In [29]:
x_cols = ['Pclass', 'Age', 'Fare'] ## 실제 수치형 데이터는 아니지만, 그냥 그렇다고 합시다.
y_cols = ['Survived']
df_x = df[x_cols]
df_y = df[y_cols]
np_x = df_x.values
np_y = df_y.values

## 수치형 데이터인 Fare column(index=4)을 standardization, normalization

In [9]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScalerMaxScaler

### Standardization

In [30]:
scaler = StandardScaler()

In [31]:
scaler.fit(np_x)

StandardScaler()

In [33]:
new_np_x = scaler.transform(np_x)

In [38]:
print(np_x)
print(new_np_x)

[[ 3.     22.      7.25  ]
 [ 1.     38.     71.2833]
 [ 3.     26.      7.925 ]
 ...
 [ 3.         nan 23.45  ]
 [ 1.     26.     30.    ]
 [ 3.     32.      7.75  ]]
[[1.         0.27117366 0.01415106]
 [0.         0.4722292  0.13913574]
 [1.         0.32143755 0.01546857]
 ...
 [1.                nan 0.04577135]
 [0.         0.32143755 0.0585561 ]
 [1.         0.39683338 0.01512699]]


### Normalization(Min-Max scaler)

In [36]:
scaler = MinMaxScaler()
scaler.fit(np_x)
new_np_x = scaler.transform(np_x)

In [37]:
print(np_x)
print(new_np_x)

[[ 3.     22.      7.25  ]
 [ 1.     38.     71.2833]
 [ 3.     26.      7.925 ]
 ...
 [ 3.         nan 23.45  ]
 [ 1.     26.     30.    ]
 [ 3.     32.      7.75  ]]
[[1.         0.27117366 0.01415106]
 [0.         0.4722292  0.13913574]
 [1.         0.32143755 0.01546857]
 ...
 [1.                nan 0.04577135]
 [0.         0.32143755 0.0585561 ]
 [1.         0.39683338 0.01512699]]


# 2. Category Encoder
- <span style = 'font-size:1.2em;line-height:1.5em'>ML모델에는 카테고리 값 자체가 들어갈 수는 없습니다.</span>
- <span style = 'font-size:1.2em;line-height:1.5em'>카테고리 값을 vector로 변환하여 이를 입력값으로 넣어야 합니다. </span>
- <span style = 'font-size:1.2em;line-height:1.5em'>대표적인 예시로 onehot encoder가 있습니다.</span>

## onehot encoding
![onehot_encoding](img/onehot_encoding.png)
-출처: https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39

In [39]:
from sklearn.preprocessing import OneHotEncoder

In [49]:
x_cols = ['Pclass', 'Sex']
y_cols = ['Survived']
df_x = df[x_cols]
df_y = df[y_cols]
np_x = df_x.values
np_y = df_y.values

In [50]:
encoder = OneHotEncoder()
encoder.fit(np_x)

OneHotEncoder()

In [51]:
np_x

array([[3, 'male'],
       [1, 'female'],
       [3, 'female'],
       ...,
       [3, 'female'],
       [1, 'male'],
       [3, 'male']], dtype=object)

In [63]:
new_np_x = encoder.transform(np_x).toarray()

In [64]:
new_np_x

array([[0., 0., 1., 0., 1.],
       [1., 0., 0., 1., 0.],
       [0., 0., 1., 1., 0.],
       ...,
       [0., 0., 1., 1., 0.],
       [1., 0., 0., 0., 1.],
       [0., 0., 1., 0., 1.]])

# 연습문제

<span style = 'font-size:1.3em;line-height:1.5em'><b>1. 다음과 같은 상황을 가정해보자. 원래는 배에 특등석이 있어, 'Pclass'에는 'Special'이라는 카테고리도 있다고 가정해보자. 데이터에는 이 카테고리 값은 없지만 이를 고려하여 onehot encoding을 해야한다고 할 때, 어떻게 해야 할까? 구글링해서 찾아보고 이를 활용해보자</b></span>
