# Data preprocessing
## 1. 명목형 자료를 수치형 자료로(Nominal data to numerical data): 수치 맵핑(numerical mapping)

명목형 자료를 머신 러닝에서 활용하려면 해당 자료를 수치형으로 변환해야 한다.

titanic.csv 데이터의 범주형 자료 성별(Sex) 데이터는 male, female 값을 갖는다.<br>
이를 각각 0, 1 로 변환하여 수치형 자료화해 보자.<br>

pandas의 DataFrame에서 이 과정을 수행하려면 replace()를 사용하면 된다.<br>
예컨대 다음 코드는 A -> B, C -> D 변환 코드이다.<br>

> DataFrame.replace({A:B, C:D,...})

In [1]:
import pandas as pd

In [2]:
# read data: titanic.csv
titanic = pd.read_csv('titanic.csv')

# Check data
print("Titanic Data", "\n", titanic.head(), '\n')
print("Titanic, Sex", "\n", titanic['Sex'].head(), '\n')

Titanic Data 
    PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   Na

In [3]:
# male -> 0, female -> 1 mapping
titanic_mapping = titanic.replace({"male":0, "female":1})

In [4]:
# Print converted data
print("Converted Data, Titanic, Sex", "\n", titanic_mapping["Sex"].head(), '\n')

Converted Data, Titanic, Sex 
 0    0
1    1
2    1
3    1
4    0
Name: Sex, dtype: int64 



## 2. 명목형 자료를 수치형 자료로(Nominal data to numeric data): 더미(dummy)

titanic.csv 데이터의 범주형 자료인 Embarked 데이터는 S, Q, C의 3가지 값을 갖는다.<br>

pandas의 DataFrame에서 이 자료를 수치형 자료로 변환할 때 더미 방식을 활용할 수 있다.<br>
이 때, get_dummies()를 사용할 수 있다.<br>

pd.get_dummies(DataFrame[[변수명]])

In [5]:
# Check data
print("Titanic, Embarked", "\n", titanic['Embarked'].head(), '\n')

# Conversion using get_dummies
dummies = pd.get_dummies(titanic['Embarked'])

# Print converted data
print('Converted Data: Titanic, Embarked', '\n', dummies.head(), '\n')


Titanic, Embarked 
 0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object 

Converted Data: Titanic, Embarked 
    C  Q  S
0  0  0  1
1  1  0  0
2  0  0  1
3  0  0  1
4  0  0  1 

