# Data preprocessing
## 1. 수치형 자료 정규화(Nomalization of numerical data)

수치형 자료의 가장 기본적인 정규화는 다음 식을 따른다.

$${X - X_{min}} \over {X_{max} - X_{min}}$$

In [1]:
import pandas as pd

In [2]:
# 정규화 함수 작성(Create a normalization function)
def normal(data):
    data = (data - data.min()) / (data.max() - data.min())
    return data

In [3]:
# Read the titanic data
titanic = pd.read_csv('titanic.csv')

In [4]:
# Check the data before normalization
print("Titanic: before nomalization", "\n", titanic["Fare"].head())

Titanic: before nomalization 
 0     7.2500
1    71.2833
2     7.9250
3    53.1000
4     8.0500
Name: Fare, dtype: float64


In [5]:
# Normalization
Fare = normal(titanic["Fare"])

In [6]:
# Print the normalized data
print("Titanic: after nomalization", "\n", Fare.head())

Titanic: after nomalization 
 0    0.014151
1    0.139136
2    0.015469
3    0.103644
4    0.015713
Name: Fare, dtype: float64


## 2. 수치형 자료 표준화(Standardization of numerical data)

표준화는 어떤 수치형 자료의 범위를 다른 수치형 자료의 범위와 일치하기 위한 작업이다.

표준화는 다음 식을 따른다.

$${X - \mu} \over {\sigma}

In [7]:
# import pandas
import pandas as pd


In [8]:
# 표준화 함수 작성(Create a standardization function)
def standard(data):
    data = (data - data.mean()) / data.std()
    return data

In [9]:
# Read the titanic data
titanic = pd.read_csv('titanic.csv')

In [10]:
# Check the data before standardization
print("Titanic: before standardization", "\n", titanic["Fare"].head())

Titanic: before standardization 
 0     7.2500
1    71.2833
2     7.9250
3    53.1000
4     8.0500
Name: Fare, dtype: float64


In [11]:
# Standardization
Fare = standard(titanic["Fare"])

In [12]:
# Print the standardized data
print("Titanic: after standardization", "\n", Fare.head())

Titanic: after standardization 
 0   -0.502163
1    0.786404
2   -0.488580
3    0.420494
4   -0.486064
Name: Fare, dtype: float64
