각 데이터프레임의 열에 들어 있는 숫자 데이터의 상대적 크기는 머신러닝 분석의 결과를 왜곡할 수 있다. 예를 들어 변수 A는 0 ~ 1000, 변수 B는 0 ~ 1 범위의 값을 가지면 변수 A의 영향이 더 크다. <br>
따라서 숫자 데이터의 상대적인 크기 차이를 제거해야 한다. 각 열의 데이터 값을 동일한 기준으로 나눈 비율로 나타내는 과정을 **'정규화(normalization)'** 라고 한다. 정규화를 거친 데이터의 범위는 0 ~ 1 또는 -1 ~ 1이 된다. 아래와 같은 방법들이 있다.

* 데이터를 해당 열의 최대값(의 절대값)으로 나눈다.


In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('auto-mpg.csv', header = None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

print(df.horsepower.describe())

count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64


In [3]:
df.horsepower = df.horsepower / abs(df.horsepower.max())
print(df.horsepower.head())
print('\n')
print(df.horsepower.describe())

0    0.565217
1    0.717391
2    0.652174
3    0.652174
4    0.608696
Name: horsepower, dtype: float64


count    392.000000
mean       0.454215
std        0.167353
min        0.200000
25%        0.326087
50%        0.406522
75%        0.547826
max        1.000000
Name: horsepower, dtype: float64


* 데이터에서 해당 열의 최소값을 뺀다. 그리고 이 값을 열의 최대값과 최소값을 뺀 값으로 나눈다.

In [4]:
df = pd.read_csv('auto-mpg.csv', header = None)
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

df['horsepower'].replace('?', np.nan, inplace = True)
df.dropna(subset = ['horsepower'], axis = 0, inplace = True)
df['horsepower'] = df['horsepower'].astype('float')

min_x = df.horsepower - df.horsepower.min()
min_max = df.horsepower.max() - df.horsepower.min()
df.horsepower = min_x / min_max

print(df.horsepower.head())
print('\n')
print(df.horsepower.describe())

0    0.456522
1    0.646739
2    0.565217
3    0.565217
4    0.510870
Name: horsepower, dtype: float64


count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64
