각 열(변수)의 데이터 중에서 최대값(max)과 최소값(min)을 뺀 값으로 나누는 방법이다.<br>
각 열 데이터에서 해당 열의 최소값을 뺀 값을 분자로 하고, 해당 열의 최대값과 최소값의 차를 분모로 하는 수를 계산하면 가장 큰 값은 역시 1이 된다.<br>
예제에서 'horsepower' 열의 최대값은 230이고 최소값은 46이다.<br>
최대값과 최소값의 차인 184를 이용하여 정규화하면 최소 0부터 최대 1 사이의 범위로 변환된다.

In [1]:
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./auto-mpg.csv', header=None)

# 열 이름 지정
df.columns = ['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
              'acceleration', 'model year', 'origin', 'name']

# horsepower 열의 누락 데이터('?')를 삭제하고 실수형으로 변환
df['horsepower'].replace('?', np.nan, inplace=True)     # '?'을 np.nan으로 변경
df.dropna(subset=['horsepower'], axis=0, inplace=True)  # 누락 데이터 행 삭제
df['horsepower'] = df['horsepower'].astype('float')     # 문자열을 실수형으로 변환

# horsepower 열의 통계 요약 정보로 최대값과 최소값 확인
print(df.horsepower.describe())
print('\n')

# horsepower 열의 최대값의 절대값으로 모든 데이터를 나눠서 저장
min_x = df.horsepower - df.horsepower.min()             # horsepower 열의 각 값에서 최소값을 뺌 (분자)
min_max = df.horsepower.max() - df.horsepower.min()     # horsepower 열의 최대값에서 최소값을 뺀 값 (분모)
df.horsepower = min_x/min_max

print(df.horsepower.head())
print('\n')
print(df.horsepower.describe())


count    392.000000
mean     104.469388
std       38.491160
min       46.000000
25%       75.000000
50%       93.500000
75%      126.000000
max      230.000000
Name: horsepower, dtype: float64


0    0.456522
1    0.646739
2    0.565217
3    0.565217
4    0.510870
Name: horsepower, dtype: float64


count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64
