In [1]:
import platform
from matplotlib import font_manager, rc
import numpy as np 
import pandas as pd

df = pd.read_csv('../data/student.csv', encoding='cp949', index_col='이름')

# 그래프의 한글 깨짐
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(
        fname="c:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)

In [2]:
# sklearn 을 이용한 scailing
from sklearn import preprocessing

# StandardScaler - 평균은 0 표준편차는 1이 되도록 scailing
scaler = preprocessing.StandardScaler()
# 국어 점수만 이용하는 경우 df['국어'] 가 아니고 df[['국어']]
# 머신러닝의 데이터들은 행렬을 이용하는데 data['국어'] 로 하게 되면
# 컬럼이름이 1개라서 하나의 열로 리턴되서 1차원 데이터가 된다. 
# df[['국어']] 하게되면 list를 대입했기 때문에 DataFrame 으로 리턴 
result = scaler.fit_transform(df[['국어']].values)
print(result) # 표준값
print(np.mean(result)) # 평균은 0에 가까워짐 
print(np.std(result)) # 표준편차는 1.0에 가까워짐

[[ 0.6537062 ]
 [-0.1867732 ]
 [ 0.73775414]
 [ 0.06537062]
 [ 0.94787399]
 [ 0.2334665 ]
 [-2.28797169]
 [-1.0272526 ]
 [ 0.86382605]]
1.2335811384723961e-17
1.0


In [3]:
scaler = preprocessing.MinMaxScaler()
result = scaler.fit_transform(df[['국어']].values)
print(result) # 표준값
print(np.mean(result)) 
print(np.std(result)) 

[[0.90909091]
 [0.64935065]
 [0.93506494]
 [0.72727273]
 [1.        ]
 [0.77922078]
 [0.        ]
 [0.38961039]
 [0.97402597]]
0.7070707070707071
0.30903822359564487


In [4]:
scaler = preprocessing.RobustScaler()
result = scaler.fit_transform(df[['국어']].values)
print(result) # 표준값
print(np.mean(result))
print(np.std(result)) 

[[ 0.45454545]
 [-0.45454545]
 [ 0.54545455]
 [-0.18181818]
 [ 0.77272727]
 [ 0.        ]
 [-2.72727273]
 [-1.36363636]
 [ 0.68181818]]
-0.25252525252525254
1.0816337825847568


In [5]:
scaler = preprocessing.QuantileTransformer()
result = scaler.fit_transform(df[['국어']].values)
print(result) # 표준값
print(np.mean(result)) 
print(np.std(result)) 

[[0.625]
 [0.25 ]
 [0.75 ]
 [0.375]
 [1.   ]
 [0.5  ]
 [0.   ]
 [0.125]
 [0.875]]
0.5
0.3227486121839514
