In [4]:
import pandas as pd
import numpy as np

df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                     'ml/machine-learning-databases/'
                     'wine/wine.data', header=None)
df_wine.columns = ['Class label','Alcohol','Malic acid','Ash',
                  'Alcalinity of ash', 'Magnesium',' Total phenols',
                  'Flavanoids', 'Nonflavanoid phenols','Proanthocyanins',
                  'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                  'Proline']
print('클래스 레이블',np.unique(df_wine['Class label']))

클래스 레이블 [1 2 3]


In [5]:
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:,1:].values, df_wine.iloc[:,0].values

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0,stratify=y)

## 특성 스케일 맞추기
특성 스케일 조정은 전처리 파이프라인에서 잊어버리기 쉽지만 아주 중요한 단계이다. 결정 트리와 랜덤 포레스트는 특성 스케일 조정에 대해 걱정할 필요가 없는 몇 안 되는 머신 러닝 알고리즘 중 하나이다. 하지만 대부분 머신러닝과 최적화 알고리즘은 특성의 스케일이 같을 때 훨씬 성능이 좋다.

* 정규화(normalization) : 대부분 정규화는 특성의 스케일을 [0,1]범위에 맞추는 것을 의미. 즉, 최소-최대 스케일 변환의 특별한 경우이다.
* 최소-최대 스케일 변환(min-max scailing):
$$ x^{(i)}_{norm} = \frac{{x^{(i)}-x_{min}}{x_{max}-x_{min}} $$
* 표준화(standardization) : 특성의 평균을 0에 맞추고 표준 편차를 1로 만들어 정규 분포와 같은 특징을 가지도록 만드는 것. 이상치 정보가 유지되기 때문에 제한된 범위로 데이터를 조정하는 최소-최대 스케일 변환에 비해 알고리즘이 이상치에 덜 민감하다.



In [None]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)