# Unit04. 데이터전처리
- 사이킷런은 문자열 값을 입력값으로 처리하지 않기때문에 숫자형으로 변환해야 한다. 

## 4.1 범주형 데이터 전처리
- 몇 개의 범주 중 하나에 속하는 값들로 구성된 변수. 어떤 분류에 대한 속성을 가지는 변수를 말한다.      
ex) 성별 - 남/녀, 혈액형 - A, B, AB, O, 성적 - A,B,C,D,F
1. 비서열(Unordered) 변수
    - 범주에 속한 값간에 서열(순위)가 없는 변수    
    - ex) 성별, 혈액형
1. 서열(Ordered) 변수 
    - 범주에 속한 값 간에 서열(순위)가 있는 변수    
    - ex) 성적, 직급


- 범주형 Feature 처리방법      
    1. Label Encoding
    1. One-Hot Encoding

### 4.1.1 Label Encoding
- 레이블 인코딩 방식은 문자열 범주형 값을 오름차순 정렬 후 0부터 1씩 증가하는 값으로 변환한다. 
- 숫자의 차이가 모델에 영향을 미치지 않는 트리계열 모델(의사결정트리, 랜덤포레스트)에 적용한다. 
- 숫자의 차이가 모델에 영향을 미치는 선형계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하면 안된다. 


![image.png](attachment:image.png)


1. 사이킷런에서 지원
    - **sklearn.preprocessing.LabelEncoder** 사용
        - fit()              : 어떻게 변환할 지 학습
        - transform()        : 문자열를 숫자로 변환
            - 입력 : 1차원 배열 형태 (List, Series, ndarray)
            - 반환 : ndarray 형태
        - fit_transform()     : 학습과 변환을 한번에 처리
        - inverse_transform() :숫자를 문자열로 변환
        - classes_            : 인코딩한 클래스 조회 (메서드가 아님)

In [None]:
from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','냉장고','컴퓨터','TV','컴퓨터', '에어콘', 'TV','에어콘','에어콘']

label_encoder = LabelEncoder()

label_encoder.fit(items)
labels = label_encoder.transform(items)

print('- 인코딩한 값 조회 :', label_encoder.classes_)  #index가 encoding된 값
print('- labels :',labels) # encode : 문자열 ⇒ 인덱스

# label_encoder.transform(['냉장고','TV','TV', '노트북']) # error : 없는 값 변환 시 키 에러

inverse = label_encoder.inverse_transform([1,2,0,0,0,1]) # inverse : 인덱스 ⇒ 문자열 
print('- inverse :', inverse) 

# 학습데이터와 변환할 데이터가 동일한 경우 학습과 변환을 한번에 처리 가능하다. 
label_encoder2 = LabelEncoder()
labels2 = label_encoder2.fit_transform(items) #fit_transform : 학습과 변환을 한번에 처리 
print('- labels2 :', labels2)
print('- [TV,TV] transform :', label_encoder2.transform(['TV','TV']))

#### 4.1.1.1 연습1 : adult data
- adult data 에 label encoding 적용
- 데이터셋은 1994년  인구조사 데이터 베이스에서 추출한 미국 성인의 소득 데이터셋이다.
- target 은 income 이며 수입이 $50,000 이하인지 초과인지로 분류되 있다.
- https://archive.ics.uci.edu/ml/datasets/adult

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 1. 데이터 로드 
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']
adult = pd.read_csv('data/adult.data', header = None, names = cols, na_values = ' ?')

# 2. 결측치 처리 
adult.isna().sum() # 결측치 확인 
adult.dropna(inplace = True) # 결측치 제거
# adult.info()

# 3. 레이블 인코딩
# adult['income'].value_counts().sort_index()
le = LabelEncoder()
income_le = le.fit_transform(adult['income'])

print('- classes       :',le.classes_)
print('- labelEncoding :',income_le)
print('- size          :',income_le.size)



1. 데이터 로드 : 
    - 첫번째 줄에 컬럼이 없기 때문에 header를 None으로 설정한다. 
    - names 매개변수에 cols를 지정하여 컬럼을 설정한다. 
    - 실제 결측치를 없애기 위해 na_values 매개변수에 ' ?' 값을 설정하여 결측치를 제거한다. 
1. 결측치 처리 
    - 머신러닝 알고리즘은 결측치를 처리하지 못하기 때문에 제거하거나 값을 넣어줘야 한다. 

#### 4.1.1.2 연습2 : adult data
- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender', 'hours-per-week','native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss'

In [None]:
from sklearn.preprocessing import LabelEncoder 
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

def encoding_label(x):
    # 범주형 시리즈를 매개변수로 받아서 라벨인코딩 처리 후 반환
    le = LabelEncoder()
    r = le.fit_transform(x) # 1차원 
    enc_dict[x.name] = le.classes_ 
    
    return r 


encoding_columns = ['workclass','education','marital-status', 'occupation','relationship','race','gender','native-country', 'income']
not_encoding_columns = ['age','fnlwgt', 'education-num','capital-gain','capital-loss','hours-per-week']

enc_dict = {} # 각 컬럼(feature)마다 변환전의 고유값들을 저장할 딕셔너리 

adult_enc_df = adult[encoding_columns].apply(encoding_label) # 범주형에 해당하는 데이터를 가져와서 함수에 적용
adult_enc_df 

enc_dict

enc_dict['workclass'][5]
enc_dict['occupation'][3]

# 연속형 컬럼도 합쳐주자
adult_df = pd.concat([adult_enc_df, adult[not_encoding_columns]], axis = 1)
adult_df.head()

# 데이터 셋 분리 
# 1) income(y)를 분리 
y = adult_df['income'] # 인컴 컬럼만 저장 
X = adult_df.drop(columns = 'income') # 전체에서 income을 빠진
X.shape, y.shape
X.columns

# 2) train, validation, test set으로 분리 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, stratify = y, random_state = 1)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size = 0.25, stratify = y_train, random_state = 1)
y_train.shape, y_val.shape, y_test.shape

# 모델 생성 및 학습 
tree = DecisionTreeClassifier(max_depth = 7, random_state = 1) # max_depth를 1씩 올려보면서 정확도 검증 값을 확인 
tree.fit(X_train, y_train)

# 검증 
pred_train = tree.predict(X_train)
pred_val = tree.predict(X_val)
print('- train accuray :', accuracy_score(y_train, pred_train))
print('- val   accuray :', accuracy_score(y_val, pred_val))

# 최종평가 
pred_test = tree.predict(X_test)
print('- test  accuracy:',accuracy_score(y_test, pred_test))

# 새로운 데이터 추론
pred = tree.predict(X_test[0:3])
pred  # array([0, 1, 0]) 
enc_dict['income'][pred]
y_test[0:3] # 0, 1, 0 

$ 설명 $ 
- x.name : 컬럼명 조회 <-- adult['workclass'].name #  컬럼명을 조회  dd
- 하이퍼 파라미터 : 

### 4.1.2 One-Hot Encoding
- N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환
- 고유값들을 피처로 만들고 정답에 해당하는 열은 1로 나머진 0으로 표시한다..
- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 범주형 데이터 변환시 라벨 인코딩 보다 원핫 인코딩을 사용한다.

![image.png](attachment:image.png)



1. 사이킷런에서 지원
    - **sklearn.preprocessing.OneHotEncoder** 이용
        - fit(): 어떻게 변환할 지 학습
        - transform(): 문자열를 숫자로 변환
        - fit_transform(): 학습과 변환을 한번에 처리
        - get_feature_names() : 원핫인코딩으로 변환된 컬럼의 이름을 반환
    - DataFrame을 넣을 경우 모든 변수들을 변환한다. 
        - **범주형 컬럼만 처리**하도록 해야 한다.


2. Pandas에서 지원
    - **pandas.get_dummies**(DataFrame [, columns=[변환할 컬럼명]]) 함수 이용
    - DataFrame에서 **범주형(문자열) 변수만 변환**한다.
    
- 범주형 변수의 값을 숫자 값을 가지는 경우가 있다. (ex: 별점)    
- 이런 경우 get_dummies() columns=['컬럼명','컬럼명'] 매개변수로 컬럼들을 명시한다.

#### 4.1.2.1 사이킷런 연습1

In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# 1. 데이터 세팅
items = np.array(['TV','냉장고','냉장고','컴퓨터','TV','컴퓨터', '에어콘', 'TV','에어콘','에어콘'])
items.shape # (10,)

# 2. OneHotEncoder
ohe = OneHotEncoder()
ohe.fit(items.reshape(-1, 1)) 
items[..., np.newaxis]

# 3. 인코딩 결과
item_ohe = ohe.transform(items.reshape(-1, 1)) 
type(item_ohe) # csr_matrix 로 반환 , 값을 쓰기 위해서는 toarray()를 사용해야한다. 

# 넘파이 배열로 보고싶을 때 toarray 
item_ohe = item_ohe.toarray() #csr_matrix → ndarray
item_ohe.shape # (10, 4)
item_ohe

cols = ohe.get_feature_names()
pd.DataFrame(item_ohe, columns=cols)

$설명$


2. OneHotEncoder
    - fit할때 2차원 배열로 넣어줘야 한다. 따라서 reshape해줘야 한다. 
        - 방법1) items.reshape(-1,1).shape : -1 주면 설정된 값에 맞춰서 값이 정해진다.
        - 방법2) items[..., np.newaxis].shape : 
 

3. 인코딩 결과
    - csr_matrix (희소행렬)로 반환 
        - 희소행렬이란? 희소행렬은 대부분 0으로 구성된 행렬
        - 계산이나 메모리 효율을 이용해 0이 아닌 값의 index만 관리한다. 
        - sparse를 False로 주지 않으면 scipy의 csr_matrix(희소행렬 객체)로 반환. 
        - csr_matrix.toarray()로 ndarray로 바꿀수 있다.
        - toarray 변환없이 머신러닝 알고리즘에서 사용가능하다. 
    - ohe.get_feature_names 
        - 각각의 값들이 어떤 것을 의미하는지 알 수 없다. cols을 선언해준다. 
        - x0, x1 등이 붙여진 이유는? 
        - 

#### 4.1.2.2 사이킷런 연습2

In [None]:
# 연습 2 : csr_matrix에서 toarray변환없이 사용하기 :sparse = False로 설정 
ohe2 = OneHotEncoder(sparse = False)
items_ohe2 = ohe2.fit_transform(items[ ..., np.newaxis])
items_ohe2

#### 4.1.2.3 사이킷런 연습3

In [None]:
# 연습 3 
gender = np.random.randint(0, 2, size = 10) # 0(여성), 1(남성)

df = pd.DataFrame({'gender':gender, 'items':items, 'price':np.random.randint(10000,100000, size=10)})

ohe3 = OneHotEncoder(sparse=False)
result = ohe3.fit_transform(df[['gender', 'items']]) # df를 넣게 되면 , 인코딩할 대상을 알려줘야 한다 : 젠더, 아이템스 
cols = ohe3.get_feature_names() # 컬럼명을 알기 위해서

result_df = pd.DataFrame(result, columns=cols)
result_df['price'] = df['price']

result_df
# df.info()

- 설명설명설명 위에 코드 설명

#### 4.1.2.2 판다스 연습1

In [None]:
df
pd.get_dummies(df) # 문자열 컬럼만 원핫 인코딩 처리 
pd.get_dummies(df, columns = ['gender', 'items']) # 인코딩 대상이 되는 컬럼을 지정해준다. 숫자여도 처리해준다, # columns에 인코딩 대상 컬럼들을 지정한다. --> 숫자형도 인코딩된다. 

#### 4.1.2.3 판다스 연습 2
- adult dataset에 one-hot encoding 적용

In [None]:
import pandas as pd
cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']
data = pd.read_csv('data/adult.data',
                   header=None,
                   names=cols,
                   skipinitialspace=True, # `,` 다음의 공백을 제거.   , test => 'test'
                   na_values='?'
                  )
data.head(3)
data.info()

# 결측치 제거
data.dropna(inplace=True)
data.info()

#### 4.1.2.4 판다스 연습 3
- adult 데이터셋의 범주형(categoical) 컬럼을 one-hot encoding 한다.

- 범주형: 'workclass','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender', 'hours-per-week','native-country', 'income'
- 연속형: 'age', fnlwgt', 'capital-gain', 'capital-loss'
- **위의 컬럼들중 'workclass','education', 'occupation', 'gender', 'hours-per-week', 'income' 만 사용한다.**
- **income 은 Label Encoding으로 처리한다.**

In [8]:
# todo : 여기 코드가 좀 .. 지저분한데.. 정리가 필요할듯 

import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression #선형모델
from sklearn.metrics import accuracy_score

cols = ['age', 'workclass','fnlwgt','education', 'education-num', 'marital-status', 'occupation','relationship', 'race', 'gender','capital-gain','capital-loss', 'hours-per-week','native-country', 'income']

data = pd.read_csv('data/adult.data',
                   header=None,
                   names=cols,
                   skipinitialspace=True, # `,` 다음의 공백을 제거.   , test => 'test'
                   na_values='?'
                  )

categorical_cols = ['workclass','education', 'occupation', 'gender', 'hours-per-week', 'income']
adult_df = data[categorical_cols]
# adult_df.head()

# income 컬럼은 LabelEncoding

le = LabelEncoder()
y = le.fit_transform(adult_df['income'])
# y
# y.shape
# le.classes_
# le.inverse_transform([0,0,1])

# adult_df['hours-per-week'].value_counts()  # hours-per-week : 숫자형이지만 범주형? , 94개, 제외 
# adult_df[adult_df.columns[:-2]].head()

# 원핫인코딩 
ohe = OneHotEncoder()#sparse=False)
X = ohe.fit_transform(adult_df[adult_df.columns[:-2]]) 
ohe.get_feature_names() # 컬럼명 
X = X.toarray()
# # 'hours-per-week' 항목이 빠졌으니 추가 
X_df = pd.DataFrame(X, columns=ohe.get_feature_names())
# adult_df['hours-per-week'].index
X_df['hours-per-week'] = adult_df['hours-per-week'].values
# X_df.shape
# X_df.isna().sum()

# 판다스 겟더미스를 이용해서 원핫인코딩을 해보자. 
pd.get_dummies(adult_df.drop(columns='income'))
adult_df.shape, X_df.shape

# train/test set 분리
X_train, X_test, y_train, y_test = train_test_split(X_df, y, test_size=0.3, stratify=y, random_state=1)

# 모델 생성 및 학습
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

# 추론 
pred_train = lr.predict(X_train)
pred_test = lr.predict(X_test)

print("- train 정확도:", accuracy_score(y_train, pred_train))
print("- test  정확도:", accuracy_score(y_test, pred_test))

- train 정확도: 0.803001053001053
- test  정확도: 0.8038693827413246


## 4.2 연속형(수치형) 데이터 전처리
### 4.2.1 Feature Scaling(정규화)
- 각 feature가 가지는 값들의 숫자 범위(Scale)가 다를 경우 이 값의 범위를 일정한 범위로 맞추는 작업이 필요하다. 
- 트리계열을 제외한 대부분의 머신러닝 알고리즘(선형모델, SVM 모델, 신경망 모델 등)들이 피처의 스케일에 영향을 받는다.
- **Scaling(정규화)은 <u>train set</u>으로 fitting 한다. test set이나 예측할 새로운 데이터는 train set으로 fitting한 것으로 변환한다.**



- 종류 
    1. Standard Scaler(표준화)
    2. MinMax Scaler



- 함수 
    - fit(): 학습
    - transform(): 변환
    - fit_transform(): 학습과 변환을 한번에 처리 

### 4.2.2 StandardScaler(표준화)
- 피쳐의 값들이 평균이 0이고 표준편차가 1인 범위(표준정규분포)에 있도록 변환한다.
- 0을 기준으로 모든 데이터들이 모여있게 된다
- 특히 SVM이나 선형회귀, 로지스틱 회귀 알고리즘(선형모델)은 데이터셋이 표준정규분포를 따를때 성능이 좋은 모델이기 때문에 표준화를 하면 대부분의 경우 성능이 향상된다.

$$
New\,x_i = \cfrac{X_i-\mu}{\sigma}\\
\mu-평균,\;  \sigma-표준편차
$$

- sklearn.preprocessing.StandardScaler 를 이용

In [43]:
# iris로 연습해보자
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

# data 
iris = load_iris()
X, y = iris['data'], iris['target']
iris_df = pd.DataFrame(X, columns = iris['feature_names'])

# 평균과 표준편차를 구한다
print('- 평균   :\n', iris_df.mean())
print('- 표준편차:\n', iris_df.std())
      
# 표준화 스케일링 
scaler = StandardScaler()
scaler.fit(iris_df) # 학습
iris_scaled = scaler.transform(iris_df) # 변환 
iris_scaled_df = pd.DataFrame(iris_scaled, columns = iris['feature_names']) # 이건 왜? 보기 좋게 하려고 , 학습할때는 데이터프레임으로 안해도됨 


# 표준화 스케일링 후 평균과 표준편차 확인
print("="*50)
print('- 표준화 스케일링 후 평균   :\n', iris_scaled_df.mean())
print('- 표준화 스케일링 후 표준편차:\n', iris_scaled_df.std())

# 
# iris_df.head(3)
# iris_scaled_df.head(3) 

- 평균   :
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
- 표준편차:
 sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64
- 표준화 스케일링 후 평균   :
 sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
- 표준화 스케일링 후 표준편차:
 sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


### 4.2.3 MinMaxScaler
- 데이터셋의 모든 값을 0과 1 사이의 값으로 변환한다.
$$
New\,x_i = \cfrac{x_i - min(X)}{max(X) - min(X)}
$$

In [45]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

iris = load_iris()
X, y = iris['data'], iris['target']
iris_df = pd.DataFrame(X, columns = iris['feature_names'])

mm_scaler = MinMaxScaler()
mm_scaler.fit(iris_df)

iris_mm_scaled = mm_scaler.transform(iris_df)
iris_mm_scaled_df = pd.DataFrame(iris_mm_scaled, columns = iris['feature_names'])
iris_mm_scaled_df

print('- 변환 전 Min :\n',iris_df.min())
print('- 변환 전 Max :\n',iris_df.max())
print("="*30)
print('- 변환 후 Min :\n',iris_mm_scaled_df.min())
print('- 변환 후 Max :\n',iris_mm_scaled_df.max())

- 변환 전 Min :
 sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64
- 변환 전 Max :
 sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64
- 변환 후 Min :
 sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
- 변환 후 Max :
 sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### 4.2.4 연습 : 위스콘신 유방암
- 위스콘신 대학교에서 제공한 유방암 진단결과 데이터
- ID, 암측정값들, 진단결과 컬럼들로 구성
- 사이킷런에서 제공. load_breast_cancer() 함수 이용

In [57]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
import numpy as np
import pandas as pd

cancer = load_breast_cancer()

# 데이터 확인 
cancer['feature_names']
cancer['target_names'] #malignant:악성, benign: 양성
cancer['data'].shape # 569명 환자데이터 , 피쳐 30개 

X, y = cancer['data'], cancer['target']

#X 값 확인
np.round(np.mean(X, axis = 0))

# split
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 1)

# scaling : train set으로 학습 (학습대상은 X-feature), train_set으로 학습한 scaler객체로 train_set, validations_set, test_set으로 변환
s_scaler = StandardScaler()
X_train_scaled = s_scaler.fit_transform(X_train) # train는 학습&변환
X_test_scaled = s_scaler.transform(X_test) # test는 변환만 

# 값 비교
X_train[:2] 
X_train_scaled[:2]

np.mean(X_train, axis = 0)
np.mean(X_train_scaled, axis = 0)
np.std(X_train_scaled, axis = 0)

# 모델 SVC 생성 및 학습
svc = SVC(C = 0.1, gamma = 0.1 )

# ========= scaling 안된 데이터로 학습 및 예측 
svc.fit(X_train, y_train)

pred_train = svc.predict(X_train)
pred_test = svc.predict(X_test)

print('- scaling 안 된 데이터 train:',accuracy_score(y_train, pred_train))
print('- scaling 안 된 데이터 test :',accuracy_score(y_test, pred_test))

# ========= scaling 된 데이터로 학습 및 예측 
# scaling 된 데이터로 학습 및 예측 
svc.fit(X_train_scaled, y_train)

pred_train = svc.predict(X_train_scaled)
pred_test = svc.predict(X_test_scaled)

print('- scaling   된 데이터 train:',accuracy_score(y_train, pred_train))
print('- scaling   된 데이터 test :',accuracy_score(y_test, pred_test))

# ========= MinMax scaler 이용 
mm_scaler = MinMaxScaler()
X_train_scaled_mm = mm_scaler.fit_transform(X_train)
X_test_scaled_mm = mm_scaler.transform(X_test)

# 값확인
np.min(X_train_scaled_mm, axis = 0) # 0
np.max(X_train_scaled_mm, axis = 0) # 1
np.min(X_test_scaled_mm, axis = 0)
np.max(X_test_scaled_mm, axis = 0)

# svc model 생성 및 학습
svc = SVC(C = 0.1, gamma = 0.1)
svc.fit(X_train_scaled_mm, y_train)

pred_train_mm = svc.predict(X_train_scaled_mm)
pred_test_mm = svc.predict(X_test_scaled_mm)


print("- MMscaler train         :", accuracy_score(y_train, pred_train_mm))
print("- MMscaler test          :", accuracy_score(y_test, pred_test_mm))

- scaling 안 된 데이터 train: 0.6267605633802817
- scaling 안 된 데이터 test : 0.6293706293706294
- scaling   된 데이터 train: 0.9577464788732394
- scaling   된 데이터 test : 0.9090909090909091
- MMscaler train         : 0.9131455399061033
- MMscaler test          : 0.9020979020979021


- 스케일링을 해야 성능지표가 올라간다. 
- 예측도 스케일링 된 애들로 해야한다. 
- 해봐서 나은 결과를 선택하면 된다. 