In [0]:
# 과적합 vs. 과소적합

# 훈련 데이터가 가지고 있는 특성을 너무 많이 반영하게 되면
# 훈련 데이터의 패턴을 너무 잘 인식하게 되는 문제 발생

# 이럴 경우 새로운 데이터가 주어지면 정확하게 예측하는 일반화 능력은 떨어짐

# 편향과 분산
# 편향 : 예측값과 정답이 얼마나 떨어졌는가?
# 분산 : 데이터들이 서로 얼마나 가깝게 붙어 있는가?
# 따라서, 편향이 높으면 과적합의 문제 발생

# 훈련 데이터와 테스트 데이터
# => 머신러닝 모델을 만들기 위해서는
# 훈련/테스트 데이터로 나눠 교차검증 방식으로 모델을 만들고 성능을 평가함

# 훈련 데이터 : 모델 추정 및 학습이 목적
# 테스트 데이터 : 모델 성능 평가가 목적

# 분할 비율은 7:3 또는 8:2로 설정함

import sklearn
import image
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import load_digits
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import make_blobs
from sklearn.datasets import make_classification
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
import numpy as np
import pandas as pd
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler 

iris = load_iris()
dt_clf = DecisionTreeClassifier() # 의사결정나무
print(df_clf) 

train_data = iris.data # iris 데이터
train_label = iris.target # iris 품종

dt_clf.fit(train_data, train_label) # 주어진 종속/돕립변수를 이용해서 학습시킴

predict = dt_clf.predict(train_data) # 학습된 모델에 데이터를 이용해서 예측시킴
print('모델 정확도', accuracy_score(train_label, predict))


# => fit(학습) 시킨 데이터와 accuracy 산정을 위해 predict시킨 데이터가 동일 셋.
# => 따라서 정확도 1.0 (100%) 출력 =====> 뭔가 이상?!?!!

# 모델을 학습시킬 때 사용한 데이터를 모델을 평가할때도 사용함

# 비유) 문제집으로 시험공부 했는데 시험문제가 해당 문제집에서 다 나온 경우 100점 받음

# 이런 문제를 피하려면 데이터셋을 
# 훈련 vs. 테스트 로 나눠 학습/예측 수행해야 함





DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')
모델 정확도 1.0


In [0]:
# 데이터를 학습용/평가용 데이터로 분할 1 ------------------------------------------------------------------------------------------
# 학습용/평가용 데이터 비율은 7:3으로 설정
# iris데이터셋의 총 갯수는 150개
# 따라서, 105 : 45로 나눔

# print(iris.data)
iris_train = iris.data[0:105,]
iris_test = iris.data[105:,]
#print(iris_train.shape, iris_test.shape)

#print(iris.target)

itarget_train = iris.target[0:105,]
itarget_test = iris.target[105:,]
#print(itarget_train.shape, itarget_test.shape)


dt_clf = DecisionTreeClassifier() # 의사결정나무


dt_clf.fit(iris_train, itarget_train) # 주어진 종속/돕립변수를 이용해서 학습시킴

predict = dt_clf.predict(iris_test) # 학습된 모델에 데이터를 이용해서 예측시킴
print('모델 정확도', accuracy_score(itarget_test, predict))

print('-----------------------------------------------')
print(itarget_train)
print('-----------------------------------------------')
print(itarget_test)
print('-----------------------------------------------')
print(pd.DataFrame(itarget_train)[0].value_counts())
print('-----------------------------------------------')
print(pd.DataFrame(itarget_test)[0].value_counts())


# 데이터를 순서대로 분할했기 때문에 데이터의 비율이 일정하지 않음
# 즉, setosa, versicolor, virginica의 비율이 같아야 하는데 train에는 setosa, versicolor가
# test에는 virginica 위주로 구성됨 -_-;;



모델 정확도 0.7333333333333333
-----------------------------------------------
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2]
-----------------------------------------------
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2]
-----------------------------------------------
1    50
0    50
2     5
Name: 0, dtype: int64
-----------------------------------------------
2    45
Name: 0, dtype: int64


In [0]:

# 데이터를 학습용/평가용 데이터로 분할 2 ------------------------------------------------------------------------------------------
np.random.seed(1906271215)
idx = np.arange(0,150)
train_idx = np.random.choice(idx, 105, replace=False)

print(train_idx)
print(idx.shape)
print(train_idx.shape)

# ... 134, 144, 26, 124, 33])

#print(train_idx)
#print(-train_idx)

X_train = iris.data[train_idx]

print(len(train_idx))
mask = np.ones(len(train_idx), np.bool)

print(mask)

mask[train_idx] = False
# inverse indexing을 구현하기 위해 masking할 배열을 생성

print(mask)


X_test = iris.data[mask] # boolean index
print(X_train.shape, X_test.shape)




Y_train = iris.target[train_idx]
#Y_test = iris.target[]
print(Y_train.shape, Y_test.shape)

print(pd.DataFrame(Y_train)[0].value_counts())
 


[ 14  40 106 122  34 133 147 136  38 139  69  27 114 116  84  33  21  36
 145 138  60  25  70  78 124  90  55 130  76  45  91  77 143   9 111  50
  92 110 103 107  63 125 100  79  73   8  10 131 126  43  61  83 149  41
  42  35 142 127 137  30 141  47  22 112  44 104 140  53  94  80  56  68
  64  20   1  15  11 128  98  39 105  28  59 132  82  16  26  87 146   7
  86 123  32 101  13  19  58  24 113   3  96 121   4 119  99]
(150,)
(105,)
105
[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  

IndexError: ignored

In [0]:
## 데이터를 학습용/평가용 데이터로 분할 2

np.random.seed(1906271215)

idx = np.arange(0, 150)

train_idx = np.random.choice(idx, 105, replace=False)
# ... 134, 144,  26, 124, 33])

X_train = iris.data[train_idx]

mask = np.ones(len(iris.data), np.bool) # 150개의 True를 가진 배열리스트(?) 생성됨

print(mask)

mask[train_idx] = False # 위 150개 True를 가진 mask에 대해, train_idx를 위치값으로 적용, mask 배열에서 해당값들만 False로 바꿔줌 
# 즉, 105개가 False로 변하고, 45개의 True 가짐



# inverse indexing을 구현하기 위해 masking할 배열을 생성
print(mask)


X_test = iris.data[mask]   # 불린 인덱스
print(X_train.shape, X_test.shape)


Y_train = iris.target[train_idx] 
Y_test = iris.target[mask]
print(Y_train.shape, Y_test.shape)

print(Y_train)
print(pd.DataFrame(Y_train)[0].value_counts())
# 2    38
# 0    36

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, Y_train)

predict = dt_clf.predict(X_test)
print('모델정확도', accuracy_score(Y_test, predict))


# 모델 정확도 0.96
# 학습은 일정 비율의 setosa, versicolor, virginica. 그러나 여전히 고르지 않음?

[ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True  True  True  True]
[ True False  True False False  True  True False False False False False
  True False 

In [0]:
# 데이터를 학습용/평가용 데이터로 분할 3 ------------------------------------------------------------------------------------------
# 독립변수 속성들 분포를 고려한 표본추출이 필요함

# sklearn의 train_test_split을 이용
# train_test_spli(독립변수, 종속변수, 훈련데이터크기, 평가데이터크기, 계층추출, 난수초기값)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                    train_size=0.7, test_size=0.3,
                                                    stratify=iris.target, #-_-??? stratified를 종속변수에?
                                                    random_state=1906271240)

#print(pd.DataFrame(X_test)[0].value_counts())

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)

predict = dt_clf.predict(X_test)
print('모델정확도', accuracy_score(y_test, predict))

모델정확도 0.9333333333333333


In [113]:
# 교차검증 cross validation
# 데이터 수가 적은 경우 데이터 일부인 평가 데이터도 작음
# => 성능 평가의 신뢰도 의심

# 데이터를 동일한 크기로 k개 나누고, 
# 이들 중 훈련/평가 데이터를 구분지어 순환적으로 훈련 및 평가를 k번 실시함
# => K Fold 교차검증이라 함

from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split

#X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
#                                                    train_size=0.7, test_size=0.3,
#                                                    stratify=iris.target, #-_-??? stratified를 종속변수에?
#                                                    random_state=1906271240)

kfold = KFold(n_splits=5)
accuracies = []
n_iter=0 # 검증 회차

#print(kfold)

#print(pd.DataFrame(X_test)[0].value_counts())

dt_clf = DecisionTreeClassifier(random_state=1906271505)

#print(iris.data.shape)

for tridx, tsidx in kfold.split(iris.data):
  #print(tridx)
  #print(tsidx)
  #print('-------------------')
  X_train = iris.data[tridx] 
  X_test = iris.data[tsidx]
  y_train = iris.target[tridx]
  y_test = iris.target[tsidx]
  
  print(pd.DataFrame(y_train)[0].value_counts())
  print(pd.DataFrame(y_test)[0].value_counts())
  #print('검증세트 인덱스', tridx)
  #print('검증세트 인덱스', tsidx)
  #print('---------------------------------------------------------------------------')
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  
  n_iter +=1
  
  acc = accuracy_score(y_test, pred)
  accuracies.append(acc)
  print('----------------------') 
  print('{0}회차 검증 정확도 {1}'.format(n_iter, acc))
  print('---------------------------------------------------------------------------') 

print('---------------------------------------------------------------------------') 
print('평균 정확도', np.mean(accuracies))


2    50
1    50
0    20
Name: 0, dtype: int64
0    30
Name: 0, dtype: int64
----------------------
1회차 검증 정확도 1.0
---------------------------------------------------------------------------
2    50
1    40
0    30
Name: 0, dtype: int64
0    20
1    10
Name: 0, dtype: int64
----------------------
2회차 검증 정확도 0.9666666666666667
---------------------------------------------------------------------------
2    50
0    50
1    20
Name: 0, dtype: int64
1    30
Name: 0, dtype: int64
----------------------
3회차 검증 정확도 0.9
---------------------------------------------------------------------------
0    50
1    40
2    30
Name: 0, dtype: int64
2    20
1    10
Name: 0, dtype: int64
----------------------
4회차 검증 정확도 0.9333333333333333
---------------------------------------------------------------------------
1    50
0    50
2    20
Name: 0, dtype: int64
2    30
Name: 0, dtype: int64
----------------------
5회차 검증 정확도 0.7666666666666667
-----------------------------------------------------------------

In [119]:
# Strateified K 교차검증
# 기존의 교차검증은 종속변수의 범주 비율을 고려하지 않고 훈련 및 평가를 실시했음
# 종속변수의 범주 비율을 고려해서 훈련 및 평가를 실시하려면 Stratified K 교차검증을 사용함
# 원본 데이터의 범주 분포 특성을 반영해서 훈련/평가를 실시해야 함

from sklearn.model_selection import StratifiedKFold
#from sklearn.model_selection import cross_val_score

#X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
#                                                    train_size=0.7, test_size=0.3,
#                                                    stratify=iris.target, #-_-??? stratified를 종속변수에?
#                                                    random_state=1906271240)

skfold = StratifiedKFold(n_splits=5)
accuracies = []
n_iter=0 # 검증 회차



dt_clf = DecisionTreeClassifier(random_state=1906271525)

for tridx, tsidx in skfold.split(iris.data, iris.target): # stratified는 argument가 2개 필요함
  #print(tridx)
  #print(tsidx)
  #print('-------------------')
  X_train = iris.data[tridx] 
  X_test = iris.data[tsidx]
  y_train = iris.target[tridx]
  y_test = iris.target[tsidx]
  
  print(pd.DataFrame(y_train)[0].value_counts())
  print(pd.DataFrame(y_test)[0].value_counts())
  #print('검증세트 인덱스', tridx)
  #print('검증세트 인덱스', tsidx)
  #print('---------------------------------------------------------------------------')
  dt_clf.fit(X_train, y_train)
  pred = dt_clf.predict(X_test)
  
  n_iter +=1
  
  acc = accuracy_score(y_test, pred)
  accuracies.append(acc)
  print('----------------------') 
  print('{0}회차 검증 정확도 {1}'.format(n_iter, acc))
  print('---------------------------------------------------------------------------') 

print('---------------------------------------------------------------------------') 
print('평균 정확도', np.mean(accuracies))


2    40
1    40
0    40
Name: 0, dtype: int64
2    10
1    10
0    10
Name: 0, dtype: int64
----------------------
1회차 검증 정확도 0.9666666666666667
---------------------------------------------------------------------------
2    40
1    40
0    40
Name: 0, dtype: int64
2    10
1    10
0    10
Name: 0, dtype: int64
----------------------
2회차 검증 정확도 0.9666666666666667
---------------------------------------------------------------------------
2    40
1    40
0    40
Name: 0, dtype: int64
2    10
1    10
0    10
Name: 0, dtype: int64
----------------------
3회차 검증 정확도 0.9
---------------------------------------------------------------------------
2    40
1    40
0    40
Name: 0, dtype: int64
2    10
1    10
0    10
Name: 0, dtype: int64
----------------------
4회차 검증 정확도 0.9666666666666667
---------------------------------------------------------------------------
2    40
1    40
0    40
Name: 0, dtype: int64
2    10
1    10
0    10
Name: 0, dtype: int64
----------------------
5회차 검증 정확도 1.0
-

In [124]:
# 교차검증을 보다 편하게 하려면?
# scikit-learn의 cross_val_score 함수 이용
# cross_val_score(분류기, 데이터, 레이블, 평가방식, 폴드수)

from sklearn.model_selection import cross_val_score

dt_clf = DecisionTreeClassifier(random_state=1906271540)

scores = cross_val_score(dt_clf,
                        iris.data, iris.target,
                        scoring='accuracy', cv=5) # train vs. test 비율 명시할 필요 없고, for문 안 써도 된다는 점에서 편리

print('교차검증 정확도', scores)
print('평균 교차검증 정확도', np.mean(scores))

교차검증 정확도 [0.96666667 0.96666667 0.9        0.96666667 1.        ]
평균 교차검증 정확도 0.9600000000000002


In [0]:
# GridSearchCV
# 교차검증과 최적 하이퍼매개변수 튜닝
# 분류나 회귀 등의 알고리즘에 사용되는 하이퍼 매개변수를 순차적으로 입력하면서,
# 최적의 매개변수를 찾아주는 방안을 제공
# 단, 미리 매개변수 집합을 구성해둬야 함

In [0]:
# 데이터 전처리
# 머신러닝 알고리즘을 익히는 것 못지 않게 데이터 전처리 역시 중요한 과정 중 하나.
# 무엇보다 머신러닝 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 하는 기본사항이 존재.

# 결측치 처리 : NaN, Null은 허용되지 않음
# 원핫인코딩 : 머신러닝 알고리즘들은 문자열 값을 데이터의 입력값으로 허용하지 않음. 따라서, 모든 문자열 값은 인코딩해서 숫자형으로 변환해둬야 함.
# 한편, 텍스트 데이터들은 벡터화해서 처리

# 머신러닝을 위한 인코딩은 "레이블인코딩"과 "원핫인코딩"이 있음

In [0]:
import sklearn
import image
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import load_digits
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import make_blobs
from sklearn.datasets import make_classification
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
import numpy as np
import pandas as pd
from pandas.plotting import scatter_matrix
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

In [148]:
# 레이블인코딩 label encoding ----------------------------------------
# 범주형 값을 숫자값으로 변환하는 것을 의미

from sklearn.preprocessing import LabelEncoder

items = ['TV','Fridge','Stove','Airconditioner','Computer']

encoder = LabelEncoder()
encoder.fit(items) # 먼저 fit 시킴. 적절하게 정렬..? 그것만인가.
labels = encoder.transform(items)

print(labels)
print(encoder.classes_) # 순서 > 오름차순 정렬


print(encoder.inverse_transform([0,3])) # 인코딩 된 값을 다시 디코딩해서 출력. bracket 안의 값은 배열리스트 내 위치값
print(encoder.inverse_transform([1,3,4])) # 인코딩 된 값을 다시 디코딩해서 출력. bracket 안의 값은 배열리스트 내 위치값

# 문자열 값을 숫자형 값으로 변환시켰을 때 발생할 수 있는 문제는 각 값의 대소관계를 통해 중요도 여부가 존재할 수 있음
# 즉, 인코딩 된 값에 서수ordinal 척도가 생길 수 있음

# 따라서 대소관계가 있는 데이터로 분석을 할 경우 정확도에 영향을 미칠 수 있음
# => 원핫인코딩을 사용함으로써 문제 해결

[4 2 3 0 1]
['Airconditioner' 'Computer' 'Fridge' 'Stove' 'TV']
['Airconditioner' 'Stove']
['Computer' 'Stove' 'TV']


In [0]:
# 원핫인코딩
# 범주 값의 유형에 따라 더미변수dummy variable를 추가해 고유값을
# 해당하는 컬럼에만 1을 표시하고 나머지는 0으로 표시하는 방식

# '티비'  '냉장고'  '가스렌지'  '에어콘'  '컴퓨터'
# 1         0          0           0        0
# 0         1          0           0        0
# 0         0          1           0        0
# 0         0          0           1        0
# 0         0          0           0        1

In [169]:
from sklearn.preprocessing import OneHotEncoder

items = ['TV','Fridge','Stove','Airconditioner','Computer']

# 먼저, labelEncoder로 문자열을 숫자값으로 변환

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

print(labels)
print('--------------------------------------')
#print(encoder.classes_) # 순서 > 오름차순 정렬


#print(encoder.inverse_transform([0,3])) # 인코딩 된 값을 다시 디코딩해서 출력. bracket 안의 값은 배열리스트 내 위치값
#print(encoder.inverse_transform([1,3,4])) # 인코딩 된 값을 다시 디코딩해서 출력. bracket 안의 값은 배열리스트 내 위치값


# 1차원 데이터를 2차원 데이터로 변환

labels = labels.reshape(-1, 1) # -1 : 행을 열로 전환
#labels = labels.reshape(5, 1)
print(labels)
print('--------------------------------------')

# 원핫인코딩 적용
onehot = OneHotEncoder()
onehot.fit(labels)
onehotlabels = onehot.transform(labels)
print(onehotlabels.shape)
print('--------------------------------------')
print(onehotlabels)
print('--------------------------------------')
# 위 프린트 찍은 것으로는 와닿지 않음

print(onehotlabels.toarray())

# 위에서 보듯 sklearn의 원핫인코딩 API는 사용불편. 원핫인코딩 변환 전 레이블 인코딩이 선행되어야 하기에.

[4 2 3 0 1]
--------------------------------------
[[4]
 [2]
 [3]
 [0]
 [1]]
--------------------------------------
(5, 5)
--------------------------------------
  (0, 4)	1.0
  (1, 2)	1.0
  (2, 3)	1.0
  (3, 0)	1.0
  (4, 1)	1.0
--------------------------------------
[[0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]]


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [172]:
# pandas의 원핫인코딩 API가 훨씬 편함
# get_dummies() 함수 이용
# 단, 변환대상은 데이터프레임으로 작성되어있어야 함!!

items = ['TV','Fridge','Stove','Airconditioner','Computer']
df = pd.DataFrame(items)
pd.get_dummies(df) # 이렇게 하면 컬럼명에 0_ 이 붙어서 나옴 

Unnamed: 0,0_Airconditioner,0_Computer,0_Fridge,0_Stove,0_TV
0,0,0,0,0,1
1,0,0,1,0,0
2,0,0,0,1,0
3,1,0,0,0,0
4,0,1,0,0,0


In [0]:
# 특성feature 스케일링과 표준화/정규화

# 서로 다른 범위, 단위의 변수 값을 일정수준으로 맞추는 작업을 특성 스케일링이라 함
# 이것을 구현하는 방법은 정규화와 표준화가 있음

# 어떤 데이터의 값이 정수와 실수가 혼용되어 있다든지
# 값의 범위가 1~100, 0~0.001, 1~10000 등등의 경우
# 데이터 분석 시 제대로 된 결과가 나오지 않을 수 있음
# => 많은 cpu 파워와 메모리가 필요하고 학습이 느려질 수 있음


# 이것을 구현하는 방법은 정규화와 표준화가 있음

# StandardScaler : 평균 0, 표준편차 1로 변환 ----------------------------------------------------------- Scaler1
# MinMaxScaler : 최소값 0, 최대값 0 되도록 변환 ----------------------------------------------------------- Scaler2

# 이상치outlier 있는 경우
# MinMaxScaler는 outlier 영향을 꽤나 받음. StandardScaler는 상대적으로 덜 받지만, 이왕이면 outlier는 제거하는게 나음

# RobustScaler : 중앙값 0, IQR 1 되도록 변환?? 뭔말 <- 정규분포를 띄되, 분포가 넓게 배치되도록 조정! ----------------------------------------------------------- Scaler3
# => IQR : 3사분위수와 1사분위수를 다룸
# 즉, 데이터의 상위 25%와 하위 75% 값을 다룸

In [187]:
X = np.arange(9, dtype=np.float) - 3
#X = np.arange(9, dtype=np.float)
X = X.reshape(-1, 1)

print(pd.DataFrame(X))
print(pd.DataFrame(X).describe())
print('--------------------------------------')

X = np.vstack([X, 100]) # 이상치 추가 (아랫쪽에) <- MinMaxScaler는 outlier 영향을 꽤나 받음. StandardScaler는 상대적으로 덜 받지만, 이왕이면 outlier는 제거하는게 나음
print(pd.DataFrame(X))
print(pd.DataFrame(X).describe())
print('--------------------------------------')

# StandardScaler 적용------------------------------------------------------
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
xx = scaler.transform(X)
print(xx)
print('--------------------------------------')
print(pd.DataFrame(xx).describe())
print('--------------------------------------')
print(np.mean(xx), np.std(xx))

     0
0 -3.0
1 -2.0
2 -1.0
3  0.0
4  1.0
5  2.0
6  3.0
7  4.0
8  5.0
              0
count  9.000000
mean   1.000000
std    2.738613
min   -3.000000
25%   -1.000000
50%    1.000000
75%    3.000000
max    5.000000
--------------------------------------
       0
0   -3.0
1   -2.0
2   -1.0
3    0.0
4    1.0
5    2.0
6    3.0
7    4.0
8    5.0
9  100.0
                0
count   10.000000
mean    10.900000
std     31.412842
min     -3.000000
25%     -0.750000
50%      1.500000
75%      3.750000
max    100.000000
--------------------------------------
[[-0.46642982]
 [-0.43287372]
 [-0.39931762]
 [-0.36576152]
 [-0.33220541]
 [-0.29864931]
 [-0.26509321]
 [-0.23153711]
 [-0.197981  ]
 [ 2.98984872]]
--------------------------------------
                  0
count  1.000000e+01
mean  -4.440892e-17
std    1.054093e+00
min   -4.664298e-01
25%   -3.909286e-01
50%   -3.154274e-01
75%   -2.399261e-01
max    2.989849e+00
--------------------------------------
0.0 1.0


In [192]:
X = np.arange(9, dtype=np.float) - 3
#X = np.arange(9, dtype=np.float)
X = X.reshape(-1, 1)

#print(pd.DataFrame(X))
#print(pd.DataFrame(X).describe())
#print('--------------------------------------')

X = np.vstack([X, 100]) # 이상치 추가 (아랫쪽에) <- MinMaxScaler는 outlier 영향을 꽤나 받음. StandardScaler는 상대적으로 덜 받지만, 이왕이면 outlier는 제거하는게 나음
#print(pd.DataFrame(X))
#print(pd.DataFrame(X).describe())
#print('--------------------------------------')

# MinMaxScaler 적용------------------------------------------------------
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(X)
xx = scaler.transform(X)
print(xx)
print('--------------------------------------')
print(pd.DataFrame(xx).describe())
print('--------------------------------------')
print(np.min(xx), np.max(xx))

[[0.        ]
 [0.00970874]
 [0.01941748]
 [0.02912621]
 [0.03883495]
 [0.04854369]
 [0.05825243]
 [0.06796117]
 [0.0776699 ]
 [1.        ]]
--------------------------------------
               0
count  10.000000
mean    0.134951
std     0.304979
min     0.000000
25%     0.021845
50%     0.043689
75%     0.065534
max     1.000000
--------------------------------------
0.0 0.9999999999999999


In [196]:
from sklearn.preprocessing import RobustScaler 


X = np.arange(9, dtype=np.float) - 3
#X = np.arange(9, dtype=np.float)
X = X.reshape(-1, 1)

#print(pd.DataFrame(X))
#print(pd.DataFrame(X).describe())
#print('--------------------------------------')

X = np.vstack([X, 100]) # 이상치 추가 (아랫쪽에) <- MinMaxScaler는 outlier 영향을 꽤나 받음. StandardScaler는 상대적으로 덜 받지만, 이왕이면 outlier는 제거하는게 나음
#print(pd.DataFrame(X))
#print(pd.DataFrame(X).describe())
#print('--------------------------------------')

# RobustScaler 적용------------------------------------------------------

scaler = RobustScaler()
scaler.fit(X)
zz = scaler.transform(X)
print(zz)
print('--------------------------------------')
print(pd.DataFrame(zz).describe())
print('--------------------------------------')
print(np.mean(zz))
print(np.median(zz))
print(np.std(zz))

[[-1.        ]
 [-0.77777778]
 [-0.55555556]
 [-0.33333333]
 [-0.11111111]
 [ 0.11111111]
 [ 0.33333333]
 [ 0.55555556]
 [ 0.77777778]
 [21.88888889]]
--------------------------------------
               0
count  10.000000
mean    2.088889
std     6.980632
min    -1.000000
25%    -0.500000
50%     0.000000
75%     0.500000
max    21.888889
--------------------------------------
2.088888888888889
0.0
6.622408647636923
