#  데이터 전처리 (Preprocessing)

1. [데이터 인코딩](#데이터-인코딩)
    - [LabelEncoder](#LabelEncoder)
    - [One Hot Encoding](#One-Hot-Encoding)
1. [피처 스케일링과 정규화](#피처-스케일링과-정규화)
1. [사이킷런 피처 스케일링](#사이킷런-피처-스케일링)
    - [StandardScaler](#StandardScaler)
    - [MinMaxScaler](#MinMaxScaler)


In [8]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

# PREVIOUS_MAX_ROWS = pd.options.display.max_rows
# pd.options.display.max_rows = 20
# np.set_printoptions(precision=4, suppress=True)

### 피처 엔지니어링 (Feature engineering)

피처(특징)란 모델 학습의 기준이 되는 데이터 속성이다. 예를 들어 새라는 동물의 고유한 특성(피처)는 날개를 가진것이다. 언어는 사람과 동물을 구분하는 대표적 특징이다. 

피처는

> **_"Feature is an individual measurable property or characteristic of a phenomenon being observed"_**



### 차원

데이터 정보가 특징을 판단하는데 어떻게 담겨있어야 하나?

보통 특징 하나는 하나의 차원으로 생각할 수 있다. 차원이란 수학에서 '공간 내에 있는 점 등의 위치를 나타내기 위한 필요한 축의 개수' 를 의미한다.

예를 들어 강아지와 새의 특징을 '날개의 유무' 라는 기준점(축, 차원)을 이용해 분류할 수 있다. 즉 이것은 1차원 문제를 다루는 것과 비슷하나. 여기에 입의 모양 이라는 새로운 기준을 추가하면 2차원 문제로 넘어가는 것이다. 이것은 아래 같은 관계로 표현할 수 있다.

 - 차원이란 무엇인가?: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=suyun1033&logNo=220256142539

특징이 100개인 상황은 어떨까? 사람이 인지 능력으로 식별 가능한 최대 차원은 3차원 이다. 4차원 공간도 시간이라는 개념이 추가된다는 사실과 증명만 가능할 뿐 그 누구도 4차원 공간을 완벽히 표현해 내지 못한다. 하지만 컴퓨터는 100차원을 이해할 수 잇고 100차원 문제도 거뜬히 풀 수 있다. 하지만 너무 많은 정보는 오히려 모델에 독이 될 수 있는 차원의 저주(curse of dimentionality) 문제이다.

차원을 늘릴 경우 모델 학습에 필요한 데이터 양은 기하급수적으로 늘어난다. 앞의 학습곡선을 토대로 피처 10개 사용시 100개 데이터만 있으면 충분한 성능이 보장된다고 가정할 때, 여기에 10개 피처를 더하게 되면 추가로 100개 데이터만 더있으면 동일한 성능이 보장될까?

그렇지 않다 최약의 경우 특징이 늘어남에 따라 필요한 데이터 수는 거듭제곱 단위로 늘어날 수 있다.

이렇게 좋은 특징을 찾기 위해 학습 모델링을 수행해 보면 된다. 해결하고자 하는 문제에 적용 가능한 모델을 3-5 가지 정하고 선택한 특징 조합을 대입해보는 것이다. 

예를들어 어떤 데이터에서 10개의 피처로 '악성코드와 정상코드'를 분류하려고 한다고 하자. 여기에 분류 알고리즘 SVM, Random Forest, Naive Bayes, Deep Neural Network 를 테스트 모델로 선택했다고 한다. 다음으로 특징 조합을 하나 선택한 후 각 모델에 넣고 정확도를 계산한다. 가능한 모든 조합에 대해 정확도를 계산한 후 네 개 모델의 정확도 평균 값이 가장 높게 나온 특징 조합을 선택하면 된다.

### 피처 공학 프로세스

피처 엔지니어링은 데이터 관찰에서 시작한다.
 - 데이터 형식,
 - 누락 데이터, 오류 값
 - 데이터 분포

데이터 관찰과 전처리는 시각화와 진행한다. 



<br>

# 1. 데이터 인코딩

대표적 인코딩 방식은 Label Encoding, One-Hot Encoding 이 있다.

**_레이블 인코딩_** 은 카테고리 피처를 코드형 숫자로 변환하는 것이다.
 - 예) TV, 냉장고 ... 등 분류를 `TV:1, 냉장고:2...` 같은 데이터로 변환

### LabelEncoder

 
Sklearn은 범주형 특성의 수준을 숫자 값으로 인코딩하는 매우 효율적인 도구를 제공합니다. **LabelEncoder**는 `0 ~ n-1` 사이의 값으로 라벨을 인코딩합니다.

LabelEncoder 객체를 생성후 fit(), transform() 을 호출해 레이블 인코딩을 수행한다.

In [None]:
from sklearn.preprocessing import LabelEncoder





[0 1 5 6 3 2 4]


In [3]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자레인지','컴퓨터','세탁기','선풍기','믹서기']
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
labels

array([0, 1, 5, 6, 4, 3, 2])

In [None]:
#인코딩 클래스



array(['TV', '냉장고', '믹서', '선풍기', '세탁기', '전자레인지', '컴퓨터'], dtype='<U5')

In [4]:
encoder.classes_

array(['TV', '냉장고', '믹서기', '선풍기', '세탁기', '전자레인지', '컴퓨터'], dtype='<U5')

In [None]:
# 디코딩



array(['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '믹서', '세탁기'], dtype='<U5')

In [5]:
encoder.inverse_transform(labels)

array(['TV', '냉장고', '전자레인지', '컴퓨터', '세탁기', '선풍기', '믹서기'], dtype='<U5')

#### fit_transform()

In [None]:
# Integer encoding



array([0, 0, 2, 0, 1, 1, 2, 0, 2, 1])

In [6]:
labels=encoder.fit_transform(items)
labels

array([0, 1, 5, 6, 4, 3, 2])

**[주의]**

레이블 인코딩은 일괄적 숫자로 전환되어서 알고리즘에 레이블로 적용시 값의 크기로 오해를 일을킬 수 있다.
 -  예를 들어 냉장고1, 세탁기2 .. 같이 값이 더 크면 알고리즘에서 가중치로 작용할 가능성이 발생한다. 
 - 그래서 **레이블 인코딩**은 **_선형회귀 같은 ML알고리즘에 적용하지 않아야 한다_**. 
 - **의사결정** 계열 알고리즘은 **_숫자 특성을 반영하지 않으므로 레이블 인코딩도 좋다_**.

원핫인코딩은 레이블 인코딩의 이런 문제를 해결할 수 있다.

### One Hot Encoding


One-Hot-Encoding은 피처 값의 유형에 따라 새 피처를 추가하고 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지는 0을 표시한다.

> one-of-K 인코딩이라고 불리며 0 ~ K-1의 값을 가지는 정수 스칼라 값을 0또는 1값을 가지는 K 차원 벡터로 변환한다. 만약 입력이 스칼라가 아니라 벡터이면 각 원소에 대해 인코딩된 결과를 모두 연결한다. 

이것은 행 형태로 되어 있는 피처의 고유 값을 열 형태로 차원을 변환한 뒤 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼은 0을 표시한다.

<img src='https://i.imgur.com/mtimFxh.png' width='450'>

### 원-핫 인코딩 구현

Unnamed: 0,종류
0,TV
1,냉장고
2,전자렌지
3,에어컨
4,에어컨
5,선풍기
6,TV
7,냉장고


In [17]:
item=pd.DataFrame(['TV','냉장고','전자레인지','에어컨','에어컨','선풍기','믹서','세탁기'], columns=['종류'])
item

Unnamed: 0,종류
0,TV
1,냉장고
2,전자레인지
3,에어컨
4,에어컨
5,선풍기
6,믹서
7,세탁기


Unnamed: 0,TV,냉장고,에어컨,전자렌지
0,1.0,0.0,0.0,0.0
1,0.0,1.0,0.0,0.0
2,0.0,0.0,0.0,1.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,1.0,0.0
5,0.0,0.0,0.0,0.0
6,1.0,0.0,0.0,0.0
7,0.0,1.0,0.0,0.0


In [None]:
item.pop('종류')

0       TV
1      냉장고
2    전자레인지
3      에어컨
4      에어컨
5      선풍기
6       믹서
7      세탁기
Name: 종류, dtype: object

In [16]:
item

0
1
2
3
4
5
6
7


### `pandas.get_dummies()` 사용

pandas에는 One-Hot Encoding을 더 쉽게 지원하는 get_dummies() 가 있다. 사이킷런 OneHotEncoder 와 다르게 문자열을 숫자로 변환해 사용하지 않는다.



Unnamed: 0,종류
0,TV
1,냉장고
2,전자렌지
3,에어컨
4,에어컨
5,선풍기
6,TV
7,냉장고


In [18]:
origin=item.pop('종류')
origin=='TV'

0     True
1    False
2    False
3    False
4    False
5    False
6    False
7    False
Name: 종류, dtype: bool

In [20]:
(origin=='TV')*1.0

0    1.0
1    0.0
2    0.0
3    0.0
4    0.0
5    0.0
6    0.0
7    0.0
Name: 종류, dtype: float64

In [21]:
item['TV']=(origin=='TV')*1.0
item['에어컨']=(origin=='에어컨')*1.0
item['냉장고']=(origin=='냉장고')*1.0
item['전자레인지']=(origin=='전자레인지')*1.0
item

Unnamed: 0,TV,에어컨,냉장고,전자레인지
0,1.0,0.0,0.0,0.0
1,0.0,0.0,1.0,0.0
2,0.0,0.0,0.0,1.0
3,0.0,1.0,0.0,0.0
4,0.0,1.0,0.0,0.0
5,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0


In [25]:
items=pd.DataFrame({'종류':['TV','냉장고','에어컨','에어컨','선풍기','TV','전자레인지']})
onehot=pd.get_dummies(items)
onehot

Unnamed: 0,종류_TV,종류_냉장고,종류_선풍기,종류_에어컨,종류_전자레인지
0,True,False,False,False,False
1,False,True,False,False,False
2,False,False,False,True,False
3,False,False,False,True,False
4,False,False,True,False,False
5,True,False,False,False,False
6,False,False,False,False,True


Unnamed: 0,종류_TV,종류_냉장고,종류_선풍기,종류_에어컨,종류_전자렌지
0,True,False,False,False,False
1,False,True,False,False,False
2,False,False,False,False,True
3,False,False,False,True,False
4,False,False,False,True,False
5,False,False,True,False,False
6,True,False,False,False,False
7,False,True,False,False,False


Unnamed: 0,종류,종류_TV,종류_냉장고,종류_선풍기,종류_에어컨,종류_전자렌지
0,TV,True,False,False,False,False
1,냉장고,False,True,False,False,False
2,전자렌지,False,False,False,False,True
3,에어컨,False,False,False,True,False
4,에어컨,False,False,False,True,False
5,선풍기,False,False,True,False,False
6,TV,True,False,False,False,False
7,냉장고,False,True,False,False,False


Unnamed: 0,종류,종류_TV,종류_냉장고,종류_선풍기,종류_에어컨,종류_전자렌지
0,TV,True,False,False,False,False
1,냉장고,False,True,False,False,False
2,전자렌지,False,False,False,False,True
3,에어컨,False,False,False,True,False
4,에어컨,False,False,False,True,False
5,선풍기,False,False,True,False,False
6,TV,True,False,False,False,False
7,냉장고,False,True,False,False,False


### 사이킷런 OneHotEncoder


- [sklearn.preprocessing.OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

각 원소의 위치 정보는 `feature_indices_` 속성에 저장된다. 또 입력이 벡터인 경우에 특정한 열만 카테고리 값이면 `categorical_features` 인수를 사용하여 인코딩이 되지 않도록 지정할 수 있다. 이 때 인코딩 결과의 순서가 바뀔 수 있으므로 주의한다.

`.fit()` 메서드를 호출하면 다음과 같은 속성이 지정된다.

- n_values_ : 각 변수의 최대 클래스 갯수
- feature_indices_ : 입력이 벡터인 경우 각 원소를 나타내는 슬라이싱(slice) 정보
- active_features_ : 실제로 사용된 클래스 번호의 리스트

 - **OneHotEncoder 는 변환하기 전에 모든 문자열이 숫자로 변환해야 하고, 입력 값으로 2차원 데이터가 필요하다.**

In [31]:
encoder=LabelEncoder()
labels=encoder.fit_transform(items)
labels

  y = column_or_1d(y, warn=True)


array([0, 1, 3, 3, 2, 0, 4])

In [None]:
from sklearn.preprocessing import OneHotEncoder









=== Original Labels ===
 [0 1 4 5 3 3 2 2]
=== Reshape(-1,1) Labels ===
 [[0]
 [1]
 [4]
 [5]
 [3]
 [3]
 [2]
 [2]]


In [None]:
from sklearn.preprocessing import OneHotEncoder
labels=labels.reshape(-1,1)
oh_encoder=OneHotEncoder()
oh_encoder.fit(labels)

0,1,2
,categories,'auto'
,drop,
,sparse_output,True
,dtype,<class 'numpy.float64'>
,handle_unknown,'error'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'


In [36]:
oh_labels=oh_encoder.transform(labels)
type(oh_labels),oh_labels

(scipy.sparse._csr.csr_matrix,
 <Compressed Sparse Row sparse matrix of dtype 'float64'
 	with 7 stored elements and shape (7, 5)>)

One-Hot-Encoding 결과는 메모리 절약을 위해 희조행렬(sparse matrix) 형식으로 출력된다. 일반적인 배열로 바꾸려면 toarray 메서드를 사용한다.

In [17]:
oh_labels

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 8 stored elements and shape (8, 6)>

In [None]:
# 원-핫 인코딩을 적용합니다. 






원-핫 인코딩 데이터
 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
 (8, 6)


<br>

# 2. 피처 스케일링과 정규화

서로 다른 데이터 피처의 값 범위를 일정한 수준으로 맞추는 작업을 **피처 스케일링 Feature Scaling**이라 하고 대표적으로 **표준화**, **정규화** 가 있다.



**Feature Scaling 이란**.

스케일링은 자료 집합에 적용되는 전처리 과정으로 **모든 자료에 선형 변환**을 적용해서 전체 자료의 분포를 **_평균 0, 분산 1_** 이 되도록 만드는 과정이다. 

이것은 자료의 오버플로우 Overflow 나 언더플로운 Underflow를 방지하고 _독립 변수의 공분산 행렬의 조건수(condition number)_를 감소시켜 최적화 과정에서의 안정성 및 수렴 속도를 향상 시킨다.

- 데이터가 다양한 비율/크기/범위의 속성으로 구성되는 경우,동일한 척도를 갖는 특성으로 재작성함
- 이 기능은 그라데이션 강하(gradient descent.)와 같은 기계 학습 알고리즘의 핵심에서 사용되는 최적화 알고리즘에 유용합니다.
- 그것은 또한 회귀와 신경망과 같은 가중치 입력과 K-Nearest Neighbors과 같은 거리 측정을 사용하는 알고리즘에도 유용하다.


### - 표준화(Standardization)

자료 집합에 적용되는 전처리 과정으로 **모든 자료에 선형 변환**을 적용해서 전체 자료를 **_평균 0, 분산 1_** 인 가우시안 정규분포를 가진 값으로 되도록 만드는 과정이다. 

표준화한 새 데이터를 $x_{i}\_new$ 라고 하면 다음 같이 원래 값에서 피처 x를 x의 평균을 뺀 값을 피처x의 표준편차로 나눈값으로 표현.

$$
x_{i}\_new = \frac{x_i - mean(x)}{stdev(x)}
$$

### - 정규화(Normalization)

일반적으로 정규화는 **서로 다른 피처 크기를 통일하기 위해 크기를 변환**해주는 개념으로 아래 같이 두 피처가 서로 다른 범위/크기를 나타내는 숫자를 표현하는데 이것을 0~1 사이 값으로 변환하는 것이다.
 - 피처A는 거리를 나태서 0~100km 값
 - 피처B는 금액 속성 0~100,000,000원

표준화한 새 데이터를 $x_{i}\_new$ 라고 하면 다음 같이 원래 값에서 피처 x를 x의 최소값 뺀 값을 피처x의 최대값 최소값 차이로 나눈값으로 표현.

$$
x_{i}\_new = \frac{x_i - min(x)}{max(x) - min(x)}
$$

사이킷 런의 Normalizer 모듈은 선형대수에서 정규화 개념을 도입해 개별 벡터를 모든 피처 벡터 크기로 나누는 방법을 사용한다. 예를 들어 피처 x,y,z이 있으면 새 데이터는 원래 값에서 x,y,z의 i번째 피처 값d에 해당하는 크기를 합한 크기로 나눈다.


$$
x_{i}\_new = \frac{x_i}{\sqrt{x_i^2 + y_i^2 + z_i^2}}
$$

여기서는 일반적 의미의 표준화와 정규화를 **피처 스케일링**으로 통칭하고 _선형대수 개념의 정규화_ 를 **벡터 정규화**로 지칭하겠다.

<br>

## 사이킷런 피처 스케일링

Scikit-Learn 에서 제공하는 스케일러 클래스:
 - StandardScaler
 - Normalizer
 - MinMaxSclaer
 - RobustScaler


Scikit-Learn 에서 제공하는 스케일링 함수는 fit(), transform() 을 합친 메서드이다:

 - `scale(X)` : 기본 스케일, 평균과 표준편차 사용
 - `robust_scale(X)`: 중앙값(median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화
 - `minmax_scale(X)`: 최대/최소값이 각각 1, 0이 되도록 스케일링
 - `maxabs_scale(X)`: 최대절대값과 0이 각각 1, 0이 되도록 스케일링

### - StandardScaler

표준화를 지원하는 사이킷런 [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html?highlight=standardscaler#sklearn.preprocessing.StandardScaler) 로 개별 피처를 **_평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값_** 으로 변환해 준다. 사이킷런에서 구현한 RBF 커널을 이용하는 *서포트벡터 머신, 선형회귀(Linear Regression), 로지스틱 회귀* 는 데이터가 가우시안 분포를 가진다는 가정으로 구현되어 있어서 아주 중요하다.

[메서드]

1. 데이터를 `scaler.fit()` 에 장착한다.
1. `d = scaler.transform()` 으로 스케일을 변환한다.


붓꽃 데이터를 가져와 꽃잎, 꽃받침의 크기, 폭의 분산 값을 알아보고, StandarScaler 변환후 를 보자.

In [37]:
from sklearn.datasets import load_iris
import pandas as pd

iris=load_iris()
iris_df=pd.DataFrame(iris.data,columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [3]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [None]:
 #분산

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [38]:
iris_df.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [None]:
#표준편차

sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64

#### 파이썬으로 표준화 수행.

먼저 파이썬으로 표준화를 구현해 보겠다. 피처 x를 x의 평균을 뺀 값을 피처x의 표준편차로 나눈값으로 표현한다.

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,1.015602,-1.335752,-1.311052
1,4.9,-0.131539,-1.335752,-1.311052
2,4.7,0.327318,-1.392399,-1.311052
3,4.6,0.097889,-1.279104,-1.311052
4,5.0,1.24503,-1.335752,-1.311052


In [39]:
df=iris_df.copy()
for c in df.columns:
    if iris_df[c].std != 0:
        df[c]=(iris_df[c]-iris_df[c].mean())/iris_df[c].std()

In [40]:
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.897674,1.015602,-1.335752,-1.311052
1,-1.139200,-0.131539,-1.335752,-1.311052
2,-1.380727,0.327318,-1.392399,-1.311052
3,-1.501490,0.097889,-1.279104,-1.311052
4,-1.018437,1.245030,-1.335752,-1.311052
...,...,...,...,...
145,1.034539,-0.131539,0.816859,1.443994
146,0.551486,-1.278680,0.703564,0.919223
147,0.793012,-0.131539,0.816859,1.050416
148,0.430722,0.786174,0.930154,1.443994


In [None]:
# 분산


sepal length (cm)    0.685694
sepal width (cm)     1.000000
petal length (cm)    1.000000
petal width (cm)     1.000000
dtype: float64

In [None]:
#표준편차



sepal length (cm)    0.828066
sepal width (cm)     1.000000
petal length (cm)    1.000000
petal width (cm)     1.000000
dtype: float64

#### 사이킷런 StandardScaler

사이킷런 `sklearn.preprocessing.StandardScaler` 를 사용

In [None]:
from sklearn.preprocessing import StandardScaler



In [41]:

from sklearn.preprocessing import StandardScaler

scaler=StandardScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
iris_scaled

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [9]:
scaled_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [10]:
scaled_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,-1.468455e-15,-1.823726e-15,-1.610564e-15,-9.473903e-16
std,1.00335,1.00335,1.00335,1.00335
min,-1.870024,-2.433947,-1.567576,-1.447076
25%,-0.9006812,-0.592373,-1.226552,-1.183812
50%,-0.05250608,-0.1319795,0.3364776,0.1325097
75%,0.6745011,0.5586108,0.7627583,0.7906707
max,2.492019,3.090775,1.785832,1.712096


이제 StandarScaler로 변환한 후의 값의 범위를 비교해 보자

In [None]:
 # 변환후 분산

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

In [None]:
 #표준편차

sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64

### MinMaxScaler

 Sklearn은 [MinMaxScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)를 통해 피처의 특성/속성이 다른 데이터를 0에서 1 사이로 축소할 수 있는 도구를 제공합니다. 
 - ML알고리즘에서 사용할 데이터 분포가 가우시안 분포가 아닌 경우 최소/최대 값 범위를 다루도록 할 수 있다.

In [42]:
from sklearn.preprocessing import MinMaxScaler

scaler=MinMaxScaler()
iris_scaled=scaler.fit_transform(iris_df)
df=pd.DataFrame(iris_scaled,columns=iris_df.columns)
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0


#### minmax_scaler()

[minmax_scaler()](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.minmax_scale.html) 은 fit(), transform() 을 합친 메서드이다.

In [None]:
from sklearn.preprocessing import minmax_scale




Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0
