# 데이터 전처리
- 데이터를 분석하기 좋은 형태로 만드는 과정
- Garbage In Garbage Out
    - 데이터 전처리가 중요한 근본적인 이유
    - 데이터 품질은 분석 결과 품질의 출발점

## LableEncoder
- 라벨링

In [1]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print(labels)

[0 1 4 5 3 3 2 2]


In [2]:
encoder.classes_  # 중복 목록을 제외 원래 문자열 값 목록 가져옴

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [3]:
encoder.inverse_transform([3,0,1,2])  # 숫자를 문자열로 반환

array(['선풍기', 'TV', '냉장고', '믹서'], dtype='<U4')

## 원 핫 인코딩
- feature 값의 유형에 따라 새로운 feature를 추가하여
- 고유값에 해당하는 컬럼만을 1로 표시 나머지 0
- 범주형 변수를 독립변수로 갖는 회귀 분석의 경우 범주형 변수를 dummy변수로 변환

In [5]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
import numpy as np

items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)

# 2차원 데이터로 변환
labels = labels.reshape(-1,1)

In [6]:
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]], dtype=int64)

In [7]:
one_encoder = OneHotEncoder()
one_encoder.fit(labels)
one_labels = one_encoder.transform(labels)
one_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [8]:
print(one_labels)

  (0, 0)	1.0
  (1, 1)	1.0
  (2, 4)	1.0
  (3, 5)	1.0
  (4, 3)	1.0
  (5, 3)	1.0
  (6, 2)	1.0
  (7, 2)	1.0


In [9]:
one_labels.shape

(8, 6)

In [11]:
one_labels.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

## Pandas API 사용 원-핫 인코딩
- get_dummies() 메서드 사용
- 숫자형으로 변환 없이 바로 변환

In [12]:
import pandas as pd

df = pd.DataFrame({'items':['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})

pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자렌지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [14]:
pd.get_dummies(df).to_numpy()

array([[1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]], dtype=uint8)

## 피처 스케일링, 정규화
- 피처 스케일링
    - 서로 다른 변수의 값 범위를 일정한 수준으로 맞춤
- 방식
    - Z-scaling
        - 표준화
        - 평균이 0이고 분산이 1인 가우지안 정규분포
        - 정규화
        - sklearn.preprocessing의 StandardScaler 모듈
    - Min-max
        - 0-1로 변환
        - sklearn.preprocessing의 MinMaxScaler
    - 벡터 정규화
        - sklearn Nomailzer
        - 선형대수의 정규화 개념
    - Max Absolute Scaling
        - X / |Xmax|
    - Robust Scaling
        - (X-X2/4) / (X3/4 - X1/4)
        - 2/4 = 중앙값, 3/4 = 3분위수, 1/4 = 1분위수

In [17]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data= iris_data, columns = iris.feature_names)

iris_df.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

### StandardScaler

In [20]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# print(iris_scaled)

print(iris_scaled.mean())
print(iris_scaled.std())

-1.4684549872375404e-15
1.0


In [25]:
iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print(iris_scaled_df.mean())
print(iris_scaled_df.std())

sepal length (cm)    0.428704
sepal width (cm)     0.440556
petal length (cm)    0.467458
petal width (cm)     0.458056
dtype: float64
sepal length (cm)    0.230018
sepal width (cm)     0.181611
petal length (cm)    0.299203
petal width (cm)     0.317599
dtype: float64


### MinMaxScaler

In [24]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
# print(iris_scaled)
iris_scaled_df = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
print(iris_scaled_df.min())
print(iris_scaled_df.max())

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### 데이터 변환 목적
- 분포의 대칭화
- 산포를 비슷하게
- 변수 간의 관계를 단순하게

#### 변환 종류
- 모양 변환: pivot(요약), unpivot(요약을 재구성)
- 파생변수
    - 이미 수집된 변수를 활용해 새로운 변수를 생성
    - 주구매 매장, 구매상품 다양성, 가격 선호대 ---> 분석자의 가 들어감
- 요약변수
    - 원 데이터를 분석 Needs를 종합
- 데이터 분포 변환
    - 정규분포를 가정하는 분석 기법을 사용할 대 입력 데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법
    - Positively Skewed(왜도)
        - sqrt(x) --> 제곱근
        - log(x)
        - 1/x(x)
        
    - Negatively Skewed
        - sqrt(max(x+1) - x)
        - log(max(x+1) - x)
        - 1/(max(x+1) - x)