# 머신러닝05_데이터 전처리

## 데이터 전처리

- 데이터를 분석하기에 좋은 형태로 만드는 과정
- Garbage In Garbage Out
    - 데이터 전처리가 중요한 근본적인 이유
    - 데이터 품질은 분석 결과 품질의 출발점
    
### 데이터 전처리의 피요성
- 데이터 품질이 높은 경우에도 전처리 필요
    - 구조적 형태가 분석 목적에 적합하지 않은 경우
    - 사용하는 툴, 기법에서 요구하는 데이터 형태
    - 데이터가 너무 많은 경우
    - 데이터 분석의 레벨이 데이터 저장 레벨과 다른 경우
    
- 데이터 품질을 낮추는 요인
    - 불완전 incomplete : 데이터 필드가 비어있는 경우
    - 잡음 noise : 데이터에 오류가 포함된 경우
    - 모순 inconsistency : 데이터 간 접항성, 일관성이 결여된 경우
    
### 데이터 전처리 주요 기법
- 데이터 정제
    - 결측치, 이상치, 잡음
    
- 데이터 결합
- 데이터 변환
    - Normalization, scaling
- 차원 축소
    - Feature selection
        - filter, wrapper, embedded
    - Feature extraction
        - PCA, SVD, FA, NMF

#### 사이킷런의 레이블 인코딩 클래스 : LabelEncoder
1. LabelEncoder 객체 생성
2. fit() 메서드
    - 레이블 인코더를 맞춤
3. transform() 메서드
    - 인코딩된 레이블 반환


In [2]:
from sklearn.preprocessing import LabelEncoder

items = ['TV', '냉장고', '전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']
encoder = LabelEncoder()
encoder.fit(item)
labels = encoder.transform(items)
print(labels)

[0 1 4 5 3 3 2 2]


##### LabelEncoder 객체의 classes_: 인코딩된 무자열 값 목록 확인

In [3]:
# 인코딩 전 원래의 값 확인
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

##### inverse_transform(): 인코딩된 값을 다시 디코딩

In [4]:
# 인코딩 된 값 디코딩
encoder.inverse_transform([3,0,2,1])

array(['선풍기', 'TV', '믹서', '냉장고'], dtype='<U4')


### 사이킷런에서 원-핫 인코딩 클랫 : OneHotEncoder
#### 원-핫 인코딩 변환 과정
1. 문자열 값을 숫자형 값으로 변환
2. 입력 값을 2차원 데이터로 변환
3. OneHotEncoder 클래스로 원-핫 인코딩 적용
    - fit()
    - transform()

In [6]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

items = ['TV', '냉장고', '전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 1. 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2])

In [7]:
# 2. 2차원 데이터로 변환
labels = labels.reshape(-1,1) #(,1) 
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [8]:
# 3. 원-핫 인코딩을 적용
one_encoder = OneHotEncoder()
one_encoder.fit(labels)
one_labels = one_encoder.transform(labels)
one_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [None]:
# sparse matrix : 희소행렬 (행렬의 값이 대부분 0인 경우)

In [11]:
print('원-핫 인코딩 데이터')
print(one_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(one_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


### Pandas API 사용 원-핫 인코딩 수행
- get_dummies() 메서드 사용
- 숫자형으로 변환없이 바로 변환

In [18]:
import pandas as pd
pd.DataFrame

df = pd.DataFrame({'item':['TV', '냉장고', '전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})


In [20]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [16]:
# Pndas 데이터프레임을 Numpy 배열로 변환
pd.get_dummies(df)

Unnamed: 0,TV,냉장고,믹서,선풍기,전자렌지,컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


#### StandarScaler
- 표준화 지원 클래스
- 개별 피처를 평균이 0이고 분산이 1인 값으로 변환

In [24]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

iris_df.mean()
iris_df.std()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

#### MinMaxScaler
* 데이터값을 0과 1사이의 범위 값으로 변환
* 음수인 경우 -1에서 1사이의 값으로 변환
* 데이터의 분포가 가우시안 분포가 아닌 경우 Min, Max Scale 적용 가능

#### MinMaxScaler 이용 변환
1. MinMaxScaler 객체 생성
2. fit()
3. transform() : scale 변환된 데이터 셋이 numpy ndarry로 반환

In [29]:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
#print(iris_scaled)

iris_scaled_df = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)

print(iris_scaled_df.min())
print(iris_scaled_df.max())


sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### 학습 데이터와 테스트 데이터의 스케일링 변환 시 유의점
* 학습 데이터와 테스트 데이터의 스케일링 기준 정보 달라지지 않게 주의
* 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에
* 반드시 테스트 데이터는 학습 데이터의 스케일러 기준에 따라야 함
* Scaler 객체를 이용해 학습 데이터 세트로 fit()과 transform()을 적용하면
* 테스트 데이터에 다시 fit()을 적용해서는 안 되며 
* 학습 데이터로 이미 fit()이 적용된 Scaler객체를 이용해 transform()으로 변환해야 함

#### **자료 변환을 통해 자료의 해석을 쉽고 풍부하게 하기 위한 과정**
 
**데이터 변환 목적**
- 분포의 대칭화
- 산포를 비슷하게
- 변수 간의 관계를 단순하게 하기 위해
 
**데이터 변환 종류**
- 모양 변환 : pivot, unpivot
- 파생변수/요약변수
- Normalization (scaling)
- 데이터 분포 변환 : 제곱근 변환, 제곱변환, 지수변환, 로그변환, 박스콕스변환

### 파생변수/요약변수
**파생변수**
- 이미 수집된 변수를 활용해 새로운 변수 생성하는 경우
- 분석자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 주관적일 수 있으며 논리적 타당성을 갖추어 개발해야 함
- 예. 주구매 매장, 구매상품다양성, 가격선호대, 라이프스타일

**요약 변수**
- 원 데이터를 분석 Needs에 맞게 종합한 변수
- 데이터의 수준을 달리하여 종합하는 경우가 많음
- 예. 총구매금액, 매장별 방문횟수, 매장이용횟수, 구매상품목록

### 정규화(Normalization)
- 단위 차이, 극단값 등으로 비교가 어렵거나 왜곡이 발생할 때, 표준화하여 비교 가능하게 만드는 방법
- Scale이 다른 여러 변수에 대해 Scale을 맞춰 모든 데이터 포인트가 동일한 정도의 중요도로 비교되도록 함
- Scaling 여부가 모델링의 성능에도 영향을 주기도 함

### 데이터 분포의 변환
- 정규분포를 가정하는 분석 기법을 사용할 때 입력데이터가 정규를 따르지 않는 경우, 정규분포 혹은 정규분포에 가깝게 변환하는 기법

- Positively Skewed
    - $sqrt(x)$
    - $log_{10}{(x)}$
    - $1 / x$


- Negatively Skewed
    - $sqrt(max(x+1) – x)$
    - $log_{10}(max(x+1) –x)$
    - $1 / (max(x+1) - x)$