# 데이터 전처리
- ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지냐에 따라 결과도 크게 다를 수 있다
### (Garbage In, Garbage Out)

## 필수 전처리
- 결측값 제거 (평균값으로 대체, 최빈값의 대체, drop 등)


- 데이터 인코딩 (문자 , 이미지 등 모델이 인지하지 못하는 데이터 형태를 변환해줌)


- Featrue Selection (변수 선정)

## 정해진 전처리 뿐만 아니라 데이터의 특성, 분석의 목적 등에 따라서 다양한 전처리가 필요
## 머신러닝 모델은 어차피 만들어진 모델을 사용
## 분석 목적에 따른 전처리 방법과 전처리 결과에 따른 모델 선택이 중요 !!

In [2]:
! pip install scikit-learn



# 데이터 인코딩


## 1. 레이블 인코딩(label encoding)

In [1]:
from sklearn.preprocessing import LabelEncoder

In [3]:
items=['TV','냉장고','전자레인지','컴퓨터','선풍기','믹서','믹서']

In [5]:
# LabelEncoder를 객체로 생성한 후, fit()과 transform()으로 레이블 인코딩 수행
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
print('인코딩 변환값 :',labels)

인코딩 변환값 : [0 1 4 5 3 2 2]


In [7]:
print('인코딩 클라스:',encoder.classes_)

인코딩 클라스: ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [8]:
# 디코딩 원본값
encoder.inverse_transform([4,5,2,0,1,1,3,3])

array(['전자레인지', '컴퓨터', '믹서', 'TV', '냉장고', '냉장고', '선풍기', '선풍기'],
      dtype='<U5')

### 레이블 인코딩의 문제점
- 수치적인 의미가 부여됨에 따라 모델링할 때 주의해야한다

## 2. 원-핫 인코딩(One-Hot Encoding) : 더미화

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식

In [9]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자레인지','컴퓨터','선풍기','믹서','믹서']

In [10]:
# 먼저 숫자 값으로 변환을 위해 LabelEncoder로 변환
encoder=LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)

# 2차원 데이터로 변환
labels=labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [2],
       [2]], dtype=int64)

In [11]:
# 원-핫 인코딩
oh_encoder=OneHotEncoder()
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)

In [12]:
oh_labels

<7x6 sparse matrix of type '<class 'numpy.float64'>'
	with 7 stored elements in Compressed Sparse Row format>

In [13]:
oh_labels.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [14]:
import pandas as pd

df=pd.DataFrame({'item':['TV','냉장고','전자레인지','컴퓨터','선풍기','믹서','믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,믹서
6,믹서


In [16]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,1,0,0,0
6,0,0,1,0,0,0


In [19]:
onehot=pd.get_dummies(df)
onehot['item']=items
onehot['label']=labels

In [20]:
onehot

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터,item,label
0,1,0,0,0,0,0,TV,0
1,0,1,0,0,0,0,냉장고,1
2,0,0,0,0,1,0,전자레인지,4
3,0,0,0,0,0,1,컴퓨터,5
4,0,0,0,1,0,0,선풍기,3
5,0,0,1,0,0,0,믹서,2
6,0,0,1,0,0,0,믹서,2


In [21]:
onehot.columns

Index(['item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자레인지', 'item_컴퓨터',
       'item', 'label'],
      dtype='object')

In [22]:
encoding=onehot[['item', 'label','item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자레인지', 'item_컴퓨터']]

In [23]:
encoding

Unnamed: 0,item,label,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,TV,0,1,0,0,0,0,0
1,냉장고,1,0,1,0,0,0,0
2,전자레인지,4,0,0,0,0,1,0
3,컴퓨터,5,0,0,0,0,0,1
4,선풍기,3,0,0,0,1,0,0
5,믹서,2,0,0,1,0,0,0
6,믹서,2,0,0,1,0,0,0
