### 데이터전처리(Data Preprocessing)

- ML 알고리즘은 데이터에 기반하고 있기 때문에 어떤 데이터를 입력으로 가지느냐에 따라 결과도 달라짐
- 결측치 처리 : NaN, Null 값은 허용하지 않음
- 문자열 값은 입력값으로 혀용하지 않음 : 숫자형으로 변환

#### 데이터 인코딩

#### 레이블 인코딩(label encoding)

- 문자열을 숫자형 카테고리 값으로 변환
- 몇몇 ML 알고리즘은 숫자 값의 크고 작음에 대한 특성을 반영함으로 성능 저하
    - 선형회귀 알고리즘에는 적용하면 안됨
    - 트리 계열의 알고리즘에는 적용 가능

In [1]:
area = ['서울', '부산', '부산', '대구', '서울']
set(area)

{'대구', '부산', '서울'}

In [2]:
area = ['서울', '부산', '부산', '대구', '서울']
area = [0 if item == '서울' else 1 if item == '부산' else 2 for item in area]
area

[0, 1, 1, 2, 0]

In [3]:
import pandas as pd
dt = {'서울' : 0, '부산' : 1, '대구' : 2}
area = ['서울', '부산', '부산', '대구', '서울']

area_df = pd.DataFrame(data = area, columns = ['지역'])
area_df['지역'] = area_df['지역'].map(dt)
area_df

Unnamed: 0,지역
0,0
1,1
2,1
3,2
4,0


In [4]:
from sklearn.preprocessing import LabelEncoder

item = ['서울', '부산', '부산', '대구', '서울']

# LabelEncoder 객체생성
encoder = LabelEncoder()

# fit()과 transform()으로 레이블 인코딩
encoder.fit(item)
labels = encoder.transform(item)

print(f'인코딩 변환값 : {labels}')
print(f'인코딩 클래스 : {encoder.classes_}')
print(f'디코딩 원본값 : {encoder.inverse_transform(labels)}')

인코딩 변환값 : [2 1 1 0 2]
인코딩 클래스 : ['대구' '부산' '서울']
디코딩 원본값 : ['서울' '부산' '부산' '대구' '서울']


#### 원-핫 인코딩(One-Hot Encoding)

- 간단하게 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방법

In [9]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

item = ['서울', '부산', '부산', '대구', '서울']

# 2차원 ndarray로 변환
item = np.array(item)
print(item)
item = np.array(item).reshape(-1,1)
print(item)

['서울' '부산' '부산' '대구' '서울']
[['서울']
 ['부산']
 ['부산']
 ['대구']
 ['서울']]


In [11]:
print(item)

[['서울']
 ['부산']
 ['부산']
 ['대구']
 ['서울']]


In [10]:
# 원핫인코딩 적용
enc = OneHotEncoder()
enc.fit(item)
labels = enc.transform(item)
print(labels)
labels = labels.toarray()

print(f'원핫인코딩 : \n{labels}')
print(f'원핫인코딩차원 : {labels.shape}')

  (0, 2)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 0)	1.0
  (4, 2)	1.0
원핫인코딩 : 
[[0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]]
원핫인코딩차원 : (5, 3)


In [12]:
# 판다스를 이용하는 방법
import pandas as pd

df = pd.DataFrame({'item' : ['서울', '부산', '부산', '대구', '서울']})
df

Unnamed: 0,item
0,서울
1,부산
2,부산
3,대구
4,서울


In [13]:
df1 = pd.get_dummies(df['item'])
df1

Unnamed: 0,대구,부산,서울
0,0,0,1
1,0,1,0
2,0,1,0
3,1,0,0
4,0,0,1


In [14]:
# 원래 데이터에 붙여넣기
df2 = pd.concat([df,df1],axis=1)
df2

Unnamed: 0,item,대구,부산,서울
0,서울,0,0,1
1,부산,0,1,0
2,부산,0,1,0
3,대구,1,0,0
4,서울,0,0,1


#### 피쳐 스케일링(feature scaling)

- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 표준화(Standardization)
    - 데이터 피쳐 각각이 평균이 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환
- 정규화(Normalization)
    - 서로 다른 피쳐의 크기를 통일하기 위해 크기를 변환해주는 개념
    - 개별 데이터의 크기를 모두 똑같은 단위로 변경하는 것

#### StandardScaler

- 개별 피처를 평균이 0이고 분산이 1인 값으로 변환
- 가우시안 정규 분포를 가질 수 있도록 데이터 변환
- 서포트벡터머신(Support Vector Marchine), 선형회귀(Linear Regression), 로지스틱회귀(Logistic Regression) 알고리즘은 데이터가 가우시안 분포를 가지고 있다고 가정하여 구현됐기 때문에 사전에 표준화를 적용하는 것이 예측성능향상에 중요한 요소가 됨