## 데이터 전처리 preprocessing
* 머신러닝 알고리즘을 익히는 것 못지않게
* 데이터 전처리 역시 중요한 과정 중에 하나
* 무엇보다 머신러닝 알고리즘을 적용하기 전에
* 데이터에 대해 미리 처리해야 하는 기본사항이 존재
* 결측치처리
    + NaN, Null은 허용되지 않음 - 제거 또는 대체
* 원핫인코딩
    + 머신러닝 알고리즘들은 문자열값을 데이터의 입력값으로 허용하지 않음
    + 따라서, 모든 문자열은 인코딩해서 숫자형으로 변환해둬야 함
    + 한편, 텍스트 데이터는 벡터화해서 처리
    + 머신러닝을 위한 인코딩은 레이블인코딩과 원핫인코딩이 있음해서 처리

### 레이블 인코딩 label encoding
* 범주형 데이터를 숫자형으로 변환

In [1]:
from sklearn.preprocessing import LabelEncoder

In [2]:
items = ['티비','냉장고','가스렌지','에어콘','컴퓨터']

In [5]:
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

In [6]:
labels

array([4, 1, 0, 2, 3])

In [7]:
encoder.classes_

array(['가스렌지', '냉장고', '에어콘', '컴퓨터', '티비'], dtype='<U4')

In [8]:
# 인코딩된 값을 디코딩해서 출력
encoder.inverse_transform([0])

array(['가스렌지'], dtype='<U4')

In [None]:
# 문자열값을 숫자형값으로 변환시켰을때
# 발생할 수 있는 문제는 각 값의 대소관계를 통해 중요도 여부가 존재할 수 있음

# 즉, 인코딩된 값에 서수ordinal척도가 생길 수 있음
# 따라서, 대소관계가 있는 데이터를 분석할 경우
# 정확도에 영향을 미칠 수 있음 => 원핫인코딩을 사용함으로써 문제 해결

### 원핫인코딩 one-hot encoding
* 범주값의 유형에 따라 더미변수dummy variable를
* 추가해 고유값에 해당하는 컬럼에만 1을 표시하고 나머지는 0으로 표시하는 방식
* 즉, 1차원 데이터를 2차원 데이터로 변환해서 인코딩을 시행함

In [None]:
# '티비' '냉장고' '가스렌지' '에어콘' '컴퓨터'
# 1       0       0           0       0
# 0       1       0           0       0
# 0       0       1           0       0
# 0       0       0           1       0
# 0       0       0           0       1

In [9]:
# sklearn의 원핫인코딩 API는 사용불편
# => 원핫인코딩 변환 전 레이블인코딩이 선행되어야 함

# pandas의 원핫인코딩 API가 훨씬 편함
# => get_dummies 함수를 이용
# 단, 변환대상이 데이터프레임으로 작성되어 있어야 함
import pandas as pd

In [10]:
df = pd.DataFrame({'items':items})
df

Unnamed: 0,items
0,티비
1,냉장고
2,가스렌지
3,에어콘
4,컴퓨터


In [11]:
pd.get_dummies(df)

Unnamed: 0,items_가스렌지,items_냉장고,items_에어콘,items_컴퓨터,items_티비
0,False,False,False,False,True
1,False,True,False,False,False
2,True,False,False,False,False
3,False,False,True,False,False
4,False,False,False,True,False


### 단위 맞추기
* 특성feature 스케일링과 표준화/정규화
    + 서로 다른 범위, 단위의 변수값을 일정수준으로 맞추는 작업을 특성스케일링이라 함
* 어떤 데이터의 값이 정수와 실수가 혼용되어 있다든지
* 값의 범위가 1 ~ 100, 0 ~ 0.001, 1 ~ 10000 등등의 경우
* 데이터 분석시 많은 CPU 파워/메모리가 필요하고
* 학습이 느려질수 있으며, 제대로 된 결과가 나오지 않을 수도 있음
* 이러한 문제를 해결하는 방법은 `정규화`와 `표준화`가 있음

In [12]:
import seaborn as sns

In [16]:
titanic = sns.load_dataset('titanic')
data = titanic.loc[:, ['age', 'fare']]
data.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [17]:
data.describe()

Unnamed: 0,age,fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


### 정규화/표준화 방법
* StandardScaler : 평균 0, 표준편차 1로 되도록 변환
* MinMaxScaler : 최소값 0, 최대값 1로 되도록 변환
    + 단, 이상치에 영향을 받음

In [20]:
import numpy as np

In [29]:
# 정규화를 위한 데이터 생성
X = np.arange(9, dtype=np.float32) - 3
X = X.reshape(-1, 1)
df = pd.DataFrame(X)
df.describe()  # 평균 : 1, 표준편차 : 2.7, 최소 : -3, 최대 : 5

Unnamed: 0,0
count,9.0
mean,1.0
std,2.738613
min,-3.0
25%,-1.0
50%,1.0
75%,3.0
max,5.0


#### StandardScaler 적용

In [22]:
from sklearn.preprocessing import StandardScaler

In [30]:
scaler = StandardScaler()
scaler.fit(X)
x = scaler.transform(X)

In [31]:
x

array([[-1.5491934 ],
       [-1.161895  ],
       [-0.7745967 ],
       [-0.38729835],
       [ 0.        ],
       [ 0.38729835],
       [ 0.7745967 ],
       [ 1.161895  ],
       [ 1.5491934 ]], dtype=float32)

In [33]:
np.mean(x), np.std(x)

(0.0, 1.0)

#### MinMaxScaler 적용

In [35]:
from sklearn.preprocessing import MinMaxScaler

In [36]:
scaler = MinMaxScaler()
scaler.fit(X)
x = scaler.transform(X)

In [37]:
x

array([[0.   ],
       [0.125],
       [0.25 ],
       [0.375],
       [0.5  ],
       [0.625],
       [0.75 ],
       [0.875],
       [1.   ]], dtype=float32)

In [38]:
np.mean(x), np.std(x)

(0.5, 0.3227486)

In [39]:
np.min(x), np.max(x)

(0.0, 1.0)

#### 간단한 실험
* X는 -3 ~ 5 사이의 값을 가지고 있음
* 만약, 이상치 100을 추가한다면?

In [41]:
X = np.vstack([X, [100]])
X

array([[ -3.],
       [ -2.],
       [ -1.],
       [  0.],
       [  1.],
       [  2.],
       [  3.],
       [  4.],
       [  5.],
       [100.]])

In [42]:
np.mean(X), np.std(X), np.min(X), np.max(X)

(10.9, 29.80083891436615, -3.0, 100.0)

#### StandardScaler

In [43]:
scaler = StandardScaler()
scaler.fit(X)
x = scaler.transform(X)

In [45]:
np.mean(x), np.std(x), np.min(x), np.max(x)

(0.0, 1.0, -0.46642982232621644, 2.989848717213373)

#### MinMaxScaler

In [46]:
scaler = MinMaxScaler()
scaler.fit(X)
x = scaler.transform(X)

In [47]:
np.mean(x), np.std(x), np.min(x), np.max(x)

(0.1349514563106796, 0.2893285331491859, 0.0, 0.9999999999999999)