# 머신 러닝 교과서 - 파이토치편

## 좋은 훈련 데이터셋 만들기 – 데이터 전처리


### 목차

1. 누락된 데이터 다루기

    1\) 테이블 형태 데이터에서 누락된 값 식별    
    2\) 누락된 값이 있는 샘플이나 특성 제외   
    3\) 누락된 값 대체

2. 범주형 데이터 다루기

    1\) 판다스를 사용한 범주형 데이터 인코딩  
    2\) 순서가 있는 특성 매핑   
    3\) 클래스 레이블 인코딩  
    4\) 순서가 없는 특성에 원-핫 인코딩 적용

3. 특성 스케일 맞추기

In [2]:
from IPython.display import Image

### 1. 누락된 데이터 다루기

* ```NaN``` (not a number): 숫자 타입인데, 유효한 값이 아님
    - 0/0, 누락된 수치형 데이터
* ```NULL```: 데이터베이스 용어로 값이 없음을 의미
* ```None```: python에서 값이 없음을 의미하는 내장 객체(object)


#### 1) 테이블 형태 데이터에서 누락된 값 식별


In [41]:
import pandas as pd
from io import StringIO
import sys

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [5]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [6]:
# `values` 속성으로 넘파이 배열을 얻을 수 있습니다
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

#### 2) 누락된 값이 있는 샘플이나 특성 제외


In [7]:
# 누락된 값이 있는 행을 삭제합니다
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [8]:
# 누락된 값이 있는 열을 삭제합니다
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [8]:
import numpy as np
df.loc[3] = np.array([np.nan]*4)
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,,,,


In [13]:
# 모든 열이 NaN인 행을 삭제합니다
df.dropna(axis=0, how='all')
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [14]:
# NaN 아닌 값이 네 개보다 작은 행을 삭제합니다
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [15]:
# 특정 열에 NaN이 있는 행만 삭제합니다(여기서는 'C'열)
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


#### 3) 누락된 값 대체
  

##### Pandas 사용

In [23]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.5,8.0
2,10.0,11.0,12.0,6.0


In [24]:
df.fillna(method='bfill') # method='backfill'와 같습니다

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,12.0,8.0
2,10.0,11.0,12.0,


In [25]:
df.fillna(method='ffill') # method='pad'와 같습니다

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,3.0,8.0
2,10.0,11.0,12.0,8.0


In [26]:
df.fillna(method='ffill', axis=1)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,6.0,8.0
2,10.0,11.0,12.0,12.0


##### scikit-learn 사용

In [16]:
# 원본 배열
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [17]:
# 행의 평균으로 누락된 값 대체하기
from sklearn.impute import SimpleImputer
import numpy as np

imr = SimpleImputer(missing_values=np.nan, strategy='mean') # strategy: mean, median, most_frequent, constant (fill_value=...)
imr = imr.fit(df.values) # fit the imputer model to the data
imputed_data = imr.transform(df.values) # impute all missing values in the dataset
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

In [16]:
imr = SimpleImputer(add_indicator=True)
imputed_data = imr.fit_transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ,  0. ,  0. ],
       [ 5. ,  6. ,  7.5,  8. ,  1. ,  0. ],
       [10. , 11. , 12. ,  6. ,  0. ,  1. ]])

In [17]:
imr.indicator_

In [18]:
imr.indicator_.features_

array([2, 3])

In [20]:
imr.inverse_transform(imputed_data)

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

---

### 2. 범주형 데이터 다루기


#### 판다스를 사용한 범주형 데이터 인코딩
지금까지는 **수치형 데이터**만 사용했습니다. 실제 데이터셋은 하나 이상의 범주형 특성이 포함된 경우가 많습니다.

**범주형 데이터**를 어떻게 **수치형 데이터**로 관리할 수 있는지에 대해 살펴봅니다.


In [19]:
import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


#### 1) 순서가 있는 특성 매핑


In [20]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


In [21]:
size_mapping.items()

dict_items([('XL', 3), ('L', 2), ('M', 1)])

In [22]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['size'].map(inv_size_mapping)

0     M
1     L
2    XL
Name: size, dtype: object

#### 2) 클래스 레이블 인코딩

* 많은 머신 러닝 라이브러리는 클래스 레이블이 정수로 인코딩되었을 것이라고 가정

##### Pandas 사용

In [26]:
import numpy as np

# 클래스 레이블을 문자열에서 정수로 바꾸기 위해
# 매핑 딕셔너리를 만듭니다
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [27]:
# 클래스 레이블을 문자열에서 정수로 바꿉니다
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


In [33]:
# 클래스 레이블을 거꾸로 매핑합니다
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


##### Scikit-learn 사용

In [32]:
from sklearn.preprocessing import LabelEncoder

# 사이킷런의 LabelEncoder을 사용한 레이블 인코딩
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)

In [36]:
# 거꾸로 매핑
class_le.inverse_transform(y)

array(['class2', 'class1', 'class2'], dtype=object)

### 3. 순서가 없는 특성에 원-핫 (one-hot) 인코딩 적용
* ```color``` 특성을 ```blue```, ```green```, ```red``` 특성으로 변환
* 이진 값을 사용하여 특정 샘플의 color를 나타냄
* Ex) 특정 sample이 ```blue```라면 ```blue=1```, ```green=0```, ```red=0```로 표현 

In [38]:
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


In [37]:
X = df[['color', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
X


array([[1, 1, 10.1],
       [2, 2, 13.5],
       [0, 3, 15.3]], dtype=object)

* 이 경우 red > green > blue 라는 의미를 갖게 됨
* 이를 해결하기 위해 원-핫 인코딩 (one-hot encoding) 사용

##### Pandas 사용

In [None]:
# 판다스를 사용한 원-핫 인코딩
# 문자열 열만 변환
pd.get_dummies(df[['price', 'color', 'size']])

Unnamed: 0,price,size,color_blue,color_green,color_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


In [None]:
# 특정 열에 대해서 원-핫 인코딩 적용
pd.get_dummies(df[['price', 'color', 'size']], columns=['size'])

Unnamed: 0,price,color,size_1,size_2,size_3
0,10.1,green,1,0,0
1,13.5,red,0,1,0
2,15.3,blue,0,0,1


* 다중 공선성 (multicollinearity)
    - 독립변수들 사이에 강한 상관관계가 존재하는 현상
    - 특정 알고리즘들에서 문제가 발생할 수 있음 (역행렬 만들기가 어려워짐)
    - Ex. ```blue = !(green or red)```

In [44]:
# get_dummies에서 다중 공선성 문제 처리
pd.get_dummies(df[['price', 'color', 'size']], drop_first=True)

Unnamed: 0,price,size,color_green,color_red
0,10.1,1,1,0
1,13.5,2,0,1
2,15.3,3,0,0


##### Scikit-learn 사용

In [37]:
from sklearn.preprocessing import OneHotEncoder

X = df[['color', 'size', 'price']].values
color_ohe = OneHotEncoder()
encoded_color = color_ohe.fit_transform(X[:, 0].reshape(-1, 1))
encoded_color.toarray()

array([[0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.]])

In [41]:
from sklearn.compose import ColumnTransformer

X = df[['color', 'size', 'price']].values
c_transf = ColumnTransformer([ ('onehot', OneHotEncoder(), [0]),
                               ('nothing', 'passthrough', [1, 2])])
c_transf.fit_transform(X).astype(float)

array([[ 0. ,  1. ,  0. ,  1. , 10.1],
       [ 0. ,  0. ,  1. ,  2. , 13.5],
       [ 1. ,  0. ,  0. ,  3. , 15.3]])

In [45]:
# OneHotEncoder에서 다중 공선성 문제 처리
color_ohe = OneHotEncoder(categories='auto', drop='first')
c_transf = ColumnTransformer([ ('onehot', color_ohe, [0]),
                               ('nothing', 'passthrough', [1, 2])])
c_transf.fit_transform(X).astype(float)

array([[ 1. ,  0. ,  1. , 10.1],
       [ 0. ,  1. ,  2. , 13.5],
       [ 0. ,  0. ,  3. , 15.3]])

# 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기


In [48]:
df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                      'ml/machine-learning-databases/wine/wine.data',
                      header=None)

# UCI 머신러닝 저장소의 Wine 데이터셋에 접근되지 않을 때
# 다음 코드의 주석을 제거하고 로컬 경로에서 데이터셋을 읽으세요:

# df_wine = pd.read_csv('wine.data', header=None)


df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium', 'Total phenols',
                   'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                   'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                   'Proline']

print('Class labels', np.unique(df_wine['Class label']))
df_wine.head()

Class labels [1 2 3]


Unnamed: 0,Class label,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


In [49]:
from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test =\
    train_test_split(X, y,
                     test_size=0.3,
                     random_state=0,
                     stratify=y)

### 5. 특성 스케일 맞추기


* 대부분의 머신 러닝과 최적화 알고르짐은 특성 간의 스케일이 같을 때 성능이 좋음
* 정규화(normalization): 특성의 스케일을 $[0,1]$에 맞추는 것
* 표준화(standardization): 데이터가 표준정규분포와 같은 특징을 갖도록 함
    - 정규화보다 이상치에 덜 민감



#### 1) 최소-최대 스케일 변환(min-max scaling): 정규화
$$
x^{(i)}_{norm} = \frac{x^{(i)}-x_{min}}{x_{max}-x_{min}}
$$

In [50]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test)

#### 2) 표준화

$$
x^{(i)}_{std}=\frac{x^{(i)}-\mu_x}{\sigma_x}
$$

In [51]:
from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

A visual example:

In [52]:
ex = np.array([0, 1, 2, 3, 4, 5])

print('standardized:', (ex - ex.mean()) / ex.std())

# 판다스는 기본적으로 ddof=1를 사용합니다(샘플 표준 편차).
# 반면 넘파이 std 메서드와 StandardScaler는 ddof=0를 사용합니다.

# 정규화합니다
print('normalized:', (ex - ex.min()) / (ex.max() - ex.min()))

standardized: [-1.46385011 -0.87831007 -0.29277002  0.29277002  0.87831007  1.46385011]
normalized: [0.  0.2 0.4 0.6 0.8 1. ]


# 요약