# Chapter 4. Building Good Training Sets - Data Preprocessing

### 4.1. Dealing with missing data

결측값(missing value)은 일부 관측개체의 일부 변수에서 관측값이 얻어지지 않아 'NA'(not available)로 남은 것인데 어느 정도 규모의 자료에서는 불가피하다. 결측값을 포기(무시)하고 관측자료만을 분석하게 되면 많은 경우 통계적 편향(bias)이 생긴다. - [허명회, 2014, 응용데이터분석, 5장 中]

###### 4.1.1 결측값 제거

결측값에 대처하는 방법으로 가장 간단한 방법은 해당 컬럼 혹은 행을 분석에서 제외하는 것이다. 예를들어 표본조사 데이터에서 주소에 대한 컬럼에 누락값이 지나치게 많다면 해당 컬럼을 제외하고 분석을 진행하게 된다. 혹은 특정 표본에서 누락된 변수값이 많다면 이 행을 제외하는 선택을 할 수 있다.

> 결측값(NaN)을 갖은 데이터를 생성

In [25]:
# Sample data w/missing value
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
0.0,11.0,12.0,'''
# If you are using Python 2.7, you need
# to convert the string to unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,0.0,11.0,12.0,


> 각 컬럼에 null 값이 몇개인지 확인

In [26]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

> NA 가 포함된 행을 제거, (1번, 2번 행이 제거됨)

In [27]:
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


> 1번째 열(C)을 제거

In [28]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,0.0,11.0


> 모든 값이 NaN인 행만 제거(이 데이터에는 모든 값이 NaN인 행은 없음)

In [29]:
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,0.0,11.0,12.0,


> 4개 이상 NaN이 아닌 값이 포함되지 않은 행을 제거

In [30]:
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


> C열에 NaN이 포함된 열은 제거

In [31]:
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,0.0,11.0,12.0,


###### 4.1.2. 결측값 대체(imputation)

결측값이 포함된 행이나 열을 제거하는 방법은 간편하기는 하지만 그런 행이나 열이 많아지면 데이터의 편향을 가져오게 된다. 측 남자와 여자 각각 50명식 표본조사를 했고 어떤 문제로 인해 남자들이 특정 설문에 대거 응답하지 않아 해당하는 행들을 모두 분석데이터에서 제거한다면, 그 분석 데이터는 모집단의 특성을 잘 반영하지 못하게 된다.

결측값을 제거하는 것이 적절하지 않은 상황이라면 결측값을 어떤 다른 값으로 대체하는 방법(Missing value imputation)을 선택할 수 있다. 어떤 값으로 결측값을 대체 해야한다면, (알수 없는) 실제 값과 가장 가까운 값으로 대체할 수 있다면 좋을 것이다. 간단한 아이디어로는 데이터 컬럼의 평균값/중간값/최빈값 등으로 대체할 수도 있고, 값이 있는 컬럼을 기반으로 유사한 특성을 갖는 다른 행들이 갖는 값과 유사한 값으로 대체할 수도 있을 것이다. 

> 결측값을 각 열의 평균으로 대체

In [36]:
# Sample data w/missing value
import pandas as pd
from io import StringIO
csv_data = '''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
0.0,11.0,12.0,'''
# If you are using Python 2.7, you need
# to convert the string to unicode:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,0.0,11.0,12.0,


In [43]:
from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
# strategy: mean, median, most_frequent
# axis: 0 for column, 1 for row
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data

array([[  1. ,   2. ,   3. ,   4. ],
       [  5. ,   6. ,   7.5,   8. ],
       [  0. ,  11. ,  12. ,   6. ]])

### 4.2. Handling categorical data

■ 데이터 값은 그 특성에 따라 아래 4가지로 나눌 수 있다.
1. 명목 척도(Nominal scale): 순서 없는 범주형 / 범주간 비교 불가, 예) 남자/여자
2. 순서 척도(Ordinal scale): 순서 있는 범주형 / 범주간 비교 가능, 예) 긍정, 보통, 부정
3. 간격 척도(Interval scale): 연속형의 상대적인 수치 / 의미있는 원점이 없음, 예) 섭씨온도
4. 비율 척도(Ratio scale): 의미있는 원점이 있는 연속형의 상대적 수치, 예) 

1번과 2번은 정성적, 비계량형(Nonmetric) 값으로서 범주형 이라 하고    
3번과 4번은 정량적, 계량형(Metric)값으로 연속형 이라 한다.

■ 그런데 데이터 값이 명목형 일 경우 특별한 고려/처리가 필요하다. 명목형 변수를 그 자체로 순서나 비교 혹은 사칙 연산이 의미를 갖지 못하고 한 변수로 범주에 속함을 표현한다면 의도 하지 않은 정보를 분석 모형에 주게 된다. 예를들어 성별을 나타내는 열이 있고 남자를 1 여자를 2로 표시 했을 때, 하나의 열을 그대로 분석 모형에 사용할 경우 여자가 남자의 2배라거나 크다는 식의 정보를 의도치 않게 부여하게 된다. 또한 분석을 위한 데이터셋은 각 열이 대상의 특성을 나타내는 변수이고, 분석 모형은 각 변수의 영향에 따른 결과값을 알아보기 위한 것 이므로, 데이터셋의 각 변수는 대상에 대한 하나의 속성을 나타내야한다. 따라서 범주형 변수의 경우 indicator 혹은 dummy 변수를 사용하여 각 범주에 속하는지를 표현하는 변수를 나누게 된다. 예를들어 어떤 데이터의 성별을 나타내는 (1:남/2:여)열이 있다면 이를 '남자 이냐'라는 변수와 '여자 이냐'라는 2개의 변수로 나눈다.

> 범주형 변수를 포함하는 예시 데이터

In [56]:
import pandas as pd
df = pd.DataFrame([
        ['green', 'M', 10.1, 'class1'],
        ['red', 'L', 13.5, 'class2'],
        ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


> 범주를 다른 숫자로 치환(size)

In [57]:
size_mapping = {'XL': 3, 'L': 2, 'M': 1}
df['size'] = df['size'].map(size_mapping)
df


Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [58]:
{v: k for k, v in size_mapping.items()}

{1: 'M', 2: 'L', 3: 'XL'}

> 범주를 다른 숫자로 치환(classlabel)

In [60]:
import numpy as np
class_mapping = {label:idx for idx,label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [61]:
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


> 치환을 역으로..

In [62]:
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


> scikit-learn LabelEncode class를 이용한 치환

In [66]:
from sklearn.preprocessing import LabelEncoder
class_le = LabelEncoder()
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0], dtype=int64)

In [65]:
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

### 4.3. Partitioning a dataset in training and test sets

.

### 4.4. Bringing features onto the same scale

.

### 4.5. Selecting meaningful features

.

### 4.6. Assessing feature importance with random forests

.

.