# 4. 좋은 훈련 세트 만들기: 데이터 전처리

- 데이터셋이서 누락된 값을 제거하거나 대체하기
- 머신 러닝 알고리즘을 위해 범주형 데이터 변환하기
- 모델과 관련이 높은 특성 선택하기

## 4.1 누락된 데이터 다루기

일반적으로 누락된 값은 데이터 테이블에 빈 공간이나 예약된 문자열로 채워진다  
숫자가 아니라는 의미(not a number)NaN이나 NULL(관계형 데이터베이스에서 모르는 값을 지칭하는데 주로 사용)과 같은 값을 사용한다  
안타깝게도 대부분의 수치 계산 라이브러리는 누락된 값을 다룰 수 없거나 단순히 이를 무시했을 때 예상치 못한 결과를 만든다  

### 4.1.1 테이블 형태 데이터에서 누락된 값 식별

In [2]:
import pandas as pd
from io import StringIO

csv_data = \
'''A,B,C,D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


StringIO를 이용하면 하드 디스크에 있는 일반 CSV파일 처럼 data_csv에 저장된 문자열을 읽어 pandas DataFrame으로 변환할 수 있다  
아주 큰 DataFrame일 경우 수동으로 누락된 값을 찾는 것은 매우 번거롭다  
isnull method는 cell이 수치 값을 담고 있는지(False)또는 누락되어 있는지(True)를 나타내는 boolean 값이 채워진 DataFrame을 반환한다  

In [3]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

이런 식으로 열마다 누락된 값의 개수를 알 수 있다  

사이킷런의 추정기에 주입하기 전에 values 속성을 사용하여 언제나 numpy array를 얻을 수 있다

In [4]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

### 4.1.2 누락된 값이 있는 샘플이나 특성 제외

누락된 데이터를 다루는 가장 쉬운 방법 중 하나는 해당 샘플이나 특성을 완전히 삭제하는 것이다  

In [5]:
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


axis 매개변수를 1로 지정해서 NaN이 하나라도 있는 열을 삭제할 수 있다

In [6]:
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


dropa method는 몇 가지 편리한 매개변수를 제공한다

In [7]:
# 모든 열이 NaN일 때만 행을 삭제한다
# (여기서는 모든 값이 NaN인 행이 없기 때문에 전체 배열이 반환된다)
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [8]:
#실수 값이 4개보다 작은 행을 삭제한다
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [10]:
#특정 열에 NaN이 있는 행만 삭제한다
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


너무 많은 데이터를 제거하면 안정된 분석이 불가능할 수 있다  
너무 많은 특성 열을 제거하면 분류기가 클래스를 구분하는 데 필요한 중요한 정보를 잃을 위험이 있다  

### 4.1.3 누락된 값 대체