# 2장: 머신러닝을 하기위한 데이터 전처리

아래의 노트북파일내에 예제 코드들을 단순화하기 위해서 numpy, matplotlib의 함수로 네임스페이스를 사용한다. 

In [1]:
%matplotlib inline

### 범주형 데이터에서 수치형 특성으로 변환하기 

In [2]:
import numpy as np

In [3]:
cat_data = np.array(['male', 'female', 'male', 'male', 'female', 'male', 'female', 'female'])

In [4]:
def cat_to_num(data):
    categories = np.unique(data)
    features = []
    for cat in categories:
        binary = (data == cat)
        features.append(binary.astype("int"))
    return features

In [5]:
cat_to_num(cat_data)

[array([0, 1, 0, 0, 1, 0, 1, 1]), array([1, 0, 1, 1, 0, 1, 0, 0])]

### 타이타닉 호 데이터셋에서 간단한 특성 추출하기

In [6]:
cabin_data = np.array(["C65", "", "E36", "C54", "B57 B59 B63 B66"])

In [7]:
def cabin_features(data):
    features = []
    for cabin in data:
        cabins = cabin.split(" ")
        n_cabins = len(cabins)
        # 객실 호칭 중 처음 나온 문자가 cabin_char에 대입된다.
        try:
            cabin_char = cabins[0][0]
        except IndexError:
            cabin_char = "X"
            n_cabins = 0
        # 객실 호칭 중 나머지 부분이 cabin_num에 대입된다. 
        try:
            cabin_num = int(cabins[0][1:]) 
        except:
            cabin_num = -1
        # 각 승객에 대해 세 가지 특성을 추가한다.
        features.append( [cabin_char, cabin_num, n_cabins] )
    return features

In [8]:
cabin_features(cabin_data)

[['C', 65, 1], ['X', -1, 0], ['E', 36, 1], ['C', 54, 1], ['B', 57, 4]]

### 특성 정규화

In [9]:
num_data = np.array([1, 10, 0.5, 43, 0.12, 8])

In [10]:
def normalize_feature(data, f_min=-1, f_max=1):
    d_min, d_max = min(data), max(data)
    factor = (f_max - f_min) / (d_max - d_min)
    normalized = f_min + data*factor
    return normalized, factor


In [11]:
normalize_feature(num_data)

(array([-0.95335821, -0.53358209, -0.9766791 ,  1.00559701, -0.99440299,
        -0.62686567]),
 0.046641791044776115)