In [1]:
import numpy as np
import pandas as pd

In [2]:
dataset = pd.read_csv('data/sample.csv').values
# dataFrame values: column, index 정보를 가져온다
print(type(dataset))
dataset

<class 'numpy.ndarray'>


array([['James', 'France', 44.0, 72000.0, 'No'],
       ['Tim', 'Spain', 27.0, 48000.0, 'Yes'],
       ['Sarah', 'Germany', 30.0, 54000.0, 'No'],
       ['Robert', 'Spain', 38.0, 61000.0, 'No'],
       ['Emma', 'Germany', 40.0, nan, 'Yes'],
       ['Jennifer', 'France', 35.0, 58000.0, 'Yes'],
       ['Linda', 'Spain', nan, 52000.0, 'No'],
       ['Thomas', 'France', 48.0, 79000.0, 'Yes'],
       ['Ben', 'Germany', 50.0, 83000.0, 'No'],
       ['Scarlett', 'France', 37.0, 67000.0, 'Yes']], dtype=object)

In [3]:
# X = 전체 행, 국적(1)/나이(2)/연봉(3)
X = dataset[:,1:-1]

# y = 전체 행, 마지막 열
# [범위, idx] -> 1D array
# [범위, 범위] -> 2D array
y = dataset[:,-1]

print(X)
print(y)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]
['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


In [4]:
print(X.shape)
print(y.shape)

(10, 3)
(10,)


### str to int

In [5]:
# 1. LabelEncoder

from sklearn.preprocessing import LabelEncoder
#LabelEncoder: 문자를 0부터 n까지의 정수로 변환
le = LabelEncoder()
# X의 첫번째열에 LabelEncoder 적용
le.fit(X[:,0])
# fit은 실제 변형되지 않고, 정보만 수집
# ex) 몇 종류의 문자열이 존재하는지. 변환할 때, 어떠한 문자를 어떠한 숫자로 변환할지 결정
X_c = le.transform(X[:,0])
# transform은 fit에서 결정된 정보를 기반으로 실제 변환 수행 후 결과 반환

In [6]:
# X에서 첫번째 column 삭제 X_c 결합
X_tmp = np.delete(X, 0, axis=1)
# X_tmp에 X_c 결합
# concatenate으로 두 개의 ndarray를 결합할 때는 반드시 둘의 ndim이 동일해야 함
# X_c를 2D array로 변경
# X_tmp.shape = (10, 3)
# X_c를 X_tmp에 좌우 결합하기 위해 X_c.shape = (10, 1)로 reshape
# 1D array인 array를 (n, 1)로 변경할 경위 arr.reshape(-1, 1)
np.concatenate((X_c.reshape(-1, 1), X_tmp), axis=1)

array([[0, 44.0, 72000.0],
       [2, 27.0, 48000.0],
       [1, 30.0, 54000.0],
       [2, 38.0, 61000.0],
       [1, 40.0, nan],
       [0, 35.0, 58000.0],
       [2, nan, 52000.0],
       [0, 48.0, 79000.0],
       [1, 50.0, 83000.0],
       [0, 37.0, 67000.0]], dtype=object)

In [7]:
# 2. One-Hot Encoder

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
ohe.fit(X[:,:1]) # == X[:,0].reshape(-1,1)
# OneHotEncoder의 경우 결과값이 2D array로 나오기 때문에 무조건 2D로 만들어야 함.
# OneHotEncoder.fit: 데이터 분석, 전략 수집, 몇 개의 범주가 있는가, 어떠한 번주를 어떠한 열에 대응할 것인가
X_ohe_c = ohe.transform(X[:,:1]).toarray()
# OneHotEncoder.transform의 결과는 sparse matrix로 ndarray로 변경하기 위해 toarray() 사용
# sparse matrix 타입을 이용하는 이유는 메모리 공간을 아끼기 위함.
X_ohe_c.shape

(10, 3)

In [8]:
X_tmp = np.delete(X,0,axis=1)
# X_ohe_c는 2D array이므로 shape를 변경하지 않아도 됨
X_new_ohe = np.concatenate((X_ohe_c, X_tmp), axis=1)
print(X_new_ohe)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 nan]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 nan 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


### train / test data 분리

In [9]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(8, 3) (8,)
(2, 3) (2,)


In [13]:
# train_test_split은 data를 임의로 shuffle한 후, 분리함 (X와 y동일한 순서로 shuffle)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)

# model의 성능을 비교하기 위해서는 항상 동일한 train/test dataset을 사용해야 함
# 매번 실행할 때마다, train/tst data가 변경되므로, 변경되지 않도록 설정하는 인자 사용(random_state)
print(X_test)

[['France' 37.0 67000.0]
 ['France' 35.0 58000.0]]


##### train data와 test data에 대한 주의 사항
- test data는 training 과정에서 어떠한 관여도 해서는 안된다
- ex) One-Hot Encoding 적용: train/test data 분리 -> train data에만 fit을 적용<br>
    -> fit의 결과를 test data에 적용하여 변환
- ex) scaling 적용: train/test data 분리 -> train data에만 fit 적용<br>
    -> fit의 결과를 test data에 적용하여 변환

### Scaler

In [17]:
# scaler: 데이터의 범위를 조정
X = dataset[:, 2:-1]
y = dataset[:, -1]
print(X.shape, y.shape)

(10, 2) (10,)


In [18]:
# scaling 적용하기 전, train_test_split으로 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)

In [22]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
# 평균은 0, 분산(표준편차)은 1로 변경한 데이터 (주로 -3~3 정도의 값)
# fit에는 train 데이터만 적용
sc.fit(X_train)
# 변환을 위한 전략 수집(데이터의 평균, 분산 등 계산)

# X_train 변환
X_train_sc = sc.transform(X_train)
# 0에 가까울 수록 평균에 가까운 값

# X_test 변환 (fit은 적용하지 않고 X_train을 통해 수립한 전략으로 변환만 수행)
X_test_sc = sc.transform(X_test)

print(X_train_sc)
print(X_test_sc)
print(X_train_sc.shape, X_test_sc.shape)

[[-0.78492777 -0.72132045]
 [ 0.55157087  0.58171004]
 [ 1.14557027  1.23322529]
 [-1.52742702 -1.09361488]
 [-0.33942823 -0.44209963]
 [        nan -1.27976209]
 [-0.48792808  0.11634201]
 [ 1.44256996  1.60551972]]
[[-0.04242853         nan]
 [-1.97292657 -1.65205652]]
(8, 2) (2, 2)
