머신러닝(딥러닝) 모델에 데이터를 훈련시키기 위해서는 데이터를 적절히 분리하는 작업이 필요하다.

이번 챕터에서는 지도 학습을 위한 데이터 분리 작업에 대해 배운다.
* '문제'에 해당되는 데이터(X), '정답'이 적혀있는 데이터(y)

## 1. X와 y 분리하기

### 1) zip 함수를 이용해 분리

In [2]:
# zip 함수

X,y = zip(['a',1],['b',2],['c',3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [5]:
sequences=[['a', 1], ['b', 2], ['c', 3]]
# 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서
X,y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


### 2) 데이터프레임을 이용해 분리

In [6]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [7]:
# 열의 이름으로 각 열에 접근 가능 -> 손쉽게 분리
X = df['메일 본문']
y = df['스팸 메일 유무']

In [8]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [9]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


### 3) Numpy를 이용해 분리

In [10]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [11]:
X = ar[:,:3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [12]:
y = ar[:,3]
print(y)

[ 3  7 11 15]


## 3. 테스트 데이터 분리하기

### 1) 사이킷 런을 이용해 분리
**train_test_split()**

In [13]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)

In [14]:
# ex)
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5,2)), range(5)

print(X)
print(list(y))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [15]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [16]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [17]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


### 2) 수동으로 분리

In [18]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [20]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [21]:
# 훈련 데이터의 개수, 테스트 데이터 개수 정하기

n_of_train = int(len(X)*0.8) # 80%을 훈련 데이터로 지정
n_of_test = int(len(X) - n_of_train)
print(n_of_train)
print(n_of_test)

9
3


* 여기서 n_of_train을 len(X) * 0.8로 구했듯이 n_of_test 또한 len(X) * 0.2로 계산하면 되지 않을까라고 생각할 수 있지만, 그렇게 할 경우에는 데이터에 누락이 발생
    * 가정) 전체 데이터의 개수 = 4,518
    * 4,518의 80%의 값 = 3,614.4 = 3,614(소수점 내리면)
    * 4,518의 20%의 값 = 903.6 = 903(소수점 내리면)
    * 3,614 + 903 = 4517 => 데이터 1개가 누락


**어느 한 쪽을 먼저 계산하고 그 값만큼 제외하는 방식으로 계산해야 한다.**

In [22]:
X_test = X[n_of_train:]
y_test = y[n_of_train:]
X_train = X[:n_of_train]
y_train = y[:n_of_train]

print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
