# 데이터의 분리(Splitting Data)

## zip 함수 이용

In [1]:
X, y = zip(['a',1], ['b',2], ['c',3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [2]:
sequences = [['a',1], ['b',2], ['c',3]]
X, y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


## pandas frame 이용

In [3]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [4]:
X = df[['메일 본문']]
y = df[['스팸 메일 유무']]

In [5]:
X

Unnamed: 0,메일 본문
0,당신에게 드리는 마지막 혜택!
1,내일 뵐 수 있을지 확인 부탁드...
2,도연씨. 잘 지내시죠? 오랜만입...
3,(광고) AI로 주가를 예측할 수 있다!


In [6]:
y

Unnamed: 0,스팸 메일 유무
0,1
1,0
2,0
3,1


## Numpy 이용

In [7]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
ar

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [8]:
X = ar[:, :3]
X

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [9]:
y = ar[:, 3]
y

array([ 3,  7, 11, 15])

## 분리된 데이터를 train/test로 분리하기

In [10]:
from sklearn.model_selection import train_test_split

In [15]:
X, y = np.arange(10).reshape((5,2)), range(5)
print('X = ', X)
print('\n')
print('y = ', list(y))
print('\n')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)
print('X_train: ', X_train)
print('\n')
print('X_test: ', X_test)
print('\n')
print('y_train: ', y_train)
print('\n')
print('y_test: ', y_test)

X =  [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


y =  [0, 1, 2, 3, 4]


X_train:  [[0 1]
 [2 3]
 [4 5]
 [6 7]]


X_test:  [[8 9]]


y_train:  [0, 1, 2, 3]


y_test:  [4]


## 수동 분리

In [17]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
print(X)
print(list(y))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [19]:
# split할 개수 정하기
n_of_train = int(len(X)*0.8)
n_of_test = int(len(X)-n_of_train)
print(n_of_train)
print(n_of_test)

9
3


In [21]:
X_test = X[n_of_train:]
y_test = y[n_of_train:]
X_train = X[:n_of_train]
y_train = y[:n_of_train]
print(X_test)
print(y_test)

[[18 19]
 [20 21]
 [22 23]]
range(9, 12)
