### zip을 이용한 데이터 분리

In [1]:
x, y = zip(['a', 1], ['b', 2], ['c', 3])
print(x)
print(y)
print()

# 리스트의 리스트 또는 행렬 또는 2D tensor.
sequences = [['a', 1], ['b', 2], ['c', 3]] 

# *를 추가.
X,Y = zip( *sequences ) 
print(X)
print(Y)

('a', 'b', 'c')
(1, 2, 3)

('a', 'b', 'c')
(1, 2, 3)


### Dataframe을 이용한 데이터 분리

In [2]:
import pandas as pd

# 데이터 프레임 생성.
values = [['당신에게 드리는 마지막 혜택!', 1],
        ['내일 뵐 수 있을지 확인 부탁드...', 0],
        ['도연씨. 잘 지내시죠? 오랜만입...', 0],
        ['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']
df = pd.DataFrame(values, columns = columns)
df

x = df['메일 본문']
y = df['스팸 메일 유무']
display(x)
display(y)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64

### Numpy를 이용한 데이터 분리

In [3]:
import numpy as np

array = np.arange(0,16).reshape((4,4))
print(array)

x = array[: , :3]
y = array[:, 3]
display(x)
display(y)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

array([ 3,  7, 11, 15])

### Sklearn을 이용한 데이터 분리

In [4]:
from sklearn.model_selection import train_test_split

x, y = np.arange(10).reshape((5, 2)), range(5)

# shuffle : True or False => False 값을 갖는다면 계층적 추출을 하겠다는 의미이므로 stratify = None 값으로 설정해야함.
# stratify : 분류 문제를 다룰 때 매우 중요한 옵션. stratify 값을 target으로 지정해주면 각각의 class 비율을 train / validation에 유지.
# 한 쪽에 쏠려서 분배되는 것을 방지하는 역할.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 1)
print(x_train)
print(y_train)
print(x_test)
print(y_test)

[[8 9]
 [0 1]
 [6 7]]
[4, 0, 3]
[[4 5]
 [2 3]]
[2, 1]
