## 1. X와 y분리하기

### 1) zip 함수를 이용하여 분리하기

In [1]:
X,y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [2]:
# 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
sequences = [['a', 1], ['b', 2], ['c', 3]] 
X,y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


### 2) 데이터프레임을 이용하여 분리하기

In [3]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [4]:
X=df['메일 본문']
y=df['스팸 메일 유무']

print("- X -"); print(X) # X 데이터 출력
print("\n- y - "); print(y) # y 데이터 출력

- X -
0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

- y - 
0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


### 3) Numpy를 이용하여 분리하기

In [5]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [6]:
X=ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [7]:
y=ar[:,3]
print(y)

[ 3  7 11 15]


## 2. 테스트 데이터 분리하기

### 1) 사이킷 런을 이용하여 분리하기
- X : 독립 변수 데이터. (배열이나 데이터프레임)
- y : 종속 변수 데이터. 레이블 데이터.
- test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
- train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
(test_size와 train_size 중 하나만 기재해도 가능)
- random_state : 난수 시드

In [8]:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [9]:
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠짐.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [10]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [11]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


### 2) 수동으로 분리하기

In [12]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print("- X -"); print(X) # X 데이터 출력
print("\n- y - "); print(list(y)) # y 데이터 출력

- X -
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]

- y - 
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [13]:
# n_of_train / n_of_test : 훈련 / 테스트 데이터의 개수
# 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_train = int(len(X) * 0.8) 
# 전체 길이에서 80%에 해당하는 길이를 뺀다.
n_of_test = int(len(X) - n_of_train) 
print(n_of_train)
print(n_of_test)

9
3


In [14]:
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

print("- X_test -"); print(X_test) # X 데이터 출력
print("\n- y_test - "); print(list(y_test)) # y 데이터 출력

- X_test -
[[18 19]
 [20 21]
 [22 23]]

- y_test - 
[9, 10, 11]
