# 데이터의 분리 (Splitting Data)
- 머신 러닝 모델 학습, 평가에는 데이터셋의 비율을 분리시켜줘야 한다

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

### 1. 지도 학습(Supervised Learning)
스팸 메일 분류기
- 메일이 정상/스팸 인지 구분
- 약 20,000 개의 데이터가 있다면
    - 첫번째 열 X 에 , 메일의 내용을 저장
    - 두번째 열 y 에 , 메일의 스팸 여부를 저장
    - 약 10 % (2,000개) 를 test data로 분리

X와 y 분리하기

1. zip 함수를 이용하여 분리하기

In [3]:
X, y = zip(['a',1], ['b',2], ['c',3])
print('x data : ', X)
print('y data :', y)

x data :  ('a', 'b', 'c')
y data : (1, 2, 3)


In [4]:
sequences = [['a',1],['b',2],['c',3]]
X, y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


2. DataFrame 이용하여 분리하기

In [5]:
values = [['당신에게 드리는 마지막 혜택!', 1],
          ['내일 뵐 수 있을지 확인 부탁드...', 0],
          ['도연씨, 잘 지내시죠?',0],
          ['(광고) AI로 주가 예측한다!',1]]


columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,"도연씨, 잘 지내시죠?",0
3,(광고) AI로 주가 예측한다!,1


In [7]:
x = df['메일 본문']
y = df['스팸 메일 유무']

print('x data :', x.to_list())
print('y data :', y.to_list())

x data : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨, 잘 지내시죠?', '(광고) AI로 주가 예측한다!']
y data : [1, 0, 0, 1]


3. NumPy 를 이용하여 분리하기
- 슬라이싱

In [8]:
np_array = np.arange(0,16).reshape((4,4))
print("전체 데이터 :")
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [11]:
X = np_array[:, :-1]
y = np_array[:, -1]

print(X)

print(y)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
[ 3  7 11 15]
