<a href="https://colab.research.google.com/github/ttury/Deep-Learning-For-Natural-Language-Processing/blob/master/Splitting_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **데이터의 분리(Splitting Data)**
---
> 머신 러닝 모델에 데이터를 훈련시키기 위한 데이터의 분리 방법

<br/>

## 지도 학습의 경우
---
> **훈련 데이터**
* X_train : 문제지 데이터
* Y_train : 문제지에 대한 정답 데이터

> **테스트 데이터**
* X_test : 시험지 데이터
* Y_test : 시험지에 대한 정답 데이터

<br/>

## **X와 Y 분리하기**

<br/>

## zip 함수 이용
---
> 리스트의 리스트(행렬, 2D 텐서) 분리에 유용

<br/>

## 데이터프레임 이용
---
> 열의 이름으로 각 열에 접근하여 분리

<br/>

## Numpy 이용
---
> ndarray 행렬을 만들고 각 열을 슬라이싱하여 분리

<br/>

## **테스트 데이터 분리하기**

<br/>

## 사이킷 런 이용
---
> train_test_split를 사용하여 분리
`train_test_split(x, y, test_size, random_state)`
* test_size : 테스트용 데이터 개수 지정, 1보다 작은 실수를 입력하면 비율을 의미
* train_size : test_size의 학습용 데이터 버전, 둘 중 하나만 입력하면 생략 가능
* random_state : 난수 시드

<br/>

## 수동으로 분리
---
> 훈련 데이터의 개수와 테스트 데이터의 개수를 지정해 전체 데이터를 슬라이싱하여 분리

In [6]:
# zip 함수 이용

x, y = zip(['a', 1], ['b', 2], ['c', 3])

print(x)
print(y)
print()

sequences = [['a', 1], ['b', 2], ['c', 3]]
x, y = zip(*sequences)

print(x)
print(y)

('a', 'b', 'c')
(1, 2, 3)

('a', 'b', 'c')
(1, 2, 3)


In [11]:
# 데이터프레임 이용

import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns = columns)
print(df)
print()

x = df['메일 본문']
y = df['스팸 메일 유무']

print(x)
print()
print(y)

                    메일 본문  스팸 메일 유무
0        당신에게 드리는 마지막 혜택!         1
1    내일 뵐 수 있을지 확인 부탁드...         0
2    도연씨. 잘 지내시죠? 오랜만입...         0
3  (광고) AI로 주가를 예측할 수 있다!         1

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


In [20]:
# Numpy -> ndarray

import numpy as np

ar = np.arange(0, 16).reshape(4, 4)
print(ar)
print()

x = ar[:, :3]
print(x)
print()

y = ar[:, 3]
print(y)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]

[ 3  7 11 15]


In [32]:
# 사이킷 런 이용

import numpy as np
from sklearn.model_selection import train_test_split

x, y = np.arange(10).reshape((5, 2)), list(range(5))

print(x)
print(y)
print()

x_train, x_test, y_train, y_test = train_test_split(x,  y, test_size = 0.33, random_state = 1234)

print(x_train)
print(y_train)
print()

print(x_test)
print(y_test)

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]

[[2 3]
 [4 5]
 [6 7]]
[1, 2, 3]

[[8 9]
 [0 1]]
[4, 0]


In [38]:
# 수동으로 분리하기

import numpy as np

x, y = np.arange(24).reshape((12, 2)), list(range(12))

print(x)
print(y)
print()

num_of_train = int(len(x) * 0.8) # 전체 데이터의 80%
num_of_test = int(len(x) - num_of_train) # 전체 데이터의 20%

print(num_of_train)
print(num_of_test)
print()

x_test = x[num_of_train:]
y_test = y[num_of_train:]
x_train = x[:num_of_train]
y_train = y[:num_of_train]

print(x_test)
print(y_test)
print()

print(x_train)
print(y_train)
print()

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

9
3

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
[0, 1, 2, 3, 4, 5, 6, 7, 8]

