이 자료는 위키독스 딥 러닝을 이용한 자연어 처리 입문의 데이터의 분리 튜토리얼 자료입니다.  
링크 : https://wikidocs.net/33274

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 1. 지도 학습(Supervised Learning)

지도 학습의 훈련 데이터는 문제지를 연상케 합니다. 지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있습니다. 쉽게 비유하면, 기계는 정답이 적혀져 있는 문제지를 문제와 정답을 함께 보면서 열심히 공부하고, 향후에 정답이 없는 문제에 대해서도 정답을 잘 예측해야 합니다.  

# 2. X와 y분리하기

## 1) zip 함수를 이용하여 분리하기

In [2]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [3]:
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X, y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


## 2) 데이터프레임을 이용하여 분리하기

In [4]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['철수씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,철수씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [5]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [6]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      철수씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [7]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


## 3) Numpy를 이용하여 분리하기

In [8]:
np_array = np.arange(0,16).reshape((4,4))
print(np_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [9]:
X = np_array[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [10]:
y = np_array[:,3]
print(y)

[ 3  7 11 15]


# 3. 테스트 데이터 분리하기

## 1) 사이킷 런을 이용하여 분리하기

In [22]:
'''
예시 코드
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)
'''

'\n예시 코드\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)\n'

In [12]:
# 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [13]:
# 3분의 1만 test 데이터로 지정.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [14]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [15]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


## 2) 수동으로 분리하기

In [16]:
# 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

In [17]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [18]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [19]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(num_of_train)
print(num_of_test)

9
3


In [20]:
X_test = X[num_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:num_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [21]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
