<a href="https://colab.research.google.com/github/dak-sh-kim/selfstudy-wikidocs-tensorflow-nlp-tutorial-notebooks/blob/main/20220618_NLP_2_09)_Splitting_Data_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1) 데이터의 분리 (Splitting Data)

## 1. 지도 학습 (Supervised Learning)

- 머신러닝 모델을 학습 & 평가하기 위해 (지도학습을 위해), 데이터를 적절하게 분리하는 작업이 필요

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

<훈련데이터>
- X_train: 문제지 데이터
- y_train: 문제지 정답지

<시험지 데이터>
- X_test: 시험지 데이터
- y_test: 시험지 정답지
- *y_pred: 기계가 X_test를 사용해 도출해낸 정답지
- accuracy: y_test와 y_pred를 비교해서 정답을 얼마나 맞췄는지 %로 표기

*y_test와 y_pred 는 X_test와 맵핑(mapping) 됨

## 2. X와 y 분리하기

### 1) zip 함수를 이용하여 분리하기

- zip() 함수는 동일한 변수 갯수를 가지는 시퀀스 자료형에서 각 변수에 등장하는 원소들끼리 묶어주는 역할
- 리스트의 리스트 구성에서 zip()함수는 X와 y를 분리하는데 유용

In [None]:
# zip 함수의 역할
  # x, y = zip([x1, y1], [x2, y2], [x3, y3])
  # print(x); (x1, x2, x3)  --> tuple 로 반환
  # print(y): (y1, y2, y3)

In [None]:
x, y = zip(['a', 1], ['b', 2], ['c', 3])
print('x 데이터: ', x)
print('y 데이터: ', y)
print(type(x))

x 데이터:  ('a', 'b', 'c')
y 데이터:  (1, 2, 3)
<class 'tuple'>


- 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서

In [None]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
x, y = zip(*sequences) # 별표 붙여야 돌아감
print('x 데이터: ', x)
print('y 데이터: ', y)
print(type(y)) # 튜플인데 이걸 다시 리스트화 해서 쓴다고...? 싶은 의문이 들기는 한다. 그냥 넣어도 돌아가나?

x 데이터:  ('a', 'b', 'c')
y 데이터:  (1, 2, 3)
<class 'tuple'>


### 2) 데이터프레임을 이용하여 분리하기

In [None]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns = columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [None]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [None]:
print("X 데이터:", X.to_list())
print("y 데이터:", y.to_list())

X 데이터: ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터: [1, 0, 0, 1]


### 3) Numpy를 이용하여 분리하기

- 임의의 데이터를 만들어 Numpy의 슬라이싱(Slicing)을 사용하여 데이터 분리

In [None]:
np_array = np.arange(0, 16).reshape((4,4))
print("전체 데이터: ")
print(np_array)

전체 데이터: 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


- 마지막 열을 제외하고 X데이터에 저장, 마지막 열만을 y 데이터에 저장

In [None]:
X = np_array[:, :3]
y = np_array[:, 3]

In [None]:
print('X 데이터 :')
print(X)
print('y 데이터 :',y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


## 3. 테스트 데이터 분리하기

- 이미 X와 y가 분리된 데이터에 대해 테스트 데이터를 분리하는 과정

### 1) scikitlearn을 이용하요 분리하기

- train와 test 를 분리해주는 train_test_split()을 지원

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1234)

- X: 독립변수 데이터 (array or dataframe)
- y: 종속변수 데이터, label 데이터 
- test_size: 테스트 데이터 개수 지정, 1보다 작은 실수 기재할 경우 비율
- train_size: 학습 데이터 개수 지정, 1보다 작은 실수 기재할 경우 비율
_ random_state: 난수 시드

In [None]:
# 임의로 X와 y 데이터 생성
X, y = np.arange(10).reshape((5, 2)), range(5) # reshape() 과 reshape(()) 차이가 뭔지 모르겠음

In [None]:
print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [None]:
# 7:3 의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=1234)

In [None]:
print('X 훈련 데이터 :')
print(X_train)
print('X 테스트 데이터 :')
print(X_test)

X 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 :
[[8 9]
 [0 1]]


In [None]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


In [None]:
# random_state 값을 변경 (데이터를 뽑아낼 때 비율만 정해주고 섞어서 뽑기 때문)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1)

In [None]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[4, 0, 3]
y 테스트 데이터 :
[2, 1]


In [None]:
# random_state를 이전에 값이었던 1234로 변경
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1234)

In [None]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


### 2) 수동으로 분리하기

In [None]:
# 실습을 위해 임의로 X와 y가 이미 분리된 데이터를 생성
X, y = np.arange(0, 24).reshape((12, 2)), range(12)

In [None]:
print('X 전체 데이터: ')
print(X)
print('y 전체 데이터: ')
print(list(y))

X 전체 데이터: 
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터: 
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [None]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다
print('훈련 데이터의 크기 :',num_of_train)
print('테스트 데이터의 크기 :',num_of_test)

훈련 데이터의 크기 : 9
테스트 데이터의 크기 : 3


In [None]:
X_test = X[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장

  # num_of_train 과 같이 하나의 변수만 사용하면 데이터의 누락을 방지할 수 있음

In [None]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test)) # 데이터가 섞이지 않은 채 어느 지점에서 앞과 뒤로 분리했다는 점이 다름. 

X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]
