# 13_데이터의 분리(Splitting Data)
머신러닝(딥러닝) 모델에 데이터를 훈련시키기 위해서는 데이터를 적절히 분리하는 작업이 필요하다. 이 책에서는 머신러닝 기법 중 주로 지도학습(Supervised Learning)에 대해 배우는데, 이 문서에는 지도 학습을 위한 데이터 분리 작업에 대해서 배운다. 

## 1. 지도 학습(Supervised Learning) 
지도 학습의 훈련 데이터는 문제지를 연상케 한다. 훈련 데이터는 정답이 뭔지 맞춰야 하는 '문제'에 해당되는 데이터(input, x, train 라고도 한다)와 레이블(label, y, 라벨이라고도 한다)이라고 부르는 '정답' 데이터로 구성되어 있다. 쉽게 비유하면, 기계는 정답이 나와 있는 문제지를 보며 열심히 공부하고, 향후 정답이 없는 문제에 대해서도 정답을 잘 예측할 수 있어야 한다.<br>

예를 들어 스팸 메일 분류기를 만들기 위한 데이터 같은 경우, 메일의 내용과 해당 내용이 정상 메일인지, 스팸 메일인지 적혀있는 레이블로 구성되어 있다. 이 데이터는 두 개의 열로 구성되는데, 바로 메일의 본문에 해당되는 첫번째 열과 해당 메일이 정상 메일인지 스팸 메일인지 적혀있는, 정답에 해당하는 두 번째 열이다. 
<br>

![캡처](https://user-images.githubusercontent.com/58945760/102754805-d7dfb700-43b0-11eb-8348-18b3b2ee700b.PNG)


<br>
그리고 이러한 데이터 배열이 총 20,000개의 행을 가진다.
<br>

이해를 쉽게 하기 위해 기계를 지도하는 선생님의 입장이 되어보자. 기계를 가르치기 위해 데이터를 총 4개로 나눈다. 우선 메일의 내용이 담긴 첫 번째 열을 X에 저장한다. 그리고 메일이 스팸인지 정상인지 정답이 적혀있는 두 번째 열을 y에 저장한다. 이제 문제지에 해당되는 20,000개의 X와 정답지에 해당되는 20,000개의 y가 생겼다.<br>

그리고 이제 이 X와 y에 대해서 일부 데이터를 또다시 분리한다. 이는 문제지를 공부하고 나서 실력을 평가하기 위해 시험(Test) 용으로 빼놓는 것이다. 여기서는 2,000개를 빼놓는다고 가정하겠다. 이 때 잊으면 안 되는 것이, 이 빼놓는 데이터 역시 X와 y가 짝을 이루도록 맵핑 관계를 유지해야 한다. 어떤 문제(X)에 대해 어떤 정답(y)인지 바로 찾을 수 있어야 한다. 이렇게 되면 학습용에 해당되는 18,000개의 X,y의 쌍과 시험용에 해당되는 2,000개의 X,y의 쌍이 생겨나게 된다. 이 문서에는 이런 유형의 데이터들에게 주로 아래와 같은 변수명을 부여한다.<br>

**<훈련 데이터>**
X_train : 문제지 데이터
y_train : 문제지에 대한 정답 데이터
<br>

**<테스트 데이터>**
X_test : 시험지 데이터
y_test : 시험지에 대한 정답 데이터
<br>

기계는 이제부터 X_train과 y_train에 대해서 학습한다. 기계는 현 상태에서는 정답지인 y_train을 볼 수 있기 때문에 18,000개의 문제지 X_train을 보면서 어떤 메일 내용일 때 정상 메일이고, 어떤 메일 내용일 때 스팸 메일인지를 열심히 규칙을 도출해나가면서 정리해 나간다.<br> 

그리고 학습을 다 한 기계에 y_test를 보여주지 않고, X_test에 대해 정답을 예측하게 한다. 그리고 기계가 예측한 답과 실제 정답인 y_text를 비교하면서 기계가 얼마나 맞췄는지를 평가한다. 이 수치가 바로 기계의 정확도(Accuracy)가 된다. 

## 2. X와 y 분리하기

### 1) zip 함수를 이용해 분리하기
zip 함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 한다. 리스트의 리스트 구성에서 zip 함수는 X와 y를 분리하는 데 유용하다. 우선 zip 함수가 어떤 역할을 하는지 확인해보도록 하겠다. 

In [1]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶인 것을 볼 수 있다. 

In [4]:
sequences = [['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 or 행렬 or 뒤에서 배울 개념인 2D 텐서
X, y = zip(*sequences) # *추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶인 것을 볼 수 있다. 이를 각각 X데이터와 y데이터로 사용할 수 있다. 

### 2) 데이터 프레임을 이용하여 분리하기

In [5]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
         ['내일 뵐 수 있을지 확인 부탁드....', 0],
         ['도연 씨, 잘 지내시죠? 오랜만입....', 0], 
         ['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드....,0
2,"도연 씨, 잘 지내시죠? 오랜만입....",0
3,(광고) AI로 주가를 예측할 수 있다!,1
