# 데이터의 분리( Splitting Data )

#### 머신 러닝( 딥 러닝 ) 모델에 데이터를 훈련시키지 위해서는 데이터를 적절히 분리하는 작업이 필요한다.

## 1. 지도 학습( Supervised Learning )

#### 지도 학습의 훈련 데이터는 문제지를 연상케 한다. 지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰야 하는 '문제'에 해당하는 데이터와 레이블이라는 '정답'이 적혀있는 데이터로 구성되어 있다. 쉽게 비유하면, 기계는 정답이 적혀져 있는 문제지를 문제와 정답을 함께 보면서 열심히 공부하고, 향후에 정답이 없는 문제에 대해서도 정답을 잘 예측해야 한다.

#### 예를 들어 스팸 메일 분류기를 만들기 위한 데이터같은 경우에는 메일의 내용과 해당 메일이 정상 메일인지, 스팸 메일인지 적혀있는 레이블로 구성되어져 있습니다. 예를 들어 아래와 같은 형식의 데이터가 약 20,000개 있다고 가정해보겠습니다. 이 데이터는 두 개의 열로 구성되는데, 바로 메일의 본문에 해당되는 첫번째 열과 해당 메일이 정상 메일인지 스팸 메일인지가 적혀있는 정답에 해당되는 두번째 열입니다. 그리고 이러한 데이터 배열이 총 20,000개의 행을 가집니다.

#### 이해를 쉽게 하기위해서 우리는 기계를 지도하는 선생님의 입장이 되어보겠습니다. 기계를 가르치기 위해서 데이터를 총 4개로 나눕니다. 우선 메일의 내용이 담긴 첫번째 열을 X에 저장합니다. 그리고 메일이 스팸인지 정상인지 정답이 적혀있는 두번째 열을 y에 저장합니다. 이제 문제지에 해당되는 20,000개의 X와 정답지에 해당되는 20,000개의 y가 생겼습니다.
#### 그리고 이제 이 X와 y에 대해서 일부 데이터를 또 다시 분리합니다. 이는 문제지를 다 공부하고나서 실력을 평가하기 위해서 시험(Test)용으로 일부로 일부 문제와 정답지를 빼놓는 것입니다. 여기서는 2,000개를 분리한다고 가정하겠습니다. 이 때, 분리시에는 여전히 X와 y의 맵핑 관계를 유지해야 합니다. 어떤 X(문제)에 대한 어떤 y(정답)인지 바로 찾을 수 있어야 합니다. 이렇게 되면 학습용에 해당되는 18,000개의 X, y의 쌍과 시험용에 해당되는 2000개의 X, y의 쌍이 생깁니다 이 책에서는 이러한 유형의 데이터들에게 주로 이러한 변수명을 부여합니다.

#### <훈련 데이터>
X_train : 문제지 데이터    
y_train : 문제지에 대한 정답 데이터.

#### <테스트 데이터>
X_test : 시험지 데이터.    
y_test : 시험지에 대한 정답 데이터.

#### 기계는 이제부터 X_train과 y_train에 대해서 학습을 합니다. 기계는 현 상태에서는 정답지인 y_train을 볼 수 있기 때문에 18,000개의 문제지 X_train을 보면서 어떤 메일 내용일 때 정상 메일인지 스팸 메일인지를 열심히 규칙을 도출해나가면서 정리해나갑니다. 그리고 학습을 다 한 기계에게 y_test는 보여주지 않고, X_test에 대해서 정답을 예측하게 합니다. 그리고 기계가 예측한 답과 실제 정답인 y_test를 비교하면서 기계가 정답을 얼마나 맞췄는지를 평가합니다. 이 수치가 기계의 정확도(Accuracy)가 됩니다.

## 2. X와 Y 분리하기

### 1) zip 함수를 이용하여 분리하기

#### zip()함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 합니다. 리스트의 리스트 구성에서 zip 함수는 X와 y를 분리하는데 유용합니다.

In [1]:
X, y = zip( [ 'a', 1 ], [ 'b', 2 ], [ 'c', 3 ] )
print( X )
print( y )

('a', 'b', 'c')
(1, 2, 3)


In [2]:
sequences = [ [ 'a', 1 ], [ 'b', 2 ], [ 'c',  3 ] ] # 리스트의 리스트 또는 행렬 또는 2D 텐서
X, y = zip( *sequences ) 
print( X )
print( y )

('a', 'b', 'c')
(1, 2, 3)


### 2) 데이터프레임을 이용하여 분리하기

In [3]:
import pandas as pd

In [6]:
values = [ [ '당신에게 드리는 마지막 혜택!', 1 ],
           [ '내일 뵐 수 있을지 확인 부탁드...', 0 ],
           [ '길동씨, 잘 지내시죠? 오랜만입...', 0 ],
           [ '(광고) AI로 주가를 예측할 수 있다!', 1 ] ]
columns = [ '메일 본문', '스팸 메일 유무' ]

df = pd.DataFrame( values, columns = columns )
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,"길동씨, 잘 지내시죠? 오랜만입...",0
3,(광고) AI로 주가를 예측할 수 있다!,1


#### 데이터프레임은 열의 이름으로 각 열에 접근이 가능하므로, 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있다.

In [7]:
X = df[ '메일 본문' ]
y = df[ '스팸 메일 유무' ]

In [9]:
print( X )

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      길동씨, 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [10]:
print( y )

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


## 3) Numpy를 이용하여 분리하기

In [11]:
import numpy as np

In [12]:
ar = np.arange( 0, 16 ).reshape( ( 4, 4 ) )
print( ar )

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [13]:
X = ar[ :, :3 ]
print( X )

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [14]:
y = ar[ :, 3 ]
print( y )

[ 3  7 11 15]


## 3. 테스트 데이터 분리하기

#### 이미 X와 y가 분리된 데이터에 대하여 테스트 데이터를 분리하는 과정

### 1) Scikit-learn을 이용하여 분리하기

#### Scikit-learn은 학습용 데이터와 테스트용 데이터를 분리하게 해주는 train_test_split()를 지원

In [15]:
from sklearn.model_selection import train_test_split

In [16]:
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.2, random_state = 1234 )

#### train_test_split() 인수 설명
X : 독립 변수 데이터. (배열이나 데이터프레임)  

y : 종속 변수 데이터. 레이블 데이터. 

test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다. 

train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다. 
(test_size와 train_size 중 하나만 기재해도 가능) 

random_state : 난수 시드

In [17]:
X, y = np.arange( 10 ).reshape( ( 5, 2 ) ), range( 5 ) # 임의로 X와 y가 분리된 데이터 생성
print( X )
print( list( y ) ) # 레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [18]:
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size = 0.33, random_state = 1234 )
# 3분의 1만 test 데이터로 지정
# random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.

In [19]:
print( X_train )
print( X_test )

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [20]:
print( y_train )
print( y_test )

[1, 2, 3]
[4, 0]


### 2) 수동으로 분리하기

In [21]:
X, y = np.arange( 0, 24 ).reshape( ( 12, 2 ) ), range( 12 )

In [22]:
print( X )

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [23]:
print( list( y ) )

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


#### 훈련 데이터와 테스트 데이터의 개수를 정한다. n_of_train은 훈련 데이터 개수, n_of_test는 테스트 데이터 개수

In [24]:
n_of_train = int( len( X ) * 0.8 ) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int( len( X ) - n_of_train ) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print( n_of_train )
print( n_of_test )

9
3


#### 주의점은 아직 훈련 데이터와 테스트 데이터를 나눈 것이 아니라, 이 두 개의 개수를 몇 개로 할지 정하기만 한 상태

#### 또한 여기서 n_of_train을 len(X) * 0.8로 구했듯이 n_of_test 또한 len(X) * 0.2로 계산하면 되지 않을까라고 생각할 수 있지만, 그렇게 할 경우에는 데이터에 누락이 발생합니다. 예를 들어서 전체 데이터의 개수가 4,518이라고 가정했을 때 4,518의 80%의 값은 3,614.4로 소수점을 내리면 3,614가 됩니다. 또한 4,518의 20%의 값은 903.6으로 소수점을 내리면 903이 됩니다. 그리고 3,614 + 903 = 4517이므로 데이터 1개가 누락된 것을 알 수 있습니다. 그러므로 어느 한 쪽을 먼저 계산하고 그 값만큼 제외하는 방식으로 계산해야 합니다.

In [25]:
X_test = X[ n_of_train: ] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[ n_of_train: ] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[ :n_of_train ] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장 
y_train = y[ :n_of_train ] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장

#### 실제로 데이터를 나눌 때도 n_of_train와 같이 하나의 변수만 사용하면 데이터의 누락을 방지할 수 있습니다. 앞에서 구한 데이터의 개수만큼 훈련 데이터와 테스트 데이터를 분할합니다.

In [27]:
print( X_train )
print( list( y_train ) )

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
[0, 1, 2, 3, 4, 5, 6, 7, 8]


In [29]:
print( X_test )
print( list( y_test ) )

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
