<a href="https://colab.research.google.com/github/seoharuss/AI_study/blob/main/SplittingData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터의 분리(Splitting Data)

지도 학습을 위한 데이터 분리 작업

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

### x와 y 분리하기

`zip()`
- 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할

### 테스트 데이터 분리하기

x와 y가 이미 분리된 데이터에 대해서 테스트 데이터를 분리하는 과정


#### 사이킷런
- `train_test_split()`
- 기본적으로 데이터의 순서를 섞고나서 훈련 데이터와 테스트 데이터를 분리한다.
- 만약 random_state의 값을 특정 숫자로 기재해준 뒤에 다음에도 동일한 숫자로 기재해주면 항상 동일한 훈련 데이터와 테스트 데이터를 얻을 수 있다.

In [None]:
X_train, X_test, y_train, y_test =
    train_test_split(X, y, test_size= 0.2, random_state=1234)


각 인자는 다음을 의미한다.
train_size와 test_size는 둘 중 하나만 기재해도 된다.

X : 독립 변수 데이터. (배열이나 데이터프레임)

y : 종속 변수 데이터. 레이블 데이터.

test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.

train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.

random_state : 난수 시드

#### 수동으로 분리하기

In [None]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

# X 전체 데이터 :
# [[ 0  1]
#  [ 2  3]
#  [ 4  5]
#  [ 6  7]
#  [ 8  9]
#  [10 11]
#  [12 13]
#  [14 15]
#  [16 17]
#  [18 19]
#  [20 21]
#  [22 23]]
# y 전체 데이터 :
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

훈련 데이터의 개수와 테스트 데이터의 개수를 정해보자.

num_of_train은 훈련 데이터의 개수를 의미하며, num_of_test는 테스트 데이터의 개수를 의미한다.

In [None]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print('훈련 데이터의 크기 :',num_of_train)
print('테스트 데이터의 크기 :',num_of_test)

# 훈련 데이터의 크기 : 9
# 테스트 데이터의 크기 : 3

아직 훈련 데이터와 테스트 데이터를 나눈 것이 아니라 이 두 개의 개수를 몇 개로 할지 정하기만 한 상태다.

여기서 num_of_test를 len(X) * 0.2로 계산해서는 안된다.
- 데이터에 누락이 발생할 수 있다.

예를 들어서 전체 데이터의 개수가 4,518이라고 가정했을 때 4,518의 80%의 값은 3,614.4로 소수점을 내리면 3,614가 된다.

또한 4,518의 20%의 값은 903.6으로 소수점을 내리면 903이 된다.

그리고 3,614 + 903 = 4517이므로 데이터 1개가 누락이 된다.

그러므로 어느 한 쪽을 먼저 계산하고 그 값만큼 제외하는 방식으로 계산해야 한다.

In [None]:
X_test = X[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장

데이터를 나눌 때는 num_of_train와 같이 하나의 변수만 사용하면 데이터의 누락을 방지할 수 있다.

앞에서 구한 데이터의 개수만큼 훈련 데이터와 테스트 데이터를 분할한다.

그리고 테스트 데이터를 출력하여 정상적으로 분리되었는지 확인한다.

In [None]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))

# X 테스트 데이터 :
# [[18 19]
#  [20 21]
#  [22 23]]
# y 테스트 데이터 :
# [9, 10, 11]


각 길이가 3인 것을 확인했습니다.

train_test_split()과 다른 점은 데이터가 섞이지 않은 채 어느 지점에서 데이터를 앞과 뒤로 분리했다는 점입니다.

만약, 수동으로 분리하게 된다면 데이터를 분리하기 전에 수동으로 데이터를 섞는 과정이 필요할 수 있습니다.