# Splitting Data

In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

## 1. 지도 학습

train data를 통해 문제와 정답을 통해 연관성을 학습\
test data를 통해 문제를 풀고 정답을 맞춰봄\
실제 정답과의 정확성(accuracy)를 확인

## 2. x와 y 분리

### 1) zip 함수를 이용하여 분리

zip() 함수는 동일한 개수를 가지는 sequence 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 한다\
list의 list 구성에서 zip 함수는 X와 y를 분리하는데 사용

In [7]:
X, y = zip(['a',1],['b', 2], ['c', 3])
print('X 데이터:' , X)
print('y 데이터: ', y)

X 데이터: ('a', 'b', 'c')
y 데이터:  (1, 2, 3)


각 data에서 첫번째로 등장한 원소들끼리 묶이고, 두번째로 등장한 원소들끼리 묶인 것을 확인 할 수 있다\
이를 각각 X data와 y data로 사용할 수 있다

### 2) dataframe을 이용 

In [11]:
values = [['당신에게 드리는 마지막 혜택!',1],
['내일 뵐 수 있을지 확인 부탁드...',0],
['도연씨, 잘 지내시죠? 오랜만입...',0],
['(광고) AI로 주가를 예측할 수 있다!',1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df 

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,"도연씨, 잘 지내시죠? 오랜만입...",0
3,(광고) AI로 주가를 예측할 수 있다!,1


Dataframe은 column의 이름으로 각 열에 접근이 가능하다.\
이를 이용하면 X data와 y data를 분리할 수 있다

In [12]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [14]:
# X와 y data 출력

print('X 데이터: ', X.to_list())
print('y 데이터: ', y.to_list())

X 데이터:  ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨, 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터:  [1, 0, 0, 1]


### 3) Numpy를 이용해 분리

임의의 data를 만들어서 Numpy의 slicing을 이용하여 data 분리

In [26]:
np_array = np.arange(0,16).reshape((4,4))

print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [27]:
# 마지막 열을 제외하고 X 데이터에 저장. 마지막 열은 y 데이터에 저장

X = np_array[:, :3]
y = np_array[:,3]

print('X 데이터 :')
print(X)
print('y 데이터 :', y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


## 3. test data split(테스트 데이터 분리)

이미 X와 y가 분리된 data에 대해서 test data를 분리하는 과정에 대해서 알아볼 것

### 1) sci-kit learn을 이용하여 분리

scikit learn은 train용 data와 test data를 분리하는 도구인 **train_test_split()** 을 지원


In [28]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state  =1234)

X: 독립 변수 data (array or dataframe)\
y: 종속 변수 data. Label data\

test_size: 테스트용 data 개수를 지정.1보다 작은 실수 -> 비율을 의미\
train_size: 학습용 data 개수를 지정. 1보다 작은 실수 -> 비율을 의미

random_state: 난수 시드


In [29]:
# 임의로 X data와 y data를 생성

X, y = np.arange(10).reshape((5,2)), range(5)

print('X의 전체 데이터: ')
print(X)
print('y의 전체 데이터: ')
print(list(y))

X의 전체 데이터: 
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y의 전체 데이터: 
[0, 1, 2, 3, 4]


train_test_split() -> 데이터의 순서를 섞고 나서 훈련 data와 test data를 분리\
만약 random_state의 값을 특정 숫자로 기재하고 다음에도 동일한 숫자로 기재 -> 항상 동일한 훈련 데이터와 테스트 데이터를 얻을 수 있다\
하지만 값을 변경하면 이전과 다른 train data와 test data를 얻는다

**즉 random_state가 다르다면 데이터가 다른 순서로 섞였다는 의미** \
\
**random_state의 값을 고정해두면 실행할 때마다 동일한 순서로 데이터를 섞으므로 동일한 코드를 다음에 재현할 때 사용할 수 있다**

### 2) 수동으로 분리

data를 분리하는 방법 중 하나는 수동으로 분리하는 것.\
임의로 x 데이터와 y 데이터를 만들어 볼 것

In [6]:
# 임의로 x와 y가 이미 분리된 데이터를 생성

X,y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터')
print(X)
print('y 전체 데이터')
print(list(y))

X 전체 데이터
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


train 데이터의 개수와 test 데이터의 개수를 정할 것\
\
num_of_train : train data의 개수\
num_of_test : test data의 개수


In [7]:
num_of_train = int(len(X) * 0.8)    # 데이터의 전체 길이의 80%에 해당하는 길이의 값을 구한다
num_of_test = int(len(X) - num_of_train)    # 전체 길이에서 80%에 해당하는 길이를 뺌

print('훈련 데이터의 크기: ', num_of_train)
print('테스트 데이터의 크기 : ', num_of_test)

훈련 데이터의 크기:  9
테스트 데이터의 크기 :  3


**유의점!** \
\
아직 훈련 데이터와 테스트 데이터를 나눈 것이 아니라 이 두 개의 개수를 몇 개로 할지 정하기만 한 상태\
=> num_of_test를 len(X) * 0.2로 계산하면 안된다(데이터의 누락이 발생할 수 있음)\
\
ex) 전체 데이터 개수를 4,518이라 할 때, 4,518의 80%는 3614.4로 소수점이 발생 -> 소수점 제거시 3614\
4,518의 20%는 903.6 -> 소수점 내리면 903

이 둘의 합은 4517으로 1개의 data가 누락됨

**어느 한 쪽을 먼저 계산하고 그 값만큼을 제외하는 방식으로 계산하면 누락된 data를 막을 수 있다**


In [9]:
X_test = X[num_of_train:]   # 전체 data에서 20%만큼 뒤의 데이터를 저장
y_test = y[num_of_train:]   # 전체 data에서 20%만큼 뒤의 데이터를 저장
X_train = X[:num_of_train]  # 전체 data에서 80%만큼 앞의 데이터를 저장
y_train = y[:num_of_train]  # 전체 data에서 80%만큼 앞의 데이터를 저장

**데이터를 나눌때에는 하나의 변수만 사용하면 데이터의 누락을 방지할 수 있다** \
\
앞에서 구한 데이터의 개수만큼 훈련 데이터와 테스트 데이터를 분할한다.\
테스트 데이터를 출력하여 정상적으로 분리되었는지 확인한다.

In [10]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))

X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]
