<a href="https://colab.research.google.com/github/Hayeon101/deep-learning-basic/blob/main/01/01_05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

### 1. 지도 학습(Supervised Learning)

지도 학습의 훈련 데이터는 '문제'에 해당하는 데이터와 '정답'이 적혀있는 데이터로 구성되어 있습니다.
기계는 문제와 정답을 함께 보면서 공부하고, 나중에 문제만 보고서도 정답을 예측하는 것을 목표로 훈련합니다.

비교적 많은 수의 훈련 데이터는 'train'이라고 이름 짓고, 예측을 잘 하는지 확인하기 위한 테스트 데이터는 'test'라고 이름 짓습니다.
이 'test'에서 얼마나 정답을 맞췄는지가 정확도(Accuracy)가 됩니다.

### 2. X와 y 분리하기

#### 1) zip 함수를 이용하여 분리하기

In [None]:
X, y = zip(['a',1],['b',2],['c',3])
print('X 데이터 :',X)
print('y 데이터 :',y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [None]:
# 리스트의 리스트 또는 행렬 뒤에서 배울 개념인 2D 텐서.
sequences = [['a',1],['b',2],['c',3]]
X, y = zip(*sequences)
print('X 데이터 :',X)
print('y 데이터 :',y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


#### 2) 데이터프레임을 이용하여 분리하기

In [None]:
values = [['당신에게 드리는 마지막 혜택!',1],
          ['내일 뵐 수 있을지 확인 부탁드...',0],
          ['도연씨. 잘 지내시죠? 오랜만입...',0],
          ['(광고) AI로 주가를 예측할 수 있다!',1]]
columns = ['메일 본문','스팸 메일 유무']

df = pd.DataFrame(values,columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [None]:
X = df['메일 본문']
y = df['스팸 메일 유무']

print('X 데이터 :',X.to_list())
print('y 데이터 :',y.to_list())

X 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


#### 3) Numpy를 이용하여 분리하기

In [None]:
np_array = np.arange(0,16).reshape((4,4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [None]:
X = np_array[:, :3]
y = np_array[:,3]
print('X 데이터 :')
print(X)
print('y 데이터 :',y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


### 3. 테스트 데이터 분리하기

#### 1) 사이킷 런을 이용하여 분리하기

In [None]:
# 임의로 X와 y 데이터를 생성
X, y = np.arange(10).reshape((5,2)), range(5)

print("X 전체 데이터 :")
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [None]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

In [None]:
print('X 훈련 데이터 :')
print(X_train)
print('X 테스트 데이터 :')
print(X_test)

X 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 :
[[8 9]
 [0 1]]


In [None]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


In [None]:
# random_state의 값을 변경
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=1)

print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


#### 2) 수동으로 분리하기

In [None]:
# 실습을 위해 임의로 X와 y가 이미 분리된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))

X 전체 데이터 :
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


데이터의 개수를 직접 나눌 때에는 누락되는 값이 발생하지 않기 위해 어느 한 쪽을 먼저 계산하고 그 값만큼 제외하여야 합니다.

In [None]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이 값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.

print("훈련 데이터의 크기 :",num_of_train)
print('테스트 데이터의 크기 :',num_of_test)

훈련 데이터의 크기 : 9
테스트 데이터의 크기 : 3


In [None]:
X_test = X[num_of_train:] # 전체 데이터 중에서 80%의 뒤의 데이터 저장
y_test = y[num_of_train:]
X_train = X[:num_of_train] # 전체 데이터 중에서 앞 20%의 데이터 저장
y_train = y[:num_of_train]

In [None]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))

X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]


수동으로 데이터를 분리하면 train_test_split()과는 다르게 데이터가 섞이지 않은 채 어느 지점에서 데이터를 앞과 뒤로 분리하게 됩니다. 이때는 수동으로 데이터를 섞는 작업이 필요할 수도 있습니다.