# 1. 지도 학습(Supervised Learning)
**훈련 데이터**
- X_train: 문제 데이터
- y_train: 문제 정답 데이터

**테스트 데이터**
- X_test: 시험 데이터
- y_test: 시험 정답 데이터

1. 기계는 X_train과 y_train을 학습   
2. 기계에게 X_test에 대해 정답을 예측하게 함
3. 예측 값과 y_test를 비교하며 accuracy 도출 및 평가

# 2. X와 y분리하기
> **1) zip 함수를 이용하여 분리하기**

In [1]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [2]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


> **2) 데이터프레임을 이용하여 분리하기**

In [3]:
import pandas as pd

values = [ ['당신에게 드리는 마지막 혜택!', 1],
           ['내일 뵐 수 있을지 확인 부탁드...', 0],
           ['도연씨. 잘 지내시죠? 오랜만입...', 1],
           ['(광고) AI로 주가를 예측할 수 있다!', 1] ]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,1
3,(광고) AI로 주가를 예측할 수 있다!,1


In [4]:
X = df['메일 본문']
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [5]:
y = df['스팸 메일 유무']
print(y)

0    1
1    0
2    1
3    1
Name: 스팸 메일 유무, dtype: int64


> **3) Numpy를 이용하여 분리하기**

In [6]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [7]:
X = ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [8]:
y = ar[:, 3]
print(y)

[ 3  7 11 15]


# 3. 테스트 데이터 분리하기
> **1) 사이킷런을 이용하여 분리하기**   
> X: 독립 변수(배열이나 데이터프레임)   
> Y: 종속 변수, 레이블 데이터

In [9]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(10).reshape((5,2)), range(5)
print(X)
print(list(y))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.33, random_state=1234)
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [11]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


> **2) 수동으로 분리하기**

In [12]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
print(X)
print(list(y))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [13]:
n_of_train = int(len(X) * 0.8)
# 계산한 쪽 값을 제외해야 누락이 발생하지 않음
n_of_test = int(len(X) - n_of_train)
print(n_of_train)
print(n_of_test)

9
3


In [14]:
# 데이터를 나눌 때 변수 하나만 사용하면 데이터의 누락 방지
X_train = X[:n_of_train]
y_train = y[:n_of_train]
X_test = X[n_of_train:]
y_test = y[n_of_train:]

print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
