In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 1. 지도 학습(Supervised Learning)

**<훈련 데이터>**
- X_train : 문제지 데이터
- y_train : 문제지에 대한 정답 데이터

**<테스트 데이터>**
- X_test : 시험지 데이터
- y_test : 시험지에 대한 정답 데이터

# 2. X와 y 분리하기

#### 1) zip 함수를 이용하여 분리하기
zip() : 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할

In [2]:
X, y=zip(['a',1],['b',2],['c',3])
print("X 데이터 :",X)
print("y 데이터 :",y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [3]:
# 리스트의 리스트 또는 행렬 또는 2D 텐서
sequences=[['a',1],['b',2],['c',3]]
X, y=zip(*sequences)
print("X 데이터 :",X)
print("y 데이터 :",y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


#### 2) 데이터프레임을 이용하여 분리하기

In [4]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns=['메일 본문','스팸 메일 유무']

df=pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [5]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [6]:
print('X 데이터 :', X.to_list())
print('y 데이터 :', y.to_list())

X 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


#### 3) Numpy를 이용하여 분리하기

In [7]:
np_array=np.arange(0,16).reshape((4,4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [8]:
X=np_array[:,:3]
y=np_array[:,3]

print("X 데이터 :")
print(X)
print('y 데이터 :', y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


# 3. 테스트 데이터 분리하기

#### 1) 사이킷 런을 이용하여 분리하기
train_test_split() 이용

```python
X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.2, random_state=42)
```

In [9]:
X, y=np.arange(10).reshape((5,2)), range(5)

print("X 전체 데이터 : \n",X)
print('y 전체 데이터 :',y)

X 전체 데이터 : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 : range(0, 5)


In [10]:
X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.3, random_state=42)

In [11]:
print("X 훈련 데이터 :\n",X_train)
print("X 테스트 데이터 :\n", X_test)

X 훈련 데이터 :
 [[4 5]
 [0 1]
 [6 7]]
X 테스트 데이터 :
 [[2 3]
 [8 9]]


In [12]:
print('y 훈련 데이터 :')
print(y_train)
print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[2, 0, 3]
y 테스트 데이터 :
[1, 4]


#### 2) 수동으로 분리하기

In [13]:
X,y= np.arange(0,24).reshape((12,2)), range(12)

print("X 전체 데이터 : \n",X)
print('y 전체 데이터 :\n',list(y))

X 전체 데이터 : 
 [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [14]:
num_of_train=int(len(X)*0.8)
num_of_test=int(len(X)-num_of_train)
print('훈련 데이터 크기 :',num_of_train)
print('테스트 데이터 크기 :', num_of_test)

훈련 데이터 크기 : 9
테스트 데이터 크기 : 3


In [15]:
X_train=X[:num_of_train]
X_test=X[num_of_train:]
y_train=y[:num_of_train]
y_test=y[num_of_train:]

In [16]:
print("X 테스트 데이터 :\n",X_test)
print("y 테스트 데이터 :\n", list(y_test))

X 테스트 데이터 :
 [[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
 [9, 10, 11]
