In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 1. 지도 학습(Supervised Learning)

# 2. X와 y분리하기

## 1) zip 함수를 이용하여 분리하기

In [6]:
# zip 함수 : 옷의 지퍼(zipper)처럼 여러 그룹의 데이터를 서로 엮어주는 함수
# 여러 개의 순회 가능한(iterable) 객체를 인자로 받고, 각 객체가 담고 있는 같은 위치의 원소들을 튜플의 형태로 반환
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print('X 데이터 :', X)
print('y 데이터 :', y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [8]:
# *(asterisk) : unpack 개념(2차원 list를 1차원으로 풀어준다.)
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print('X 데이터 :',X)
print('y 데이터 :',y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


## 2) 데이터프레임을 이용하여 분리하기

In [9]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [10]:
X = df['메일 본문']
y = df['스팸 메일 유무']

print('X 데이터 :', X.to_list())
print('y 데이터 :', y.to_list())

X 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


## 3) Numpy를 이용하여 분리하기

In [11]:
np_array = np.arange(0, 16).reshape((4, 4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [12]:
X = np_array[:, :3]
y = np_array[:, 3]

print('X 데이터 :')
print(X)
print('y 데이터 :', y)

X 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


# 3. 테스트 데이터 분리하기

## 1) 사이킷 런을 이용하여 분리하기

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

In [14]:
# 임의로 X와 y 데이터를 생성
X = np.arange(10).reshape((5, 2))
y = range(5)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))


X 전체 데이터 :
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 :
[0, 1, 2, 3, 4]


In [15]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

In [16]:
print('X 훈련 데이터 :')
print(X_train)

print('X 테스트 데이터 :')
print(X_test)

X 훈련 데이터 :
[[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 :
[[8 9]
 [0 1]]


In [17]:
print('y 훈련 데이터 :')
print(y_train)

print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[1, 2, 3]
y 테스트 데이터 :
[4, 0]


In [19]:
# random_state의 값을 변경
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

print('y 훈련 데이터 :')
print(y_train)

print('y 테스트 데이터 :')
print(y_test)

y 훈련 데이터 :
[4, 0, 3]
y 테스트 데이터 :
[2, 1]
