In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 지도 학습 (Supervised Learning)

지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있다. 향후에 정답이 없는 문제에 대해서도 정답을 잘 예측해야 한다.

# X, y 분리

## 1) zip 함수를 이용하여 분리하기

In [2]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print("X:", X)
print("y:", y)

X: ('a', 'b', 'c')
y: (1, 2, 3)


In [3]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print("X:", X)
print("y:", y)

X: ('a', 'b', 'c')
y: (1, 2, 3)


## 2) 데이터프레임을 이용하여 분리하기

In [4]:
values = [['당신에게 드리는 마지막 혜택!', 1],
          ['내일 뵐 수 있을지 확인 부탁드...', 0],
          ['철수씨. 잘 지내시죠? 오랜만입...', 0],
          ['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns) # dataframe에는 list 데이터 형태 입력
print(df)

                    메일 본문  스팸 메일 유무
0        당신에게 드리는 마지막 혜택!         1
1    내일 뵐 수 있을지 확인 부탁드...         0
2    철수씨. 잘 지내시죠? 오랜만입...         0
3  (광고) AI로 주가를 예측할 수 있다!         1


In [8]:
X =  df['메일 본문']
y = df['스팸 메일 유무']
print("X:", X.to_list())
print("y:", y.to_list())

X: ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '철수씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y: [1, 0, 0, 1]


## 3) Numpy를 이용하여 분리하기

In [9]:
np_array = np.arange(0, 16).reshape((4, 4))
print(np_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [10]:
X = np_array[:, :3] # 모든 rows, 0~2 columns
y = np_array[:, 3] # 모든 rows, 3 column

print(X)
print(y)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
[ 3  7 11 15]


# 테스트 데이터 분리하기

## 1) 사이킷런을 이용하여 분리하기

In [11]:
'''
Sample code
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)
'''
# X: 독립 변수(배열이나 데이터프레임)
# y: 종속 변수(레이블 데이터)
# test_size: 테스트용 데이터 개수. 1보다 작을 경우 비율
# train_sze: 학습용 데이터 개수. 1보다 작을 경우 비율
# random_state: 난수 시드

'\nSample code\nX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)\n'

In [14]:
# 임의로 X와 y 데이터를 생성
X, y = np.arange(10).reshape((5, 2)), range(5)

print('X\n', X)
print('y\n', list(y))

X
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y
 [0, 1, 2, 3, 4]


In [15]:
# 7:2의 비율로 훈련데이터 / 테스트데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

print("X train:\n", X_train)
print("X test:\n", X_test)
print("y train:\n", y_train)
print("y test:\n", y_test)

X train:
 [[2 3]
 [4 5]
 [6 7]]
X test:
 [[8 9]
 [0 1]]
y train:
 [1, 2, 3]
y test:
 [4, 0]


## 2) 수동으로 분리하기

In [16]:
# 임의로 X, y 데이터 생성
X, y = np.arange(0, 24).reshape((12, 2)), range(12)

print('X\m', X)
print('y\n', y)

X\m [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y
 range(0, 12)


In [18]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀 길이
print("num of train:", num_of_train)
print("num of test:", num_of_test)

num of train: 9
num of test: 3


In [19]:
X_train = X[:num_of_train]
y_train = y[:num_of_train]
X_test = X[num_of_train:]
y_test = y[num_of_train:]

print('X train:\n', X_train)
print('y train\n', y_train)

print('X test:\n', X_test)
print('y test\n', y_test)

X train:
 [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
y train
 range(0, 9)
X test:
 [[18 19]
 [20 21]
 [22 23]]
y test
 range(9, 12)
