In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 1. 지도 학습
|텍스트|레이블|
| --- | --- |
|당신에게 드리는 마지막 혜택! ...|스팸 메일|
|내일 뵐 수 있을지 확인 부탁...|정상 메일|

- 데이터가 20,000개가 있다고 가정.

1. X에 텍스트를 넣는다.
2. y에 레이블을 넣는다.
3. X와 y에서 테스트용 데이터 2,000개를 추출

- 데이터
  - X_train: 문제지 데이터
  - y_train: 문제지에 대한 정답 데이터
  - X_test: 시험지 데이터
  - y_test: 시험지에 대한 정답 데이터

- X_train과 y_train 데이터를 함께 보면서 규칙을 도출하면서 정리해나간다.
- X_test와 y_test로 정답을 얼마나 맞췄는지 평가(Evaluate)한다. 이 수치가 정확도(Accuracy)가 된다.

In [None]:
X, y = zip(['a', 1], ['b', 2], ['c', 3]) # 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할
print('x 데이터 :', X)
print('y 데이터 :', y)

x 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [3]:
sequences = [['a', 1], ['b', 2], ['c', 3]]
X, y = zip(*sequences)
print('x 데이터 :', X)
print('y 데이터 :', y)

x 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


DataFrame을 이용해 분리

In [4]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [5]:
X = df['메일 본문']
y = df['스팸 메일 유무']

print('X 데이터 :', X.to_list())
print('y 데이터 :', y.to_list())

X 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


Numpy를 이용하여 분리

In [6]:
np_array = np.arange(0, 16).reshape((4, 4))
print('전체 데이터 :')
print(np_array)

전체 데이터 :
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [8]:
X = np_array[:, :3]
y = np_array[:, 3]
print('X 데이터 :', X)
print('y 데이터 :', y)


X 데이터 : [[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234)

- X: 독립 변수 데이터
- y: 종속 변수 데이터
- test_size: 테스트용 데이터 개수 (1보다 작은 실수를 기재할 경우 비율)
- train_size: 테스트용 데이터 개수 (1보다 작은 실수를 기재할 경우 비율)
- random_state: 난수 시드


In [11]:
X, y = np.arange(10).reshape(5, 2), range(5)
print('X 전체 데이터 :', X)
print('y 전체 데이터 :', list(y))

X 전체 데이터 : [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터 : [0, 1, 2, 3, 4]


In [14]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

print('X 훈련 데이터 :', X_train)
print('X 테스트 데이터 :', X_test)
print('y 훈련 데이터 :', list(y_train))
print('y 테스트 데이터 :', list(y_test))


X 훈련 데이터 : [[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터 : [[8 9]
 [0 1]]
y 훈련 데이터 : [1, 2, 3]
y 테스트 데이터 : [4, 0]


In [15]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

print('X 훈련 데이터 :', X_train)
print('X 테스트 데이터 :', X_test)
print('y 훈련 데이터 :', list(y_train))
print('y 테스트 데이터 :', list(y_test))


X 훈련 데이터 : [[8 9]
 [0 1]
 [6 7]]
X 테스트 데이터 : [[4 5]
 [2 3]]
y 훈련 데이터 : [4, 0, 3]
y 테스트 데이터 : [2, 1]


In [3]:
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
X, y = np.arange(0,24).reshape((12,2)), range(12)

print('X 전체 데이터 :')
print(X)
print('y 전체 데이터 :')
print(list(y))


X 전체 데이터 :
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터 :
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [5]:
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print('훈련 데이터의 크기 :',num_of_train)
print('테스트 데이터의 크기 :',num_of_test)

X_test = X[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:] # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train] # 전체 데이터 중에서 80%만큼 앞의 데이터 저장


훈련 데이터의 크기 : 9
테스트 데이터의 크기 : 3


In [6]:
print('X 테스트 데이터 :')
print(X_test)
print('y 테스트 데이터 :')
print(list(y_test))



X 테스트 데이터 :
[[18 19]
 [20 21]
 [22 23]]
y 테스트 데이터 :
[9, 10, 11]
