# Data 나누기 (Splitting Data)

지도학습 : 문제와 정답을 함께 제공

컴퓨터 입장 : 문제와 정답이 적혀있는 문제지를 보고 분석 -> 나중에 문제만 받았을 때, 가장 적절한 답을 도출하는 것

x,y 로 분리

x.train, x_test : 문제지 데이터 / 시험지 데이터

y.train, y_test : 문제지 정답 데이터 / 시험지 정답 데이터

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [None]:
# zip 함수 이용하여 분리하기
# zip() : 같은 개수를 가진 순서가 있는 자료형에서 같은 위치에 있는 요소끼리 묶어서 나누기
a,b=zip(['x',100],['y',200],['z',300])
print(a)
print(b)

('x', 'y', 'z')
(100, 200, 300)


In [None]:
# 데이터프레임을 이용하여 분리하기
values = [['피곤하시다고요?',1],
          ['곧 점심시간이네',0],
          ['밥 안먹고 쉬어야지',0],
          ['(광고) 피곤할때는 비타민',1]] # 스팸은 1로
columns = ['글 내용', '스팸 유무']
df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,글 내용,스팸 유무
0,피곤하시다고요?,1
1,곧 점심시간이네,0
2,밥 안먹고 쉬어야지,0
3,(광고) 피곤할때는 비타민,1


In [None]:
x = df['글 내용']
y = df['스팸 유무']

print(x)
print(y)

0          피곤하시다고요?
1          곧 점심시간이네
2        밥 안먹고 쉬어야지
3    (광고) 피곤할때는 비타민
Name: 글 내용, dtype: object
0    1
1    0
2    0
3    1
Name: 스팸 유무, dtype: int64


In [None]:
# list의 형태로 출력
print('x 데이터 : ',x.to_list())
print('y 데이터 : ',y.to_list())

x 데이터 :  ['피곤하시다고요?', '곧 점심시간이네', '밥 안먹고 쉬어야지', '(광고) 피곤할때는 비타민']
y 데이터 :  [1, 0, 0, 1]


In [None]:
# Numpy를 이용해서 데이터 분리하기
# 임의의 데이터를 만들어서 -> Slicing을 통해 데이터 분리

np_array = np.arange(0,16).reshape((4,4))
print('전체 데이터 : ')
print(np_array)

전체 데이터 : 
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [None]:
# 마지막 열을 제외하고 x에 저장
x = np_array[:,:3]
# 마지막 열만 y에 저장
y = np_array[:,3]

print('x')
print(x)
print()
print('y : ',y)

x
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]

y :  [ 3  7 11 15]


# 테스트 데이터 분리하기

# Scikit-learn을 이용하여 분리

In [None]:
# Scikit-learn은 학습용 데이터와 테스트용 데이터를 쉽게 분리할 수 있게 해주는 
#     train_test_split()을 지원해줌

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2, random_state=1234, shuffle=True)

# x : 독립 변수 데이터 (배열이나 데이터프레임)
# y : 종속 변수 데이터, 레이블 데이터
#   레이블 : 학습 데이터의 무엇을 분석할지에 따라서 정의되는 데이터
# test_size : 테스트용 데이터 개수를 지정함 / 1보다 작은 실수를 입력하면, 비율을 나타냄
# train_size : 학습용 데이터 개수를 지저함 / 1보다 작은 실수를 입력하면, 비율을 나타냄
#   test_size와 train_size는 둘 중 하나만 입력해도 됨
# random_state : 난수 시드
# shuffle : 데이터를 섞느냐 마느냐

In [None]:
# 임의로 x와 y 데이터 생성

x,y = np.arange(0,15).reshape((5,3)), range(5)
print('x : ')
print(x)
print('y : ')
print(list(y))

x : 
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]]
y : 
[0, 1, 2, 3, 4]


In [None]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터를 분리
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3,random_state=0)

In [None]:
# 70%의 비율로 분리된 x의 훈련 데이터와 30%의 비율로 분리된 x의 테스트 데이터
print('x훈련 데이터 : ')
print(x_train)
print('x 테스트 데이터 : ')
print(x_test)

x훈련 데이터 : 
[[ 3  4  5]
 [ 9 10 11]
 [12 13 14]]
x 테스트 데이터 : 
[[6 7 8]
 [0 1 2]]


In [None]:
# 70%의 비율로 분리된 y의 훈련 데이터와 30% 비율로 분리된 y의 테스트 데이터
print('y 훈련 데이터 : ')
print(y_train)
print('y 테스트 데이터 : ')
print(y_test)

# 수동으로 분리하기

In [None]:
x, y = np.arange(24).reshape(12,2), range(12)

print('x 전체 : ')
print(x)
print('y 전체 : ')
print(list(y))

x 전체 : 
[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 : 
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [None]:
# 훈련 데이터의 개수와 테스트 데이터의 개수 정하기

num_of_train = int(len(x) * 0.8)      # 훈련 데이터의 개수 : x의 전체 데이터의 80%
num_of_test = len(x) - num_of_train   # 테스트 데이터의 개수 : 전체 - 80%


print(num_of_train)
print(num_of_test)

9
3


In [None]:
# 아직 훈련 데이터와 테스트 데이터를 나눈 것은 아니고.
# 이 둘의 개수를 몇 개로 할 지 정하기만 한 상태
# x, y 데이터의 80%만큼 앞의 데이터를 훈련 데이터로,
# 나머지 20%만큼의 뒤의 데이터를 테스트 데이터로

x_train = x[:num_of_train]
y_train = y[:num_of_train]
x_test = x[num_of_train:]
y_test = y[num_of_train:]

In [None]:
print(x_train)
print(list(y_train))
print(x_test)
print(list(y_test))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
[0, 1, 2, 3, 4, 5, 6, 7, 8]
[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
