# 1.데이터 분리( splitting Data )
   - 머신러닝( 딥러닝 ) 모델에 데이터를 학습시키기 위해서는 데이터를 적절히 분리하는 작업이 필요

## 1. 지도학습( supervised Learning )

- 지도학습의 훈련 데이터는 정답이 무엇인지 맞춰야 하는 '문제'에 해당되는 데이터와 레이블(lable)이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있다.
- 예로 스팸 메일 분류기를 만들기 위한 데이터에 대한 메일 내용과 해당 메일이 정상 메일인지, 스팸 메일인지 적혀있는 레이블로 구성되어져 있다고 가정하고, 데이터는 20000개가 있다.

|텍스트(메일내용)|레이블(스팸 여부)|
|:---:|:---:|
|당신에게 드리는 마지막 혜택!...|스팸 메일|
|내일 뵐 수 있을지 확인 부탁..|정상 메일|
|...|...|
|(광고)멋있어질 수 있는...|스팸 메일|

- 기계를 통한 학습을 하기 위해서는 총 4개의 데이터셋으로 나눈다.
- 우선 메일 내용이 담긴 첫 번째 열을 x에 저장한다.
- 그리고 메일이 스팸인지 정상인지 정답이 적혀있는 두 번째 열을 y에 저장한다.
- 이제 20000개의 x와 20000개의 y로 나누어졌다.


- x와 y에 대해서 일부 데이터를 다시 분리한다.
- 실제 학습에 사용할 데이터와 학습 후 생성된 모델에 대한 테스트를 위한 데이터로 분리한다.
- 통상 학습용은 80%, 테스트용은 20% 비율로 나눈다.
- 이번 예에서는 학습용으로 18000개, 테스트용으로 2000개를 나누었다 가정한다.
- 이와 같은 데이터 분리시에도 x와 y의 맵핑 관계는 유지 하여야 한다.
- 어떤 x(입력, 문제)에 대한 y(정답)인지 바로 찾을 수 있어야 한다.


<훈련 데이터>   
x_train : 학습용 데이터   
y_train : 학습용 데이터에 대한 정답 데이터


<테스트 데이터>   
x_test : 테스트용 데이터   
y_test : 테스트용 데이터에 대한 정답 데이터

- x_train과  y_train에 대해서 학습을 수행한다.
- 기계는 현 상태에서는 정답지인 y_train을 볼 수 있기 때문에 x_train을 보면서 메일 내용이 정상 메일인지 스팸 메일인지 확인하여 패턴(규칙)을 도출하는 과정을 수행하여 모델을 생성한다.
- 학습이 모두 끝난 상태의 모델에 y_test는 보여주지 않고, x_test에 대해서 정답을 예측하게 한다.
- 모델이 예측한 답과 실제 정답인 y_test를 비교하면서 모델이 정답을 얼마나 맞췄는지를 평가 하는데 이 수치가 모델의 정확도(accuracy)가 된다.

## 2. x와 y분리
- zip()함수는 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할을 한다.
- 리스트 구성에서 zip()함수는 x와 y를 분리하는데 유용하다.


In [28]:
x, y = zip(['a', 1], ['b', 2], ['c', 3])
print( x )
print( y )

('a', 'b', 'c')
(1, 2, 3)


In [29]:
sequence = [['a', 1], ['b', 2], ['c', 3]]
x, y = zip( *sequence )
print( x )
print( y )

('a', 'b', 'c')
(1, 2, 3)


### 2) 데이터프레임을 이용한 분리

In [30]:
import pandas as pd

In [31]:
values = [ [ '당신에게 드리는 마지막 혜택!...', 1 ],
           [ '내일 뵐 수 있을지 확인 부탁..', 0 ], 
           [ '길동군, 잘 지내고 있나? 오랜만...', 0 ], 
           [ '(광고)AI로 주가를 예측할 수...', 1 ] ]
columns = [ '메일 본문', '스팸 메일 유무']

In [32]:
df = pd.DataFrame( values, columns = columns )
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!...,1
1,내일 뵐 수 있을지 확인 부탁..,0
2,"길동군, 잘 지내고 있나? 오랜만...",0
3,(광고)AI로 주가를 예측할 수...,1


In [33]:
x = df[ '메일 본문' ]
y = df[ '스팸 메일 유무' ]

In [34]:
print(x)

0      당신에게 드리는 마지막 혜택!...
1       내일 뵐 수 있을지 확인 부탁..
2    길동군, 잘 지내고 있나? 오랜만...
3     (광고)AI로 주가를 예측할 수...
Name: 메일 본문, dtype: object


In [35]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


### 3) Numpy를 이용한 분리

In [11]:
import numpy as np

In [20]:
ar = np.arange( 0, 16 ).reshape( ( 4, 4 ) )
print( ar )

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [15]:
x = ar[ :, :3 ]
print(x)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [17]:
y = ar[ :, 3 ]
print(y)

[ 3  7 11 15]


## 3. 테스트 데이터 분리
   - x와 y가 분리된 데이터에 대해서 테스트 데이터를 분리하는 과정

### 1) Scikit-Learn을 이용한 분리

- 훈련(학습)데이터와 테스트 데이터를 유용하게 나눌 수 있는 하나의 방법
- scikit-learn은 훈련(학습)데이터와 테스트용 데이터를 분리하게 해주는 train_test_split()함수를 지원

In [21]:
from sklearn.model_selection import train_test_split

In [36]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1234 )

x : 독립(설명)변수 데이터, 특성(feature), (배열이나 데이터프레임)   
y : 종속(반응)변수 데이터, 레이블(lable)데이터   
test_size : 테스트용 데이터의 개수를 지정한다. 1보다 작은 실수를 지정할 경우 비용을 나타낸다.   
train_size : 훈련(학습)용 데이터의 개수를 지정한다. 1보다 작은 실수를 지정할 경우 비용을 나타낸다.   
(test_size와 rain_size 중 하나만 기재해도 가능)   
random_state : 난수 seed

In [37]:
x_train

1       내일 뵐 수 있을지 확인 부탁..
2    길동군, 잘 지내고 있나? 오랜만...
3     (광고)AI로 주가를 예측할 수...
Name: 메일 본문, dtype: object

In [38]:
x_test

0    당신에게 드리는 마지막 혜택!...
Name: 메일 본문, dtype: object

In [39]:
y_train

1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64

In [40]:
y_test

0    1
Name: 스팸 메일 유무, dtype: int64

In [42]:
x, y = np.arange(10).reshape( ( 5, 2 ) ), range( 5 )
print( x )
print( list( y ) )

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [43]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.33, random_state = 1234 )

In [44]:
print(x_train)
print(x_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [45]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


In [46]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.33, random_state = 1234 )

In [47]:
print(x_train)
print(x_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [48]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


### 2) 수동으로 분리
   - 데이터를 분리하는 방법중 하나인 수동으로 분리

In [49]:
x, y = np.arange(0, 24).reshape( ( 12, 2 ) ), range( 12 )

In [50]:
print( x )
print( y )

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
range(0, 12)


In [52]:
print( y )

range(0, 12)


In [54]:
print( list( y ) )

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [55]:
# 훈련 데이터 개수와 테스트 데이터 개수를 정한다.
# n_of_train은 훈련 데이터 개수, n_of_test는 테스터 데이터 개수
n_of_train = int( len( x ) * 0.8 )
n_of_test = int( len( x ) - n_of_train )
print( n_of_train )
print( n_of_test )

9
3


- 주의할 점은 아직 훈련 데이터와 테스트 데이터를 나눈것이 아니고, 갯수만 정한것이다.
- n_of_train을 len(x)*0.8로 구했듯이 n_of_test 또한 len(x) * 0.2로 계산하면 될 것 같으나 이경우 데이터에 누락값이 발생할 가능성이 있다.
- 따라서 어느 한 쪽을 계산하고 그 값만큼 제외하는 방식으로 계산해야 누락값이 발생하지 않는다.

In [60]:
# 실제로 데이터를 나눌 때도 n_of_train 같이 하나의 변수만 사용하면 데이터 누락을 방지할 수 있다.
x_test = x[ n_of_train: ] # 전체 데이터중 20%만큼 뒤의 데이터 저장
y_test = y[ n_of_train: ]

x_train = x[ :n_of_train ] # 전체 데이터중 80%만큼 앞의 데이터 저장
y_train = y[ :n_of_train ]

In [61]:
print(x_train)
print(y_train)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
range(0, 9)


In [58]:
print(x_test)
print(y_test)

[[18 19]
 [20 21]
 [22 23]]
range(9, 12)


# 2. 머신러닝 모델 평가
![alt text]( data.png )
   - 실제 모델을 평가하기 위해서 데이터를 훈령용, 검증용, 테스트용 이렇게 세가지로 분리하는 것이 일반적이다.
   
   
   - 검증용 데이터는 모델의 성능을 평가하기 위한 용도가 아니라, 모델의 섣능을 조정하기 위한 용도이다. 과적합이 되고 있는지 판단하거나 하이퍼파라미터의 조정을 위한 용도이다
   
   
   - 하이퍼파라미터(초매개변수)란 값에 따라서 모델의 성능에 영향을 주는 매개변수들을 말한다. 가중치와 편향과 같은 학습을 통해 바뀌어져가는 변수는 매개변수라 한다.
   
   
   - 하이퍼파라미터는 보통 사용자가 직접 저해줄 수 있는 변수로 머신러닝에서는 경사하강법에서의 학습률(learning rate)이 해당되고, 딥러닝에서는 은닉층의 수, 뉴런의 수, 드롭아웃 비율 등이 이에 해당한다. 매개변수는 사용자가 결정해주는 값이 아니라 모델이 학습하는 과정에서 얻어지는 값이다.
   
   
   - 정리하면 하이퍼파라미터는 사람이 정하는 변수, 매개변수는 모델이 훈련을 통해서 바꾸는 변수이다.
   
   
   - 훈련용 데이터로 훈련을 모두 시킨 모델은 검증용 데이터를 사용하여 정확도를 검증하며 하이퍼파라미터를 튜닝한다. 또한 이 모델의 매개변수는 검증용 데이터로 정확도가 검증되는 과정에서 점차 검증용 데이터에 점점 맞추어져 가기 시작한다.
   
   
   