# Ch02. 텍스트 전처리 (Text Preprocessing)

# v09. 데이터의 분리 (Splitting Data)

- 지도 학습을 위한 데이터 분리 작업 학습

<br>

## 9.1 지도 학습 (Supervised Learning)

### 9.1.1 지도 학습의 훈련 데이터

- 문제지를 연상시킴
- 정답이 무엇인지 맞춰야 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있음
- ex) 스팸 메일 분류기를 만들기 위한 데이터
  - 메일의 내용과 해당 메일이 정상 메일인 지, 스팸 메일인 지 적혀있는 레이블로 구성되어 있음

- ex) 아래와 같은 형식의 데이터가 약 200,000개가 있다고 가정
  - 이 데이터는 두 개의 열로 구성되어 있음
    - 메일의 본문에 해당되는 첫 번째 열
    - 해당 메일이 정상 메일인지 스팸 메일인지가 적혀있는 정답에 해당되는 두 번째 열
  - 그리고 이러한 데이터 배열이 총 20,000개의 행을 가짐

<img src="../_images/Ch02/09/img001.jpg" />

- 메일의 내용이 담긴 첫 번째 열을 X에 저장
- 메일이 스팸인지 정상인지 정답이 적혀있는 두 번째 열을 y에 저장

<br>

### 9.1.2 테스트용 데이터 분리

- 이제 이 X와 y에 대해서 일부 데이터를 또 다시 분리
- 테스트용으로 2,000개의 데이터를 분리
- 이 때, 분리시에는 여전히 X와 y의 맵핑 관계를 유지해야 한다.
  - 어떤 X(문제)에 대한 어떤 y(정답)인지 바로 찾을 수 있어야 한다.

- 이렇게 되면 훈련용인 18,000개의 X, y의 쌍(pair)과 테스트용인 2,000개의 X, y의 쌍(pair)이 생긴다.
- 이러한 유형의 데이터들에게 주로 이러한 변수명을 부여한다.

**훈련 데이터**

- `X_train` : 문제지 데이터
- `y_train` : 문제지에 대한 정답 데이터

**테스트 데이터**

- `X_test` : 시험지 데이터
- `y_test` : 시험지에 대한 정답 데이터

<br>

### 9.1.3 학습

- `X_train`과 `y_train`에 대해서 학습
- 기계는 현 상태에서는 `y_train`을 볼 수 있기 때문에 18,000개의 `X_train`을 보면서 어떤 메일 내용일 때 정상 메일인 지 스팸 메일인지를 규칙을 도출해나가면서 정리한다.

<br>

### 9.1.4 예측 및 평가

- 그리고 학습을 다 한 기계에게 `y_test`는 보여주지 않고, `X_test`에 대해서 정답을 예측하게 한다.
- 기계가 예측한 답과 실제 정답인 `y_test`를 비교하면서 기계가 정답을 얼마나 맞췄는 지를 평가한다.
- 이 수치가 기계의 정확도(Accuracy)가 된다.

<br>

## 9.2 X와 y분리하기

### 9.2.1 `zip` 함수를 이용하여 분리하기

**`zip()` 함수**

- 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어주는 역할
- 리스트의 리스트 구성에서 `zip` 함수는 X와 y를 분리하는 데 유용하다

In [3]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


- 각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶인다.

<br>

In [4]:
sequences = [['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서
X, y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


- 각 데이터에서 첫 번째로 등장한 원소들끼리 묶이고, 두 번째로 등장한 원소들끼리 묶인 것을 볼 수 있다.
- 이를 각각 X 데이터와 y 데이터로 사용할 수 있다.

<br>

### 9.2.2 데이터프레임을 이용하여 분리하기

In [5]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
          ['내일 뵐 수 있을지 확인 부탁드...', 0],
          ['도연씨. 잘 지내시죠? 오랜만입...', 0],
          ['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


<br>

- 데이터프레임은 열의 이름으로 각 열에 접근이 가능하다.
- 이를 이용하면 손쉽게 X 데이터와 y 데이터를 분리할 수 있다.

In [None]:
X = df['메일 본문']
y = df['스팸 메일 유무']

In [9]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [10]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


<br>

### 9.2.3 `Numpy`를 이용하여 분리하기

In [11]:
import numpy as np

ar = np.arange(0, 16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [12]:
X = ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [13]:
y = ar[:, 3]
print(y)

[ 3  7 11 15]


<br>

## 9.3 테스트 데이터 분리하기

- 이미 X와 y가 분리된 데이터에 대해서 테스트 데이터를 분리하는 과정 확인

<br>

### 9.3.1 사이킷런을 이용하여 분리하기

- `train_test_split`

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2, random_state=1234)

- `X`
  - 독립 변수 데이터 (배열이나 데이터프레임)


- `y`
  - 종속 변수 데이터
  - 레이블 데이터


- `test_size`
  - 테스트용 데이터 개수 지정
  - 1보다 작은 실수를 기재 $\rightarrow$ 비율을 나타냄
  - `test_size`를 입력하면 `train_size`는 입력안해도 된다.


- `train_size`
  - 학습용 데이터의 개수 지정
  - 1보다 작은 실수를 기재 $\rightarrow$ 비율을 나타냄
  - `train_size`를 입력하면 `test_size`는 입력안해도 된다.

  
- `random_state`
  - 난수 시드

In [15]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(10).reshape((5, 2)), range(5)

# 실습을 위해 임의로 X와 y가 이미 분리된 데이터를 생성
print(X)
print(list(y))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.33, random_state=1234)

In [17]:
print(X_train)

[[2 3]
 [4 5]
 [6 7]]


In [18]:
print(X_test)

[[8 9]
 [0 1]]


<br>

### 9.3.2 수동으로 분리하기

In [None]:
import numpy as np

X, y = np.arange(0, 24).reshape((12, 2)), range(12)

In [21]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [22]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


<br>

- `n_of_train` : 훈련 데이터의 개수를 의미
- `n_of_test` : 테스트 데이터의 개수를 의미

In [23]:
n_of_train = int(len(X) * 0.8)
n_of_test = int(len(X) - n_of_train)

print(n_of_train)
print(n_of_test)

9
3


In [None]:
X_test = X[n_of_train:] # 20% 뒤
y_test = y[n_of_train:] # 20% 뒤
X_train = X[:n_of_train] # 80% 앞
y_train = y[:n_of_train] # 80% 앞

In [26]:
print(X_test)

[[18 19]
 [20 21]
 [22 23]]


In [27]:
print(list(y_test))

[9, 10, 11]
