# 자연어 처리 개발 준비
## tf.keras.layers.Dense
`tf.keras.layers.Dense`에서 Dense는 신경망 구조의 가장 기본적인 형태를 의미한다.
즉, 아래의 수식을 만족하는 기본적인 신경망 형태의 층을 만드는 함수이다.

$$y = f(Wx+b)$$

위의 수식에서 x와 b는 각각 입력 벡터, 편향 벡터이며 W는 가중치 행렬이 된다.
즉, 가중치와 입력 벡터를 곱한 후 편향을 더해준다. 그리고 그 값에 f라는 활성화 함수를 적용하는 구조다.
위 수식을 그림으로 보면 아래와 같은 은닉층이 없는 간단한 신경망 형태가 된다.


<img src="DenseLayer.svg" alt="DenseLayer"/>

위 그림에서 왼쪽 노드들이 입력값인 x가 되고 오른쪽 노드들이 y가 된다.
그리고 중간에 있는 선이 가중치를 곱하는 과정을 의미하고, 여기서 곱해지는 가중치들이 앞 수식의 W가 된다.

이러한 Dense 층을 구성하는 기본적인 방법은 가중치인 W와 b를 각각 변수로 선언한 후 행렬 곱을 통해 구하는 방법이다.
다음과 같이 코드를 작성해서 직접 가중치 변수를 모두 정의해야 한다.

```python
import tensorflow as tf

W = tf.Variable(tf.random.uniform([5, 10], -1, 1))
b = tf.Variable(tf.zeros([10]))

y = tf.matmul(W, x) + b
```

위왁 ㅏㅌ이 모든 변수들을 선언하고 하나하나 직접 곱하고, 더해야 한다.
하지만 텐서플로의 Dense를 이용하면 한 줄로 위의 코드를 작성할 수 있다.
이 경우 내부적으로 변수를 생성하고 연산을 진행한다.
아울러 인자 설정에 따라 활성화 함수 설정, 초기화 방법, 정규화 방법 등 다양한 기능을 쉽게 사용할 수 있게 구성돼 있다.

케라스의 Dense를 사용하려면 우선 객체를 생성해야 한다.

```python
dense = tf.keras.layers.Dense(...)
```

이렇게 생성한 Dense 층을 객체에 입력값을 넣어야 한다.
입력값을 넣기 위해서는 객체를 생성할 때 함께 넣거나 생성한 후 따로 적용하는 방법이 있다.

```python
# 방법 1
dense = tf.keras.layers.Dense(...)
output = dense(input)
# 방법 2
output = tf.keras.layers.Dense(...)(input)
```

Dense 층을 만들 때 여러 인자를 통해 가중치와 편향 초기화 방법, 활성화 함수의 종류 등 여러 가지를 옵션으로 정할 수 있다.
객체를 생성할 때 지정할 수 있는 인자는 다음과 같다.

```python
__init__(
    units, activation=None, use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='zeros', kernel_regularizer=None,
    bias_regularizer=None, activity_regularizer=None, kernel_constraint=None,
    bias_constraint=None, **kwargs
)
```

- units : 출력 값의 크기, Integer 혹은 Long 형태.
- activation : 활성화 함수.
- use_bias : 편향을 사용할지 여부. Boolean 값 형태.
- kernel_initializer : 가중치 초기화 함수
- bias_initializer : 편향 초기화 함수
- kernel_regularizer : 가중치 정규화 방법
- bias_regularizer : 편향 정규화 방법
- activity_regularizer : 출력 값 정규화 방법
- kernel_constraint : Optimizer에 의해 업데이트 된 이후에 가중치에 적용되는 부가적인 제약 함수
- bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수

입력값에 대해 활성화 함수로 시그모이드 함수를 사용하고, 출력 값으로 10개의 값을 출력하는 완전 연결 계층은 다음과 같이 정의하면 된다.

10개의 노드를 가지는 은닉층이 있고 최종 출력 값은 2개의 노드가 있는 신경망 구조를 생각해보자.
그렇다면 객체를 두개 생성해서 신경망을 만들 수 있다.

In [1]:
import tensorflow as tf

INPUT_SIZE = (20, 1)
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

## tf.keras.layers.Dropout

신경망 모델을 만들 때 생기는 여러 문제점 중 대표적인 문제점은 **과적합(overfitting)** 이다.
과적합 문제는 정규화 방법을 사용해서 해결하는데, 그중 가장 대표적인 방법이 `Dropout(드롭아웃)`이다.
텐서플로는 드롭아웃을 쉽게 모델에 적용할 수 있게 간단한 모듈을 제공하는데,
이 모듈을 이용하면 특정 `keras.layers`의 입력값에 드롭아웃을 적용할 수 있다.
사용법은 위의 dense 층을 만드는 방법과 유사하게 Dropout 객체를 생성해서 사용하면 된다.

```python
tf.keras.layers.Dropout(...)
```

드롭아웃을 적용할 입력값을 설정해야 한다.
앞서 진행했던 것과 입력값을 설정하는 방법은 동일하다.

```python
# 방법 1
dense = tf.keras.layers.Dropout(...)
output = dense(input)
# 방법 2
output = tf.keras.layers.Dropout(...)(input)
```

```python
__init__(
    rate, noise_shape=None, seed=None, **kwargs
)
```
- rate : 드롭아웃을 적용할 확률을 지정한다. 확률 값이므로 0~1 사이의 값을 받는다. 예를 들어 dropout=0.2로 지정하면 전체 입력값 중에서 20%를 0으로 만든다.
- noise_shape : 정수형의 1D-tensor 값을 받는다. 여기서 받은 값은 shape을 뜻하는데, 이 값을 지정함으로써 특정 값만 드롭아웃을 적용할 수 있다. 예를 들면, 입력값이 이미지일 때 noise_shape을 지정하면 특정 채널에만 드롭아웃을 적용할 수 있다.
- seed : 드롭아웃의 경우 지정된 확률 값을 바탕으로 무작위로 드롭아웃을 적용하는데, 이때 임의의 선택을 위한 시드 값을 의미한다. seeda 값은 정수형이며, 같은 seed 값을 가지는 드롭아웃의 경우 동일한 드롭아웃 결과를 만든다.

드롭아웃을 적용하는 과정을 생각해보자.
학습 데이터에 과적합되는 상황을 방지하기 위해 학습 시 특정 확률로 노드들의 값을 0으로 만든다.
그리고 이러한 과정은 학습할 때만 적용되고 예측 혹은 테스트할 때는 적용되지 않아야 한다.
케라스의 Dropout을 사용할 경우 이러한 부분이 자동으로 적용된다.
드롭아웃을 적용하는 방법은 아래와 같이 적용시킬 값을 입력 값으로 넣어주면 된다.

In [2]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.5)(inputs)

In [3]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
output = tf.keras.layers.Dense(units=10, activation=tf.nn.sigmoid)(inputs)

텐서플로에서 드롭아웃은 `tf.keras.layers`뿐만 아니라 `tf.nn`에도 있는데,
두 모델의 차이점은 `tf.keras.layers.Dropout`의 경우 확률을 0.2로 지정했을 때 노드의 20%를 0으로 만드는 데 비해
`tf.nn.Dropout`의 경우 확률을 0.2로 지정했을 때 80% 값을 0으로 만든다는 것이다.

함수를 사용하는 방법을 알아보자.
이전의 Dense 층 예제인 신경망 구조에서 처음 입력 값에 드롭아웃을 적용해 보자.

In [4]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
dropput = tf.keras.layers.Dropout(rate=0.2)(inputs)
hidden = tf.keras.layers.Dense(units=10, activation=tf.nn.sigmoid)(dropput)
output = tf.keras.layers.Dense(units=2, activation=tf.nn.sigmoid)(hidden)

## tf.keras.layers.Conv1D

이번에는 합성곱 연산 중 `Conv1D`에 대해서 알아보자.
텐서플로의 합성곱 연산은 `Conv1D`, `Conv2D`, `Conv3D`로 나뉘어지는데 우선 이 세개가 어떤 차이점이 잇는지 알아보자.

|-|합성곱의 방향|출력값|
|-|-|-|
|Conv1D|한 방향(가로)|1-D Array(Vector)|
|Conv2D|두 방향(가로, 세로)|2-D Array(matrix)|
|Conv3D|세 방향(가로, 세로, 높이)|3-D Array(tensor)|

위의 표에서 나온 출력값의 경우 실제 합성곱 출력값과 동일하진 않다.
배치 크기와 합성곱이 적용되는 필터의 개수도 고려해야 하기 때문에 출력값이 위와 동일하게 나오지 않는 것이다.
위의 경우 단순히 배치의 경우, 고려하지 않고 합성곱 필터를 하나만 적용했을 때라고 생각하면 된다.

<img src="conv1d.png" alt="conv1d" style="width: 300px;"/>

그림을 보면 빨간색 사격형이 하나의 필터가 된다.
이 필터가 가로 방향으로만 옮겨가면서 입력값에 대해 합성곱을 수행한다. 연산 결과들이 모여서 최종 출력 값이 나온다.
따라서 출력 값은 하단에 위치한 것과 같은 1차원 벡터가 된다.

자연어 처리 분야에서 사용하는 합성곱의 경우 각 단어 벡터의 차원 전체에 대해 필터를 적용시기키 위해 주로 `Conv1D`를 사용한다.

```python
# 방법 1
conv1d = tf.keras.layers.Conv1D(...)
output = conv1d(input)

# 방법 2
output = tf.keras.layers.Conv1D(input)
```

```python
__init__(
    filters, kernel_size, strides=1, padding='valid',
    data_format='channels_last', dilation_rate=1, groups=1,
    activation=None, use_bias=True, kernel_initializer='glorot_uniform',
    bias_initializer='zeros', kernel_regularizer=None,
    bias_regularizer=None, activity_regularizer=None, kernel_constraint=None,
    bias_constraint=None, **kwargs
)
```

- filters : 필터의 개수로서, 정수형으로 지정한다. 출력의 차원 수를 나타낸다.
- kernel_size : 필터의 크기로서, 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 합성곱이 적용되는 윈도의 길이를 나타낸다.
- strides : 적용할 스트라이드의 값으로서 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 1이 아닌 값을 지정할 경우 dilation_rate는 1 이외의 값을 지정하지 못한다.
- padding : 패딩 방법을 정한다. "VALID" 또는 "SAME"을 지정할 수 있다.
- data_format : 데이터의 표현 방법을 선택한다. "channel_last" 혹은 "channel_first"를 지정할 수 있다. channel_list의 경우 데이터는(batch, length, channels) 형태여야 하고, channel_first의 경우 데이터는 (batch, channels, length) 형태여야 한다.
- dilation_rate : dilation 합성곱 사용 시 적용할 dilation 값으로서 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 1이 아닌 값을 지정하면 strides 값으로 1이외의 값을 지정하지 못한다.
- groups : 채널 축을 따라 입력이 분할되는 그룹 수를 지정하는 양의 정수입니다. 각 그룹은 필터/그룹 필터와 별도로 결합됩니다. 출력은 채널 축을 따라 모든 그룹 결과를 연결한 것입니다. 입력 채널과 필터는 모두 그룹으로 나눌 수 있어야 합니다.
- activation : 활성화 함수
- use_bias : 편향을 사용할지 여부.
- kernel_initializer : 가중치 초기화 함수
- bias_initializer : 편향 초기화 함수
- kernel_regularizer : 가중치 정규화 방법
- bias_regularizer : 편향 정규화 방법
- activity_regularizer : 출력 값 정규화 방법
- kernel_constraint : Optimizer에 의해 업데이트 된 이후에 가중치에 적용되는 부가적인 제약 함수
- bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수

In [5]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.Input(shape=INPUT_SIZE)
conv = tf.keras.layers.Conv1D(
    filters=10,
    kernel_size=3,
    padding='same',
    activation=tf.nn.relu
)(inputs)

In [6]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.Input(shape=INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
    filters=10,
    kernel_size=3,
    padding='same',
    activation=tf.nn.relu
)(dropout)

## tf.keras.layers.MaxPool1D

합성곱 신경망과 함께 쓰이는 기법 중 하나는 풀링이다.
보통 피처 맵의 크기를 줄이거나 주요한 특징을 뽑아내기 위해 합성곱 이후에 적용되는 기법이다.
풀링에는 주로 두 가지 풀링 기법이 사용되는데, 맥스 풀링과 평균 풀링이 있다.
맥스 풀링은 피처 맵에 대해 최댓값만을 뽑아내는 방식이고,
평균 풀링은 피처 맵에 대해 전체 값들을 평균한 값을 뽑는 방식이다.

맥스 풀링도 합성곱과 같이 세가지 형태로 모델이 구분돼 있다.
MaxPool1D, MaxPool2D, MaxPool3D로 나눠져 있는데 합성곱과 똑같은 원리다.
자연어 처리에 주로 사용되는 합성곱과 동일하게 MaxPool1D를 주로 사용하는데 한 방향으로만 풀링이 진행된다.
사용법은 앞에서 설명한 합성곱과 동일한다.

```python
# 방법 1
max_pool = tf.keras.layers.MaxPool1D(...)
max_pool.apply(input)

# 방법 2
max_pool = tf.keras.layers.MaxPool1D(...)(input)
```

```python
__init__(
    pool_size=2, strides=None, padding='valid',
    data_format='channels_last', **kwargs
)
```

- pool_size : 풀링을 적용할 필터의 크기를 뜻한다. 정수값을 받는다.
- strides : 적용할 스트라이드의 값. 정수 혹은 None 값을 받는다.
- padding : 패딩 방법을 지정한다. "valid" 또는 "same"을 지정할 수 있다.
- data_format : 데이터의 표현 방법을 선택한다. "channel_list" 혹은 "channel_first"를 지정할 수 있다. channel_list의 경우 데이터는 (batch, length, channels) 형태여야 하고, channel_first의 경우 데이터는 (batch, length, channels) 형태여야 한다.

입력값이 합성곱과 맥스 풀링을 사용한 후 완전 연결 계층을 통해 최정 출력 값이 나오는 구조를 만들어 보자.
그리고 입력값에는 드롭아웃을 적용한다.
그리고 맥스 풀링 결과값을 완전 연결 계층으로 연결하기 위해서는 행렬이었던 것을 벡터로 만들어야 한다.
이때 `tf.keras.layers.Flatten`을 사용한다. Flatten의 경우 별다른 인자값 설정 없이도 사용할 수 있기 때문에 쉽게 사용할 수 있다.

In [7]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(dropout)

max_pool = tf.keras.layers.MaxPool2D(pool_size=3, padding='same')(conv)
flatten = tf.keras.layers.Flatten()(max_pool)
hidden = tf.keras.layers.Dense(units=50, activation=tf.nn.relu)(flatten)
output = tf.keras.layers.Dense(units=10, activation=tf.nn.softmax)(hidden)

## Sequential API

`tf.keras.Sequential`은 케라스를 활용해 모델을 구축할 수 있는 가장 간단한 형태의 API이다.
`Sequential` 모듈을 이용하면 간단한 순차적인 레이어의 스택을 구현할 수 있다.
간단한 형태의 완전 연결 계층을 구현해보겠다.

In [8]:
import tensorflow as tf
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

`Sequential` 인스턴스를 생성한 후 해당 인스턴스에 여러 레이어를 순차적으로 더하기만 하면 모델이 완성된다.
이렇게 만든 모델을 입력값을 더한 순서에 맞게 레이어들을 통과시킨 후 최종 출력값을 뽑아오게 된다.
`Sequential` 모듈의 경우 위와 같이 구현 자체가 매우 간단하다는 사실을 알 수 있다.
그에 반해 모델 구현에 제약이 있는데, 모델의 층들이 순차적으로 구성돼 있지 않은 경우에는 `Sequential` 모듈을 사용해 구현하기가 어려울 수 있다.
예를 들면, VQA(Visual Question Answering) 문제(사진과 질문이 입력값으로 주어지고 사진을 참고해 질문에 답하는 문제)의 경우 사진 데이터에서 특징을 뽑는 레이어와 질문 텍스트 데이터에서 특징을 뽑는 두 레이어가 각기 순차적으로 존재한다.
따라서 최종적으로 출력값을 뽑기 위해서는 이 두 값을 합쳐야 하는데, 이러한 구조의 모델을 구현할 때 `Sequential`모듈을 사용하게 되면 하나의 플로만 계산할 수 있는 `Sequential` 모듈로는 두 개의 값을 합칠 수가 없기 때문에 여러 제약이 존재한다.
따라서 이러한 경우에는 앞으로 소개할 다른 방법을 이용해 모델을 구현하는 것이 적절하다.

## Functional API

`Sequential` 모듈은 간단한 레이어들의 스택 구조에는 적합하지만 복잡한 모델의 경우에는 여러 구현상의 제약이 있을 수 있다.
예를 들면, 모델의 구조가 다음과 같을 경우 `Sequential` 모듈을 사용하기가 어려울 수 있다.
- 다중 입력값 모델
- 다중 출력값 모델
- 공유 층을 활용하는 모델
- 데이터 흐름이 순차적이지 않은 모델

이러한 모델을 구현할 때는 케라의 `Functional API`를 사용하거나 이후 살펴볼 `Subclassing` 방식을 사용하는 것이 적절할 수 있다.
`Functional API`를 활용해 앞에서 정의한 모델과 동일한 모델을 만들어 보자.

In [9]:
import tensorflow as tf
from tensorflow.keras import layers

inputs = tf.keras.Input(shape=(32,))
x = layers.Dense(64, activation='relu')(inputs)
x = layers.Dense(64, activation='relu')(x)
predictions = layers.Dense(10,  activation='softmax')(x)

`Functional API`를 활요하기 위해서는 입력값을 받는 Input 모듈을 선언해야 한다.
이 모듈을 선언할 때는 모델의 입력으로 받는 값의 형태를 정의하면 된다.
이 Input 모듈을 정의한 후 입력값을 적용할 레이어를 호출할 때 인자로 전달하는 방식으로 구현하면 된다.

이처럼 정의한 후 최종 출력값을 사용해 모델을 학습하면 된다.
그러면 마지막 출력값이 앞에서 `Sequential`로 구현했을 때의 모델과 동일한 형태가 된다.

## Custom Layer

앞에 두 API를 사용하기 위해 케라스는 `layers` 패키지에 정의된 레이어를 사용해 구현했다.
대부분 구현하고자 하는 모델의 경우 해당 패키지에 구현돼 있지만
새로운 연산을 하는 레이어 혹은 편의를 위해 여러 레이어를 하나로 묶은 레이어를 구현해야 하는 경우가 있다.
이때 사용자 정의 층을 만들어 사용하면 된다.
앞에서 정의한 모델에서는 dense 층이 여러 번 사용된 신경망을 사용했다.
이 신경망을 하나의 레이어로 묶어 재사용성을 높이고 싶다면 다음과 같이 사용자 정의 층으로 정의하면 된다.

In [10]:
from tensorflow.keras import layers

class CustomLayer(layers.Layer):
    def __init__(self, hidden_dimension, hidden_dimension2, output_dimension):
        self.hidden_dimension = hidden_dimension
        self.hidden_dimension2 = hidden_dimension2
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__()

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation='relu')
        self.dense_layer2 = layers.Dense(self.hidden_dimension2, activation='relu')
        self.dense_layer3 = layers.Dense(self.output_dimension, activation='softmax')

    def call(self, inputs):
        x = self.dense_layer1(inputs)
        x = self.dense_layer2(x)
        return self.dense_layer3(x)

사용자 정의 층을 정의할 때는 `layers` 패키지의 Layer 클래스를 상속받고 위와 같이 3개의 메소드를 정의하면 된다.
우선 하이퍼파라미터는 객체를 생성할 때 호출되도록 `__init__` 메소드에서 정의하고,
모델의 가중치와 관련된 값은 `build` 메소드에서 생성되도록 정의한다.
그리고 이렇게 정의한 값들을 이용해 `call` 메소드에서 해당 층의 로직을 정의하면 된다.
이렇게 정의한 사용자 정의 층은 `Sequential API` 나 `Functional API`를 활용할 때 하나의 층으로 사용할 수 있다.
만약 `Sequentail` 모듈을 활용한다면 다음과 같이 사용하면 된다.

In [11]:
import tensorflow as tf
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(CustomLayer(64, 64, 10))

## Subclassing (Custom Model)

이번에는 가장 자유도가 높은 `Subclassing`을 알아보자.
이 경우 `tf.keras.Model`을 상속받고 모델 내부 연산들을 직접 구현하면 된다.
모델 클래스를 구현할 때는 객체를 생성할 때 호출되는 `__init__` 메소드와
생성된 인스턴스를 호출할 때를 구현할 때(즉, 모델 연산이 사용될 때) 호출되는 `call` 메소드만 구현하면 된다.

In [12]:
import tensorflow as tf
from tensorflow.keras import layers

class MyModel(tf.keras.Model):
    def __init__(self, hidden_dimenstion, hidden_dimenstion2, output_dimension):
        super(MyModel, self).__init__(name='my model')
        self.dense_layer1 = layers.Dense(hidden_dimenstion, activation='relu')
        self.dense_layer1 = layers.Dense(hidden_dimenstion2, activation='relu')
        self.dense_layer3 = layers.Dense(output_dimension, activation='softmax')
    
    def call(self, inputs):
        x = self.dense_layer1(inputs)
        x = self.dense_layer2(x)
        return self.dense_layer3(x)

구현 방법은 사용자 정의 층을 만드는 방식과 매우 유사하다.
그뿐만 아니라 이 방법은 파이토치 프레임워크에서 모델을 구현할 때 사용하는 방식과도 매우 유사하다.
`__init__` 메소드에서는 모델에 사용될 층과 변수를 정의하면 되고,
`call` 메소드에서는 이렇게 정의한 내용을 활용해 모델 연산을 진행하면 된다.
참고로 모델에서 사용될 층을 정의할 때도 사용자 정의 층을 사용할 수 있다.

## 모델 학습

이제 모델 학습에 대해서 알아보자.
모델 학습이라고 하지만, 실제로는 학습뿐 아니라 모델 검증, 예측 등 여러 과정을 포함한다는 점을 알아두자.
텐서플로 2.0 공식 가이드에서 모델 학습에 대해 권장하는 방법은 크게 두가지로 나뉜다.
1. 케라스 모델의 내장 API를 활용하는 방법
2. 학습, 검증, 예측 등 모든 과정을 `GradientTape` 객체를 활용해 직접 구현하는 방법

첫번째 방법의 경우 대부분 케라스 모델의 메소드로 이미 구현돼 있어 간편하다는 큰 장점이 있고,
두번째 방법의 경우 첫번째 방법과 비교했을 때 일일이 구현해야 한다는 단점이 있지만 좀 더 복잡한 로직을 유연하고
자유롭게 구현할 수 있다는 장점이 있다.

우리는 주로 첫번째 방법으로 공부할 예정이다.

### 내장 API를 활용하는 방법

이미 정의된 케라스의 모델 객체가 있다고 가정해보자.
이 모델 객체는 케라스의 모델 객체이기 때문에 여러 메소드가 이미 내장돼 있다.
따라서 내장 메소드를 간단히 사용하기만 하면 된다.
먼저 해야 할 일은 학습 과정을 정의하는 것이다.
즉, 학습 과정에서 사용될 손실 함수, 오티마이저, 평가에 사용될 지표 등을 정의하면 된다.

```python
model.compile(
    optimizer=tf.keras.optimizers.Adam(),
    loss=tf.keras.losses.CategoricalCrossentropy(),
    metrics=[tf.keras.mertics.Accuracy()]
)
```

위와 같이 정의하면 학습을 실행할 모든 준비가 끝난다.
참고로 옵티마이저, 손실 함수, 평가 지표 등은 객체 형식으로 지정해도 되고
다음과 같이 문자열 형태로 지정해도 된다.

```python
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)
```

이제 정의된 모델 객체를 대상으로 학습, 평가, 예측 메소드를 호출하면 정의한 값들을 활용해 학습이 진행된다.
즉, 다음과 같이 `fit` 메소드를 호출하면 데이터들이 모델을 통과하며 학습이 진행된다.
아울러 학습이 진행되면서 각 에폭당 모델의 성능(손실함수, 정확도) 등이 출력되는 것을 확인할 수 있다.

```python
model.fit(
    x_train,
    y_train,
    batch_size=64,
    epochs=3
)
```

학습 과정에 있어서 각 에폭마다 검증을 진행하는 것 또한 가능하다.
`evaluate` 메소드를 사용해 검증할 수 있지만 매번 에폭을 호출해야 한다는 번거로움이 있다.
따라서 에폭마다 검증 결과를 보기 위해서는 `fit` 함수에 검증 데이터를 추가로 넣으면 된다.

```python
model.fit(
    x_train,
    y_train,
    batch_size=64,
    epochs=3,
    validation_data=(x_val, y_val)
)
```

이제 모델을 구축하는 과정과 학습하는 과정을 모두 알아봤다.
이어서 간단한 더미 데이터를 활용해 감정 분석 문제를 해결해 보자,

### 더미 데이터를 활용한 감정 분석 모델링

[출처](https://github.com/NLP-kr/tensorflow-ml-nlp-tf2/blob/master/2.NLP_PREP/2.1.2.tensorflow2.ipynb)

이번에 구현할 모델은 심층 신경망 구조를 사용해 앞서 텍스트의 긍정/부정을 예측하는 감정 분석 모델이다.
감정 분석 문제에 대한 자세한 내용은 이후에 다시 소개할 것이며, 모델에 적용할 데이터는 앞에서 정의한 테스트 데이터를 사용한다.
모델의 자세한 구조는 다음과 같다.

<img src="심층신경망.png" alt="심층신경망" style="width: 300px;"/>

우선 각 단어로 구성된 입력값은 임베딩된 벡터로 변형된다.
이후 각 벡터를 평균해서 하나의 벡터로 만든다.
이후에 하나의 은닉층을 거친 후 하나의 결괏값을 뽑는 구조다.
마지막으로 나온 결괏값에 시그모이드 함수를 적용해 0과 1사이의 값을 구한다.

모델에서 나온 임베딩 벡터 등과 같은 내용이 잘 이해되지 않더라도 대략적인 모델의 구조가 위와 같이 구성된다는 것만 이해하면 된다.
이후 자세한 내용은 다음 장에서 알려주도록 하겠다.
이번 절에서는 텐서플로 2.0버전에서 케라스를 이용해 모델을 구현하는 방법을 중심적으로 살펴보자.

이제 본격적으로 모델을 구현해 보자.
데이터는 이전 장에서 사용했던 텍스트 데이터를 그대로 사용하고, 동일하게 전처리 과정을 적용한다.

In [13]:
import tensorflow as tf
import numpy as np
from tensorflow.keras import preprocessing

samples = [
    '너 오늘 이뻐 보인다',
    '나는 오늘 기분이 더러워',
    '끝내주는데, 좋은 일이 있나봐',
    '나 좋은 일이 생겼어',
    '아 오늘 진짜 짜증나',
    '환성적인데, 정말 좋은거 같아'
]

targets= [[1], [0], [1], [1], [0], [1]]
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)


input_sequences = np.array(sequences)
labels = np.array(targets)

word_index = tokenizer.word_index

전처리 과정은 앞에서 다뤘기 때문에 설명은 생략한다.
추가로 모델 구축 및 모델 학습에 필요한 변수를 정의해보자.

In [14]:
import tensorflow as tf
from tensorflow.keras import layers

batch_size = 2
num_epochs = 100
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

In [15]:
model = tf.keras.Sequential()
model.add(layers.Embedding(vocab_size, emb_size, input_length=4))
model.add(layers.Lambda(lambda x: tf.reduce_mean(x, axis=1)))
model.add(layers.Dense(hidden_dimension, activation='relu'))
model.add(layers.Dense(output_dimension, activation='sigmoid'))

`Sequential` 객체를 생성한 후 각 층을 추가하면 된다.
혹은 객체 생성 시 안자로 사용할 층을 순차적으로 리스트로 만들어서 전달하는 방법으로도 위와 동일한 모델을 생성할 수 있다.

In [16]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length=4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis=1)),
    layers.Dense(hidden_dimension, activation='relu'),
    layers.Dense(output_dimension, activation='sigmoid'),
])

구현한 모델을 보면 입력값을 임베딩하는 Embedding 층을 모델에 추가했다.
이후 임베딩 된 각 단어의 벡터를 평균하기 위해 람다 층을 사용한다.
람다 층은 텐서플로 연산을 `Sequential API`와 `Funcational API`에 적용하기 위해 사용하는 방법이다.
평균의 경우 하나의 층으로 정의돼 있지 않기 때문에 람다 층을 활용해 해당 층에 들어오는 입력값들을 평균한다.
람다 층을 활용해 평균을 낸 후 하나의 은닉층을 통과한 후 최종 출력값을 뽑기 위해 두개의 Dense 층을 모델에 추가한다.
이때 최종 출력값을 뽑은 Dense 층의 경우 0과 1사이의 확률값을 뽑기 위해 활성화 함수를 시그모이드 함수로 정의한다.

이렇게 최종 출력 층까지 모델에 추가헀다면 모델이 모두 완성된 것이다.
모델을 구축하는 과정이 모두 끝났으니 모델을 학습해보자.
케라스 내장 API를 활용해 모델을 학습하기 위해서는 우선 모델을 컴파일하는 메소드를 통해 학습 과정을 정의한다.
옵티마이저의 경우 아담 최적화 알고리즘을 사용하고, 학습은 이진 분류 문제이므로 이진 교차 엔트로피 손실함수를 사용한다.
그리고 추가로 모델의 성능을 측정하기 위한 기준인 평가 지표를 정의하는데, 이진 분류의 평가 지표로 가장 널리 사용되는 정확도를 평가 지표로 정의한다.

In [17]:
model.compile(
    optimizer=tf.keras.optimizers.Adam(0.001),
    loss='binary_crossentropy',
    metrics=['accuracy']
)

이처럼 컴파일 메소드로 학습 과정을 정의했다면 케라스의 내장 API를 통해 학습할 준비가 모두 끝났다.
이제 `fit` 메소드를 통해 학습을 진행해보자.

In [18]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 4, 128)            2688      
_________________________________________________________________
lambda_1 (Lambda)            (None, 128)               0         
_________________________________________________________________
dense_15 (Dense)             (None, 256)               33024     
_________________________________________________________________
dense_16 (Dense)             (None, 1)                 257       
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [19]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x14325d9a0>

`fit` 메소드를 호출하면 학습 경과가 출력되는 것을 확인할 수 있다.
에폭이 경과함에 따라 손실함수의 값과 정확도가 늘어나는 것을 확인할 수 있다.
더미 데이터의 결과이기 때문에 의미 있는 수치는 아니지만 텐서플로 2.0의 표준 방법을 통해 학습이 정상적으로 돌아가도록 구현했다는 데 의미가 있다.

이제 `Sequential API`가 아닌 `Functional API`, `Subclassing` 방법으로 동일한 모델을 구현해보고 학습해보자.

In [20]:
inputs = layers.Input(shape = (4, ))
embed_output = layers.Embedding(vocab_size, emb_size)(inputs)
pooled_output = tf.reduce_mean(embed_output, axis=1)
hidden_layer = layers.Dense(hidden_dimension, activation='relu')(pooled_output)
outputs = layers.Dense(output_dimension, activation='sigmoid')(hidden_layer)

In [21]:
model = tf.keras.Model(inputs=inputs, outputs=outputs)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [22]:
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_9 (InputLayer)         [(None, 4)]               0         
_________________________________________________________________
embedding_2 (Embedding)      (None, 4, 128)            2688      
_________________________________________________________________
tf.math.reduce_mean (TFOpLam (None, 128)               0         
_________________________________________________________________
dense_17 (Dense)             (None, 256)               33024     
_________________________________________________________________
dense_18 (Dense)             (None, 1)                 257       
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [23]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x147849be0>

앞에서 알아본 것처럼 `Funcational API`는 케라스의 입력층을 구현한 후 각 값을 다음 레이어들을 호출하면서 인자로 넣는 방식으로 구현하면 된다.
구현 방법에서 차이가 있을 뿐 모델 연산 흐름이나 로직이 변경된 것은 아니므로 결과는 동일하게 나온다.
다음은 `Subclassing` 방법으로 동일한 모델을 구현해보자.

In [24]:
class CustomModel(tf.keras.Model):
    def __init__(self, vocab_size, embed_dimension, hidden_dimension, output_dimension):
        super(CustomModel, self).__init__(name='my_model')
        self.embedding = layers.Embedding(vocab_size, embed_dimension)
        self.dense_layer = layers.Dense(hidden_dimension, activation='relu')
        self.output_layer = layers.Dense(output_dimension, activation='sigmoid')

    def call(self, inputs):
        x = self.embedding(inputs)
        x = tf.reduce_mean(x, axis=1)
        x = self.dense_layer(x)
        x = self.output_layer(x)
        
        return x

In [25]:
model = CustomModel(vocab_size = vocab_size,
            embed_dimension=emb_size,
            hidden_dimension=hidden_dimension,
            output_dimension=output_dimension)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x14786e220>

### keras custom layer

In [26]:
class CustomLayer(layers.Layer):

    def __init__(self, hidden_dimension, output_dimension, **kwargs):
        self.hidden_dimension = hidden_dimension
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation = 'relu')
        self.dense_layer2 = layers.Dense(self.output_dimension)

    def call(self, inputs):
        hidden_output = self.dense_layer1(inputs)
        return self.dense_layer2(hidden_output)

    # Optional
    def get_config(self):
        base_config = super(CustomLayer, self).get_config()
        base_config['hidden_dim'] = self.hidden_dimension
        base_config['output_dim'] = self.output_dim
        return base_config

    @classmethod
    def from_config(cls, config):
        return cls(**config)

In [27]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length = 4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis = 1)),
    CustomLayer(hidden_dimension, output_dimension),
    layers.Activation('sigmoid')])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x165ba5eb0>

# 사이킷런

사이킷런은 파이썬용 머신러닝 라이브러리이다.
머신러닝 기술을 활용하는 데 필요한 다양한 기능을 제공하며, 파이썬으로 머신러닝 모델을 만들 수 있는 최적의 라이브러리다.
라이브러리를 구성하는 대부분의 모듈들이 통일된 인터페이스를 가지고 있어 간단하게 여러 기법을 적용할 수 있으며, 쉽고 빠르게 원하는 결과를 얻을 수 있다.

딥러닝 모델을 텐서플로, 케라스, 파이토치 등을 이용해서 생성할 수 있는 것처럼 머신러닝 모델은 주로 사이킷런 라이브러리를 통해 만들어 낼 수 있다.
사이킷런 라이브러리는 지도 학습을 위한 모듈, 비지도 학습을 위한 모듈, 모델 선택 및 평가를 위한 모듈,
데이터 변환 및 데이터를 불러오기 위한 모듈, 계산 성능 향상을 위한 모듈로 구성돼 있다.

지도 학습 모듈에는 나이브 베이즈, 의사결정 트리, 서포트 벡터 머신 모델 등이 있다.
비지도 학습 모듈에는 군집화, 가우시안 혼합 모델 등이 있다.

모델 선택과 평가 모듈에서는 교차 검증, 모델 평가, 모델의 지속성을 위해 모델 저장과 불러오기를 위한 기능 등을 제공한다.
그리고 데이터 변환 모듈에서는 파이프라인, 특징 추출, 데이터 전처리, 차원 축소 등의 기능을 제공한다.

또한 머신러닝 연구와 학습을 위해 라이브러리 안에 자체적으로 데이터 셋을 포함하고 있고, 이를 쉽게 불러와서 사용할 수 있다.
라이브러리에서 기본적으로 제공되는 데이터로는 당뇨병 데이터, 아이리스 데이터, 유방암 데이터 등이 있다.

머신러닝을 통해 문제를 해결하기 위해서는 해결해야 할 문제에 적합한 알고리즘을 선택하는 것이 매우 중요한데
사이킷런에서 제공하는 아래의 그림을 참고하면 좀 더 쉽게 문제를 해결하는 데 적합한 모델을 선택할 수 있다.

<img src="scikit_learn.png" alt="scikit_learn" style="width: 500px;"/>

이번 절에서는 전체적인 사이킷런의 사용법을 알아본다.
먼저 지도 학습 모듈에 대해 알아본 후 비지도 학습 모듈에 대해 알아보자.

In [28]:
import sklearn
sklearn.__version__

'0.24.2'

## 데이터 소개

각 모델을 사용해 보기 전에 우선은 공통적으로 사용할 데이터에 대해 알아보자.
이번 절에서 사용할 데이터는 머신러닝 기초를 배울 때 흔히 사용되는 붓꽃 데이터이다.
이 데이터는 1936년에 만들어진 데이터로서 매우 직관적이고 사용하기도 쉬워서 자주 사용된다.

붓꽃 데이터는 사이킷런 라이브러리에 기본적으로 내장돼 있는 데이터 중 하나라서 따로 설치할 필요 없이 바로 사용할 수 있다.

In [29]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print("iris_dataset key : {}".format(iris_data.keys()))

iris_dataset key : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [30]:
print(iris_data['data'])
print("shape of data: {}".format(iris_data["data"].shape))

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

data에는 실제 데이터가 포함돼 있다.
각 데이터마다 4개의 특징 값을 가지고 있다.
데이터의 형태를 보면 (150, 4)로 전체 150개의 데이터가 각각 4개의 특징값을 가지고 있는 형태다.
4개의 특징값이 의미하는 바를 확인하기 위해 'feature_names' 값을 확인해 보자.

In [31]:
print(iris_data['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [32]:
print(iris_data['target'])
print(iris_data['target_names'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [33]:
print(iris_data['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 사이킷런을 이용한 데이터 분리

사이킷런을 이용하면 학습 데이터를 대상으로 학습 데이터와 평가 데이터로 쉽게 나눌 수 있다.

In [34]:
from sklearn.model_selection import train_test_split

In [35]:
train_input, test_input, train_label, test_label = train_test_split(
    iris_data['data'],
    iris_data['target'],
    test_size=0.25,
    random_state=42
)

`train_test_split` 함수를 사용하려면 우선 나누고 싶은 데이터를 넣는다.
여기서는 데이터 값과 라벨인 타깃 값을 넣었다.
그러고 나서 평가 데이터의 크기를 결정해야 한다.
이 값의 경우 0과 1사이의 값을 넣어야 하는데, 이는 비율을 의미한다.
즉, 0.25로 설정할 경우 전체 학습 데이터의 25%를 따로 나눠준다는 의미다.
마지막으로 `random_state` 값을 설정한다.
이 함수가 데이터를 나눌 때 무작위로 데이터를 선택해서 나누는데, 이때 무작위로 선택되는 것을 제어할 수 있는 값이 `random_state` 값이다.
함수를 여러 번 사용하더라도 이 값을 똑같이 설정할 경우 동일한 데이터를 선택해서 분리할 것이다.
이렇게 나눈 다음, 각 변수의 형태를 확인해보자.

In [36]:
print("shape of train_input: {}".format(train_input.shape))
print("shape of test_input: {}".format(test_input.shape))
print("shape of train_label: {}".format(train_label.shape))
print("shape of test_label: {}".format(test_label.shape))

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


결과를 보면 학습 데이터가 총 112개이고, 평가 데이터가 38개다.
앞에서 평가 데이터의 크기를 전체의 25%로 설정했기 때문에 150개의 25%에 해당하는 38개가 평가 데이터로 설정됐다.
나머지 75%에 해당하는 112개의 데이터는 학습 데이터로 사용할 것이다.

학습 데이터와 평가 데이터가 따로 존재하지 않는 경우에는 이처럼 학습 데이터의 일부분을 평가 데이터로 사용한다.
평가 데이터가 있는 경우에도 이 함수를 사용해 학습 데이터의 일부분을 따로 분리해 놓는 경우가 있는데,
이러한 경우는 학습 데이터를 학습 데이터와 검증 데이터로 구분하는 경우다.
즉, 학습 데이터, 평가 데이터, 검증 데이터로 총 3개의 데이터로 나눈다.
이 경우에는 우선 학습 데이터를 사용해서 모델을 학습시키고 학습시킨 모델에 대해 일차적으로 검증 데이터를 사용해 모델 검증을 진행한다.
그 결과를 통해 모델의 하이퍼파라미터를 수정한다.
이처럼 학습과 검증 과정을 반복적으로 진행한 후 최종적으로 나온 모델에 대해 평가 데이터를 사용해 평가한다.
이러한 방식은 모델을 만드는 과정에서 대부분 사용하는 방법이다.

## 사이킷런을 이용한 지도 학습

사이킷런을 통해 지도 학습 모델을 만드는 방법을 알아보자.
우선 지도 학습이란 각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정이다.
즉, 모델이 예측하는 결과를 각 데이터의 정답과 비교해서 모델을 반복적으로 학습시킨다.

이번 절에서는 지도 학습 모델 중 하나를 선택해서 직접 사용해 보겠다.
지도 학습 모델에는 다양한 모델이 있지만 간단하고 데이터 특성만 맞는다면 좋은 결과를 확인할 수 있는 k-최근접 이웃 분류기를 사용한다.
k-최근접 이웃 분류기는 예측하고자 하는 데이터에 대해 가장 가까운 거리에 있는 데이터의 라벨과 같다고 예측하는 방법이다.
**이 방법은 데이터에 대한 사전 지식이 없는 경우의 분류에 많이 사용된다.**

여기서 k 값은 예측하고자 하는 데이터와 가까운 몇 개의 데이터를 참고할 것인지를 의미한다.
즉, k 값이 1이라면 예측하고자 하는 데이터에서 가장 가까운 데이터 하나만 참고해서 그 데이터와 같은 라벨이라고 예측하거,
k 값이 3인 경우는 예측하려는 데이터에서 가장 가까운 3개의 데이터를 참고해서 그 3개 데이터의 라벨 중 많은 라벨을 결과로 예측한다.
아래 그림을 보고 k=1인 경우와 k=3인 경우를 구분 지어 이해해보자.

<img src="kNeighborsClassifier.png" alt="kNeighborsClassifier" style="width: 500px;"/>

그림을 보면 k=1인 경우에는 가장 가까운 데이터의 라벨값이 Class1이기 때문에 Class1로 예측한다.
k=3인 경우에는 가까운 3개의 데이터가 Class1 1개, Class2 2개로 구성돼 있기 때문에 이 경우에는 Class2로 예측하게 된다.

이러한 K-최근접 이웃 분류기의 특징은 아래와 같다.

- 데이터에 대한 가정이 없어 단순한다.
- 다목적 분류와 회귀에 좋다.
- 높은 메모리를 요구한다.
- k값이 커지면 계산이 늦어질 수 있다.
- 관련 없는 기능의 데이터의 규모에 민감하다.

이제 이러한 k-최근접 이웃 분류기를 직접 만들어보자.
우선 분류기 객체를 불러와 변수에 할당한다.

In [37]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

분류기를 생성할 때 인자 값으로는 `n_neighbors` 값을 받는데, 이 값은 위에서 설명한 k 값을 의미한다.
즉, 여기서는 k=1인 분류기 생성한 것이다.
이제 이렇게 생성한 분류기를 학습 데이터에 적용하면 되는데, 간단하게 아래와 같이 구현할 수 있다.

In [38]:

knn.fit(train_input, train_label)
KNeighborsClassifier(
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    metric_params=None,
    n_jobs=1,
    n_neighbors=1,
    p=2,
    weights='uniform'
)

KNeighborsClassifier(n_jobs=1, n_neighbors=1)

위와 같이 `fit` 함수를 사용해 분류기 모델에 학습 데이터와 라벨 값을 적용하기만 하면 모델 학습이 간단하게 끝난다.
이제 학습시킨 모델을 사용해 새로운 데이터의 라벨을 예측해보자.
우선은 새롭게 4개의 피처값을 임의로 설정해서 넘파이 배열로 만들자.

In [39]:
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

4개의 특징값을 직접 입력해서 넘파이 배열로 만들었다.
생성한 배열을 보면 꽃받침 길이와 너비가 각각 6.1, 2.8이고 꽃잎의 길이와 너비가 각각 4.7, 1.2인 데이터로 구성돼 있다.
참고로 배열을 생성할 때 리스트 안에 또 하나의 리스트가 포함된 방식으로 만들었는데,
이렇게 생성하지 않고 하나의 리스트만 사용해서 정의한 경우 이를 함수에 적용하면 오류가 발생한다.

이제 이 값을 대상으로 앞에서 만든 분류기 모델의 `predict` 함수를 사용해 결과를 예측해보자.

In [40]:
knn.predict(new_input)

array([1])

보다시피 1(Versicolor)로 예측하고 있다.
이 데이터는 임의로 만든 것이기 때문에 이 결과가 제대로 예측한 것인지 확인할 수 없다.
이제 모델의 성능을 측정하기 위해 이전에 따로 분리해둔 평가 데이터를 사용해 모델의 성능을 측정해보자.
우선 따로 분리해둔 평가 데이터에 대해 예측을 하고 그 결괏값을 변수에 저장하자.

In [41]:
predict_label = knn.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


이제 예측한 결과값과 실제 결괏값을 비교해서 정확도가 어느 정인지 측정해보자.
실제 결과와 동일한 것의 개수를 평균을 구하면 된다.

In [42]:
print('test accuracy {:.2f}'.format(np.mean(predict_label==test_label)))

test accuracy 1.00


정확도가 1.00 인데, 전체 100%의 정확도로서 매우 좋은 성능을 보여준다.
이것은 데이터 자체가 특징이 라벨에 따라 구분이 잘 되고 모델이 데이터에 매우 적합하다는 것을 의미한다.
이제 비지도 학습 모델을 만드는 방법을 알아보자.

## 사이킷런을 이용한 비지도 학습

이전 장에서 지도 학습 모델을 사이킷런 라이브러리를 사용해 만드는 방법을 알아봤다.
이번에는 사이킷런을 통해 비지도 학습 모델을 만들어 보자.
비지도 학습이란 지도학습과는 달리 데이터에 대한 정답, 즉 라벨을 사용하지 않고 만들 수 있는 모델이다.
모델을 통해 문제를 해결하고 싶은데 데이터에 대한 정답이 없는 경우에 적용하기에 적합한 모델이다.

비지도 학습 방법에도 여러 가지 방법이 있지만 여기서는 군집화 방법 중 하나인 k-평균 군집화 모델을 사용해 진행한다.
군집화란 데이터를 특성에 따라 여러 집단으로 나누는 방법이다.
따라서 붓꽃 데이터의 경우에는 3개의 정답이 있으므로 3개의 군집단으로 나누는 방법을 사용해야 할 것이다.

k-평균 군집화는 군집화 방법 중 가장 간단하고 널리 사용되는 군집화 방법이며, 데이터 안에서 대표하는 군집의 중심을 찾는 알고리즘이다.
알고리즘은 계속해서 반복적으로 수행되는데, 우선 k개만큼의 중심을 임의로 설정한다.
그러고 난 후, 모든 데이터를 가장 가까운 중심에 할당하며, 같은 중심에 할당된 데이터들을 하나의 군집으로 판단한다.
각 군집 내 데이터들을 가지고 군집의 중심을 새로 구해서 업데이트 한다.
이후 또 다시 가까운 중심에 할당되고 이러한 과정이 계속 반복된다.
이러한 반복은 할당되는 데이터에 변화가 없을 때까지 이뤄진다.
이후 반복이 종료되면 각 데이터가 마지막으로 할당된 중심에 따라 군집이 나뉜다.
붓꽃 데이터를 군집화한다면 다음 그림처럼 각 붓꽃 데이트들은 각 군집으로 나뉠 것이다.

<img src="https://t1.daumcdn.net/cfile/tistory/9945D2375F433D4305" alt="k-평균 군집화" style="width: 500px;"/>

In [43]:
from sklearn.cluster import KMeans

k_means = KMeans(n_clusters=3)

앞서 사용했던 k-최근접 이웃 분류기 보델과 비슷하다.
우선 군집화 모듈에서 KMeans를 불러온 후 k-평균 군집화 모델을 만들면 된다.
이때 인자로 k값을 의미하는 군집의 개수를 설정한다.
여기서는 3개의 군집을 만들어야 하기 때문에 이 값을 3으로 설정한다.
이제 군집화 모델에 데이터를 적용하자.

In [44]:
k_means.fit(train_input)

KMeans(n_clusters=3)

이전과 같이 `fit` 함수를 사용해 데이터와 라벨을 입력하면 자동으로 데이터를 군집화한다.
하지만 앞서 진행한 지도 학습 모델과는 다른 점이 있는데, `fit` 함수의 인자로 데이터의 라벨값을 넣지 않았다.
비지도 학습 모델인 k-평균 군집화는 라벨을 필요로 하지 않고 입력 데이터만을 사용해서 비슷한 데이터끼리 군집을 만들기 때문에 라벨을 넣지 않아도 된다.

In [45]:
k_means.labels_

array([0, 0, 1, 1, 1, 0, 0, 1, 1, 2, 1, 2, 1, 2, 1, 0, 2, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 1, 2, 1, 0, 1, 2, 0,
       0, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1, 2, 2, 1, 0, 0, 1, 2, 0, 0, 0, 1,
       2, 0, 2, 2, 0, 1, 1, 1, 2, 2, 0, 2, 1, 2, 1, 1, 1, 0, 1, 1, 0, 1,
       2, 2, 0, 1, 2, 2, 0, 2, 0, 2, 2, 2, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 2], dtype=int32)

앞선 설명에 따르면 붓꽃의 라벨을 확인할 수 없다고 했는데, 각 데이터에 라벨링이 돼 있다.
이것은 사실 붓꽃의 라벨을 의미하는 것이 아니라 3개의 군집으로 k-평균 군집화한 각 군집을 나타낸다.
즉, `k_means.labels_`에 나온 0이라는 라벨은 0번째 군집을 의미하고, 붓꽃 데이터의 라벨 0은 Setosa 종을 의미한다.

따라서 각 군집의 붓꽃 종의 분포를 확인하기 위해 다음과 같이 작성해서 각 군집의 종을 확인해 보자

In [46]:
print("0 cluster:", train_label[k_means.labels_ == 0])
print("1 cluster:", train_label[k_means.labels_ == 1])
print("2 cluster:", train_label[k_means.labels_ == 2])

0 cluster: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
1 cluster: [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]
2 cluster: [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]


결과를 보면 0번째 군집은 라벨 1인 데이터들이 주로 분포돼 있고, 1번째 군집은 라베 0인 데이터들만 분포돼 있다.
따라서 새로운 데이터에 대해서 0번째 군집으로 예측할 경우 라벨 2로, 1번째 군집으로 예측할 경우 라벨 0으로,
2번째 군집으로 예측할 경우 라벨 1로 판단할 수 있다.

하지만 여기서 중요한 것은 항상 결과가 위와 동일하게 나오지 않고 군집화를 진행할 때마다 바뀐다는 것이다.
즉, 0번째 군집에 라벨인 데이터들이 주로 분포할 수도 있다.
이는 k-평균 군집화 모델 알고리즘 특성 때문에 불가피하게 발생하는 현상이다.
k-평균 군집화의 경우 처음에 초기값을 랜덤으로 설정한 후 군집화 과정을 진행하는데 이러한 과정 때문에 군집의 순서가 바뀔 수도 있다.
따라서 위의 코드를 실행할 때 책과 다른게 결과가 나오더라도 잘못 된 것이 아니고, 각 군집이 어떤 라벨을 의미하는지만 파악하면 된다.

앞서 지도 학습에서 진행했던 것과 동일하게 임의의 새로운 데이터를 만들어서 예측을 진행해보자

In [47]:
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

In [48]:
prediction = k_means.predict(new_input)
print(prediction)

[1]


결과를 보면 새롭게 정의한 데이터는 2번째 군집에 포함된다고 예측했다.
앞서 확인했을 때 0번째 군집은 주로 라벨 2인 종의 붓꽃들이 군집화돼 있었기 때문에 새로운 데이터 역시 라벨 2로 예측할 수 있을 것이다.
마지막으로 해당 모델의 성능을 측정하기 위해 평가 데이터를 적용시켜서 실제 라벨과 비교해 성능을 측정해보자.

In [49]:
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 1 0 2 2 2 2 2 0 0 0 0 1 0 0 1 1
 0]


평가 데이터를 적용시켜 예측한 군집을 이제 각 붓꽃의 종을 의미하는 라벨 값으로 다시 바꿔줘야 실제 라벨과 비교해서 성능을 측정할 수 있다.

In [50]:
np_arr = np.array(predict_cluster)
np_arr[np_arr==0], np_arr[np_arr==1], np_arr[np_arr==2] = 3, 4, 5
np_arr[np_arr==3] = 2
np_arr[np_arr==4] = 0
np_arr[np_arr==5] = 1
predict_label = np_arr.tolist()
print(predict_label)

[0, 2, 1, 0, 0, 2, 0, 1, 0, 0, 1, 2, 2, 2, 2, 0, 1, 0, 0, 1, 2, 0, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 0, 2, 2, 0, 0, 2]


각 데이터가 속한 군집의 순서를 실제 붓꽃의 라벨로 바꿔주었다.
만약 각 군집의 라벨 분포가 다르게 나온다면 각 군집이 어떤 라벨을 의미하는지 파악한 후 해당 라벨로 바꿔줘야 한다.
여기서는 0번째 군집이 라벨 2, 1번째 군집이 라벨 0, 2번째 군집이 라벨 1를 의미한다.
이를 변경할 때는 임시 저장을 위해 군집의 순서값 3,4,5를 넘파이 배열로 먼저 만들어 준다.
이후 군집 3을 2로, 군집 4를 0으로, 군집 5를 1로 바꿔주었다.

이제 모델 성능을 측정하기 위해 각 평가 데이터에 대해 예측값을 모두 구했다.
실제 라벨과 비교해서 성능이 어느 정도 되는지 확인해 보자.

In [51]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 0.00


결과를 보면 앞서 진행한 지도 학습 모델보다는 낮은 성능이지만 그래도 95%라는 매우 높은 성능을 보여준다.
데이터의 라벨을 사용하지 않고 학습했음에도 불구하고 이 정도의 성능이면 매우 우수한 결과다.
따라서 만약 데이터는 있지만 각 데이터의 라벨이 존재하지 않을 때는 비지도 학습 모델을 쓰는 것도 나쁘지 않은 방법이다.

이렇게 해서 붓꽃 데이터와 사이킷런 라이브러리를 활용해 지도 학습 모델과 비지도 학습 모델을 사용하는 방법을 알아봤다.
사이킷런 라이브러리 내의 함수들은 사용하기가 아주 쉽게 구성돼 있어 데이터를 적용하기만 하면 자동으로 학습과 예측을 수행했는데,
만약 데이터가 붓꽃 데이터와는 다르게 수치형 데이터가 아닐 경우에는 어떻게 해야 할까?
예를 들어, 인간 언어의 경우 수치화돼 있지 않은 데이터이기 때문에 다양한 머신러닝 모델에 바로 적용할 수 없다.
이어지는 절에서는 이러한 상황을 해결하기 위한 특징 추출 모듈에 대해 알아보겠다.

## 사이킷런을 이용한 특징 추출

이번 절에서는 사이킷런의 특징 추출 모듈에 대해 알아보겠다.
자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다.
기존에 문자로 구성돼 있던 데이터를 모델로 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화한다.
이번 절에서는 사이킷런을 사용해 텍스트 데이터를 수치화하는 세 가지 방법에 대해 알아보낟.
참고로 세 가지 방법 모두 텍스트 데이터를 다루면서 자주 사용하는 기법이므로 알아둔다면 도움이 될 것이다.
관련 모듈의 목록은 다음과 같다.

- CountVectorizer
- TfidfVectorizer
- HashingVectorizer

세 가지 방법 모두 텍스트를 벡터로 만드는 방법이다.
`CountVectorizer`는 단순히 각 텍스트에서 횟수를 기준으로 특징을 추출하는 방법이다.
`TfidfVectorizer`는 TF-IDF라는 값을 사용해 텍스트에서 특징을 추출한다.
마지막으로 `HashingVectorizer`는 앞에서 설명한 `CountVectorizer`와 동일한 방법이지만
텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간을 크게 줄일 수 있다.
따라서 텍스트의 크기가 클수록 `HashingVectorizer`를 사용하는 것이 효율적이다.

여기서는 세 가지 특징 추출 기법 중에서 `CountVectorizer`와 `TfidfVectorizer`에 대해서 알아보자.

### CountVectorizer

`CountVectorizer`는 이름에서도 확인할 수 있듯이 텍스트 데이터에서 횟수를 기준으로 특징을 추출하는 방법이다.
여기서 어떤 단위의 횟수를 셀 것인지는 선택 사항이다.
여기서 말하는 단위는 단어가 될 수도 있고, 문자 하나하나가 될 수도 있다.
보통은 텍스트에서 단어를 기준으로 횟수를 측정하는데, 문장을 입력으로 받아 단어의 횟수를 측정한 뒤 벡터로 만든다.

`CountVectorizer`를 사용하려면 먼저 객체를 만들어야 한다. 그리고 이 객체에 특정 텍스트를 적합시켜야 한다.
여기서 말하는 적합의 의미는 횟수를 셀 단어의 목록을 만드는 과정이다.
그다음에 횟수를 기준으로 해당 텍스트를 벡터화한다.

예를 들어, "나는 매일 공부를 한다"라는 문장을 횟수값으로 이뤄진 벡터로 만든다면, 우선 단어 사전을 정의해야 한다.
이때 단어 사전이 "나는", "너가", "매일", "공부를", "한다", "좋아한다"라는 6개의 단어로 구성돼 있다고 한다면
"나는 매일 공부를 한다" 문장의 경우 \[1, 0, 1, 1, 1, 0\]이라는 벡터로 바뀔 것이다.
즉, 첫 번째 단어인 "나는"이라는 단어가 1번 나오므로 1이라는 값을 가지고,
두 번째 단어인 "너가"라는 단어는 나오지 않으므로 0이 된다.
이러한 방식으로 나머지 단어 사전의 단어에 대해서도 횟수를 세서 해당 횟수를 벡터 값으로 만든다.
만약 "나는 매일 매일 공부를 한다."라는 문장에 대해서는 단어 사전의 세 번째 단어인 "매일"이 두 번 나오므로
\[1, 0, 2, 1, 1, 0\]이라는 벡터로 바뀔 것이다.

이제 사이킷런의 모듈을 사용해 직접 구현해 보자.
우선 특징 추출 모듈 `sklearn.feature_extration.text`에서 `CountVectorizer`를 불러오자.

In [52]:
from sklearn.feature_extraction.text import CountVectorizer

이번에는 텍스트 데이터를 불러오자. 여기서는 특정 데이터를 사용하지 않고 리스트로 텍스트 데이터를 직접 정의해서 사용한다.
그리고 `CountVectorizer` 객체를 생성한다.

In [53]:
text_data = ["나는 배가 고프다", "내일 점심 뭐먹지", "내일 공부 해야겠다", "점심 먹고 공부 해야지"]

count_vectorizer = CountVectorizer()

우선은 앞에서 설명한 것처럼 단어 사전을 만들어야 한다.
생성한 객체에 `fit` 함수를 사용해 데이터를 적용하면 자동으로 단어 사전을 생성한다.

In [54]:
count_vectorizer.fit(text_data)
print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


데이터를 적용한 후 단어 사전을 출력해보면 각 단어에 대해 숫자들이 사전 형태로 구성돼 있다.
이제 텍스트 데이터를 실제로 벡터로 만들어보자.
정의한 텍스트 데이터 중에서 하나만 선택해서 벡터로 만든다.

In [55]:
sentence = [text_data[0]] # ["나는 배가 고프다"]
print(count_vectorizer.transform(sentence).toarray())

[[1 0 1 0 0 0 1 0 0 0]]


"나는 배가 고프다"라는 문장을 벡터로 만들었다.
각 단어가 1번씩 나왔으므로 해당 단어 사전 순서에 맞게 1 값을 가진다.
이처럼 매우 간단하게 텍스트 데이터에서 특징을 추출할 수 있다.
횟수를 사용해서 벡터를 만들기 때문에 직관적이고 간단해서 여러 상황에서 사용할 수 있다는 장점이 있다.
하지만 단순히 횟수만을 특징으로 잡기 때문에 큰 의미가 없지만 자주 사용되는 단어들,
예를 들면 조사 혹은 지시대명사가 높은 특징 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다.
이제 이러한 문제점을 해결할 수 있는 TF-IDF 방식의 특징 추출 방법을 살펴보자.

### TfidfVectorizer

`TfidfVectorizer`는 TF-IDF라는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 방법이다.
각 값이 의미하는 바를 간단히 설명하면 TF(Term Frequency)란 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미한다.
그리고 DF(Document Frequency)는 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표다.
IDF(Inverse Document Frequency)는 이 값에 역수를 취해서 구할 수 있으며, 특정 단어가 다른 데이터에 등장하지 않을수록 값이 커진다는 것을 의미한다.
TF-IDF란 이 두 값을 곱해서 사용하므로 어떤 단어가 해당 문서에 자주 등장하지만 다른 문서에는 많이 없는 단어일수록 높은 값을 가지게 된다.
따라서 조사나 지시대명사처럼 자주 등장하는 단어는 TF 값은 크지만 IDF 값은 작어지므로 `TfidfVectorizer`는
`CountVectorizer`가 가진 문제점을 해결할 수 있다.

이제 사이킷런의 `TfidfVectorizer`를 사용하는 방법을 알아보자.
기본적인 방법은 `CountVectorizer`와 거의 유사하다.
결괏값만 단어의 출현 횟수가 아닌 각 단어의 TF-IDF 값으로 나오는 것만 다르다.
우선은 `TfidfVectorizer`를 불러오자. 마찬가지로 사이킷런의 특징 추출 모듈에서 불러오면 된다.

In [56]:
from sklearn.feature_extraction.text import TfidfVectorizer

이제 특징을 추출한 데이터를 정의하고 해당 객체를 생성한다.
앞에서 사용했던 데이터와 동일한 데이터로 진행한다.

In [57]:
text_data = ["나는 배가 고프다", "내일 점심 뭐먹지", "내일 공부 해야겠다", "점심 먹고 공부 해야지"]

tfidf_vectorizer = TfidfVectorizer()

`TfidfVectorizer`를 사용할 때도 앞에서 했던 것과 동일하게 먼저 단어 사전을 만들어야 한다.
단어 사전을 만든 후 단어 사전의 목록을 출력하고, 해당 데이터의 한 문장만 객체에 적용해 벡터로 바뀐 값도 출력해보자.

In [58]:
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[3]] # ['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(text_data).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.         0.        ]
 [0.         0.         0.         0.52640543 0.         0.66767854
  0.         0.52640543 0.         0.        ]
 [0.         0.52640543 0.         0.52640543 0.         0.
  0.         0.         0.66767854 0.        ]
 [0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


단어 사전의 앞에서 만든 것과 동일한데, 특정 문장을 벡터로 만든 값이 `CountVectorizer`의 결과와 다르다.
예시로 사용한 문장은 "점심 먹고 공부 해야지"라는 문장인데 여기서 1, 4, 7, 9번째 단어를 제외한 단어들은 해당 문장에 사용되지 않아서 모두 0 값이 나왔다.
그리고 문장에 나온 단어에 대한 TF-IDF 값을 살펴보자.
우선 1, 7번째 단어인 '공부'와 '점심'이라는 단어는 0.4 정도의 값을 가지고 4, 9번째 단어인 '먹고'와 '해야지'는 0.5 정도의 값으로 앞의 두 단어보다 높은 값을 가진다.
TF-IDF 측정 방법을 생각해보면 우선 해당 문장 안에서 단어의 출현 빈도를 측정하고 해당 단어가 다른 데이터에서는 잘 나오지 않는 값일수록 높은 값을 가진다고 했다.
이 문장에서 4단어 모두 한 번씩 나왔으나 '먹고'와 '해야지'의 경우 다른 데이터에는 나오지 않은 단어이기 때문에 앞선 두 단어보다 높은 값이 나왔다.

이처럼 특징 추출 방법으로 TF-IDF 값을 사용할 경우 단순 횟수를 이용하는 것보다 각 단어의 특성을 좀 더 잘 반영할 수 있다.
따라서 모델에 적용할 때도 단순히 횟수를 이용해 특징을 추출한 `CountVectorizer`보다 TF-IDF 값으로 특징을 추출한 `TfidfVectorizer`를 사용하는 편이 일반적으로 좀 더 좋은 결과를 만들어낸다.

지금까지 사이킷런을 사용해서 모델을 만드는 방법, 데이터 분리, 특징 추출 방법에 대해 알아봤다.
사이킷런에는 여기서 소개한 기능뿐 아니라 다양한 모듈을 제공하고 있으므로 머신러닝 모델을 통해 문제를 해결하려 한다면 사이킷런 라이브러리를 사용하는 것이 매우 효율적일 것이다.
그뿐만 아니라 텐서플로 등 다른 라이브러리를 사용해서 딥러닝 모델을 만든다하더라도 데이터 분리나 특징 추출 등 사이킷런의 전처리 모듈은 유용하게 활용될 수 있다.
다음 장부터 실습할 때도 실제로 사이킷런을 사용하는 내용이 나오므로 사용법을 확실히 익혀두기를 권장한다.

## 자연어 토크나이징 도구

자연어 처리를 위해서는 우선 텍스트에 대한 정보를 단위별로 나누는 것이 일반적이다.
예를 들어, 영화 리뷰 내용을 예측한다고 하면 한 문장을 단어 단위로 쪼개서 분석할 수 있다.
이처럼 예측해야 할 입력 정보(문장 또는 발화)를 하나의 특정 기본 단위로 자르는 것을 토크나이징이라고 한다.
파이썬을 이용하면 이러한 작업을 라이브러리를 통해 간편하게 처리할 수 있다.

이번 절에서는 토크나이징 도구에 대해 간단히 설명하고, 설치 방법과 단어, 형태소 토크나이징과 문장 토크나이징 방법을 이야기하고자 한다.
그리고 토크나이징을 할 때 언어의 특징에 따라 처리 방법이 달라지므로 이 책에서는 영어 토크나이징과 한글 토크나이징을 구분해서 따로 설명하겠다.

### 영어로 토크나이징 라이브러리

이번 절에서는 영어 토크나이징 작업을 수행할 수 있는 라이브러리를 소개한다.
영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 쓰이는 대표적인 라이브러리다.
이 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명하다.

#### NLTK

NLTK는 파이썬에서 영어 텍스트 전처리 작업을 하는 데 많이 쓰이는 라이브러리다.
이 라이브러리는 50여 개가 넘는 말뭉치 리소스를 활용해 영어 텍스트를 분석할 수 있게 제공한다.
직관적으로 함수를 쉽게 사용할 수 있게 구성돼 있어 빠르게 텍스트 전처리를 할 수 있다.

#### 토크나이징

토크나이징이란 텍스트에 대해 특정 기준 단위로 문장을 나누는 것을 의미한다.
예를 들면, 문장을 단어 기준으로 나누거나 전체 글을 문장 단위로 나누는 것들이 토크나이징에 해당한다.
파이썬에서 간단하게 문자열에 대해 `split` 함수를 사용해서 나눌 수도 있지만 라이브러리를 사용하면 훨씬 더 간편하고 효과적으로 토크나이징할 수 있다.

#### 단어 단위 토크나이징

텍스트 데이터를 각 단어를 기준으로 토크나이징해보자.
우선 라이브러리 `tokenize` 모듈에서 `word_tokenize`를 불러온 후 사용하면 된다.

In [59]:
import nltk

# nltk.download('all-corpora')
# nltk.download('punkt')

In [60]:
from nltk.tokenize import word_tokenize

sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


영어 텍스트를 정의한 후 `word_tokenize` 함수에 적용하면 위와 같이 구분된 리스트를 받을 수 있다.
결과를 보면 모두 단어로 구분돼 있고, 특수 문자의 경우 따로 간단하게 토크나이징된 결과를 받을 수 있다.
이제 단어 단위로 자르는 것이 아니라 문장 단위로 잘라보자.

#### 문장 단위 토크나이징

경우에 따라 텍스트 데이터를 우선 단어가 아닌 문장으로 나눠야 하는 경우가 있다.
예를 들어, 데이터가 문단으로 구성돼 있어서 문단을 먼저 문장으로 나눈 후 그 결과를 다시 단어로 나눠야 하는 경우가 있다.
이런 경우에 문장 단위의 토크나이징이 필요하다.
역시 NLTK의 라이브러리를 사용하면 쉽게 토크나이징 할 수 있다.
앞서 불러왔던 것처럼 문장 토크나이징할 수 있다.

그뿐만 아니라 NLTK 라이브러리의 경우 토크나이징 외에도 자연어 처리에 유용한 기능들을 제공한다.
대표적으로 텍스트 데이터를 전처리할 때 경우에 따라 불용어를 제거해야 할 때가 있다.
여기서 불용어란 큰 의미를 가지지 않는 단어를 의미한다.
예를 들어, 영어에서는 'a', 'the' 같은 관사나 'is' 같이 자주 출현하는 단어들을 불용어라 한다.
NLTK 라이브러리에는 불용어 사전이 내장돼 있어서 따로 불용어를 정의할 필요 없이 바로 사용할 수 있다.
이처럼 NLTK를 사용하면 자연어 처리 전반에 유용한 기능들을 활용해 효율적으로 문제를 해결할 수 있다.

이제 또 다른 토크나이징 도구인 Spacy에 대해 알아보자.
Spacy도 NLTK와 마찬가지로 매우 간단하게 텍스트를 토크나이징할 수 있는 라이브러리이고 사용법 또한 매우 간단하기 때문에 쉽게 익힐 수 있을 것이다.

#### Spacy

Spacy는 NLTK와 같은 오픈소스 라이브러리다.
주로 교육, 연구 목적이 아닌 상업용 목적으로 만들어졌다는 점에서 NLTK와 다른 목적으로 만들어진 라이브러리다.
Spacy는 현재 영어를 포함한 8개 국어에 대한 자연어 전처리 모듈을 제공하고, 빠른 속도로 전처리할 수 있다고 한다.
또한 쉽게 설치하고 원하는 언어에 대한 전처리를 한 번에 해결할 수 있다는 장점이 있으며, 특히 딥러닝 언어 모델의 개발도 지원하고 있어 매력적이다.

#### Spacy 토크나이징

NLTK 라이브러리에서는 단어 단위의 토크나이징 함수는 `word_tokenize()`, 문장 단위로 토크나이징 함수는 `sent_tokenize()`로 서로 구분돼 있었다.
하지만 Spacy에서는 두 경우 모두 동일한 모듈을 통해 토크나이징한다.
우선 객체를 생성하기 위해 라이브러리를 불러오자.

In [61]:
import spacy

In [62]:
nlp = spacy.load("en")
sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

doc = nlp(sentence)

먼저 `spacy.load('en')`을 통해 토크나이징할 객체를 생성해서 `nlp` 변수에 할당하다.
그리고 토크나이징할 텍스트를 `sentence`에 할당해서 `nlp(sentence)`를 실행해 `nlp` 객체에 대해 호출하자.
그러고 나면 텍스트에 대해 구문 분석 객체를 반환하는데 이를 `doc` 변수에 할당한다.
이제 `doc` 객체를 가지고 입력한 텍스트에 대한 단어 토크나이징과 문장 토크나이징을 할 수 있다.

In [63]:
word_tokenized_sentence = [token.text for token in doc]
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(word_tokenized_sentence)
print(sentence_tokenized_list)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']
['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


토크나이징할 때는 `doc` 객체를 활용해 `[token.text for token in doc]`과 같이 리스트 컴프리헨션을 활용하면 간단하게 토크나이징 결과를 확인할 수 있다.
리스트 컴프리헨션은 파이썬에서 제공하는 기능으로 한 리스트의 모든 원소 각각에 어떤 함수를 적용한 후,
그 반환값을 원소로 가지는 다른 리스트를 쉽게 만들 수 있다.
`doc` 객체에 대해 반복문을 사용하면 단어를 기준으로 토큰이 나오고 `doc.sents` 값에 대해 반복문을 사용하면 문장을 기준으로 토크나이징된다.
이 값을 리스트 컴프리헨션을 통해 각각 리스트로 만들었다.
이처럼 단어 기준, 문장 기준 토크나이징은 매우 유사하지만 조금 다른 구조로 생성할 수 있다.

NLTK는 함수를 통해 토크나이징을 처리했지만 Spacy는 객체를 생성하는 방식으로 구현돼 있다.
이처럼 객체를 생성하는 이유는 이 객체를 통해 단순히 토크나이징뿐 아니라 갖가지 다른 자연어 전처리 기능을 제공할 수 있기 때문이다.

사용법을 보면 NLTK와 Spacy는 간단하게 사용할 수 있다는 것을 알 수 있다.
하지만 사용법에 저마다 특색이 있거, 토크나이징 외에 제공되는 기능이 서로 다르므로 두 라이브러리 모두 알아두고 적재적소에 알맞게 사용하면 된다.

지금가지 두 라이브러리를 통해 영어 텍스트를 토크나이징하는 방법을 알아봤다.
하지만 이러한 영어 토크나이징 도구는 한국어에 적용할 수 없다는 것이 큰 문제점이다.
이어지는 절에서는 한글 텍스트 데이터를 어떻게 토크나이징하는지 알아보겠다.

### 한글 토크나이징 라이브러리

자연어 처리에서 각 언어마다 모두 특징이 다르기 때문에 천편일률적으로 동일한 방법을 적용하기는 어렵다.
한글에도 NLTK나 Spacy 같은 도구를 사용할 수 있으면 좋겠지만 언어 특성상 영어를 위한 도구를 사용하기에는 적합하지 않다.
예를 들어, 영어에 없는 형태소 분석이나 음속 분리와 같은 내용은 앞서 소개한 라이브러리로는 다루기 어렵다.
하지만 다행히도 영어 자연어 처리를 위한 도구와 같이 한글 자연어 처리를 돕는 도구가 있다.
여러 가지 도구가 있지만 여기서는 한글 자연어 처리에 많이 사용하는 파이썬 라이브러리인 KoNLPy에 대해 알아보겠다.
KoNLPy는 형태소 분석으로 형태소 단위의 토크나이징을 가능하게 할뿐만 아니라 구문 분석을 가능하게 해서 언어 분석을 하는 데 유용한 도구다.

#### KoNLPy

일단 각자 환경에 맞게 잘 설치하도록하자.

In [64]:
import konlpy

#### 형태소 단위 토크나이징

한글 텍스트의 경우에는 형태소 단위 토크나이징이 필요할 때가 있다.
KoNLPy에서는 여러 형태소 분리기를 제공하며, 각 형태소 분석기별로 분석한 결과는 다를 수 있다.
각 형태소 분석기는 클래스 형태로 돼 있고, 이를 객체로 생성한 후 메소드를 호출해서 토크나이징 할 수 있다.

#### 형태소 분석 및 품사 태깅

형태소 분석을 설명하기 전에 먼저 형태소가 무엇인지 알아보자.
형태소란 의미를 가지는 가장 작은 단위로서 더 쪼개지면 의미를 상실하는 것들을 말한다.
따라서 형태소 분석이란 의미를 가지는 단위를 기준으로 문장을 살펴보는 것을 의미한다.

- Hannanum
- Kkma
- Komoran
- Mecab
- Okt(Twitter)

위 객체들은 모두 동일하게 형태소 분석 기능을 제공하는데, 각기 성능이 조금씩 다르므로 직접 비교해보고 자신의 데이터를 가장 잘 분석하는 분석기를 사용하길 권장한다.

각 분석기의 사용법은 거의 비슷하므로 이 책에서는 그중 하나인 Okt를 예로 들어 설명한다.
Okt는 원래 이름이 Twitter였으나 0.5.0 버전 이후로 Okt로 이름이 바뀌었다.

In [65]:
from konlpy.tag import Okt
okt = Okt()

Okt 객체는 총 4개 함수를 제공한다.
- okt.morphs()
    텍스트를 형태소 단위로 나눈다. 옵션으로는 norm과 stem이 있다. 각각 True 혹은 Flase 값을 받으며, norm은 normalize의 약자로서 문장을 정규화하는 역할을 하고, stem은 각 단어에서 어간을 추출하는 기능이다.
    각각 True로 설정하면 각 기능이 적용된다. 옵션을 지정하지 않으면 기본값은 둘 다 False로 설정된다.
- okt.nouns()
    텍스트에서 명사만 뽑아낸다.
- okt.phrases()
    텍스트에서 어절을 뽑아낸다.
- okt.pos()
    위의 세 함수는 어간/명사/어절 등을 추출해내는 추출기로 동작했다면 pos 함수는 각 품사를 태깅하는 역할을 한다.
    품사를 태깅한다는 것은 주어진 텍스트를 형태소 단위로 나누고, 나눠진 각 형태소를 그에 해당하는 품사와 함께 리스트화하는 것을 의미한다.
    이 함수에서도 옵션을 설정할 수 있는데, morphs 함수와 마찬가지로 norm, stem 옵션이 있고 추가적으로 join 함수가 있는데
    이 옵션 값을 True로 설정하면 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화한다.

In [66]:
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ"
print(okt.morphs(text))
print(okt.morphs(text, stem=True)) # 형태소 단위로 나눈 후 어간을 추출

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


어간 추출을 한 경우 "해야지"의 어간인 "하다"로 추출된 것을 볼 수 있다.

In [67]:
print(okt.nouns(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


nouns 함수를 사용한 경우에는 명사만 추출됐고 phrases 함수의 경우에는 어절 단위로 나뉘어서 추출됐다.

이제 품사 태깅을 하는 함수인 pos 함수를 사용해 보자.

In [68]:
print(okt.pos(text))
print(okt.pos(text, join=True)) # 형태소와 품사를 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


join 옵션을 True로 설정한 경우 형태소와 품사가 함께 나오는 것을 볼 수 있다.
경우에 따라 옵션을 설정하면서 사용하자.

#### KoNLPy 데이터

KoNLPy 라이브러리는 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있다.
따라서 라이브러리를 통해 데이터를 바로 사용할 수 있으며, 데이터의 종류는 다음과 같다.

- kolaw
    한국 법률 말뭉치. 'constitution.txt' 파일로 저장돼 있다.
- kobill
    대한민국 국회 의안 말뭉치. 각 id 값을 가지는 의안으로 구성돼 있고 파일은 '1809890.txt'부터 '1809899.txt'까지로 구성돼 있다.

In [69]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [70]:
kolaw.open('constitution.txt').read()[:20]

'대한민국헌법\n\n유구한 역사와 전통에 '

In [71]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

## 그 밖의 라이브러리(전처리)

### Numpy

#### 배열

- ndarray.ndim
    배열의 축(차원)의 수를 반환한다.
- ndarray.shape
    배열의 형태를 반환한다. 예를 들어, 2x3 크기의 2차원 배열이 있다면 이 배열의 shape은 (2,3)이 된다.
- ndarray.size
    배열 내 원소의 총 개수를 반환한다.
- ndarray.dtype
    배열 내 원소들의 자료형을 반환한다.

In [72]:
import numpy as np
a = np.array([[1,2,3], [1,5,9], [3,5,7]])

print(a.ndim)
print(a.shape)
print(a.size)
print(a.dtype)

2
(3, 3)
9
int64


- numpy.zeros
    모든 배열의 원소가 0인 배열을 생성한다.
- numpy.ones
    모든 배열의 원소가 1인 배열을 생성한다.
- numpy.empty
    배열의 크기만 정해주고 원소는 초기화하지 않은 배열을 생성한다.
    원소에는 매우 크거나 작은 값이 들어간다.
- numpy.arange
    파이썬의 range 함수와 유사한 형태로 배열을 생성할 수 있다.
    배열의 원소들이 수열을 구성한다.
- numpy.full
    배열의 모든 값이 하나의 상수인 배열을 생성한다.
- numpy.eye
    지정한 크기의 단위행렬을 생성한다.
- numpy.random.random
    배열의 원소를 임의의 값으로 생성한다.
    값은 0부터 1사이의 값으로 지정된다.

In [73]:
import numpy as np
a = np.zeros((2,3))
print(a)

b = np.ones((2,1))
print(b)

c = np.empty((2,2))
print(c)

d = np.arange(10, 30, 5)
print(d)

e = np.full((2, 2), 4)
print(e)

f = np.eye(3)
print(f)
g = np.random.random((2, 2))

[[0. 0. 0.]
 [0. 0. 0.]]
[[1.]
 [1.]]
[[4.94e-324 2.96e-323]
 [3.16e-322 9.88e-324]]
[10 15 20 25]
[[4 4]
 [4 4]]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


#### 기본 연산

넘파이는 배열끼리 연산할 때 빠르고 사용하기 쉬운 여러 연산 함수를 제공한다.
넘파이에서 제공하는 기본 배열 연산에 알아보자.

넘파이는 배열의 기본적인 사칙 연산을 모두 지원한다.
주의할 점은 벡터끼리의 곱셈과 내적을 구분해야 한다는 점이다.
연산의 경우에는 벡터끼리 사용할 경우 원소별 곱셈을 의미한다.
벡터의 내적인 경우에는 `dot` 함수를 사용해야 한다.

In [74]:
a = np.array([1, 2, 3])
b = np.array([10, 20, 30])
print(a+b)
print(np.add(a,b))
print(b-a)
print(np.subtract(b,a))
print(a**2)
print(b<15)

C = np.array([[1, 2],
              [3, 4]])
D = np.array([[10, 20],
              [30, 10]])
print(C*D)
print(np.dot(C,D))
print(C.dot(D))

[11 22 33]
[11 22 33]
[ 9 18 27]
[ 9 18 27]
[1 4 9]
[ True False False]
[[10 40]
 [90 40]]
[[ 70  40]
 [150 100]]
[[ 70  40]
 [150 100]]


위의 기본적인 연산 외에 중요한 연산 기능은 축을 기준으로 한 연산이다.

In [75]:
a = np.array([[ 1, 2, 3, 4],
              [ 5, 6, 7, 8],
              [ 1, 3, 5, 7]])

print(a.sum(axis=0))

print(a.sum(axis=1))

print(a.max(axis=1))

[ 7 11 15 19]
[10 26 16]
[4 8 7]


#### 넘파이 배열 인덱싱, 슬라이싱

넘파이 배열은 파이썬 리스트와 마찬가지로 인덱싱, 슬라이싱 기능을 제공한다.
인덱싱이란 배열에서 특정 원소를 뽑아내는 것이며, 슬라이싱이란 배열에서 특정 구간의 값을 뽑아내는 것이다.
일차원 배열의 경우 인덱싱과 슬라이싱은 파이썬 리스트 인덱싱과 슬라이싱과 매우 비슷하다.

In [76]:
a = np.array([1, 2, 3, 4, 5, 6, 7])

print(a[3])

print(a[-1])

print(a[2: 5])

print(a[2: ])

print(a[ :4])

4
7
[3 4 5]
[3 4 5 6 7]
[1 2 3 4]


다차원 배열의 경우 넘파이는 유용한 인덱싱과 슬라이싱 기능을 제공한다.
이 경우 인덱싱은 축을 기준으로 한다.

In [77]:
a = np.array([[ 1, 2, 3],
              [ 4, 5, 6],
              [ 7, 8, 9]])

print(a[1, 2])
print(a[ : , 1])
print(a[-1])

6
[2 5 8]
[7 8 9]


#### 넘파이를 이용한 배열 형태 변환

배열을 사용하다 보면 배열의 형태를 바꿔야 할 때가 자주 있다.
이때 넘파이는 배열의 형태를 쉽게 바꿀 수 있는 여러 함수를 제공한다.

- numpy.ravel()
    배열을 1차원 배열로 만든다.
- numpy.reshape()
    배열의 형태를 바꾼다.
- numpy.T
    트랜스포즈된 배열을 만든다. 행렬의 트랜스포즈와 같다.

In [78]:
a = np.array([[1, 2, 3, 4],
              [5, 6, 7, 8],
              [9,10,11,12]])

print(a.ravel())
print(a.reshape(2, 6))
print(a.T)

[ 1  2  3  4  5  6  7  8  9 10 11 12]
[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]]
[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


reshape의 경우 특정한 행, 열만 지정해도 나머지는 자동으로 맞출 수 있다.

In [79]:
print(a.reshape(3, -1))

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


#### 넘파이 브로드캐스팅

배열의 경우 두 배열의 행텨가 같아야만 사용할 수 있는 연산이 많다.
하지만 넘파이는 브로드캐스팅이라는 기능을 통해 다른 형태의 배열끼리도 연산이 가능하게 만들어 준다.
예를 들면, 작은 크기의 배열을 큰 크기의 배열에 더하고 싶을 때 반복문을 사용하지 않고도 더할 수 있다.

In [80]:
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
b = np.array([1,0,1])
y = np.empty_like(a)

for i in range(3):
    y[i, : ] = a[i, : ] + b

print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]]


위와 같은 방식으로 각 행에 배열을 더할 수 있지만 배열이 커질수록 위와 같은 반복문은 매우 느려질 수 있다.
이러한 경우 브로드캐스팅을 사용하면 반복문 없이 매우 간단하게 계산할 수 있다.

In [81]:
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
b = np.array([1,0,1])

c = a + b
print(c)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]]


브로드캐스팅을 사용하면 위와 같이 반복문을 작성하는 수고스러움도 줄고 연산 속도도 배열의 크기가 크다면 매우 빠르다는 것을 알 수 있다.
이처럼 넘파이를 이용하면 배열이나 행렬을 다룰 때 시간 및 효율성 측면에서 매우 우수하기 때문에 주로 행렬 혹은 벡터 데이터를 다루는 머신러닝,
딥러닝 분야에서는 넘파이가 필수적인 라이브러리로 인식되고 있다.

### Pandas(생략)
### Matplotlib(생략)
### re(생략)
### BeautifulSoup(생략)

### Kaggle

```shell
pip install kaggle

# 캐글로부터 대회 데이터 다운 받기
kaggle competitions download -c <competition-name>

# 데이터 목록 확인
kaggle competitions files -c <competition-name>

# 데이터 제출
kaggle competitions submit <competition-name> -f <file-name> -m <message>

# 대회 목록 확인
kaggle competitions list
```