# 자연어 처리 개발 준비
## tf.keras.layers.Dense
`tf.keras.layers.Dense`에서 Dense는 신경망 구조의 가장 기본적인 형태를 의미한다.
즉, 아래의 수식을 만족하는 기본적인 신경망 형태의 층을 만드는 함수이다.

$$y = f(Wx+b)$$

위의 수식에서 x와 b는 각각 입력 벡터, 편향 벡터이며 W는 가중치 행렬이 된다.
즉, 가중치와 입력 벡터를 곱한 후 편향을 더해준다. 그리고 그 값에 f라는 활성화 함수를 적용하는 구조다.
위 수식을 그림으로 보면 아래와 같은 은닉층이 없는 간단한 신경망 형태가 된다.


<img src="DenseLayer.svg" alt="DenseLayer"/>

위 그림에서 왼쪽 노드들이 입력값인 x가 되고 오른쪽 노드들이 y가 된다.
그리고 중간에 있는 선이 가중치를 곱하는 과정을 의미하고, 여기서 곱해지는 가중치들이 앞 수식의 W가 된다.

이러한 Dense 층을 구성하는 기본적인 방법은 가중치인 W와 b를 각각 변수로 선언한 후 행렬 곱을 통해 구하는 방법이다.
다음과 같이 코드를 작성해서 직접 가중치 변수를 모두 정의해야 한다.

```python
import tensorflow as tf

W = tf.Variable(tf.random.uniform([5, 10], -1, 1))
b = tf.Variable(tf.zeros([10]))

y = tf.matmul(W, x) + b
```

위왁 ㅏㅌ이 모든 변수들을 선언하고 하나하나 직접 곱하고, 더해야 한다.
하지만 텐서플로의 Dense를 이용하면 한 줄로 위의 코드를 작성할 수 있다.
이 경우 내부적으로 변수를 생성하고 연산을 진행한다.
아울러 인자 설정에 따라 활성화 함수 설정, 초기화 방법, 정규화 방법 등 다양한 기능을 쉽게 사용할 수 있게 구성돼 있다.

케라스의 Dense를 사용하려면 우선 객체를 생성해야 한다.

```python
dense = tf.keras.layers.Dense(...)
```

이렇게 생성한 Dense 층을 객체에 입력값을 넣어야 한다.
입력값을 넣기 위해서는 객체를 생성할 때 함께 넣거나 생성한 후 따로 적용하는 방법이 있다.

```python
# 방법 1
dense = tf.keras.layers.Dense(...)
output = dense(input)
# 방법 2
output = tf.keras.layers.Dense(...)(input)
```

Dense 층을 만들 때 여러 인자를 통해 가중치와 편향 초기화 방법, 활성화 함수의 종류 등 여러 가지를 옵션으로 정할 수 있다.
객체를 생성할 때 지정할 수 있는 인자는 다음과 같다.

```python
__init__(
    units, activation=None, use_bias=True,
    kernel_initializer='glorot_uniform',
    bias_initializer='zeros', kernel_regularizer=None,
    bias_regularizer=None, activity_regularizer=None, kernel_constraint=None,
    bias_constraint=None, **kwargs
)
```

- units : 출력 값의 크기, Integer 혹은 Long 형태.
- activation : 활성화 함수.
- use_bias : 편향을 사용할지 여부. Boolean 값 형태.
- kernel_initializer : 가중치 초기화 함수
- bias_initializer : 편향 초기화 함수
- kernel_regularizer : 가중치 정규화 방법
- bias_regularizer : 편향 정규화 방법
- activity_regularizer : 출력 값 정규화 방법
- kernel_constraint : Optimizer에 의해 업데이트 된 이후에 가중치에 적용되는 부가적인 제약 함수
- bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수

입력값에 대해 활성화 함수로 시그모이드 함수를 사용하고, 출력 값으로 10개의 값을 출력하는 완전 연결 계층은 다음과 같이 정의하면 된다.

10개의 노드를 가지는 은닉층이 있고 최종 출력 값은 2개의 노드가 있는 신경망 구조를 생각해보자.
그렇다면 객체를 두개 생성해서 신경망을 만들 수 있다.

In [1]:
import tensorflow as tf

INPUT_SIZE = (20, 1)
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

## tf.keras.layers.Dropout

신경망 모델을 만들 때 생기는 여러 문제점 중 대표적인 문제점은 **과적합(overfitting)** 이다.
과적합 문제는 정규화 방법을 사용해서 해결하는데, 그중 가장 대표적인 방법이 `Dropout(드롭아웃)`이다.
텐서플로는 드롭아웃을 쉽게 모델에 적용할 수 있게 간단한 모듈을 제공하는데,
이 모듈을 이용하면 특정 `keras.layers`의 입력값에 드롭아웃을 적용할 수 있다.
사용법은 위의 dense 층을 만드는 방법과 유사하게 Dropout 객체를 생성해서 사용하면 된다.

```python
tf.keras.layers.Dropout(...)
```

드롭아웃을 적용할 입력값을 설정해야 한다.
앞서 진행했던 것과 입력값을 설정하는 방법은 동일하다.

```python
# 방법 1
dense = tf.keras.layers.Dropout(...)
output = dense(input)
# 방법 2
output = tf.keras.layers.Dropout(...)(input)
```

```python
__init__(
    rate, noise_shape=None, seed=None, **kwargs
)
```
- rate : 드롭아웃을 적용할 확률을 지정한다. 확률 값이므로 0~1 사이의 값을 받는다. 예를 들어 dropout=0.2로 지정하면 전체 입력값 중에서 20%를 0으로 만든다.
- noise_shape : 정수형의 1D-tensor 값을 받는다. 여기서 받은 값은 shape을 뜻하는데, 이 값을 지정함으로써 특정 값만 드롭아웃을 적용할 수 있다. 예를 들면, 입력값이 이미지일 때 noise_shape을 지정하면 특정 채널에만 드롭아웃을 적용할 수 있다.
- seed : 드롭아웃의 경우 지정된 확률 값을 바탕으로 무작위로 드롭아웃을 적용하는데, 이때 임의의 선택을 위한 시드 값을 의미한다. seeda 값은 정수형이며, 같은 seed 값을 가지는 드롭아웃의 경우 동일한 드롭아웃 결과를 만든다.

드롭아웃을 적용하는 과정을 생각해보자.
학습 데이터에 과적합되는 상황을 방지하기 위해 학습 시 특정 확률로 노드들의 값을 0으로 만든다.
그리고 이러한 과정은 학습할 때만 적용되고 예측 혹은 테스트할 때는 적용되지 않아야 한다.
케라스의 Dropout을 사용할 경우 이러한 부분이 자동으로 적용된다.
드롭아웃을 적용하는 방법은 아래와 같이 적용시킬 값을 입력 값으로 넣어주면 된다.

In [2]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.5)(inputs)

In [3]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
output = tf.keras.layers.Dense(units=10, activation=tf.nn.sigmoid)(inputs)

텐서플로에서 드롭아웃은 `tf.keras.layers`뿐만 아니라 `tf.nn`에도 있는데,
두 모델의 차이점은 `tf.keras.layers.Dropout`의 경우 확률을 0.2로 지정했을 때 노드의 20%를 0으로 만드는 데 비해
`tf.nn.Dropout`의 경우 확률을 0.2로 지정했을 때 80% 값을 0으로 만든다는 것이다.

함수를 사용하는 방법을 알아보자.
이전의 Dense 층 예제인 신경망 구조에서 처음 입력 값에 드롭아웃을 적용해 보자.

In [4]:
import tensorflow as tf

INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
dropput = tf.keras.layers.Dropout(rate=0.2)(inputs)
hidden = tf.keras.layers.Dense(units=10, activation=tf.nn.sigmoid)(dropput)
output = tf.keras.layers.Dense(units=2, activation=tf.nn.sigmoid)(hidden)

## tf.keras.layers.Conv1D

이번에는 합성곱 연산 중 `Conv1D`에 대해서 알아보자.
텐서플로의 합성곱 연산은 `Conv1D`, `Conv2D`, `Conv3D`로 나뉘어지는데 우선 이 세개가 어떤 차이점이 잇는지 알아보자.

|-|합성곱의 방향|출력값|
|-|-|-|
|Conv1D|한 방향(가로)|1-D Array(Vector)|
|Conv2D|두 방향(가로, 세로)|2-D Array(matrix)|
|Conv3D|세 방향(가로, 세로, 높이)|3-D Array(tensor)|

위의 표에서 나온 출력값의 경우 실제 합성곱 출력값과 동일하진 않다.
배치 크기와 합성곱이 적용되는 필터의 개수도 고려해야 하기 때문에 출력값이 위와 동일하게 나오지 않는 것이다.
위의 경우 단순히 배치의 경우, 고려하지 않고 합성곱 필터를 하나만 적용했을 때라고 생각하면 된다.

<img src="conv1d.png" alt="conv1d" style="width: 300px;"/>

그림을 보면 빨간색 사격형이 하나의 필터가 된다.
이 필터가 가로 방향으로만 옮겨가면서 입력값에 대해 합성곱을 수행한다. 연산 결과들이 모여서 최종 출력 값이 나온다.
따라서 출력 값은 하단에 위치한 것과 같은 1차원 벡터가 된다.

자연어 처리 분야에서 사용하는 합성곱의 경우 각 단어 벡터의 차원 전체에 대해 필터를 적용시기키 위해 주로 `Conv1D`를 사용한다.

```python
# 방법 1
conv1d = tf.keras.layers.Conv1D(...)
output = conv1d(input)

# 방법 2
output = tf.keras.layers.Conv1D(input)
```

```python
__init__(
    filters, kernel_size, strides=1, padding='valid',
    data_format='channels_last', dilation_rate=1, groups=1,
    activation=None, use_bias=True, kernel_initializer='glorot_uniform',
    bias_initializer='zeros', kernel_regularizer=None,
    bias_regularizer=None, activity_regularizer=None, kernel_constraint=None,
    bias_constraint=None, **kwargs
)
```

- filters : 필터의 개수로서, 정수형으로 지정한다. 출력의 차원 수를 나타낸다.
- kernel_size : 필터의 크기로서, 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 합성곱이 적용되는 윈도의 길이를 나타낸다.
- strides : 적용할 스트라이드의 값으로서 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 1이 아닌 값을 지정할 경우 dilation_rate는 1 이외의 값을 지정하지 못한다.
- padding : 패딩 방법을 정한다. "VALID" 또는 "SAME"을 지정할 수 있다.
- data_format : 데이터의 표현 방법을 선택한다. "channel_last" 혹은 "channel_first"를 지정할 수 있다. channel_list의 경우 데이터는(batch, length, channels) 형태여야 하고, channel_first의 경우 데이터는 (batch, channels, length) 형태여야 한다.
- dilation_rate : dilation 합성곱 사용 시 적용할 dilation 값으로서 정수 혹은 정수의 리스트, 튜플 형태로 지정한다. 1이 아닌 값을 지정하면 strides 값으로 1이외의 값을 지정하지 못한다.
- groups : 채널 축을 따라 입력이 분할되는 그룹 수를 지정하는 양의 정수입니다. 각 그룹은 필터/그룹 필터와 별도로 결합됩니다. 출력은 채널 축을 따라 모든 그룹 결과를 연결한 것입니다. 입력 채널과 필터는 모두 그룹으로 나눌 수 있어야 합니다.
- activation : 활성화 함수
- use_bias : 편향을 사용할지 여부.
- kernel_initializer : 가중치 초기화 함수
- bias_initializer : 편향 초기화 함수
- kernel_regularizer : 가중치 정규화 방법
- bias_regularizer : 편향 정규화 방법
- activity_regularizer : 출력 값 정규화 방법
- kernel_constraint : Optimizer에 의해 업데이트 된 이후에 가중치에 적용되는 부가적인 제약 함수
- bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수

In [5]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.Input(shape=INPUT_SIZE)
conv = tf.keras.layers.Conv1D(
    filters=10,
    kernel_size=3,
    padding='same',
    activation=tf.nn.relu
)(inputs)

In [6]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.Input(shape=INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
    filters=10,
    kernel_size=3,
    padding='same',
    activation=tf.nn.relu
)(dropout)

## tf.keras.layers.MaxPool1D

합성곱 신경망과 함께 쓰이는 기법 중 하나는 풀링이다.
보통 피처 맵의 크기를 줄이거나 주요한 특징을 뽑아내기 위해 합성곱 이후에 적용되는 기법이다.
풀링에는 주로 두 가지 풀링 기법이 사용되는데, 맥스 풀링과 평균 풀링이 있다.
맥스 풀링은 피처 맵에 대해 최댓값만을 뽑아내는 방식이고,
평균 풀링은 피처 맵에 대해 전체 값들을 평균한 값을 뽑는 방식이다.

맥스 풀링도 합성곱과 같이 세가지 형태로 모델이 구분돼 있다.
MaxPool1D, MaxPool2D, MaxPool3D로 나눠져 있는데 합성곱과 똑같은 원리다.
자연어 처리에 주로 사용되는 합성곱과 동일하게 MaxPool1D를 주로 사용하는데 한 방향으로만 풀링이 진행된다.
사용법은 앞에서 설명한 합성곱과 동일한다.

```python
# 방법 1
max_pool = tf.keras.layers.MaxPool1D(...)
max_pool.apply(input)

# 방법 2
max_pool = tf.keras.layers.MaxPool1D(...)(input)
```

```python
__init__(
    pool_size=2, strides=None, padding='valid',
    data_format='channels_last', **kwargs
)
```

- pool_size : 풀링을 적용할 필터의 크기를 뜻한다. 정수값을 받는다.
- strides : 적용할 스트라이드의 값. 정수 혹은 None 값을 받는다.
- padding : 패딩 방법을 지정한다. "valid" 또는 "same"을 지정할 수 있다.
- data_format : 데이터의 표현 방법을 선택한다. "channel_list" 혹은 "channel_first"를 지정할 수 있다. channel_list의 경우 데이터는 (batch, length, channels) 형태여야 하고, channel_first의 경우 데이터는 (batch, length, channels) 형태여야 한다.

입력값이 합성곱과 맥스 풀링을 사용한 후 완전 연결 계층을 통해 최정 출력 값이 나오는 구조를 만들어 보자.
그리고 입력값에는 드롭아웃을 적용한다.
그리고 맥스 풀링 결과값을 완전 연결 계층으로 연결하기 위해서는 행렬이었던 것을 벡터로 만들어야 한다.
이때 `tf.keras.layers.Flatten`을 사용한다. Flatten의 경우 별다른 인자값 설정 없이도 사용할 수 있기 때문에 쉽게 사용할 수 있다.

In [7]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.layers.Input(shape=INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(dropout)

max_pool = tf.keras.layers.MaxPool2D(pool_size=3, padding='same')(conv)
flatten = tf.keras.layers.Flatten()(max_pool)
hidden = tf.keras.layers.Dense(units=50, activation=tf.nn.relu)(flatten)
output = tf.keras.layers.Dense(units=10, activation=tf.nn.softmax)(hidden)

## Sequential API

`tf.keras.Sequential`은 케라스를 활용해 모델을 구축할 수 있는 가장 간단한 형태의 API이다.
`Sequential` 모듈을 이용하면 간단한 순차적인 레이어의 스택을 구현할 수 있다.
간단한 형태의 완전 연결 계층을 구현해보겠다.

In [8]:
import tensorflow as tf
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))

`Sequential` 인스턴스를 생성한 후 해당 인스턴스에 여러 레이어를 순차적으로 더하기만 하면 모델이 완성된다.
이렇게 만든 모델을 입력값을 더한 순서에 맞게 레이어들을 통과시킨 후 최종 출력값을 뽑아오게 된다.
`Sequential` 모듈의 경우 위와 같이 구현 자체가 매우 간단하다는 사실을 알 수 있다.
그에 반해 모델 구현에 제약이 있는데, 모델의 층들이 순차적으로 구성돼 있지 않은 경우에는 `Sequential` 모듈을 사용해 구현하기가 어려울 수 있다.
예를 들면, VQA(Visual Question Answering) 문제(사진과 질문이 입력값으로 주어지고 사진을 참고해 질문에 답하는 문제)의 경우 사진 데이터에서 특징을 뽑는 레이어와 질문 텍스트 데이터에서 특징을 뽑는 두 레이어가 각기 순차적으로 존재한다.
따라서 최종적으로 출력값을 뽑기 위해서는 이 두 값을 합쳐야 하는데, 이러한 구조의 모델을 구현할 때 `Sequential`모듈을 사용하게 되면 하나의 플로만 계산할 수 있는 `Sequential` 모듈로는 두 개의 값을 합칠 수가 없기 때문에 여러 제약이 존재한다.
따라서 이러한 경우에는 앞으로 소개할 다른 방법을 이용해 모델을 구현하는 것이 적절하다.

## Functional API

`Sequential` 모듈은 간단한 레이어들의 스택 구조에는 적합하지만 복잡한 모델의 경우에는 여러 구현상의 제약이 있을 수 있다.
예를 들면, 모델의 구조가 다음과 같을 경우 `Sequential` 모듈을 사용하기가 어려울 수 있다.
- 다중 입력값 모델
- 다중 출력값 모델
- 공유 층을 활용하는 모델
- 데이터 흐름이 순차적이지 않은 모델

이러한 모델을 구현할 때는 케라의 `Functional API`를 사용하거나 이후 살펴볼 `Subclassing` 방식을 사용하는 것이 적절할 수 있다.
`Functional API`를 활용해 앞에서 정의한 모델과 동일한 모델을 만들어 보자.

In [9]:
import tensorflow as tf
from tensorflow.keras import layers

inputs = tf.keras.Input(shape=(32,))
x = layers.Dense(64, activation='relu')(inputs)
x = layers.Dense(64, activation='relu')(x)
predictions = layers.Dense(10,  activation='softmax')(x)

`Functional API`를 활요하기 위해서는 입력값을 받는 Input 모듈을 선언해야 한다.
이 모듈을 선언할 때는 모델의 입력으로 받는 값의 형태를 정의하면 된다.
이 Input 모듈을 정의한 후 입력값을 적용할 레이어를 호출할 때 인자로 전달하는 방식으로 구현하면 된다.

이처럼 정의한 후 최종 출력값을 사용해 모델을 학습하면 된다.
그러면 마지막 출력값이 앞에서 `Sequential`로 구현했을 때의 모델과 동일한 형태가 된다.

## Custom Layer

앞에 두 API를 사용하기 위해 케라스는 `layers` 패키지에 정의된 레이어를 사용해 구현했다.
대부분 구현하고자 하는 모델의 경우 해당 패키지에 구현돼 있지만
새로운 연산을 하는 레이어 혹은 편의를 위해 여러 레이어를 하나로 묶은 레이어를 구현해야 하는 경우가 있다.
이때 사용자 정의 층을 만들어 사용하면 된다.
앞에서 정의한 모델에서는 dense 층이 여러 번 사용된 신경망을 사용했다.
이 신경망을 하나의 레이어로 묶어 재사용성을 높이고 싶다면 다음과 같이 사용자 정의 층으로 정의하면 된다.

In [10]:
from tensorflow.keras import layers

class CustomLayer(layers.Layer):
    def __init__(self, hidden_dimension, hidden_dimension2, output_dimension):
        self.hidden_dimension = hidden_dimension
        self.hidden_dimension2 = hidden_dimension2
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__()

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation='relu')
        self.dense_layer2 = layers.Dense(self.hidden_dimension2, activation='relu')
        self.dense_layer3 = layers.Dense(self.output_dimension, activation='softmax')

    def call(self, inputs):
        x = self.dense_layer1(inputs)
        x = self.dense_layer2(x)
        return self.dense_layer3(x)

사용자 정의 층을 정의할 때는 `layers` 패키지의 Layer 클래스를 상속받고 위와 같이 3개의 메소드를 정의하면 된다.
우선 하이퍼파라미터는 객체를 생성할 때 호출되도록 `__init__` 메소드에서 정의하고,
모델의 가중치와 관련된 값은 `build` 메소드에서 생성되도록 정의한다.
그리고 이렇게 정의한 값들을 이용해 `call` 메소드에서 해당 층의 로직을 정의하면 된다.
이렇게 정의한 사용자 정의 층은 `Sequential API` 나 `Functional API`를 활용할 때 하나의 층으로 사용할 수 있다.
만약 `Sequentail` 모듈을 활용한다면 다음과 같이 사용하면 된다.

In [11]:
import tensorflow as tf
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(CustomLayer(64, 64, 10))

## Subclassing (Custom Model)

이번에는 가장 자유도가 높은 `Subclassing`을 알아보자.
이 경우 `tf.keras.Model`을 상속받고 모델 내부 연산들을 직접 구현하면 된다.
모델 클래스를 구현할 때는 객체를 생성할 때 호출되는 `__init__` 메소드와
생성된 인스턴스를 호출할 때를 구현할 때(즉, 모델 연산이 사용될 때) 호출되는 `call` 메소드만 구현하면 된다.

In [12]:
import tensorflow as tf
from tensorflow.keras import layers

class MyModel(tf.keras.Model):
    def __init__(self, hidden_dimenstion, hidden_dimenstion2, output_dimension):
        super(MyModel, self).__init__(name='my model')
        self.dense_layer1 = layers.Dense(hidden_dimenstion, activation='relu')
        self.dense_layer1 = layers.Dense(hidden_dimenstion2, activation='relu')
        self.dense_layer3 = layers.Dense(output_dimension, activation='softmax')
    
    def call(self, inputs):
        x = self.dense_layer1(inputs)
        x = self.dense_layer2(x)
        return self.dense_layer3(x)

구현 방법은 사용자 정의 층을 만드는 방식과 매우 유사하다.
그뿐만 아니라 이 방법은 파이토치 프레임워크에서 모델을 구현할 때 사용하는 방식과도 매우 유사하다.
`__init__` 메소드에서는 모델에 사용될 층과 변수를 정의하면 되고,
`call` 메소드에서는 이렇게 정의한 내용을 활용해 모델 연산을 진행하면 된다.
참고로 모델에서 사용될 층을 정의할 때도 사용자 정의 층을 사용할 수 있다.

## 모델 학습

이제 모델 학습에 대해서 알아보자.
모델 학습이라고 하지만, 실제로는 학습뿐 아니라 모델 검증, 예측 등 여러 과정을 포함한다는 점을 알아두자.
텐서플로 2.0 공식 가이드에서 모델 학습에 대해 권장하는 방법은 크게 두가지로 나뉜다.
1. 케라스 모델의 내장 API를 활용하는 방법
2. 학습, 검증, 예측 등 모든 과정을 `GradientTape` 객체를 활용해 직접 구현하는 방법

첫번째 방법의 경우 대부분 케라스 모델의 메소드로 이미 구현돼 있어 간편하다는 큰 장점이 있고,
두번째 방법의 경우 첫번째 방법과 비교했을 때 일일이 구현해야 한다는 단점이 있지만 좀 더 복잡한 로직을 유연하고
자유롭게 구현할 수 있다는 장점이 있다.

우리는 주로 첫번째 방법으로 공부할 예정이다.

### 내장 API를 활용하는 방법

이미 정의된 케라스의 모델 객체가 있다고 가정해보자.
이 모델 객체는 케라스의 모델 객체이기 때문에 여러 메소드가 이미 내장돼 있다.
따라서 내장 메소드를 간단히 사용하기만 하면 된다.
먼저 해야 할 일은 학습 과정을 정의하는 것이다.
즉, 학습 과정에서 사용될 손실 함수, 오티마이저, 평가에 사용될 지표 등을 정의하면 된다.

```python
model.compile(
    optimizer=tf.keras.optimizers.Adam(),
    loss=tf.keras.losses.CategoricalCrossentropy(),
    metrics=[tf.keras.mertics.Accuracy()]
)
```

위와 같이 정의하면 학습을 실행할 모든 준비가 끝난다.
참고로 옵티마이저, 손실 함수, 평가 지표 등은 객체 형식으로 지정해도 되고
다음과 같이 문자열 형태로 지정해도 된다.

```python
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)
```

이제 정의된 모델 객체를 대상으로 학습, 평가, 예측 메소드를 호출하면 정의한 값들을 활용해 학습이 진행된다.
즉, 다음과 같이 `fit` 메소드를 호출하면 데이터들이 모델을 통과하며 학습이 진행된다.
아울러 학습이 진행되면서 각 에폭당 모델의 성능(손실함수, 정확도) 등이 출력되는 것을 확인할 수 있다.

```python
model.fit(
    x_train,
    y_train,
    batch_size=64,
    epochs=3
)
```

학습 과정에 있어서 각 에폭마다 검증을 진행하는 것 또한 가능하다.
`evaluate` 메소드를 사용해 검증할 수 있지만 매번 에폭을 호출해야 한다는 번거로움이 있다.
따라서 에폭마다 검증 결과를 보기 위해서는 `fit` 함수에 검증 데이터를 추가로 넣으면 된다.

```python
model.fit(
    x_train,
    y_train,
    batch_size=64,
    epochs=3,
    validation_data=(x_val, y_val)
)
```

이제 모델을 구축하는 과정과 학습하는 과정을 모두 알아봤다.
이어서 간단한 더미 데이터를 활용해 감정 분석 문제를 해결해 보자,

### 더미 데이터를 활용한 감정 분석 모델링

[출처](https://github.com/NLP-kr/tensorflow-ml-nlp-tf2/blob/master/2.NLP_PREP/2.1.2.tensorflow2.ipynb)

이번에 구현할 모델은 심층 신경망 구조를 사용해 앞서 텍스트의 긍정/부정을 예측하는 감정 분석 모델이다.
감정 분석 문제에 대한 자세한 내용은 이후에 다시 소개할 것이며, 모델에 적용할 데이터는 앞에서 정의한 테스트 데이터를 사용한다.
모델의 자세한 구조는 다음과 같다.

<img src="심층신경망.png" alt="심층신경망" style="width: 300px;"/>

우선 각 단어로 구성된 입력값은 임베딩된 벡터로 변형된다.
이후 각 벡터를 평균해서 하나의 벡터로 만든다.
이후에 하나의 은닉층을 거친 후 하나의 결괏값을 뽑는 구조다.
마지막으로 나온 결괏값에 시그모이드 함수를 적용해 0과 1사이의 값을 구한다.

모델에서 나온 임베딩 벡터 등과 같은 내용이 잘 이해되지 않더라도 대략적인 모델의 구조가 위와 같이 구성된다는 것만 이해하면 된다.
이후 자세한 내용은 다음 장에서 알려주도록 하겠다.
이번 장에서는 텐서플로 2.0버전에서 케라스를 이용해 모델을 구현하는 방법을 중심적으로 살펴보자.

이제 본격적으로 모델을 구현해 보자.
데이터는 이전 장에서 사용했던 텍스트 데이터를 그대로 사용하고, 동일하게 전처리 과정을 적용한다.

In [13]:
import tensorflow as tf
import numpy as np
from tensorflow.keras import preprocessing

samples = [
    '너 오늘 이뻐 보인다',
    '나는 오늘 기분이 더러워',
    '끝내주는데, 좋은 일이 있나봐',
    '나 좋은 일이 생겼어',
    '아 오늘 진짜 짜증나',
    '환성적인데, 정말 좋은거 같아'
]

targets= [[1], [0], [1], [1], [0], [1]]
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)


input_sequences = np.array(sequences)
labels = np.array(targets)

word_index = tokenizer.word_index

전처리 과정은 앞에서 다뤘기 때문에 설명은 생략한다.
추가로 모델 구축 및 모델 학습에 필요한 변수를 정의해보자.

In [14]:
import tensorflow as tf
from tensorflow.keras import layers

batch_size = 2
num_epochs = 100
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

In [15]:
model = tf.keras.Sequential()
model.add(layers.Embedding(vocab_size, emb_size, input_length=4))
model.add(layers.Lambda(lambda x: tf.reduce_mean(x, axis=1)))
model.add(layers.Dense(hidden_dimension, activation='relu'))
model.add(layers.Dense(output_dimension, activation='sigmoid'))

`Sequential` 객체를 생성한 후 각 층을 추가하면 된다.
혹은 객체 생성 시 안자로 사용할 층을 순차적으로 리스트로 만들어서 전달하는 방법으로도 위와 동일한 모델을 생성할 수 있다.

In [16]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length=4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis=1)),
    layers.Dense(hidden_dimension, activation='relu'),
    layers.Dense(output_dimension, activation='sigmoid'),
])

구현한 모델을 보면 입력값을 임베딩하는 Embedding 층을 모델에 추가했다.
이후 임베딩 된 각 단어의 벡터를 평균하기 위해 람다 층을 사용한다.
람다 층은 텐서플로 연산을 `Sequential API`와 `Funcational API`에 적용하기 위해 사용하는 방법이다.
평균의 경우 하나의 층으로 정의돼 있지 않기 때문에 람다 층을 활용해 해당 층에 들어오는 입력값들을 평균한다.
람다 층을 활용해 평균을 낸 후 하나의 은닉층을 통과한 후 최종 출력값을 뽑기 위해 두개의 Dense 층을 모델에 추가한다.
이때 최종 출력값을 뽑은 Dense 층의 경우 0과 1사이의 확률값을 뽑기 위해 활성화 함수를 시그모이드 함수로 정의한다.

이렇게 최종 출력 층까지 모델에 추가헀다면 모델이 모두 완성된 것이다.
모델을 구축하는 과정이 모두 끝났으니 모델을 학습해보자.
케라스 내장 API를 활용해 모델을 학습하기 위해서는 우선 모델을 컴파일하는 메소드를 통해 학습 과정을 정의한다.
옵티마이저의 경우 아담 최적화 알고리즘을 사용하고, 학습은 이진 분류 문제이므로 이진 교차 엔트로피 손실함수를 사용한다.
그리고 추가로 모델의 성능을 측정하기 위한 기준인 평가 지표를 정의하는데, 이진 분류의 평가 지표로 가장 널리 사용되는 정확도를 평가 지표로 정의한다.

In [17]:
model.compile(
    optimizer=tf.keras.optimizers.Adam(0.001),
    loss='binary_crossentropy',
    metrics=['accuracy']
)

이처럼 컴파일 메소드로 학습 과정을 정의했다면 케라스의 내장 API를 통해 학습할 준비가 모두 끝났다.
이제 `fit` 메소드를 통해 학습을 진행해보자.

In [18]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 4, 128)            2688      
_________________________________________________________________
lambda_1 (Lambda)            (None, 128)               0         
_________________________________________________________________
dense_15 (Dense)             (None, 256)               33024     
_________________________________________________________________
dense_16 (Dense)             (None, 1)                 257       
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [19]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x163c53a30>

`fit` 메소드를 호출하면 학습 경과가 출력되는 것을 확인할 수 있다.
에폭이 경과함에 따라 손실함수의 값과 정확도가 늘어나는 것을 확인할 수 있다.
더미 데이터의 결과이기 때문에 의미 있는 수치는 아니지만 텐서플로 2.0의 표준 방법을 통해 학습이 정상적으로 돌아가도록 구현했다는 데 의미가 있다.

이제 `Sequential API`가 아닌 `Functional API`, `Subclassing` 방법으로 동일한 모델을 구현해보고 학습해보자.

In [20]:
inputs = layers.Input(shape = (4, ))
embed_output = layers.Embedding(vocab_size, emb_size)(inputs)
pooled_output = tf.reduce_mean(embed_output, axis=1)
hidden_layer = layers.Dense(hidden_dimension, activation='relu')(pooled_output)
outputs = layers.Dense(output_dimension, activation='sigmoid')(hidden_layer)

In [21]:
model = tf.keras.Model(inputs=inputs, outputs=outputs)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [22]:
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_9 (InputLayer)         [(None, 4)]               0         
_________________________________________________________________
embedding_2 (Embedding)      (None, 4, 128)            2688      
_________________________________________________________________
tf.math.reduce_mean (TFOpLam (None, 128)               0         
_________________________________________________________________
dense_17 (Dense)             (None, 256)               33024     
_________________________________________________________________
dense_18 (Dense)             (None, 1)                 257       
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [23]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x166b65160>

앞에서 알아본 것처럼 `Funcational API`는 케라스의 입력층을 구현한 후 각 값을 다음 레이어들을 호출하면서 인자로 넣는 방식으로 구현하면 된다.
구현 방법에서 차이가 있을 뿐 모델 연산 흐름이나 로직이 변경된 것은 아니므로 결과는 동일하게 나온다.
다음은 `Subclassing` 방법으로 동일한 모델을 구현해보자.

In [24]:
class CustomModel(tf.keras.Model):
    def __init__(self, vocab_size, embed_dimension, hidden_dimension, output_dimension):
        super(CustomModel, self).__init__(name='my_model')
        self.embedding = layers.Embedding(vocab_size, embed_dimension)
        self.dense_layer = layers.Dense(hidden_dimension, activation='relu')
        self.output_layer = layers.Dense(output_dimension, activation='sigmoid')

    def call(self, inputs):
        x = self.embedding(inputs)
        x = tf.reduce_mean(x, axis=1)
        x = self.dense_layer(x)
        x = self.output_layer(x)
        
        return x

In [25]:
model = CustomModel(vocab_size = vocab_size,
            embed_dimension=emb_size,
            hidden_dimension=hidden_dimension,
            output_dimension=output_dimension)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x166ec4b20>

### keras custom layer

In [26]:
class CustomLayer(layers.Layer):

    def __init__(self, hidden_dimension, output_dimension, **kwargs):
        self.hidden_dimension = hidden_dimension
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation = 'relu')
        self.dense_layer2 = layers.Dense(self.output_dimension)

    def call(self, inputs):
        hidden_output = self.dense_layer1(inputs)
        return self.dense_layer2(hidden_output)

    # Optional
    def get_config(self):
        base_config = super(CustomLayer, self).get_config()
        base_config['hidden_dim'] = self.hidden_dimension
        base_config['output_dim'] = self.output_dim
        return base_config

    @classmethod
    def from_config(cls, config):
        return cls(**config)

In [27]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length = 4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis = 1)),
    CustomLayer(hidden_dimension, output_dimension),
    layers.Activation('sigmoid')])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x167b43580>

# 사이킷런

사이킷런은 파이썬용 머신러닝 라이브러리이다.
머신러닝 기술을 활용하는 데 필요한 다양한 기능을 제공하며, 파이썬으로 머신러닝 모델을 만들 수 있는 최적의 라이브러리다.
라이브러리를 구성하는 대부분의 모듈들이 통일된 인터페이스를 가지고 있어 간단하게 여러 기법을 적용할 수 있으며, 쉽고 빠르게 원하는 결과를 얻을 수 있다.

딥러닝 모델을 텐서플로, 케라스, 파이토치 등을 이용해서 생성할 수 있는 것처럼 머신러닝 모델은 주로 사이킷런 라이브러리를 통해 만들어 낼 수 있다.
사이킷런 라이브러리는 지도 학습을 위한 모듈, 비지도 학습을 위한 모듈, 모델 선택 및 평가를 위한 모듈,
데이터 변환 및 데이터를 불러오기 위한 모듈, 계산 성능 향상을 위한 모듈로 구성돼 있다.

지도 학습 모듈에는 나이브 베이즈, 의사결정 트리, 서포트 벡터 머신 모델 등이 있다.
비지도 학습 모듈에는 군집화, 가우시안 혼합 모델 등이 있다.

모델 선택과 평가 모듈에서는 교차 검증, 모델 평가, 모델의 지속성을 위해 모델 저장과 불러오기를 위한 기능 등을 제공한다.
그리고 데이터 변환 모듈에서는 파이프라인, 특징 추출, 데이터 전처리, 차원 축소 등의 기능을 제공한다.

또한 머신러닝 연구와 학습을 위해 라이브러리 안에 자체적으로 데이터 셋을 포함하고 있고, 이를 쉽게 불러와서 사용할 수 있다.
라이브러리에서 기본적으로 제공되는 데이터로는 당뇨병 데이터, 아이리스 데이터, 유방암 데이터 등이 있다.

머신러닝을 통해 문제를 해결하기 위해서는 해결해야 할 문제에 적합한 알고리즘을 선택하는 것이 매우 중요한데
사이킷런에서 제공하는 아래의 그림을 참고하면 좀 더 쉽게 문제를 해결하는 데 적합한 모델을 선택할 수 있다.

<img src="scikit_learn.png" alt="scikit_learn" style="width: 500px;"/>

이번 장에서는 전체적인 사이킷런의 사용법을 알아본다.
먼저 지도 학습 모듈에 대해 알아본 후 비지도 학습 모듈에 대해 알아보자.

In [1]:
import sklearn
sklearn.__version__

'0.24.2'

## 데이터 소개

각 모델을 사용해 보기 전에 우선은 공통적으로 사용할 데이터에 대해 알아보자.
이번 장에서 사용할 데이터는 머신러닝 기초를 배울 때 흔히 사용되는 붓꽃 데이터이다.
이 데이터는 1936년에 만들어진 데이터로서 매우 직관적이고 사용하기도 쉬워서 자주 사용된다.

붓꽃 데이터는 사이킷런 라이브러리에 기본적으로 내장돼 있는 데이터 중 하나라서 따로 설치할 필요 없이 바로 사용할 수 있다.

In [2]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print("iris_dataset key : {}".format(iris_data.keys()))

iris_dataset key : dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [3]:
print(iris_data['data'])
print("shape of data: {}".format(iris_data["data"].shape))

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

data에는 실제 데이터가 포함돼 있다.
각 데이터마다 4개의 특징 값을 가지고 있다.
데이터의 형태를 보면 (150, 4)로 전체 150개의 데이터가 각각 4개의 특징값을 가지고 있는 형태다.
4개의 특징값이 의미하는 바를 확인하기 위해 'feature_names' 값을 확인해 보자.

In [4]:
print(iris_data['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [5]:
print(iris_data['target'])
print(iris_data['target_names'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [6]:
print(iris_data['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 사이킷런을 이용한 데이터 분리

사이킷런을 이용하면 학습 데이터를 대상으로 학습 데이터와 평가 데이터로 쉽게 나눌 수 있다.

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
train_input, test_input, train_label, test_label = train_test_split(
    iris_data['data'],
    iris_data['target'],
    test_size=0.25,
    random_state=42
)

`train_test_split` 함수를 사용하려면 우선 나누고 싶은 데이터를 넣는다.
여기서는 데이터 값과 라벨인 타깃 값을 넣었다.
그러고 나서 평가 데이터의 크기를 결정해야 한다.
이 값의 경우 0과 1사이의 값을 넣어야 하는데, 이는 비율을 의미한다.
즉, 0.25로 설정할 경우 전체 학습 데이터의 25%를 따로 나눠준다는 의미다.
마지막으로 `random_state` 값을 설정한다.
이 함수가 데이터를 나눌 때 무작위로 데이터를 선택해서 나누는데, 이때 무작위로 선택되는 것을 제어할 수 있는 값이 `random_state` 값이다.
함수를 여러 번 사용하더라도 이 값을 똑같이 설정할 경우 동일한 데이터를 선택해서 분리할 것이다.
이렇게 나눈 다음, 각 변수의 형태를 확인해보자.

In [9]:
print("shape of train_input: {}".format(train_input.shape))
print("shape of test_input: {}".format(test_input.shape))
print("shape of train_label: {}".format(train_label.shape))
print("shape of test_label: {}".format(test_label.shape))

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


결과를 보면 학습 데이터가 총 112개이고, 평가 데이터가 38개다.
앞에서 평가 데이터의 크기를 전체의 25%로 설정했기 때문에 150개의 25%에 해당하는 38개가 평가 데이터로 설정됐다.
나머지 75%에 해당하는 112개의 데이터는 학습 데이터로 사용할 것이다.

학습 데이터와 평가 데이터가 따로 존재하지 않는 경우에는 이처럼 학습 데이터의 일부분을 평가 데이터로 사용한다.
평가 데이터가 있는 경우에도 이 함수를 사용해 학습 데이터의 일부분을 따로 분리해 놓는 경우가 있는데,
이러한 경우는 학습 데이터를 학습 데이터와 검증 데이터로 구분하는 경우다.
즉, 학습 데이터, 평가 데이터, 검증 데이터로 총 3개의 데이터로 나눈다.
이 경우에는 우선 학습 데이터를 사용해서 모델을 학습시키고 학습시킨 모델에 대해 일차적으로 검증 데이터를 사용해 모델 검증을 진행한다.
그 결과를 통해 모델의 하이퍼파라미터를 수정한다.
이처럼 학습과 검증 과정을 반복적으로 진행한 후 최종적으로 나온 모델에 대해 평가 데이터를 사용해 평가한다.
이러한 방식은 모델을 만드는 과정에서 대부분 사용하는 방법이다.

## 사이킷런을 이용한 지도 학습

사이킷런을 통해 지도 학습 모델을 만드는 방법을 알아보자.
우선 지도 학습이란 각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정이다.
즉, 모델이 예측하는 결과를 각 데이터의 정답과 비교해서 모델을 반복적으로 학습시킨다.

이번 장에서는 지도 학습 모델 중 하나를 선택해서 직접 사용해 보겠다.
지도 학습 모델에는 다양한 모델이 있지만 간단하고 데이터 특성만 맞는다면 좋은 결과를 확인할 수 있는 k-최근접 이웃 분류기를 사용한다.
k-최근접 이웃 분류기는 예측하고자 하는 데이터에 대해 가장 가까운 거리에 있는 데이터의 라벨과 같다고 예측하는 방법이다.
**이 방법은 데이터에 대한 사전 지식이 없는 경우의 분류에 많이 사용된다.**

여기서 k 값은 예측하고자 하는 데이터와 가까운 몇 개의 데이터를 참고할 것인지를 의미한다.
즉, k 값이 1이라면 예측하고자 하는 데이터에서 가장 가까운 데이터 하나만 참고해서 그 데이터와 같은 라벨이라고 예측하거,
k 값이 3인 경우는 예측하려는 데이터에서 가장 가까운 3개의 데이터를 참고해서 그 3개 데이터의 라벨 중 많은 라벨을 결과로 예측한다.
아래 그림을 보고 k=1인 경우와 k=3인 경우를 구분 지어 이해해보자.

<img src="kNeighborsClassifier.png" alt="kNeighborsClassifier" style="width: 500px;"/>

그림을 보면 k=1인 경우에는 가장 가까운 데이터의 라벨값이 Class1이기 때문에 Class1로 예측한다.
k=3인 경우에는 가까운 3개의 데이터가 Class1 1개, Class2 2개로 구성돼 있기 때문에 이 경우에는 Class2로 예측하게 된다.

이러한 K-최근접 이웃 분류기의 특징은 아래와 같다.

- 데이터에 대한 가정이 없어 단순한다.
- 다목적 분류와 회귀에 좋다.
- 높은 메모리를 요구한다.
- k값이 커지면 계산이 늦어질 수 있다.
- 관련 없는 기능의 데이터의 규모에 민감하다.

이제 이러한 k-최근접 이웃 분류기를 직접 만들어보자.
우선 분류기 객체를 불러와 변수에 할당한다.

In [10]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

분류기를 생성할 때 인자 값으로는 `n_neighbors` 값을 받는데, 이 값은 위에서 설명한 k 값을 의미한다.
즉, 여기서는 k=1인 분류기 생성한 것이다.
이제 이렇게 생성한 분류기를 학습 데이터에 적용하면 되는데, 간단하게 아래와 같이 구현할 수 있다.

In [20]:

knn.fit(train_input, train_label)
KNeighborsClassifier(
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    metric_params=None,
    n_jobs=1,
    n_neighbors=1,
    p=2,
    weights='uniform'
)

KNeighborsClassifier(n_jobs=1, n_neighbors=1)

위와 같이 `fit` 함수를 사용해 분류기 모델에 학습 데이터와 라벨 값을 적용하기만 하면 모델 학습이 간단하게 끝난다.
이제 학습시킨 모델을 사용해 새로운 데이터의 라벨을 예측해보자.
우선은 새롭게 4개의 피처값을 임의로 설정해서 넘파이 배열로 만들자.

In [21]:
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

4개의 특징값을 직접 입력해서 넘파이 배열로 만들었다.
생성한 배열을 보면 꽃받침 길이와 너비가 각각 6.1, 2.8이고 꽃잎의 길이와 너비가 각각 4.7, 1.2인 데이터로 구성돼 있다.
참고로 배열을 생성할 때 리스트 안에 또 하나의 리스트가 포함된 방식으로 만들었는데,
이렇게 생성하지 않고 하나의 리스트만 사용해서 정의한 경우 이를 함수에 적용하면 오류가 발생한다.

이제 이 값을 대상으로 앞에서 만든 분류기 모델의 `predict` 함수를 사용해 결과를 예측해보자.

In [22]:
knn.predict(new_input)

array([1])

보다시피 1(Versicolor)로 예측하고 있다.
이 데이터는 임의로 만든 것이기 때문에 이 결과가 제대로 예측한 것인지 확인할 수 없다.
이제 모델의 성능을 측정하기 위해 이전에 따로 분리해둔 평가 데이터를 사용해 모델의 성능을 측정해보자.
우선 따로 분리해둔 평가 데이터에 대해 예측을 하고 그 결괏값을 변수에 저장하자.

In [24]:
predict_label = knn.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


이제 예측한 결과값과 실제 결괏값을 비교해서 정확도가 어느 정인지 측정해보자.
실제 결과와 동일한 것의 개수를 평균을 구하면 된다.

In [25]:
print('test accuracy {:.2f}'.format(np.mean(predict_label==test_label)))

test accuracy 1.00


정확도가 1.00 인데, 전체 100%의 정확도로서 매우 좋은 성능을 보여준다.
이것은 데이터 자체가 특징이 라벨에 따라 구분이 잘 되고 모델이 데이터에 매우 적합하다는 것을 의미한다.
이제 비지도 학습 모델을 만드는 방법을 알아보자.

## 사이킷런을 이용한 비지도 학습

