# Tensorflow
- 데이터 플로 그래프를 통한 풍부한 표현력
- 아이디어 테스트에서 서비스 단계까지 이용 가능
- 계산 구조와 목표 함수만 정의하면 자동으로 미분 계산을 처리
- 파이썬/C++을 지원하며, SWIG를 통해 다양한 언어 지원 가능
- 유연성과 확장성

## tf.keras.layers

### tf.keras.layers.Dense
Dense란 신경망 구조의 가장 기본적인 형태를 의미

아래의 수식을 만족하는 기본적인 신경망 형태의 층을 만드는 함수

$$ y = f(Wx + b) $$

위의 수식에서 x와 b는 각각 입력 벡터, 편향 벡터이며 W는 가중치 행렬이 된다. 즉, 가중치와 입력 벡터를 곱한 후 편향을 더해준다. 그리고 그 값에 f라는 활성화 함수를 적용하는 구조다.

In [None]:
'''
import tensorflow as tf
W = tf.Variable(tf.random.uniform([5, 10], -1.0, 1.0))
b = tf.Variable(tf.zeros([10]))

y = tf.matmul(W, x) + b
'''

위와 같이 모든 변수들을 선언하고 직접 곱하고, 더해야한다. 하지만 텐서플로의 Dense를 이용하면 한 줄로 위의 코드를 작성할 수 있다. 이 경우 내부적으로 변수를 생성하고 연산을 진행한다.

In [None]:
# Dense를 사용하려면 우선 객체를 생성해야 한다.
# dense = tf.keras.layers.Dense()

Dense 층을 만들 때 여러 인자를 통해 옵션을 정할 수 있다. 다음과 같은 인자들이 있다.

- units : 출력 값의 크기, integer 혹은 long 형태
- activation : 활성화 함수
- use_bias : 편향(b)를 사용할지 여부, Boolean
- kernel_initializer : 가중치(W) 초기화 함수
- bias_initializer : 편향 초기화 함수
- kernel_regularizer : 가중치 정규화 방법
- bias_regularizer : 편향 정규화 방법
- activity_regularizer : 출력 값 정규화 방법
- kernel_constraint : Optimizer에 의해 업데이트 된 이후 가중치에 적용되는 부가적인 제약함수
- bias_constraint : Optimizer에 의해 업데이트 된 이후 편향에 적용되는 부가적인 제약함수

In [6]:
import tensorflow as tf

In [7]:
INPUT_SIZE = (20, 1)
CONV_INPUT_SIZE = (1, 28, 28)
IS_TRAINING = True

In [8]:
# Dense Layer
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs) 

In [9]:
# Dense Layer with 1 hidden layer
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

### tf.keras.layers.Dropout
신경망 모델을 만들 때 생기는 여러 문제점 중 대표적인 문제점은 과적합이다. 과적합 문제는 정규화 방법을 사용해서 해결하는데, 그중 가장 대표적인 방법이 드롭아웃이다.

- rate : 드롭아웃을 적용할 확률지정한다. 예를들어 dropout = 0.2라면 전체 입력값 중 20%를 0으로 만든다.

- noise_shape : 정수형의 1D-tensor 값을 받는다. 여기서 받은 값은 shape를 뜻하며, 이 값을 지정함으로써 특정 값만 드롭아웃을 적용할 수 있다. 예를 들면 입력값이 이미지일 때 noise_shape를 지정하면 특정 채널에만 드롭아웃을 적용할 수 있다.

- seed : 드롭아웃의 경우 지정된 확률 값을 바탕으로 무작위로 드롭아웃을 적용하는데, 이것은 임의의 선택을 위한 시드 값을 의미한다. seed값은 정수형이며, 같은 seed 값을 가지는 드롭아웃의 경우 동일한 드롭아웃 결과를 만든다.

In [10]:
# Dropout
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.5)(inputs)

In [11]:
# Dense Layer with 1 hidden layer and dropout
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(dropout)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

### tf.keras.Conv1D
합성곱 연산 중 Conv1D는 한 방향(가로)로만 연산을 진행하며, 출력값은 1-D Array로 출력된다.

자연어 처리 분야에서 사용하는 합성곱의 경우 각 단어 벡터의 차원 전체에 대해 필터를 적용시키기 위해 주로 Conv1D를 사용한다. 이제 이 Conv1D를 사용하는 방법을 알아보자.

In [13]:
# Convolution layer
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(inputs)

In [14]:
# Convolution layer with dropout
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(dropout)

In [15]:
# Input -> Dropout -> Convolutional layer -> MaxPooling 
# -> Dense layer with 1 hidden layer -> Output
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(dropout)
# max_pool : 피처 맵의 크기를 줄이거나 주요한 특징을 뽑아내기 위해 합성곱 이후에 적용되는 기법
max_pool = tf.keras.layers.MaxPool1D(pool_size = 3, padding = 'same')(conv)
flatten = tf.keras.layers.Flatten()(max_pool)
hidden = tf.keras.layers.Dense(units = 50, activation = tf.nn.relu)(flatten)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.softmax)(hidden)

## TensorFlow 2.0

모델 구축

텐서플로 2.0은 케라스를 활용해 모델을 구축하고 학습하는 것을 권장한다. 케라스 API는 고수준 API로 사용하기 간편하며 매우 유연하고 높은 성능을 보여준다. 케라스를 활용해 모델을 구축하는 방법을 다음과 같다.
- Sequential API
- Functional API
- Functional/Sequential API
    - Custom Layers
- Subclassing(Custom Model)

### Sequential API
케라스를 활용해 모델을 구축할 수 있는 가장 간단한 형태의 API이다. 이 모듈을 이용하면 간단한 순차적인 레이어의 스택을 구현할 수 있다. 아래와 같은 방법을 통해 간단한 형태의 완전 연결 계층(fully-connected layer)를 구현할 수 있다.

In [16]:
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(layers.Dense(64, activation = 'relu'))
model.add(layers.Dense(64, activation = 'relu'))
model.add(layers.Dense(10, activation = 'softmax'))

위 처럼 인스턴스를 생성한 후 해당 인스턴스에 여러 레이어를 순차적으로 더하기만 하면 모델이 완성된다. 이렇게 만든 모델을 입력값을 더한 순서에 맞게 레이어들을 통화시킨 후 최종 출력값을 뽑아오게 된다. Sequential 모듈의 경우 위와 같이 구현 자체가 매우 간단하다는 사실을 알 수 있다. 간단한 만큼 여러 제약이 존재한다.

### Functional API
Sequential 모듈은 다음과 같은 모델 구조일 경우 사용하기 어려울 수 있다.
- 다중 입력값 모델(Multi-input models)
- 다중 출력값 모델(Multi-output models)
- 공유 층을 활용하는 모델(Models with shared layers)
- 데이터 흐름이 순차적이지 않은 모델(Models with non-sequential data flows)
이런 모델들을 구현할 때는 케라스의 Functional API를 사용하거나 이후 살펴볼 Subclassing 방식을 사용하는 것이 적절할 수 있다. Functional API를 활용해 앞에서 정의한 모델과 동일한 모델을 만들어 보자.

In [27]:
from tensorflow.keras import preprocessing

import numpy as np
samples = ['너 오늘 이뻐 보인다',
          '나는 오늘 기분이 더러워',
          '끝내주는데, 좋은 일이 있나봐',
          '나 좋은 일이 생겼어',
          '아 오늘 진짜 짜증나',
          '환상적인데, 정말 좋은거 같아']

targets = [[1], [0], [1], [1], [0], [1]]

[[1], [0], [1], [1], [0], [1]]

In [28]:
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)
input_sequences = np.array(sequences)
labels = np.array(targets)

word_index = tokenizer.word_index
word_index

{'오늘': 1,
 '좋은': 2,
 '일이': 3,
 '너': 4,
 '이뻐': 5,
 '보인다': 6,
 '나는': 7,
 '기분이': 8,
 '더러워': 9,
 '끝내주는데': 10,
 '있나봐': 11,
 '나': 12,
 '생겼어': 13,
 '아': 14,
 '진짜': 15,
 '짜증나': 16,
 '환상적인데': 17,
 '정말': 18,
 '좋은거': 19,
 '같아': 20}

In [22]:
from tensorflow.keras import backend
from tensorflow.keras import layers

batch_size = 2
num_epochs = 100
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

In [23]:
inputs = layers.Input(shape = (4, ))
embed_output = layers.Embedding(vocab_size, emb_size)(inputs)
pooled_output = tf.reduce_mean(embed_output, axis=1)
hidden_layer = layers.Dense(hidden_dimension, activation='relu')(pooled_output)
outputs = layers.Dense(output_dimension, activation='sigmoid')(hidden_layer)

In [24]:
model = tf.keras.Model(inputs=inputs, outputs=outputs)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [25]:
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_10 (InputLayer)        [(None, 4)]               0         
_________________________________________________________________
embedding_1 (Embedding)      (None, 4, 128)            2688      
_________________________________________________________________
tf.math.reduce_mean_1 (TFOpL (None, 128)               0         
_________________________________________________________________
dense_9 (Dense)              (None, 256)               33024     
_________________________________________________________________
dense_10 (Dense)             (None, 1)                 257       
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [26]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x22c626a85e0>

Functional API를 활용하기 위해서는 입력값을 받는 Input 모듈을 선언해야 한다. 이 모듈을 선언할 때는 입력으로 받는 값의 형태(shape)를 정의하면 된다. 이 Input 모듈을 정의한 후 입력값을 적용할 레이어를 호출할 때 인자로 전달하는 방식으로 구현하면 된다.

### Custom layer
구현하고자 하는 모듈의 경우 해당 패키지에 구현되어 있지만 새로운 연산을 하는 레이어 혹은 편의를 위해 여러 레이어를 하나로 묶은 레이어를 구현해야하는 경우, 사용자 정의 층(custom layer)을 만들어 사용하면 된다. 앞에서 정의한 모델에서는 dense 층이 여러 번 사용된 신경망을 사용했다. 이 신경망을 하나의 레이어로 묶어 재사용성을 높이고 싶다면 다음과 같이 새로운 사용자 정의 층으로 정의하면 된다.

In [31]:
# Custom layer
class CustomLayer(layers.Layer):
    
    def __init__(self, hidden_dimension, output_dimension, **kwargs):
        self.hidden_dimension = hidden_dimension
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation = 'relu')
        self.dense_layer2 = layers.Dense(self.output_dimension)

    def call(self, inputs):
        hidden_output = self.dense_layer1(inputs)
        return self.dense_layer2(hidden_output)

    # Optional
    def get_config(self):
        base_config = super(CustomLayer, self).get_config()
        base_config['hidden_dim'] = self.hidden_dimension
        base_config['output_dim'] = self.output_dim
        return base_config

    @classmethod
    def from_config(cls, config):
        return cls(**config)

In [32]:
batch_size = 2
num_epochs = 100
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length = 4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis = 1)),
    CustomLayer(hidden_dimension, output_dimension),
    layers.Activation('sigmoid')])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x22c63bddc70>

### Subclassing(Custom Model)
가장 자유도가 높은 방법이다. 이 경우 tf.keras.Model을 상속받고 모델 내부 연산들을 직접 구현하면 된다.

In [29]:
# Custom model
class CustomModel(tf.keras.Model):
    
    def __init__(self, vocab_size, embed_dimension, hidden_dimension, output_dimension):
        super(CustomModel, self).__init__(name='my_model')
        self.embedding = layers.Embedding(vocab_size, embed_dimension)
        self.dense_layer = layers.Dense(hidden_dimension, activation='relu')
        self.output_layer = layers.Dense(output_dimension, activation='sigmoid')

    def call(self, inputs):
        x = self.embedding(inputs)
        x = tf.reduce_mean(x, axis=1)
        x = self.dense_layer(x)
        x = self.output_layer(x)
        
        return x

In [30]:
batch_size = 2
num_epochs = 100
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

model = CustomModel(vocab_size = vocab_size,
            embed_dimension=emb_size,
            hidden_dimension=hidden_dimension,
            output_dimension=output_dimension)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x22c63a9dd60>

# Scikit-learn

## 데이터 불러오기

In [33]:
import sklearn
sklearn.__version__

'0.24.1'

In [34]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("iris_dataset key: {}".format(iris_dataset.keys()))

iris_dataset key: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [35]:
# data
print(iris_dataset['data'])
print("shape of data: {}". format(iris_dataset['data'].shape))

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [36]:
# feature_names
print(iris_dataset['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [37]:
print(iris_dataset['target'])
print(iris_dataset['target_names'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [38]:
print(iris_dataset['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

## 데이터 분리
학습데이터와 평가데이터로 쉽게 나눌 수 있음

In [39]:
target = iris_dataset['target']

In [41]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'],
                                                                    target,
                                                                    test_size = 0.25,
                                                                    random_state=42)

In [42]:
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'],
                                                                    target,
                                                                    test_size = 0.25,
                                                                    random_state=42)
print("shape of train_input: {}".format(train_input.shape))
print("shape of test_input: {}".format(test_input.shape))
print("shape of train_label: {}".format(train_label.shape))
print("shape of test_label: {}".format(test_label.shape))

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


## 사이킷런을 이용한 지도 학습

지도 학습 모델 중 하나인 K-NN을 사용한다. 간단하고 데이터 특성만 맞는다면 좋은 결과를 얻을 수 있다.

K-NN은 예측하고자 하는 데이터에 대해 가장 가까운 거리에 있는 데이터의 라벨과 같다고 예측하는 방법이다. 이 방법은 데이터에 대한 사전 지식이 없는 경우의 분류에 많이 사용된다.

K-NN의 특징은 아래와 같다.
- 데이터에 대한 가정이 없어 단순하다.
- 다목적 분류와 회귀에 좋다.
- 높은 메모리를 요구한다.
- k값이 커지면 계산이 늦어질 수 있다.
- 관련 없는 기능의 데이터 규모에 민감하다

In [43]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1)

In [44]:
knn.fit(train_input, train_label)

KNeighborsClassifier(n_neighbors=1)

In [45]:
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

In [46]:
knn.predict(new_input)

array([1])

In [47]:
predict_label = knn.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [48]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 1.00


## 사이킷런을 이용한 비지도 학습

K-means 모델을 사용해 진행해본다.

이 모델은 군집화를 수행하며, 군집화란 데이터를 특성에 따라 여러 집단으로 나누는 방법이다. 따라서 붓꽃 데이터의 경우에는 3개의 정답이 있으므로 3개의 군집으로 나누는 방법을 사용해야 할 것이다.

In [49]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3)  # 3개의 군집

In [50]:
k_means.fit(train_input)

KMeans(n_clusters=3)

In [51]:
k_means.labels_

array([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 1, 2, 1, 2, 0, 1, 2, 0, 0, 0, 2,
       2, 0, 0, 0, 2, 0, 2, 1, 0, 2, 2, 0, 2, 2, 2, 2, 1, 2, 0, 2, 1, 0,
       0, 2, 1, 0, 2, 0, 0, 2, 2, 1, 2, 1, 1, 2, 0, 0, 2, 1, 0, 0, 0, 2,
       1, 0, 1, 1, 0, 2, 2, 2, 1, 1, 0, 1, 2, 1, 2, 2, 2, 0, 2, 2, 0, 2,
       1, 1, 0, 2, 1, 1, 0, 1, 0, 1, 1, 1, 2, 1, 2, 2, 2, 2, 0, 2, 2, 0,
       2, 1])

In [52]:
print("0 cluster:", train_label[k_means.labels_ == 0])
print("1 cluster:", train_label[k_means.labels_ == 1])
print("2 cluster:", train_label[k_means.labels_ == 2])

0 cluster: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
1 cluster: [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]
2 cluster: [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]


In [58]:
import numpy as np
new_input  = np.array([[6.1, 2.8, 4.7, 1.2]])

In [59]:
prediction = k_means.predict(new_input)
print(prediction)

[2]


In [60]:
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[2 0 1 2 2 0 2 1 2 2 1 0 0 0 0 2 1 2 2 1 0 2 0 1 1 1 1 1 0 0 0 0 2 0 0 2 2
 0]


In [65]:
# 각 군집이 어떤 라벨을 의미하는지 파악한 후 해당 라벨로 바꿔줘야 한다.
np_arr = np.array(predict_cluster)
np_arr[np_arr==0], np_arr[np_arr==1], np_arr[np_arr==2] = 3, 4, 5
np_arr[np_arr==3] = 0
np_arr[np_arr==4] = 2
np_arr[np_arr==5] = 1
predict_label = np_arr.tolist()
print(predict_label)

[1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0]


In [66]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 0.95


## 사이킷런을 이용한 특징 추출
자연어 처리에서 특징 추출이란 텍스트 데이터에서 단어나 문장들을 어떤 특징 값으로 바꿔주는 것을 의미한다. 기존에 문자로 구성돼 있던 데이터를 모델에 적용할 수 있도록 특징을 뽑아 어떤 값으로 바꿔서 수치화 한다.

다음은 사이킷런을 사용해 텍스트 데이터를 수치화 하는 세 가지 방법이다.
- CountVectorizer
- TfidfVectorizer
- HashingVectorizer

### CountVectorizer
텍스트 데이터에서 횟수를 기준으로 특징을 추출하는 방법이다. 여기서 어떤 단위의 횟수를 셀 것인지는 선택 사항이며, 단어가 될 수도 있고, 문자 하나하나가 될 수도 있다. 보통은 텍스트에서 단어를 기준으로 횟수를 측정하는데, 문장을 입력으로 받아 단어의 횟수를 측정한 뒤 벡터로 만든다.


In [1]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

count_vectorizer = CountVectorizer()

In [3]:
count_vectorizer.fit(text_data)

print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
