## 자연어 처리를 위한 라이브러리
### 1. 텐서플로(TensorFlow)

    - 데이터 플로 그래프를 통한 풍부한 표현력
    - 아이디어 테스트에서 서비스 단계까지 이용 가능
    - 계산 구조와 목표 함수만 정의하면 자동으로 미분 계산을 처리
    - 파이썬/c++을 지원하며, SWIG를 통해 다양한 언어 지원 가능
    - 유연성과 확장성 
    
   여기서 텐서는 N차원의 매트릭스를 의미하며, 텐서를 Flow한다는 것은 데이터 흐름 그래프(Data flow graph)를 사용해 수치 연산을 하는 과정을 의미한다. 
 <br> 그래프의 노드(node)는 수치 연산(operator), 변수(variable), 상수(constant)를 나타내고 엣지(edge)는 노드 사이를 이동하는 다차원 데이터 배열(텐서, tensor)을 나타낸다.

#### 1.1 tf.keras.layers
    - 텐서플로를 이용하여 딥러닝 모델을 만드는 것은 블록을 쌓아서 전체구조를 만드는 것과 유사
    - 블록 역할을 하는 모듈 중 하나인 keras.layers
    - 케라스는 텐서플로와 별개의 딥러닝 오픈소스이지만, 텐서플로에서도 사용 가능
    
**tf.keras.layers.Dense**
   - Dense란 신경망 구조의 가장 기본적인 형태를 의미한다.
   - y = f(Wx+b) 를 만족하는 신경망 형태의 층을 만드는 함수
   - x,b는 입력 벡터, 편향 벡터이며 w는 가중치 행렬이다. (이러한 값에 f라는 활성화 함수를 적용하는 형태)

#### 라이브러리 불러오기 & 상수값 결정

In [1]:
import tensorflow as tf

In [2]:
INPUT_SIZE = (20, 1)
CONV_INPUT_SIZE = (1, 28, 28)
IS_TRAINING = True

#### Dense Layer
    - 활성화함수는 시그모이드 함수
    - 출력 값으로 10개의 값을 출력하는 완전 연결 계층

In [3]:
inputs = tf.keras.layers.Input(shape= INPUT_SIZE)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)

    - 10개의 노드를 가지는 은닉층, 최종 출력 값은 2개의 노드가 있는 신경망 구조
    - 객체 두개를 생성해서 생성 가능

In [4]:
inputs = tf.keras.layers.Input(shape=INPUT_SIZE)

hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

#### tf.keras.layers.Dropout
    - overfitting 문제는 reqularization(정규화)를 통해 막을 수 있음 
    - 대표적인 방법이 dropout
    - dense층을 만드는 방법과 유사하게 dropout 층을 만들면 됨

In [5]:
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.5)(inputs)

In [6]:
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(dropout)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

#### tf.keras.layers.Conv1D
    - 합성곱 연산은 크게 Conv1D, Conv2D, Conv3D 세 개가 있다.
        - Conv1D는 합성곱의 방향이 한방향(가로), 출력값은 1-D Array(vector)
        - Conv2D는 합성곱의 방향이 두방향(가로, 세로), 출력값은 2-D Array(matrix)
        - Conv3D는 합성곱의 방향이 세 방향(가로, 세로, 높이), 출력값은 3-D Array(tensor)
    - 위의 설명은 배치의 경우는 고려하지 않고 필터를 하나만 적용했을 때이다. 

- 자연어 처리에서는 합성곱의 경우 각 단어(혹은 문자) 벡터의 차원 전체에 대해 필터를 적용시키기 위해 주로 Conv1D를 사용

In [7]:
inputs = tf.keras.layers.Input(shape = CONV_INPUT_SIZE)

conv = tf.keras.layers.Conv1D(
    filters = 10,
    kernel_size=3,
    padding = 'same',
    activation=tf.nn.relu)(inputs)

    - dropout도 Conv1D와 사용간으

In [8]:
inputs = tf.keras.layers.Input(shape = CONV_INPUT_SIZE)

dropouts = tf.keras.layers.Dropout(rate=0.2)(inputs)
conv = tf.keras.layers.Conv1D(
    filters = 10,
    kernel_size = 3,
    padding = 'same',
    activation = tf.nn.relu)(dropouts)

#### tf.keras.layers.MaxPool1D
    - 풀링은 feature map의 크기를 줄이거나 주요한 특징을 잡기 위해 합성곱 이후에 적용되는 기법
    - 풀링은 max-pooling, average-pooling 두가지가 있다.
    - max-pooling은 최대값만을 뽑아내는 방식
    - average-pooling은 평균값을 뽑아내는 방식

- max-pooling도 합성곱과 같이 세 가지 형태로 구분되어 있다. (MaxPool1D, MaxPool2D, MaxPool3D)
- 자연어처리에서 사용되는 합성곱은 합성곱과 동일하게 MaxPool1D이다.(한 방향으로만 풀링 진행)

In [9]:
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)

dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
conv = tf.keras.layers.Conv1D(
    filters = 10,
    kernel_size = 3,
    padding = 'same',
    activation = tf.nn.relu)(dropout)

max_pool = tf.keras.layers.MaxPool1D(pool_size = 3, padding = 'same')(conv)
flatten = tf.keras.layers.Flatten()(max_pool)

hidden = tf.keras.layers.Dense(units = 50, activation = tf.nn.relu)(flatten)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.softmax)(hidden)

- input -> dropout -> conv -> max_pooling -> flatten -> hidden -> output

#### API 정리
    - tensorflow1.x 버전에서는 같은 기능을 수행하는 다양한 API가 다양한 패키지에 존재했었다.
    - tensorflow2.x 에서는 명료하게 사용하기 편하도록 동일한 기능의 다야한 API를 하나로 통합, 불필요한 API를 제거 하였다.

#### 이거모드(Eager execution)
    - 기존 tensorflow의 실행 방식은 tensorflow API를 이용해 그래프를 만든 후 별도로 해당 그래프를 실행하는 방식이었다.
    - 연산의 결과를 알기 위해서는 연산 그래프를 만든 후 session_run()을 통해 그려진 그래프를 추가로 실행해야만 값을 확인 할 수 있었다.
    - 2.0 부터는 파이썬과 동일한 이거모드를 통해 연산을 구성하면서 바로 값을 확인할 수 있다.

#### 모델 구축
    - tensorflow2.x에서는 케라스를 활용해 모델을 구축하고 활용하는 것을 권장한다.
    - 케라스를 활용하여 모델을 구축하는 방법은 크게 다음과 같다.
        1. Sequential API
        2. Funtional API
        3. Funtional API/Sequential API + Custom Layers
        4. Subclassing (Custom Model)

- 해당 교제에서는 Subclassing을 주로 이용해 모델을 구축한다.

In [10]:
import tensorflow as tf
from tensorflow.keras import preprocessing

import numpy as np

In [11]:
samples = ['너 오늘 이뻐 보인다',
          '나는 오늘 기분이 더러워',
          '끝내주는데, 좋은 일이 있나봐',
          '나 좋은 일이 생겼어',
          '아 오늘 진짜 짜증나',
          '환상적인데, 정말 좋은거 같아']

targets =[[1], [0], [1], [1], [0], [1]]

In [12]:
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)
input_sequences = np.array(sequences)
labels = np.array(targets)

word_index = tokenizer.word_index

In [13]:
from tensorflow.keras import backend
from tensorflow.keras import layers

In [14]:
batch_size = 2
num_epochs = 5

In [15]:
vocab_size = len(word_index) + 1
emb_size = 128
hidden_dimension = 256
output_dimension = 1

#### 1. Sequential API
    - 가장 간단한 형태의 API
    - 순차적인 레이어 스택을 구현할 수 있다. 
    - 다음과 같은 방법으로 간단한 형태의 완전 연결 계층(fully-connected layer)을 구현할 수 있다.

- **lambda층**은 텐서플로 연산을 Sequential API와 Funtaional API에 적용하기 위해 사용하는 방법
- 평균의 경우 하나의 층으로 정의돼 있지 않기 때문에 **람다 층**을 활용해 해당 층에 들어오는 입력 값들을 평균함

In [16]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length = 4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis = 1)),
    layers.Dense(hidden_dimension, activation='relu'),
    layers.Dense(output_dimension, activation='sigmoid')])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
             loss='binary_crossentropy',
             metrics=['accuracy'])

In [17]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 4, 128)            2688      
                                                                 
 lambda (Lambda)             (None, 128)               0         
                                                                 
 dense_7 (Dense)             (None, 256)               33024     
                                                                 
 dense_8 (Dense)             (None, 1)                 257       
                                                                 
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________________


In [18]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x144041db208>

    - Sequential 모듈의 경우 모델의 층이 순차적으로 구성돼 있지 않은 경우에는 Sequential 모듈을 사용해 구현하기 어려울 수 있다.
    - VAQ(Visual Question Answering)문제: 사진과 질문이 입력값으로 주어지고 사진을 참고해 질문에 답하는 문제
        - 사진 데이터에서 특징을 뽑는 레이어와 질문 텍스트 데이터에서 특징을 뽑는 두 레이어가 각기 순차적으로 존재한다.
        - 최종적으로 이 두값을 합쳐야 하는데, 이러한 구조를 구현할 때 하나의 플로만 계산할 수 있다.
        - 그렇기 때문에 두 값을 합치는 것이 불가능하기 때문에 제약이 많다.

    - Sequential 모듈을 사용하기 어려운 경우
        1. 다중 입력값 모델(Multi-input models)
        2. 다중 출력값 모델(Multi-output models)
        3. 공유 층을 활용하는 모델(Models with shared layers)
        4. 데이터의 흐름이 순차적이지 않은 모델(Models with non-sequential data flows)

#### 2. Funtional API
    

     - 입력 값을 받는 Input 모듈을 선언해야 한다. 입력 받는 값의 형태(shape)를 정의하면 됨
     - 이 입력값을 호출할 때는 인자로 전달하는 방식으로 구현하면 된다.
     - 이렇게 정의한 후 최종 출력 값을 사용해 모델을 학습하면 된다.

In [19]:
inputs = layers.Input(shape=(4, ))
embed_output = layers.Embedding(vocab_size, emb_size)(inputs)
pooled_output = tf.reduce_mean(embed_output, axis=1)
hidden_layer = layers.Dense(hidden_dimension, activation = 'relu')(pooled_output)
outputs = layers.Dense(output_dimension, activation='sigmoid')(hidden_layer)

In [20]:
model = tf.keras.Model(inputs = inputs, outputs=outputs)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
             loss='binary_crossentropy',
             metrics=['accuracy'])

In [21]:
model.summary()

Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_8 (InputLayer)        [(None, 4)]               0         
                                                                 
 embedding_1 (Embedding)     (None, 4, 128)            2688      
                                                                 
 tf.math.reduce_mean (TFOpLa  (None, 128)              0         
 mbda)                                                           
                                                                 
 dense_9 (Dense)             (None, 256)               33024     
                                                                 
 dense_10 (Dense)            (None, 1)                 257       
                                                                 
Total params: 35,969
Trainable params: 35,969
Non-trainable params: 0
_________________________________________________________

In [22]:
model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1444bee85c8>

#### 3. Custom Layer
    - 새로운 연산을 하는 는 레이어 혹은 편의를 위해 여러 레이어를 하나로 묶은 레이어를 구현해야 하는 경우가 있다.
    - 이때, 사용자 정의 층(custom layer)을 만들어 사용하면 된다. 
    - 신경망을 하나의 레이어로 묶어 재사용성을 높이고 싶으면 새로운 사용자 정의 층으로 정의하면 된다.

In [23]:
class CustomModel(tf.keras.Model):

    def __init__(self, vocab_size, embed_dimension, hidden_dimension, output_dimension):
        super(CustomModel, self).__init__(name='my_model')
        self.embedding = layers.Embedding(vocab_size, embed_dimension)
        self.dense_layer = layers.Dense(hidden_dimension, activation='relu')
        self.output_layer = layers.Dense(output_dimension, activation='sigmoid')

    def call(self, inputs):
        x = self.embedding(inputs)
        x = tf.reduce_mean(x, axis=1)
        x = self.dense_layer(x)
        x = self.output_layer(x)
        
        return x

In [24]:
model = CustomModel(vocab_size = vocab_size,
            embed_dimension=emb_size,
            hidden_dimension=hidden_dimension,
            output_dimension=output_dimension)

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(input_sequences, labels, epochs=num_epochs, batch_size=batch_size)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1445cf61608>

#### 4. Subclassing(Custom Model)
    - 가장 자유도가 높은 방법
    - tf.keras.Model을 상속받고 모델 내부 연산들을 직접 구현하면 된다.
    - 객체를 생성할 때 호출되는 __init__ 메서드와 생성된 인스턴스를 호출할 때 호출되는 call 매서드만 구현하면 됨

In [25]:
class CustomLayer(layers.Layer):

    def __init__(self, hidden_dimension, output_dimension, **kwargs):
        self.hidden_dimension = hidden_dimension
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__(**kwargs)

    def build(self, input_shape):
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation = 'relu')
        self.dense_layer2 = layers.Dense(self.output_dimension)

    def call(self, inputs):
        hidden_output = self.dense_layer1(inputs)
        return self.dense_layer2(hidden_output)

    # Optional
    def get_config(self):
        base_config = super(CustomLayer, self).get_config()
        base_config['hidden_dim'] = self.hidden_dimension
        base_config['output_dim'] = self.output_dim
        return base_config

    @classmethod
    def from_config(cls, config):
        return cls(**config)

In [26]:
model = tf.keras.Sequential([
    layers.Embedding(vocab_size, emb_size, input_length = 4),
    layers.Lambda(lambda x: tf.reduce_mean(x, axis = 1)),
    CustomLayer(hidden_dimension, output_dimension),
    layers.Activation('sigmoid')])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
             loss='binary_crossentropy',
             metrics=['accuracy'])

model.fit(input_sequences, labels, epochs = num_epochs, batch_size = batch_size)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x14463280408>

### 2. 사이킷런(scikit-learn)
    - 파이썬용 머신러닝 라이브러리 
    - 구성 모듈
        1. 지도학습을 위한 모듈(Naive Bayes, Decision Trees, Support Vector Machines 등)
        2. 비지도학습을 위한 모듈(Clustering, Caussian mixture models 등)
        3. 모델 선택 및 평가를 위한 모듈(cross validation, Model evaluation, 모델 불러오기와 저장 등)
        4. 데이터 변환 및 데이터를 불러오기 위한 모듈(Pipeline, Freature extraction, preprocessing data, dimensionality reduction 등)
        5. 계산 성능 향상을 위한 모듈
    - 머신러닝 학습과 연구를 위한 데이터 셋을 포함 

In [27]:
import sklearn

sklearn.__version__

'1.0.2'

In [28]:
from sklearn.datasets import load_iris

iris_datasets = load_iris()
print("iris_dataset key: {}".format(iris_datasets.keys()))

iris_dataset key: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [29]:
print(iris_datasets["data"])
print("shape of data: {}".format(iris_datasets["data"].shape))

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [30]:
print(iris_datasets["feature_names"])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [31]:
print(iris_datasets["target"])
print(iris_datasets["target_names"])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


- DESCR은 해당 데이터의 요약된 정보

In [32]:
print(iris_datasets["DESCR"])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

#### 사이킷런을 이용한 데이터 분리

In [33]:
from sklearn.model_selection import train_test_split

In [34]:
train_input, test_input, train_label, test_label = train_test_split(iris_datasets['data'], iris_datasets['target'],
                                                                    test_size=0.25, random_state=42)

In [35]:
print("shape of train_input: {}".format(train_input.shape))
print("shape of test_input: {}".format(test_input.shape))
print("shape of train_label: {}".format(train_label.shape))
print("shape of test_label: {}".format(test_label.shape))

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


#### 사이킷런을 이용한 지도 학습
    - K-nearest neighbor classifier을 예시
    - K는 예측하고자 하는 데이터와 가까운 몇개의 데이터를 참고할 것인지를 의미

**KMeifhborClassifier의 특징**

    1. 데이터에 대한 가정이 없어 단순하다.
    2. 다목적 분류와 회귀에 좋다.
    3. 높은 메모리를 요구한다.
    4. K값이 커지면 계산이 늦어질 수 있다.
    5. 관련 없는 기능의 데이터의 규모에 민감하다.

In [36]:
from sklearn.neighbors import KNeighborsClassifier

KNN = KNeighborsClassifier(n_neighbors=3)

In [37]:
KNN.fit(train_input, train_label)

KNeighborsClassifier(n_neighbors=3)

In [38]:
KNeighborsClassifier(algorithm="auto", leaf_size=30, metric="minkowski",
                    metric_params=None, n_jobs=1, n_neighbors=1, p=2,
                    weights='uniform')

KNeighborsClassifier(n_jobs=1, n_neighbors=1)

In [39]:
import numpy as np

new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

new_input 예측

In [40]:
KNN.predict(new_input)

array([1])

In [41]:
predict_label = KNN.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [42]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 1.00


- 예측 결과값과 실제 결과값의 동일값의 개수를 평균으로 구한다.

#### 사이킷런을 이용한 비지도 학습
    - K-means Clustering을 사용
        - K 개의 중심을 지정하고 각 중심에서 가까운 중심에 모든 데이터를 할당하고 같은 중심에 할당된 데이터를 같은 군집이라 판단
        - 변화가 없을때까지 해당 과정을 반복한다.

In [43]:
from sklearn.cluster import KMeans

k_means = KMeans(n_clusters=3)

In [44]:
k_means.fit(train_input)

KMeans(n_clusters=3)

In [45]:
k_means.labels_

array([0, 0, 1, 1, 1, 0, 0, 1, 1, 2, 1, 2, 1, 2, 1, 0, 2, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 1, 2, 1, 0, 1, 2, 0,
       0, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1, 2, 2, 1, 0, 0, 1, 2, 0, 0, 0, 1,
       2, 0, 2, 2, 0, 1, 1, 1, 2, 2, 0, 2, 1, 2, 1, 1, 1, 0, 1, 1, 0, 1,
       2, 2, 0, 1, 2, 2, 0, 2, 0, 2, 2, 2, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0,
       1, 2])

In [46]:
print("0 cluster:", train_label[k_means.labels_ == 0])
print("1 cluster:", train_label[k_means.labels_ == 1])
print("2 cluster:", train_label[k_means.labels_ == 2])

0 cluster: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
1 cluster: [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]
2 cluster: [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]


In [47]:
import numpy as np

new_input  = np.array([[6.1, 2.8, 4.7, 1.2]])

In [48]:
prediction = k_means.predict(new_input)
print(prediction)

[1]


In [49]:
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 1 0 2 2 2 2 2 0 0 0 0 1 0 0 1 1
 0]


In [50]:
np_arr = np.array(predict_cluster)
np_arr[np_arr==0], np_arr[np_arr==1], np_arr[np_arr==2] = 3, 4, 5
np_arr[np_arr==3] = 1
np_arr[np_arr==4] = 0
np_arr[np_arr==5] = 2
predict_label = np_arr.tolist()
print(predict_label)

[0, 1, 2, 0, 0, 1, 0, 2, 0, 0, 2, 1, 1, 1, 1, 0, 2, 0, 0, 2, 1, 0, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1]


In [51]:
print('test accuracy {:.2f}'.format(np.mean(predict_label == test_label)))

test accuracy 0.26


#### 사이킷런을 이용한 특징 추출
    - CountVectorizer
        - 텍스트 데이터에서 횟수를 기준으로 특징을 추출하는 방법
        - 어떤 단위의 횟수를 셀 것인지는 선택사항(단어, 문자 등)
        - 보통은 텍스트에서 단어를 기준으로 횟수를 측정한 뒤 벡터로 만듬 
        - 해당 방법은 먼저 객체를 만들고 해당 객체를 특정 텍스트에 적합시켜야 한다.
            -> 여기서 적합이란, 횟수를 셀 단어의 목록을 만드는 과정
        - 그 후 횟수를 기준으로 해당 텍스트를 벡터화 한다.

In [52]:
from sklearn.feature_extraction.text import CountVectorizer

In [53]:
text_data = ["나는 배가 고프다", "내일 점심 뭐먹지", "내일 공부 해야겠다", "점심 먹고 공부 해야지"]

count_vectorizer = CountVectorizer()

In [54]:
count_vectorizer.fit(text_data)
print(count_vectorizer.vocabulary_)

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}


In [55]:
sentence = [text_data[0]] # ['나는 배가 고프다']
print(count_vectorizer.transform(sentence).toarray())

[[1 0 1 0 0 0 1 0 0 0]]


#### TfidfVectorizer
    - TfidVectorizer는 TF-IDF라는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 방법
    - TF는(Rerm Frequency)란 특정 단어가 하나의 데이터 안에서 등장하는 횟수를 의미함
    - DF는(Document Frequency)는 문서 빈도 값으로, 특정 단어가 여러 데이터에 자주 등장하는 지를 알려주는 지표
    - ID(Inverse Document Frequency)는 이 값에 역수를 취해서 구할 수 있으며, 특정 단어가 다른 데이터에 등장 하지 않을 수록 값이 커진다는 것을 의미한다.
    - TF-IDF란 이 두 값을 곱해서 사용하므로 어떤 단어가 해당 문서에서 자주 등장하지만, 다른 문서에서는 많이 없는 단어일수록 높은 값을 가지게 된다.
    - 이는 CountVectorzier의 문제점을 해결 할 수 있다. 

In [56]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [57]:
tfidf_vectorizer = TfidfVectorizer()

In [58]:
tfidf_vectorizer.fit(text_data)
print(tfidf_vectorizer.vocabulary_)

sentence = [text_data[3]] # ['점심 먹고 공부 해야지']
print(tfidf_vectorizer.transform(text_data).toarray())

{'나는': 2, '배가': 6, '고프다': 0, '내일': 3, '점심': 7, '뭐먹지': 5, '공부': 1, '해야겠다': 8, '먹고': 4, '해야지': 9}
[[0.57735027 0.         0.57735027 0.         0.         0.
  0.57735027 0.         0.         0.        ]
 [0.         0.         0.         0.52640543 0.         0.66767854
  0.         0.52640543 0.         0.        ]
 [0.         0.52640543 0.         0.52640543 0.         0.
  0.         0.         0.66767854 0.        ]
 [0.         0.43779123 0.         0.         0.55528266 0.
  0.         0.43779123 0.         0.55528266]]


### 3. 영어 토크나이징 라이브러리
    - 영어의 경우 NLTK(Natural Language Toolkit)와 Spacy가 토크나이징에 많이 사용하는 라이브러리이다.
    - 두 라이브러리는 영어 텍스트에 대해 전처리 및 분석을 하기 위한 도구로 유명하다.

#### 3.1 NLTK
    - 파이썬에서 영어 텍스트 전처리에 많이 쓰이는 라이브러리이다.
    - 50여개가 넘는 말뭉치 리소스를 활용해 영어 텍스트를 분석 할 수 있게 제공한다.

In [59]:
import nltk

nltk.download('all-corpora')
nltk.download('punkt')

[nltk_data] Downloading collection 'all-corpora'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package bcp47 to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package bcp47 is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |    

[nltk_data]    |   Package semcor is already up-to-date!
[nltk_data]    | Downloading package senseval to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package senseval is already up-to-date!
[nltk_data]    | Downloading package sentence_polarity to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package sentence_polarity is already up-to-date!
[nltk_data]    | Downloading package sentiwordnet to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package sentiwordnet is already up-to-date!
[nltk_data]    | Downloading package shakespeare to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package shakespeare is already up-to-date!
[nltk_data]    | Downloading package sinica_treebank to
[nltk_data]    |     C:\Users\yujinha\AppData\Roaming\nltk_data...
[nltk_data]    |   Package sinica_treebank is already up-to-date!
[nltk_data]    | Downl

True

**단어 단위 토크나이징**

In [60]:
from nltk.tokenize import word_tokenize

sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


**문장 단위 토크나이징**

In [61]:
from nltk.tokenize import sent_tokenize

paragraph = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."

print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


#### Spacy
    - 오픈소스 라이브러리다. 
    - NLTK 라이브러리에서는 단어단위 토크나이징 함수는 word_tokenize(), 문장단위 토크나이징 함수는 sent_tokennize()로 구분된다.
    - spacy 라이브러리의 경우에는 두 경우 모두 동일한 모듈을 통해 토크나이징 한다. 

In [62]:
import spacy

In [63]:
#nlp = spacy.load('en')
nlp = spacy.load('E:\\yujin\\anaconda3\\Lib\\site-packages\\en_core_web_sm\\en_core_web_sm-2.3.1')

sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

doc = nlp(sentence)

    - nlp = spacy.load('en_core_web_sm')을 실행시 오류가 발생한다면 
    - spacy와 en_core_web_sm의 버전을 확인할 필요가 있다.
        1. spacy를 spacy.__version__을 통해 spacy의 버전을 확인하고 
        2. C:\\사용자명\\anaconda3\\Lib\\site-packages\\en_core_web_sm\\ 으로 들어가서 en_core_web_sm의 버전을 확인한다.
        3. https://github.com/explosion/spacy-models/blob/master/compatibility.json 해당 링크에서 호환 가능한지 확인 가능하다.
        4. 호환이 안된다면 호환 가능한 버전으로 다운로드 해준다.
    - 명령어: pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-버전/en_core_web_sm-버전.tar.gz 

단어 단위 토크나이징

In [64]:
word_tokenized_sentence = [token.text for token in doc]
print(word_tokenized_sentence)

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


문장 단위 토크나이징

In [65]:
sentence_tokenized_list = [sent.text for sent in doc.sents]
print(sentence_tokenized_list)

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.']


### 한글 토크나이징 라이브러리 
    - 언어적 특성상 한글은 영어를 위한 도구를 사용하기에 적합하지 않다. 
    - 예를 들어 형태소 분석기, 음소분리는 영어 도구에는 존재하지 않는다. 

#### KoNPy
    - 한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리다. 
    - 일반적인 어절 단위의 토크나이징은 NLTK에서도 가능하기 때문에 형태소 단위에 대한 토크나이징에 대해 알아보자

In [66]:
import konlpy

    - KoNLPy 형태소 분석기의 목록
        1. Hannanum
        2. Kkma
        3. Komoran
        4. Mecab
        5. Okt

In [67]:
from konlpy.tag import Okt

okt = Okt()

    - Okt 객체 목록
        1. okt.morphs(): 형태소 단위로 나눈다. 옵션으로는 norm, stem이 있다.
        2. okt.nouns(): 텍스트에서 명사만 뽑아낸다.
        3. okt.phrases(): 텍스트에서 어절을 뽑아낸다.
        4. okt.pos(): 각 품사를 태깅하는 역할. 품사를 태깅한다는 것은 주어진 텍스트를 형태소 단위로 나누고, 각 형태소를 그에 해당하는 품사와 함께 리스트화를 하는 것을 의미한다.

In [68]:
text = "한글 자연어 처리는 재미있다 이제부터 열심히 해야지 ㅎㅎㅎ"
print(okt.morphs(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '는', '재미있다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


In [69]:
print(okt.pos(text))
print(okt.pos(text, join=True)) #형태소와 품사를 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재미있다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재미있다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


**Konly 데이터**

    - 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있다.
    - kolaw와 kobill 두개의 말뭉치가 존재한다.
        1. 

In [70]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [71]:
kolaw.open('constitution.txt').read()[:20]

'대한민국헌법\n\n유구한 역사와 전통에 '

In [72]:
kobill.open('1809890.txt').read()

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

    - 그외의 라이브러리로 numpy, pandas, matplotlib, re(정규표현식), beautiful soup은 따로 실습하지 않을 것이다.
    - kaggle api에 대한 다양한 활용법이 있지만 넘어갈 것이다. 