## 딥러닝 자연어처리

### 자연어처리
- 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것<br><br>

- 음성이나 텍스트로 된 자료를 모았다고 그대로 딥러닝에 입력할 수 X<br><br>

- 수치로된 데이터만 이해하기 때문에!! 그러므로 전처리 과정 필수


- 텍스트(문장)를 잘게 나누는 것<br><br>

- 토큰(token) : 텍스트(문장)를 단어별, 문장별, 형태소별로 나눌 수 있는데, 이렇게 나눠진 단위<br><br>

- 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정<br><br>

- 여기서 케라스의 text_to_word_sequence() 함수를 사용하면 문장의 단어 단위 토큰화가 가능

In [1]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

# 주어진 문장을 '단어'로 토큰화 하기
# 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수 불러옴
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 정한다.
text = '해보지 않으면 해낼 수 없다.'

# 해당 텍스트를 토큰화.
result = text_to_word_sequence(text)
print("\n원문:\n", text)
print("\n토큰화:\n", result)


원문:
 해보지 않으면 해낼 수 없다.

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']


- 각 단어가 몇 번이나 중복해서 쓰였는지 알 수 있음<br><br>

- 단어의 빈도 수를 알면 텍스트에서 중요한 역할을 하는 단어를 파악 가능<br><br>

- 즉 Bag-of-Words방법이 같은 단어끼리 따로 가방에 담은 뒤 각 가방에 몇 개의 단어가 들어있는지 세는 기법

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer

docs = ["먼저 텍스트의 각 단어를 나누어 토큰화 합니다.",
        "텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.",
        "토큰화한 결과는 딥러닝에서 사용할 수 있습니다.",
       ]

token = Tokenizer() # 토큰화 함수 지정
token.fit_on_texts(docs) # 함수에 문장 적용

print("\n단어 카운트 : \n",token.word_counts) # 빈도수 결과 출력

print("\n문장 개수 출력 : ", token.document_count)

print("\n각 단어가 속한 문장 열 : \n", token.word_docs)

print("\n각 단어에 매겨진 인덱스 값 : \n", token.word_index)


단어 카운트 : 
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 2), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

문장 개수 출력 :  3

각 단어가 속한 문장 열 : 
 defaultdict(<class 'int'>, {'텍스트의': 2, '토큰화': 2, '먼저': 1, '합니다': 1, '각': 1, '나누어': 1, '단어를': 1, '해야': 1, '단어로': 1, '인식됩니다': 1, '딥러닝에서': 2, '수': 1, '사용할': 1, '토큰화한': 1, '결과는': 1, '있습니다': 1})

각 단어에 매겨진 인덱스 값 : 
 {'텍스트의': 1, '토큰화': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '토큰화한': 12, '결과는': 13, '사용할': 14, '수': 15, '있습니다': 16}


-----
-----

In [42]:
docs = ["""먼저 텍스트의 각 단어를 나누어 토큰화 합니다.
        텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.
        토큰화한 결과는 딥러닝에서 사용할 수 있습니다."""]

In [43]:
docs = ("\n").join(docs).split("\n")
docs

['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
 '        텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.',
 '        토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']

In [44]:
token = Tokenizer() # 토큰화 함수 지정
token.fit_on_texts(docs) # 함수에 문장 적용

print("\n단어 카운트 : \n",token.word_counts) # 빈도수 결과 출력

print("\n문장 개수 출력 : ", token.document_count)

print("\n각 단어가 속한 문장 열 : \n", token.word_docs)

print("\n각 단어에 매겨진 인덱스 값 : \n", token.word_index)


단어 카운트 : 
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 2), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

문장 개수 출력 :  3

각 단어가 속한 문장 열 : 
 defaultdict(<class 'int'>, {'텍스트의': 2, '토큰화': 2, '먼저': 1, '합니다': 1, '각': 1, '나누어': 1, '단어를': 1, '해야': 1, '단어로': 1, '인식됩니다': 1, '딥러닝에서': 2, '수': 1, '사용할': 1, '토큰화한': 1, '결과는': 1, '있습니다': 1})

각 단어에 매겨진 인덱스 값 : 
 {'텍스트의': 1, '토큰화': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '토큰화한': 12, '결과는': 13, '사용할': 14, '수': 15, '있습니다': 16}


### 단어의 원-핫 인코딩

- 단어가 문장의 다른요소와 어떤 관계를 가지고 있는지 알아보는 방법 필요함<br><br>

- 이러한 기법 중에서 가장 기본적인 방법인 **원-핫 인코딩(one-hotencoding)**을 알아보자<br><br>

![image.png](attachment:image.png)

In [48]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = "오랫동안 꿈꾸는 자는 그 꿈을 닮아간다."

token = Tokenizer()
token.fit_on_texts([text])
print("\n단어 카운트 : \n",token.word_counts)
print("문장의 토큰화 : ", token.word_index)

# 각 단어 숫자화
x = token.texts_to_sequences([text])
print("문장의 숫자화 : ", x)


단어 카운트 : 
 OrderedDict([('오랫동안', 1), ('꿈꾸는', 1), ('자는', 1), ('그', 1), ('꿈을', 1), ('닮아간다', 1)])
문장의 토큰화 :  {'오랫동안': 1, '꿈꾸는': 2, '자는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}
문장의 숫자화 :  [[1, 2, 3, 4, 5, 6]]


In [49]:
from tensorflow.keras.utils import to_categorical

word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes = word_size)
print("문장의 원-핫 인코딩 : \n", x) # 맨 앞 0 은 인덱스를 표현하기 위해서 인듯

문장의 원-핫 인코딩 : 
 [[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


-----
-----

- **원-핫 인코딩**을 그대로 사용하면 벡터의 길이가 너무 길어진다는 단점 있음<br><br>

- 이러한 공간적 낭비를 해결하기 위해 등장한 것이 **단어 임베딩(word embedding)**<br><br>

- 단어 임베딩은 주어진 배열을 정해진 길이로 압축시킴<br><br>

![image.png](attachment:image.png)

- **단어 임베딩**으로 얻은 결과가 밀집된 정보를 가지고 있고 공간의 낭비가 적다는 것 알 수 있음<br><br>

- 단어간 유사도를 계산했기 때문<br><br>
![image.png](attachment:image.png)

- 단어 간 유사도 계산은 오차 역전파 이용<br><br>

- 적절한 크기로 배열을 바꿔 주기 위해 최적의 유사도를 계산하는 학습과정 거치게 됨

- Embedding( ) 함수를 사용하면 간단히 해낼 수 있음<br><br>

- Embedding( ) 함수는 최소 2개의 매개변수를 필요로 하는데, 바로 ‘입력’과 ‘출력’의 크기<br><br>

- Embedding(16, 4) : 입력될 총 단어 수는 16, 임베딩 후 출력되는 벡터 크기는 4<br><br>

- 단어를 매번 몇 개씩 입력할지 지정 가능Embedding(16, 4, input_length=2) : 총 입력되는 단어 수는 16개, 매번 2개씩 넣겠다는 뜻

In [60]:
import numpy as np
import tensorflow as tf

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

docs =['너무 재밌네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화입니다.',
       '한번 더 보고 싶네요', '글쎄요', '별로예요', '생각보다 지루하네요','연기가 어색해요',
       '재미없어요']

# 긍정리뷰 1, 부정리뷰 0으로 지정
classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트, 토큰화 결과:\n",  x)

# 패딩, 서로 다른 길이의 데이터를 4로 맞춤
padded_x = pad_sequences(x, 4)
print("\n패딩 결과\n",padded_x)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고': 13, '싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}

리뷰 텍스트, 토큰화 결과:
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]

패딩 결과
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


In [61]:
# 임베딩에 입력될 단어 수 지정
word_size = len(token.word_index) + 1

model = Sequential()
model.add(Embedding(word_size, 8, input_length = 4))
model.add(Flatten())
model.add(Dense(1, activation = 'sigmoid'))

model.compile(optimizer = 'adam', 
              loss = 'binary_crossentropy',
              metrics = ['accuracy'])

model.fit(padded_x, classes, epochs = 20)

print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.8000
