# 17장 딥러닝을 이용한 자연어 처리

- 자연어(Natural Language)란 우리가 평소에 말하는 음성이나 텍스트를 의미.
- 자연어 처리(Natural Language Processing)는 음성이나 텍스트를 컴퓨터가 인식하고 처리

## 1. 텍스트의 토큰화
 먼저 해야할 일은 텍스트를 잘게 나누는 것입니다. 입력할 텍스트가 준비되면 이를 단어별, 문장별, 형태소별로 나눌 있는데, 이렇게 작게 나누어진 하나의 단위를 **토큰(token)**이라고 함. 예를 들어 다음과 같은 문장이 주어졌다고 가정해 보자.  
```"해보지 않으면 해낼 수 없다"```

케라스가 제공하는 text 모듈의 ```text_to_word_sequence()```함수를 사용하면 문장을 단어 단위로 나눌 수 있음. 전처리할 덱스트를 지정한 후 다음과 같이 토큰화 함.






In [None]:
# 전처리 과정 연습

# 케라스의 텍스트 전처리와 관련한 함수 중 text_to_word_sequence 함수를 불러옵니다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '해보지 않으면 해낼 수 없다'

result = text_to_word_sequence(text)

print('원문 :', text)
print('토큰화된 결과 :', result)

원문 : 해보지 않으면 해낼 수 없다
토큰화된 결과 : ['해보지', '않으면', '해낼', '수', '없다']


### [연습장]

In [None]:
print( type(result) )

<class 'list'>


In [None]:
text = '한글 분석을 시작합니다. 잘 되겠죠?'

result = text_to_word_sequence(text)

print('원문 :', text)
print('토큰화된 결과 :', result)

원문 : 한글 분석을 시작합니다. 잘 되겠죠?
토큰화된 결과 : ['한글', '분석을', '시작합니다', '잘', '되겠죠']


이렇게 **주어진 텍스트를 단어 단위로 쪼개고 나면 이를 이용해 여러 가지를 할 수 있습니다.** 예를 들어 각 단어가 몇 번이나 중복해서 쓰였는지 알 수 있습니다. 단어의 빈도수를 알면 텍스트에서 중요한 역활을 하는 단어를 파악할 수 있겠지요. 따라서 **텍스틀 단어 단위로 쪼개는 것은 가장 많이 쓰이는 전처리 과정.** 

Bag-of-Words라는 방법이 이러한 전처리를 일컫는 말인데, '단어의 가방(bag of words)'이라는 뜻으로 같은 단어끼리 각각의 가방에 담은 후에 각 가방에 단어가 몇개 들어 있는지 세는 방법입니다. (강사-단어 출현 빈도수를 파악) 


예를 들어 다음과 같은 세 개의 문장이 있다고 합시다.
```
먼저 텍스트의 각 단어를 나누어 토큰화합니다.
텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.
토큰화한 결과는 딥러닝에서 사용할 수 있습니다.
```


케라스의 ```Tokenizer()``` 함수를 사용하면 **단어의 빈도수**를 쉽게 계산할 수 있습니다. 다음 코드는 위 제시한 세 문장의 단어를 빈도수로 다시 정리하는 코드입니다.

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

#전처리하려는 세 개의 문서(document)을 docs라는 리스트에 저장합니다.
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화합니다. 이 문장은 어쩔라고.',
        '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
        '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.'
        ]
# Tokenizer()
#  - 전처리 과정을 수행할 객체 반환
token=Tokenizer()
token.fit_on_texts(docs)  # 문서(들)을 토큰화함.

print('단어 카운트:\n', token.word_counts)   # 각 단어(token)이 전체 문서에서 몇 번 나타나는지 빈도 정보

단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('이', 1), ('문장은', 1), ('어쩔라고', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])


```token.word_counts```에는 각 단어가 몇번 나타나는지 즉 단어 별 나타난 빈도수를 해당 단어와 같이 포함하고 있습니다.

In [None]:
# document_count 속성에서는 총 몇 개의 문서가 들어 있는지 알 수 있음.
print('문서 카운트 : ', token.document_count )

문서 카운트 :  3


#### [실습]

In [None]:
#전처리하려는 세 개의 문장을 docs라는 리스트에 저장합니다.
docs = ['난 난 꿈이 있었죠. 버려지고 찢겨 남루하여도 내 가슴 깊숙이 보물과 같이 간직했던 꿈. 혹 때론 누군가가 뜻 모를 비웃음 내 등뒤에 흘릴때도 난 참아야 했죠.',
        '참을 수 있었죠. 그 날을 위해 늘 걱정하듯 말하죠. 헛된 꿈은 독이라고 세상은 끝이 정해진 책처럼 이미 돌이킬 수 없는 현실이라고 그래요 난 난 꿈이 있어요.',
         '그 꿈을 믿어요. 나를 지켜봐요. 저 차갑게 서 있는 운명이란 벽앞에 당당히 마주칠 수 있어요.',
         '언젠가 난 그 벽을 넘고서 저 하늘을 높이 날을 수 있어요. 이 무거운 세상도 나를 묶을 순 없죠.',
        '내 삶의 끝에서 나 웃을 그 날을 함께해요.',
         '늘 걱정하듯 말하죠. 헛된 꿈은 독이라고. 세상은 끝이 정해진 책처럼 이미 돌이킬 수 없는 현실이라고.',
        '그래요. 난 난 꿈이 있어요. 그 꿈을 믿어요 나를 지켜봐요. 저 차갑게 서 있는 운명이란 벽앞에 당당히 마주칠 수 있어요.',
      '언젠가 난 그 벽을 넘고서 저 하늘을 높이 날을 수 있어요. 이 무거운 세상도 나를 묶을 순 없죠. 내 삶의 끝에서 나 웃을 그 날을 함께해요.',
      '난 난 꿈이 있어요. 그 꿈을 믿어요 나를 지켜봐요'
        ]
# Tokenizer()를 이용해 전처리 하는 과정
token = Tokenizer()
token.fit_on_texts(docs)  # 문서(들)을 토큰화 

print('단어 카운트:\n', token.word_counts)

# document_count 속성에서 총 몇 개의 문서가 들어 있는지 알 수 있음.
print('문서 카운트:\n', token.document_count )

단어 카운트:
 OrderedDict([('난', 11), ('꿈이', 4), ('있었죠', 2), ('버려지고', 1), ('찢겨', 1), ('남루하여도', 1), ('내', 4), ('가슴', 1), ('깊숙이', 1), ('보물과', 1), ('같이', 1), ('간직했던', 1), ('꿈', 1), ('혹', 1), ('때론', 1), ('누군가가', 1), ('뜻', 1), ('모를', 1), ('비웃음', 1), ('등뒤에', 1), ('흘릴때도', 1), ('참아야', 1), ('했죠', 1), ('참을', 1), ('수', 7), ('그', 8), ('날을', 5), ('위해', 1), ('늘', 2), ('걱정하듯', 2), ('말하죠', 2), ('헛된', 2), ('꿈은', 2), ('독이라고', 2), ('세상은', 2), ('끝이', 2), ('정해진', 2), ('책처럼', 2), ('이미', 2), ('돌이킬', 2), ('없는', 2), ('현실이라고', 2), ('그래요', 2), ('있어요', 7), ('꿈을', 3), ('믿어요', 3), ('나를', 5), ('지켜봐요', 3), ('저', 4), ('차갑게', 2), ('서', 2), ('있는', 2), ('운명이란', 2), ('벽앞에', 2), ('당당히', 2), ('마주칠', 2), ('언젠가', 2), ('벽을', 2), ('넘고서', 2), ('하늘을', 2), ('높이', 2), ('이', 2), ('무거운', 2), ('세상도', 2), ('묶을', 2), ('순', 2), ('없죠', 2), ('삶의', 2), ('끝에서', 2), ('나', 2), ('웃을', 2), ('함께해요', 2)])
문서 카운트:
  9


```python
token.word_counts      # 단어(token)와 해당 단어(token)가 전체 문서에 나타난 빈도
token.document_count   # 총 몇 개의 문서로 구성되어 있는지 파악
```

In [None]:
# token.word_docs를 통해 각 단어들이 몇 개의 문서에 나오는지 세어서 출력할 수도 있습니다. 
# 출력 되는 순서는 랜덤
print('각 단어가 몇 개의 문서에 포함되어 있는가 : \n', token.word_docs)

각 단어가 몇 개의 문서에 포함되어 있는가 : 
 defaultdict(<class 'int'>, {'참아야': 1, '가슴': 1, '찢겨': 1, '내': 3, '흘릴때도': 1, '뜻': 1, '난': 6, '남루하여도': 1, '등뒤에': 1, '했죠': 1, '모를': 1, '같이': 1, '혹': 1, '꿈': 1, '깊숙이': 1, '있었죠': 2, '비웃음': 1, '보물과': 1, '버려지고': 1, '누군가가': 1, '꿈이': 4, '간직했던': 1, '때론': 1, '걱정하듯': 2, '말하죠': 2, '현실이라고': 2, '끝이': 2, '책처럼': 2, '그': 7, '위해': 1, '꿈은': 2, '날을': 4, '정해진': 2, '독이라고': 2, '수': 6, '돌이킬': 2, '그래요': 2, '없는': 2, '늘': 2, '세상은': 2, '헛된': 2, '이미': 2, '있어요': 6, '참을': 1, '있는': 2, '서': 2, '지켜봐요': 3, '운명이란': 2, '믿어요': 3, '꿈을': 3, '마주칠': 2, '벽앞에': 2, '저': 4, '당당히': 2, '차갑게': 2, '나를': 5, '순': 2, '높이': 2, '하늘을': 2, '이': 2, '벽을': 2, '세상도': 2, '없죠': 2, '묶을': 2, '무거운': 2, '언젠가': 2, '넘고서': 2, '함께해요': 2, '나': 2, '웃을': 2, '끝에서': 2, '삶의': 2})


In [None]:
# 각 단어에 매겨진 인덱스 값을 출력하려면 word_index 속성에서 확인 
print('각 단어에 매겨진 인덱스 값:\n', token.word_index)

각 단어에 매겨진 인덱스 값:
 {'난': 1, '그': 2, '수': 3, '있어요': 4, '날을': 5, '나를': 6, '꿈이': 7, '내': 8, '저': 9, '꿈을': 10, '믿어요': 11, '지켜봐요': 12, '있었죠': 13, '늘': 14, '걱정하듯': 15, '말하죠': 16, '헛된': 17, '꿈은': 18, '독이라고': 19, '세상은': 20, '끝이': 21, '정해진': 22, '책처럼': 23, '이미': 24, '돌이킬': 25, '없는': 26, '현실이라고': 27, '그래요': 28, '차갑게': 29, '서': 30, '있는': 31, '운명이란': 32, '벽앞에': 33, '당당히': 34, '마주칠': 35, '언젠가': 36, '벽을': 37, '넘고서': 38, '하늘을': 39, '높이': 40, '이': 41, '무거운': 42, '세상도': 43, '묶을': 44, '순': 45, '없죠': 46, '삶의': 47, '끝에서': 48, '나': 49, '웃을': 50, '함께해요': 51, '버려지고': 52, '찢겨': 53, '남루하여도': 54, '가슴': 55, '깊숙이': 56, '보물과': 57, '같이': 58, '간직했던': 59, '꿈': 60, '혹': 61, '때론': 62, '누군가가': 63, '뜻': 64, '모를': 65, '비웃음': 66, '등뒤에': 67, '흘릴때도': 68, '참아야': 69, '했죠': 70, '참을': 71, '위해': 72}


token의 여러 속성
```
token.word_counts        # 각 단어(token)이 전체 문서에서 몇 번 나타나는지 빈도 정보
token.document_count     # 전체 문서에서 총 몇개의 문서가 있는지
token.word_docs          # 단어(token)이 몇 개의 문서에서 나타는지 
token.word_index         # 전체 문서에서 해당 단어(tokne)와 그 단어의 인텍스 정보
```

### 1절 덱스트의 토근화에 대한 **요점 정리**
케라스가 제공하는 기능(함수)를 사용하면 text를 위한 전처리를 쉽게 할 수 있음.

***

## 2. 단어의 원-핫 인코딩
 앞서 우리는 문장을 컴퓨터가 알아 들을 수 있게 토큰화하고 단어의 비도수를 확인해 보았습니다. **(강사 - 글자를 그러니까 단어(token)을 숫자화 해야 모델 입력으로 활용할 수 있음.)** 하지만 단순히 단어의 출현 빈도만 가지고 해당 단어가 문장의 어디에서 왔는지, 각 단어의 순서는 어떠했는지 등에 관한 정보를 얻을 수 없습니다.

 단어가 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법이 필요합니다. 이러한 기법 중에서 가장 기본적인 방법인 **원-핫 인코딩**을 알아 보겠습니다. (강사-원-핫 인코딩으로 단어가 문장의 다른 요소와 어떤 관계를 가지는 알 수 있나요?) 원-핫 인코딩을 단어를 요소로하는 배열로 적용해보겠습니다. 예를 들어 다음과 같은 문장이 있습니다. 
```
'오랜동안 꿈꾸는 이는 그 꿈을 닮아간다'
```
각 단어를 모두 0으로 바꾸어 주고 원하는 단어만 1로 바꾸어 주는 것이 원-핫 인코딩이었습니다. 이를 수행하기 위해 먼저 단어 수만큼 0으로 채워진 벡터 공간으로 바꾸면 다음과 같습니다. 
```
[0 0 0 0 0 0 0]
```
<br><center>
<img src="https://drive.google.com/uc?id=1q0fo3bYP1jyyXjKew5d29axliCN4rjZB">
</center><br>
이제 각 단어가 배열 내에서 해당하는 위치를 1로 바꾸어서 벡터화 할 수 있습니다.
```
오랜동안 = [ 0 1 0 0 0 0 0]
꿈꾸는   = [ 0 0 1 0 0 0 0]
이는     = [ 0 0 0 1 0 0 0]
그       = [ 0 0 0 0 1 0 0]
꿈을     = [ 0 0 0 0 0 1 0]
닮아간다 = [ 0 0 0 0 0 0 1]
```
이러한 과정을 케라스로 구현해 보겠습니다. 먼저 토큰화 함수를 불러와 단어 단위로 토큰화하고 각 단어의 인덱스 값을 출력해 봅시다. 

In [17]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


이제 각 단어를 원-핫 인코딩 방식으로 표현해 보겠습니다. 케라스에서 제공하는 ```Tokenizer```의 ```text_to_sequence()``` 함수를 사용해서 앞서 만들어진 토큰의 인텍스로만 채워진 새로운 배열을 만들어 줍니다.

In [18]:
x = token.texts_to_sequences([text])
print(x)

[[1, 2, 3, 4, 5, 6]]


이제 1\~6의 정수로 인텍스되어 있는 것을 0과 1로만 이루어진 배열로 바꾸어 주는 ```to_categorical()```함수를 사용해 워-핫 인코딩 과정을 진행합니다. 배열 맨 앞에 0이 추가됨으로 단어 수보다 1이 더 많게 인텍스 숫자를 잡아 주는 것에 유의하시기 바랍니다.

In [19]:
from tensorflow.keras.utils import to_categorical
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes = word_size)
print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


## 3. 단어 임베딩

```
model = Sequential()
model.add(Embedding(16, 4))
```

## 4.텍스트를 읽고 긍정, 부정 예측하기

In [32]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical
from numpy import array

In [33]:
# 텍스트 리뷰 자료를 지정합니다.
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
classes = array([1,1,1,1,1,0,0,0,0,0])

# 토큰화 
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [34]:
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트, 토큰화 결과:\n",  x)


리뷰 텍스트, 토큰화 결과:
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [35]:
# 패딩, 서로 다른 길이의 데이터를 4로 맞추어 줍니다.
padded_x = pad_sequences(x, 4)  
print("\n패딩 결과:\n", padded_x)


패딩 결과:
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [36]:
# 임베딩에 입력될 단어의 수를 지정합니다.
# 실제 단어는 20개인데 20개 데이터가 1부터 인텍싱 되기 때문에 인텍스 값은 1, 2, 3, 19, 20이다.
# 그런데 파이썬에서 테이터를 처리할 때 인텍스 0부터 고려하기 때문에 인덱스 0의 요소를 고려해서 단어가 21개인 것으로 처리하는 것으로 이해하자. 
word_size = len(token.word_index) +1
print(word_size)

21


In [37]:
# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력합니다.
model = Sequential()

# 21차원 벡터를 8차원 벡터로 변환
# word_size: 입력될 단어 개수,
# 8: 8 차원 데이터 출력
# input_length = 4 : 한 번에 입력하는 단어 개수, [0, 0, 1, 2]
model.add(Embedding(word_size, 8, input_length=4))     # 이 예제의 경우 하나의 단어를 원핫 인코딩하면 한 단어를 나타내는 벡타는 20차원.  
                                                       # 한 단어는 첫번째 요소에 0을 추가한 것을 고려하면 21차원 벡터이다. 
                                                       # 이 벡터를 8 차원으로 바꾼다. 그리다 한번에 입력하는 단어(token)의 개수가 4개 따라서 4x8 출력
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_1 (Embedding)     (None, 4, 8)              168       
                                                                 
 flatten_1 (Flatten)         (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 33        
                                                                 
Total params: 201
Trainable params: 201
Non-trainable params: 0
_________________________________________________________________


In [38]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.9000


***

***

**아래 내용은 무시 - 미완성이기에**

# 단어 임베딩(Word embedding)
## 단어 표현(Word Representation)
  "단어 표현" 표현 분야는 텍스트를 자연어 처리를 위한 모델에 적용할 수 있게 언어적인 특성을 반영해서 단어를 숫자화하는 방법을 찾는 것입니다.

  단어를 수치화할 때는 주로 벡터 형태로 수치화 합니다. 따라서 단어 표현을 "단어 임베딩(word embedding)" 또는 단어 벡터로 표현하기도 합니다.  

 원-핫 인코딩은 각 단어의 인덱스를 정한 후 각 단어의 벡터에서 그 단어에 해당하는 인텍스 위치에 값을 1로 표현하는 방식입니다.

 예를 들어 '단맛', '짠맛', '매운맛' 이렇게 3개의 단어가 있다고 가정하겠습니다. 그리고 파이썬 리스트 형태로 단어를 보관하고 있습니다.
```python
['매운맛', '단맛', '짠맛']
```

'매운맛'이라는 문자열은 파이썬 리스트의 한 요소라고 보면 리스트의 한 요소인 '매운맛'은 인텍스가 0입니다. 

아래 코드에서와 같이 적용했을 때, 매운맛의 인덱스는 1이되어 컴퓨터가 아닌 사람에게 조금 더 친숙한 방식의 인덱싱이 됩니다. 

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = '매운맛 단맛 짠맛'
token = Tokenizer()
token.fit_on_texts([text])

print(token.word_index)

{'매운맛': 1, '단맛': 2, '짠맛': 3}


케라스에서 제공하는 ```Tokenizer```의 ```text_to_sequence()```함수를 사용해서 단어의 인덱스만으로 채워진 새로운 배열를 만들겠습니다.

In [None]:
x = token.texts_to_sequences([text])
print( type(x) )
print(x)


<class 'list'>
[[1, 2, 3]]


```to_categorical()```함수를 이용하여 원-핫 인코딩을 진행하겠습니다.

In [None]:
from tensorflow.keras.utils import to_categorical
x = to_categorical(x, 4)   # 여기서 4의 의미는?
print( type(x) )
print(x)

<class 'numpy.ndarray'>
[[[0. 1. 0. 0.]
  [0. 0. 1. 0.]
  [0. 0. 0. 1.]]]


첫 번째 단어 '매운맛'의 인덱스가 1이므로 핫-원 인코딩 결과가 0번 째, 1번 째, 2번 째, 3번 째 중 1번 째 요소를 1로 하고 나머지 요소는 모두 0으로 표현한 것입니다.