# 17장. 딥러닝을 이용한 자연어 처리

자연어: 우리가 평소에 말하는 음성이나 텍스트 <br>
자연어 처리: 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것

## 1. 텍스트의 토큰화

토큰: 작게 나누어진 하나의 단위 <br>
토큰화: 입력된 텍스트를 잘게 나누는 과정

케라스가 제공하는 text 모듈의 text_to_word_sequence() 함수를 사용하면 문장을 단어 단위로 쉽게 나눌 수 있음

In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text='해보지 않으면 해낼 수 없다'
result=text_to_word_sequence(text)
print(result)

['해보지', '않으면', '해낼', '수', '없다']


토큰화를 이용하면 각 단어가 몇번이나 중복해서 썼는지를 알 수 있음 <br>
→ 텍스트를 단어 단위로 쪼개는 것은 가장 많이 쓰이는 전처리 과정임

Bag-of-Words: 단어의 가방. 같은 단어끼리 따로따로 가방에 담은 뒤 각 가방에 몇 개의 단어가 들어있는지를 세는 기법

케라스의 Tokenizer() 함수를 사용하면 빈도 수를 쉽게 계산할 수 있음

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [3]:
docs=['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
      '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
      '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']

In [4]:
token=Tokenizer() # 토큰화 함수 지정
token.fit_on_texts(docs) # 토큰화 함수에 문장 적용
print(token.word_counts) # 단어의 빈도 수를 계산한 결과 출력

OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])


In [6]:
print(token.document_count) # 총 몇 개의 문장이 들어있는지 셈

3


In [7]:
print(token.word_docs) # 각 단어들이 몇 개의 문장에서 나오는지 셈

defaultdict(<class 'int'>, {'먼저': 1, '텍스트의': 2, '토큰화합니다': 1, '각': 1, '단어를': 1, '나누어': 1, '단어로': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화해야': 1, '수': 1, '결과는': 1, '있습니다': 1, '토큰화한': 1, '사용할': 1})


In [8]:
print(token.word_index) # 각 단어에 매겨진 인덱스 값

{'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


### 주어진 문장을 '단어'로 토큰화 하기

In [10]:
# 텍스트 전처리 함수 text_to_word_sequence() 호출
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트 정하기
text='해보지 않으면 해낼 수 없다'

# 해당 텍스트 토큰화
result=text_to_word_sequence(text)
print("\n원문:\n",text)
print("\n토큰화:\n",result)

# 텍스트 전처리 함수 Tokenizer() 호출
from keras.preprocessing.text import Tokenizer

# 전처리하려는 세 개의 문장 정하기
docs=['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
      '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
      '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']

# 토큰화 함수를 이용해 전처리하는 과정
token=Tokenizer() # 토큰화 함수 지정
token.fit_on_texts(docs) # 토큰화 함수에 문장 적용하기

# 각 옵션에 맞춰 단어의 빈도 수를 계산한 결과 출력
print("\n단어 카운트:\n",token.word_counts)

# 출력되는 순서는 랜덤
print("\문장 카운트:\n",token.document_count)
print("\n각 단어가 몇 개의 문장에 포함되어 있는가:\n",token.word_docs)
print("\n각 단어에 매겨진 인덱스 값:\n",token.word_index)


원문:
 해보지 않으면 해낼 수 없다

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']

단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])
\문장 카운트:
 3

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'먼저': 1, '텍스트의': 2, '토큰화합니다': 1, '각': 1, '단어를': 1, '나누어': 1, '단어로': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화해야': 1, '수': 1, '결과는': 1, '있습니다': 1, '토큰화한': 1, '사용할': 1})

각 단어에 매겨진 인덱스 값:
 {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


<hr>

## 2. 단어의 원-핫 인코딩

단어가 문장의 다른 요소와 어떤 관계를 가지고 있는지를 알아보는 방법이 필요함 → 원-핫 인코딩

원-핫 인코딩: 각 단어를 모두 0으로 바꾸어 주고, 원하는 단어만 1로 바꾸어 주는 것

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer

text="오랫동안 꿈꾸는 이는 그 꿈을 닮아간다"

token=Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [12]:
x=token.texts_to_sequences([text]) # texts_to_sequences: 앞서 만들어진 토큰의 인덱스로 바꾸기
print(x)

[[1, 2, 3, 4, 5, 6]]


In [14]:
from keras.utils import to_categorical # to_categorical: 원-핫 인코딩 과정 진행

# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
word_size=len(token.word_index)+1
x=to_categorical(x,num_classes=word_size)

print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


<hr>

## 3. 단어 임베딩

단어 임베딩: 주어진 배열을 정해진 길이로 압축시켜 공간적 낭비를 해결함

단어 임베딩으로 얻은 결과가 밀집된 정보를 가지고 있고 공간의 낭비가 적다는 것을 알 수 있음 <br>
→ 각 단어 간의 유사도를 계산했기 때문

단어 간 유사도 계산 → 오차 역전파를 이용

In [28]:
from keras.layers import Embedding
from tensorflow.keras.models import Sequential

model=Sequential()
model.add(Embedding(16,4))

Embedding() 함수는 최소 2개의 매개변수가 필요 → 입력, 출력 <br>
Embedding(16,4)에서 입력될 총 단어 수는 16개, 출력되는 벡터 크기는 4로 지정 <br>
Embedding(16,4,input_length=2)는 총 단어 수는 16개지만, 매번 2개씩만 넣겠다는 뜻임

<hr>

## 4. 텍스트를 읽고 긍정, 부정 예측하기

In [37]:
# 텍스트로 리뷰 자료 지정
import numpy
from numpy import array
docs=['너무 재밌네요','최고예요','참 잘 만든 영화예요','추천하고 싶은 영화입니다.',
      '한 번 더 보고싶네요','글쎄요','별로예요','생각보다 지루하네요',
      '연기가 어색해요','재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

In [21]:
# 토큰화
token=Tokenizer()
token.fit_on_texts(docs) # fit_on_text:각 단어를 하나의 토큰으로 변환
print(token.word_index) # 토큰화 된 결과를 출력해 확인

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}


In [22]:
x=token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


패딩: 길이를 똑같이 맞춰 주는 작업 <br>
pad_sequence() 함수를 사용하면 원하는 길이보다 짧은 부분은 숫자 0을 넣어서 채우고, <br> 긴 데이터는 잘라서 같은 길이로 맞춤

In [40]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded_x=pad_sequences(x,4) # 서로 다른 길이의 데이터를 4로 맞추기
print(padded_x)

[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


임베딩 함수에 필요한 세 가지 파라미터: 입력, 출력, 단어 수 <br>
총 몇 개의 단어 집합에서(입력), 몇 개의 임베딩 결과를 사용할 것인지(출력), 그리고 매번 입력될 단어 수는 몇 개로 할지(단어 수)를 정해야 함

- 총 몇 개의 인덱스가 '입력'되어야 하는지 정하기

In [24]:
word_size=len(token.word_index)+1

- 몇 개의 임베딩 결과를 사용할 것인지, 즉 '출력'을 정하기

In [25]:
Embedding(word_size,8,input_length=4)

<keras.src.layers.core.embedding.Embedding at 0x7a956343be80>

In [45]:
# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten
from tensorflow.keras.preprocessing.sequence import pad_sequences

model=Sequential()
model.add(Embedding(word_size,8,input_length=4))
model.add(Flatten())
model.add(Dense(1,activation='sigmoid'))
model.compile(optimizer='adam',loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x,classes,epochs=20)
print("\n Accuracy: %.4f"%(model.evaluate(padded_x,classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.8000


### 영화 리뷰가 긍정적인지 부정적인지 예측하기

In [46]:
import numpy
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding
from tensorflow.keras.utils import to_categorical

# 텍스트 리뷰 자료 지정
docs=['너무 재밌네요','최고예요','참 잘 만든 영화예요','추천하고 싶은 영화입니다.',
      '한 번 더 보고싶네요','글쎄요','별로예요','생각보다 지루하네요',
      '연기가 어색해요','재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

# 토큰화
token=Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

# 패딩, 서로 다른 길이의 데이터를 4로 맞춤
padded_x=pad_sequences(x,4)
"\n패딩 결과\n",print(padded_x)

#임베딩에 입력될 단어 수 지정
word_size=len(token.word_index)+1

# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과 출력
model=Sequential()
model.add(Embedding(word_size,8,input_length=4))
model.add(Flatten())
model.add(Dense(1,activation='sigmoid'))
model.compile(optimizer='adam',loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x,classes,epochs=20)

print("\n Accuracy: %.4f"%(model.evaluate(padded_x,classes)[1]))

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}
[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.8000
