<a href="https://colab.research.google.com/github/Chocoding1/Machine_Learning_Deep_Learning/blob/main/%5BDeep%20Learning%5D%20NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 딥러닝을 이용한 자연어 처리

## 텍스트의 토큰화

컴퓨터의 알고리즘은 수치로 된 데이터만 이해(텍스트 이해 x) -> 텍스트 전처리 필요<br>

토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정

In [1]:
# text_to_word_sequence() : 문장을 단어로 쉽게 나눠주는 keras가 제공하는 text 모듈의 함수
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '내 꿈은 인공지능 전문가이다.'

result = text_to_word_sequence(text)
print(f'원문 :\n{text}')
print(f'토큰화 :\n{result}')

원문 :
내 꿈은 인공지능 전문가이다.
토큰화 :
['내', '꿈은', '인공지능', '전문가이다']


텍스트를 단어 단위로 쪼개면 단어의 빈도수에 따라 텍스트에서 중요한 역할을 하는 단어를 파악할 수 있다.<br>
따라서 텍스트를 단어 단위로 쪼개는 것이 가장 많이 쓰이는 텍스트 전처리 과정이며,<br>
Bag-of-Words는 이러한 전처리를 일컫는 말로, 단어 단위로 쪼개어 같은 단어들이 몇 개씩 있는지 세는 기법이다.

In [2]:
# Tokenizer() : 단어의 빈도수 계산
from tensorflow.keras.preprocessing.text import Tokenizer

docs = ['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
        '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
        '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']

token = Tokenizer() # 토큰화 함수 선언
token.fit_on_texts(docs) # 토큰화 함수에 문장 적용

print(f'단어 카운트 :\n{token.word_counts}') # word_counts가 단어의 빈도수 계산

단어 카운트 :
OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])


-> 순서를 기억하는 OrderedDict 클래스에 담겨 있는 형태로 출력

In [3]:
# document_count() : 총 몇 개의 문장이 들어 있는지 세는 함수
print(f'문장 수 : {token.document_count}')

문장 수 : 3


In [4]:
# word_docs() : 각 단어들이 몇 개의 문장에 나오는지 세는 함수
print(f'각 단어가 몇 개의 문장에 포함되어 있는지 :\n{token.word_docs}')

각 단어가 몇 개의 문장에 포함되어 있는지 :
defaultdict(<class 'int'>, {'텍스트의': 2, '단어를': 1, '각': 1, '토큰화합니다': 1, '먼저': 1, '나누어': 1, '토큰화해야': 1, '인식됩니다': 1, '단어로': 1, '딥러닝에서': 2, '사용할': 1, '수': 1, '토큰화한': 1, '있습니다': 1, '결과는': 1})


In [6]:
# word_index() : 각 단어에 매겨진 인덱스 값 출력(인덱스 값은 단어 임베딩에 사용)
print(f'각 단어에 매겨진 인덱스 값 :\n{token.word_index}')

각 단어에 매겨진 인덱스 값 :
{'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


## 단어의 원-핫 인코딩

단순히 단어의 출현 빈도만 가지고는 해당 단어가 문장의 어디에서 왔는지, 각 단어의 순서는 어떠했는지 등에 관한 정보 얻을 수 x

단어가 문장의 다른 요소와 어떤 관계를 가지고 있는지 알아보는 방법 필요 -> 원-핫 인코딩

In [11]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text]) # 텍스트 토큰화
print(token.word_index) # 각 단어의 인덱스 값 출력

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [19]:
# 각 단어를 원-핫 인코딩 방식으로 표현
# 1. keras의 Tokenizer의 texts_to_sequences() : 토큰의 인덱스로만 채워진 새로운 배열 생성
x = token.texts_to_sequences([text])
print(x)

[[1, 2, 3, 4, 5, 6]]


In [21]:
# 2. to_categorical() : 1~6의 정수로 인덱스되어 있는 것을 0과 1로만 이루어진 배열로 변경
from tensorflow.keras.utils import to_categorical

word_size = len(token.word_index) + 1 # 1부터
x = to_categorical(x, num_classes=word_size)

print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


## 단어 임베딩(word embedding)

원-핫 인코딩 그대로 사용시 벡터의 길이가 너무 길어진다는 단점

ex) 1만 개의 단어 토큰으로 이루어진 말뭉치 -> 9,999개의 0과 1개의 1로 이루어진 단어 벡터 1만개 생성

=> 단어 임베딩 등장(공간적 낭비 해결)

단어 임베딩 : 주어진 배열을 정해진 길이로 압축

단어 임베딩으로 얻은 결과가 밀집된 정보를 가지고 있고 공간의 낭비가 적다

이러한 결과가 가능한 이유는 각 단어 간의 유사도를 계산했기 때문<br>
ex) happy는 bad보다 good에 더 가깝고, cat은 good보다 dog에 더 가깝다

이 단어 간 유사도는 keras의 Embedding() 함수를 사용하면 된다.

In [None]:
from tensorflow.keras.layers import Embedding
from tensorflow.keras.models import Sequential

model = Sequential()
model.add(Embedding(16,4)) # Embedding(입력될 총 단어 수, 임베딩 후 출력되는 벡터 크기)
# Embedding(16, 3, input_length=2) : 총 입력되는 단어 수는 16개이지만 매번 두 개씩만 넣겠다는 의미

## 텍스트를 읽고 긍정, 부정 예측하기

In [25]:
# 짧은 리뷰 10개 불러와 긍정이면 1, 부정이면 0이라는 클래스로 지정
docs = ['너무 재밌네요', '최고에요', '참 잘 만든 영화에요', '추천하고 싶은 영화입니다.', '한 번 더 보고싶네요', '글쎄요',
        '별로에요', '생각보다 지루하네요', '연기가 어색해요', '재미없어요']

classes = [1,1,1,1,1,0,0,0,0,0]

In [26]:
# 앞서 배운 토큰화 진행
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고에요': 3, '참': 4, '잘': 5, '만든': 6, '영화에요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로에요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}


In [27]:
# 토큰에 지정된 인덱스로 새로운 배열 생성
x = token.texts_to_sequences(docs)
print(f'리뷰 텍스트 토큰화 결과 :\n{x}')

리뷰 텍스트 토큰화 결과 :
[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


각 리뷰 데이터의 토큰 수가 다르다(딥러닝 모델에 입력하려면 학습 데이터의 길이가 동일해야 함)<br>
-> 토큰의 수를 똑같이 맞춰줘야 한다. -> 패딩(padding)

In [32]:
# pad_sequence() : 패딩 작업을 하는 keras의 함수(원하는 길이보다 짧은 부분은 숫자 0, 긴 데이터는 잘라서 같은 길이로 맞춤)
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded_x = pad_sequences(x, 4)
print(f'패딩 결과 :\n{padded_x}')

패딩 결과 :
[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


In [None]:
# 단어 임베딩을 포함해 딥러닝 모델 만들고 결과 출력
# Embedding() 함수에 필요한 파라미터는 세 개(입력, 출력, 단어 수)
# 총 몇 개의 단어 집합에서(입력) 몇 개의 임베딩 결과를 사용할 것인지(출력), 매번 입력될 단어 수는 몇 개로 할지(단어 수)

# 1. 입력될 단어 수 지정
word_size = len(token.word_index) + 1 # 전체 단어의 맨 앞에 0이 먼저 나와야 하므로 총 단어 수에 +1

# 2. 출력될 임베딩 결과 수 지정 + 매번 입력될 단어 수 지정
Embedding(word_size, 8, input_length=4) # 임베딩 결과는 우리 눈에 안 보인다. 내부에서 계산해 딥러닝의 층으로 활용된다.

In [None]:
# 이를 이용한 모델 설정
from tensorflow.keras.layers import Dense

model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

In [35]:
# 전체 코드
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical

from numpy import array

docs = ['너무 재밌네요', '최고에요', '참 잘 만든 영화에요', '추천하고 싶은 영화입니다.', '한 번 더 보고싶네요', '글쎄요',
        '별로에요', '생각보다 지루하네요', '연기가 어색해요', '재미없어요']

classes = array([1,1,1,1,1,0,0,0,0,0])

token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

x = token.texts_to_sequences(docs)
print(f'리뷰 테스트, 토큰화 결과 :\n{x}')

padded_x = pad_sequences(x, 4)
print(f'패딩 결과 :\n{padded_x}')

word_size = len(token.word_index) + 1

model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print(f'Accuracy : {model.evaluate(padded_x, classes)[1]}')

{'너무': 1, '재밌네요': 2, '최고에요': 3, '참': 4, '잘': 5, '만든': 6, '영화에요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로에요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}
리뷰 테스트, 토큰화 결과 :
[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]
패딩 결과 :
[[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]
Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_1 (Embedding)     (None, 4, 8)              176       
                                                                 
 flatten_1 (Flatten)         (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 33        
                   