# <span style= "color :red"> 자연어처리 </span>
-  인간의 음성이나 텍스르를 컴퓨터가 인식하고 처리할 수 있도록 하는 과정

### <span style= "color :blue"> 텍스트의 토큰화 </span>
- 토큰 : 텍스트를 단어/문장/형태소 별로 나눈 하나의 단위


In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 지정
text = "해보지 않으면 해낼 수 없다"

# 텍스트를 토큰화
result = text_to_word_sequence(text)
print("원문 : ",text)
print("토큰화 : ",result)

원문 :  해보지 않으면 해낼 수 없다
토큰화 :  ['해보지', '않으면', '해낼', '수', '없다']


- Tokenizer : 단어의 빈도수를 쉽게 계산할 수 있도록 하는 라이브러리

In [10]:
from tensorflow.keras.preprocessing.text import Tokenizer
docs = ["진짜 원한 해결사 그 자체... 고문도 잔인해서 속시원하고 또 특이하고 자극적이고... 인기 많은 이유가 있었구나ㅋㅋ",
        "어딜가던 범죄자 처벌 맘에 안든다고 욕먹는데 직접이렇게 처리해주니 개연성을 떠나서 중세시대 고문기구같은것도보고 자극적이지만 못끊을거같",
        "이 시리즈 솔직히 너무 좋이요! 우리나라의 약한 처벌이랑 반대되는것 같아요"]

tokenizer = Tokenizer()
tokenizer.fit_on_texts(docs)            # 리스트형태로 담아야함

print("\n단어 카운트 :\n  ", tokenizer.word_counts)
print("\n문장 카운트 :  ", tokenizer.document_count)
print("\n각 단어가 몇 개의 문장에 포함되었는가? :  \n", tokenizer.word_docs)
print("\n각 단어가 매겨진 인덱스 값 :  \n", tokenizer.word_index)


단어 카운트 :
   OrderedDict([('진짜', 1), ('원한', 1), ('해결사', 1), ('그', 1), ('자체', 1), ('고문도', 1), ('잔인해서', 1), ('속시원하고', 1), ('또', 1), ('특이하고', 1), ('자극적이고', 1), ('인기', 1), ('많은', 1), ('이유가', 1), ('있었구나ㅋㅋ', 1), ('어딜가던', 1), ('범죄자', 1), ('처벌', 1), ('맘에', 1), ('안든다고', 1), ('욕먹는데', 1), ('직접이렇게', 1), ('처리해주니', 1), ('개연성을', 1), ('떠나서', 1), ('중세시대', 1), ('고문기구같은것도보고', 1), ('자극적이지만', 1), ('못끊을거같', 1), ('이', 1), ('시리즈', 1), ('솔직히', 1), ('너무', 1), ('좋이요', 1), ('우리나라의', 1), ('약한', 1), ('처벌이랑', 1), ('반대되는것', 1), ('같아요', 1)])

문장 카운트 :   3

각 단어가 몇 개의 문장에 포함되었는가? :  
 defaultdict(<class 'int'>, {'자체': 1, '인기': 1, '고문도': 1, '자극적이고': 1, '있었구나ㅋㅋ': 1, '또': 1, '속시원하고': 1, '원한': 1, '이유가': 1, '많은': 1, '잔인해서': 1, '특이하고': 1, '해결사': 1, '진짜': 1, '그': 1, '범죄자': 1, '욕먹는데': 1, '맘에': 1, '자극적이지만': 1, '어딜가던': 1, '직접이렇게': 1, '못끊을거같': 1, '처벌': 1, '중세시대': 1, '고문기구같은것도보고': 1, '개연성을': 1, '처리해주니': 1, '떠나서': 1, '안든다고': 1, '좋이요': 1, '너무': 1, '솔직히': 1, '약한': 1, '시리즈': 1, '같아요': 1, '반대되는것': 1, '우리나라의': 1, '이': 1, '처벌이랑': 1})

각 

### <span style= "color :blue"> 각 단어의 원핫 인코딩 </span>
- 단어사전의 크기만큼의 백터를 만들고 해당하는 단어의 위치에만 1을 두고 나머지 백터에는 0을 입력하는 방법

In [18]:
text = "휴먼버그대학교에서는 세계곳곳에서 실제로 일어난 사건들에 근거한 스토리를 재밌는 만화로 소개하고 있습니다"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print("토큰 인덱스 : \n",tokenizer.word_index)


x = tokenizer.texts_to_sequences([text])
print("\n토큰 인덱스로 이뤄진 새로운 문장 배열 :\n",x)


from tensorflow.keras.utils import to_categorical

# 인덱스 수에 하나를 추가해서 원핫 인코딩 배열 생성
word_size = len(tokenizer.word_index)+1
x = to_categorical(x, num_classes = word_size)
print ("\n원핫 인코딩 : \n",x)

토큰 인덱스 : 
 {'휴먼버그대학교에서는': 1, '세계곳곳에서': 2, '실제로': 3, '일어난': 4, '사건들에': 5, '근거한': 6, '스토리를': 7, '재밌는': 8, '만화로': 9, '소개하고': 10, '있습니다': 11}

토큰 인덱스로 이뤄진 새로운 문장 배열 :
 [[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]

원핫 인코딩 : 
 [[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]]


### <span style= "color :blue"> 단어 임베딩 </span>
- 원핫인코딩의 단점 : 메모리의 비효율성 (단어가 1만개이면 하나의 단어를 표현하기 위해 1만공간의 백터를 생성해야 함)
- 임베딩 : 단어 간의 유사도를 계산하여 적절한 크기의 백터 배열로 만드는 방법 

In [20]:
from tensorflow import keras 

model = keras.Sequential()
model.add(keras.layers.Embedding(16,4))     # Embedding(입력될 총 단어의 수, 임베딩 후 출력될 백터의 크기)

- 실습 : 문장의 부정/긍정을 판별

In [39]:
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.utils import pad_sequences
from tensorflow import keras
from tensorflow.keras.utils import to_categorical
import numpy as np

docs = ["너무 재밌네요","최고에요","참 잘 만든 영화에요","추천하고 싶은 영화에요","한번 더 보고싶네요",
        "글쎄요","별로에요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

classes = np.array([1,1,1,1,1,0,0,0,0,0])


# 문장 토큰화 
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

# 텍스트를 단어의 인덱스로 변환 
x = token.texts_to_sequences(docs)
print("\n리뷰 텍스트, 토큰화 결과 : \n", x)

# 모델 학습을 위해 리뷰 길이를 맞춤 
padded_x = pad_sequences(x, 4)      # 해당데이터를 4의 길이로 맞춤 
print("\n패딩 결과 : \n", padded_x)

# 임베딩에 입력될 단어의 수를 지정 
word_size = len(token.word_index)+1
print(word_size)


{'영화에요': 1, '너무': 2, '재밌네요': 3, '최고에요': 4, '참': 5, '잘': 6, '만든': 7, '추천하고': 8, '싶은': 9, '한번': 10, '더': 11, '보고싶네요': 12, '글쎄요': 13, '별로에요': 14, '생각보다': 15, '지루하네요': 16, '연기가': 17, '어색해요': 18, '재미없어요': 19}

리뷰 텍스트, 토큰화 결과 : 
 [[2, 3], [4], [5, 6, 7, 1], [8, 9, 1], [10, 11, 12], [13], [14], [15, 16], [17, 18], [19]]

패딩 결과 : 
 [[ 0  0  2  3]
 [ 0  0  0  4]
 [ 5  6  7  1]
 [ 0  8  9  1]
 [ 0 10 11 12]
 [ 0  0  0 13]
 [ 0  0  0 14]
 [ 0  0 15 16]
 [ 0  0 17 18]
 [ 0  0  0 19]]
20


In [42]:
# 단어 임베딩을 포함해 딥러닝 모델을 만들고 결과를 출력 
model = keras.Sequential()
model.add(keras.layers.Embedding(word_size, 8, input_length=4))
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(1, activation = "sigmoid"))
model.summary()

model.compile(optimizer="adam", loss = "binary_crossentropy", metrics="accuracy")
model.fit(padded_x, classes, epochs=20, verbose=0)
print("모델 정확도 : ",model.evaluate(padded_x,classes)[1])

Model: "sequential_10"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_9 (Embedding)     (None, 4, 8)              160       
                                                                 
 flatten_9 (Flatten)         (None, 32)                0         
                                                                 
 dense_9 (Dense)             (None, 1)                 33        
                                                                 
Total params: 193
Trainable params: 193
Non-trainable params: 0
_________________________________________________________________
모델 정확도 :  0.800000011920929
