# NLP   
Natural Language Processing  

---

ㅇ NLP : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것  
ㅇ 토큰 : 텍스트를 나눈 단위.(단어별, 문장별, 형태소별)  
ㅇ 토큰화 : 입력된 텍스트를 잘게 나누는 과정  
ㅇ Bag-of-Words : 같은 단어끼리 가방에 담아 몇개의 단어가 들어있는지 세는기법  


# 1. 토큰화

In [11]:
import numpy
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

## 1-1. 토큰화  
by "text_to_word_sequence"

In [None]:
# 주어진 문장을 단어로 토큰화 하기
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# [토큰화 라이브러리]  
"""
tf.keras.preprocessing.text.text_to_word_sequence(
    input_text,
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
    lower=True,
    split=' '
)
"""

In [9]:
# 전처리할 텍스트
text = "해보지 않으면 해를 볼 수 없다."

# 토큰화
result = text_to_word_sequence(
    text,
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', # filter를 함으로서 .이 사라짐
    lower=True, # 대문자를 다 소문자로
    split=' ' # 공백 기준으로 토큰화. split하는 기준은 양쪽을 토큰화하고 자신은 토큰화되지 않고 사라진다.
)

print("\n원문 :\n", text)
print("\n토큰화 :\n", result)


원문 :
 해보지 않으면 해를 볼 수 없다.

토큰화 :
 ['해보지', '않으면', '해를', '볼', '수', '없다']


## 1-2. 단어 빈도 확인(Bag-of-Words)

In [13]:
# 단어 빈도수 세기
docs = ["먼저 텍스트의 각 단어를 나누어 토큰화 합니다",
    "텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.",
    "토큰화 한 결과는 딥러닝에서 사용 할 수 있습니다.",
    ]

In [15]:
token = Tokenizer()
token.fit_on_texts(docs) # 토큰화 함수에 문장 적용

print("\n단어 카운트 :\n", token.word_counts) # 단어(word)의 빈도수 출력
print("\n문장 카운트 : ", token.document_count, "개") # 문장(document)의 빈도수 출력
print("\n각 단어가 몇개의 문장에 포함되어 있는가 :\n", token.word_docs) # word가 몇개의 문장에?
print("\n각 단어에 매겨진 인덱스 값 :\n", token.word_index) # word별로 index 매기기


단어 카운트 :
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('한', 1), ('결과는', 1), ('사용', 1), ('할', 1), ('수', 1), ('있습니다', 1)])

문장 카운트 :  3 개

각 단어가 몇개의 문장에 포함되어 있는가 :
 defaultdict(<class 'int'>, {'각': 1, '단어를': 1, '합니다': 1, '먼저': 1, '나누어': 1, '토큰화': 3, '텍스트의': 2, '해야': 1, '딥러닝에서': 2, '단어로': 1, '인식됩니다': 1, '있습니다': 1, '사용': 1, '할': 1, '수': 1, '한': 1, '결과는': 1})

각 단어에 매겨진 인덱스 값 :
 {'토큰화': 1, '텍스트의': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '한': 12, '결과는': 13, '사용': 14, '할': 15, '수': 16, '있습니다': 17}


## 1-3. one-hotencoding

In [16]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = "오랫동안 꿈꾸는 자는 그 꿈을 닮아간다"

token = Tokenizer()
token.fit_on_texts([text])
print("문장의 토큰화 :", token.word_index)

# 각단어를 숫자화(1~n)
x = token.texts_to_sequences([text])
print("문장의 숫자화: ", x)


# 원핫인코딩 방식으로 표현
from keras.utils import to_categorical

word_size =len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print("문장의 원핫 인코딩 :\n", x)

문장의 토큰화 : {'오랫동안': 1, '꿈꾸는': 2, '자는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}
문장의 숫자화:  [[1, 2, 3, 4, 5, 6]]
문장의 원핫 인코딩 :
 [[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


---
# 2. Embedding  
word embedding은 주어진 배열울 정해진 길이로 압축시켜 공간적 낭비를 해결

<img width="515" alt="image" src="https://user-images.githubusercontent.com/88031549/200708435-c4a59a61-4c91-4e72-971a-37c1ff116926.png">


In [2]:
import tensorflow as tf
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

## 2-1. 토큰화 & 인덱싱

In [10]:
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다","한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]
token = Tokenizer()
token.fit_on_texts(docs)
x = token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


## 2-2. Labeling

In [11]:
# Labeling
# 긍정리뷰는 1, 부정리뷰는 0으로 클래스 지정
import numpy as np
y = np.array([1,1,1,1,1,0,0,0,0,0])
y

array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

## 2-3. Padding  
: 길이를 똑같이 맞춰 주는 작업. 길이가 짧은 부분을 0으로 채워줌

In [12]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

pad_x = pad_sequences(x, padding="pre") # 가장 큰 갯수 4개에 맞춰서, 다른 문장 앞에 0을 채워 넣는다.(학습시키는 컬럼수가 같아야하기에)
pad_x

array([[ 0,  0,  1,  2],
       [ 0,  0,  0,  3],
       [ 4,  5,  6,  7],
       [ 0,  8,  9, 10],
       [ 0, 11, 12, 13],
       [ 0,  0,  0, 14],
       [ 0,  0,  0, 15],
       [ 0,  0, 16, 17],
       [ 0,  0, 18, 19],
       [ 0,  0,  0, 20]], dtype=int32)

## 2-4. Embedding(+DNN)

In [23]:
# 간단한 딥러닝
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

input_dim = len(token.word_index)+1 # 전체 단어의 맨 앞에 0이 먼저 나와야해서 +1

model = Sequential()
model.add(Embedding(input_dim, 8, input_length=4)) # length=4(위에 인덱싱 최대크기)
model.add(Flatten()) # Flatten 안쓰려면 y = y.reshape(-1,1) 해줘야함
model.add(Dense(1, activation="sigmoid"))

model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["accuracy"])

In [None]:
model.fit(pad_x, y, epochs=20)

In [26]:
print("\n Accuracy: %.4f" % (model.evaluate(pad_x, y)[1]))


 Accuracy: 0.8000


끝!