<a href="https://colab.research.google.com/github/NaHyeonMaeng/CODE_Practice/blob/main/NLP_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 텐서플로 토크나이저
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
             '영실이는 나를 정말 정말 좋아해',
             '영실이는 영화를 좋아해'
]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)  #인코딩할 문장 입력
print("단어 인덱스:",tokenizer.word_index)

단어 인덱스: {'영실이는': 1, '정말': 2, '좋아해': 3, '나를': 4, '영화를': 5}


In [6]:
# 인코딩된 결과
word_encoding = tokenizer.texts_to_sequences(sentences)  #인코딩 진행
word_encoding

[[2, 1, 1, 1, 1], [2, 1, 1]]

In [3]:
# 사전에 없는 단어가 있을 때 인코딩 결과
new_sentences = ['영실이는 경록이와 나를 좋아해']  #새로운 문장
new_word_encoding = tokenizer.texts_to_sequences(new_sentences)
new_word_encoding

[[1, 4, 3]]

In [4]:
# 사전에 없는(Out Of Vocabulary) 단어 처리
tokenizer = Tokenizer(oov_token="")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

new_word_encoding = tokenizer.texts_to_sequences(new_sentences)

print(word_index)
print(new_word_encoding)

{'': 1, '영실이는': 2, '정말': 3, '좋아해': 4, '나를': 5, '영화를': 6}
[[2, 1, 5, 4]]


In [5]:
# 단어사전 개수 설정
tokenizer = Tokenizer(num_words=3, oov_token="")  #최대 사전 개수 = 3
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index

new_word_encoding = tokenizer.texts_to_sequences(new_sentences)

print(word_index)
print(new_word_encoding)

{'': 1, '영실이는': 2, '정말': 3, '좋아해': 4, '나를': 5, '영화를': 6}
[[2, 1, 1, 1]]


In [7]:
# 문장의 길이 맞추기 (padding)
from tensorflow.keras.preprocessing.sequence import pad_sequences
padded = pad_sequences(word_encoding)  #인코딩한 결과를 패딩
print(padded)

[[2 1 1 1 1]
 [0 0 2 1 1]]


In [8]:
# 패딩(뒤에 0 붙이기)
padded = pad_sequences(word_encoding, padding='post')  #파라미터 설정
print(padded)

[[2 1 1 1 1]
 [2 1 1 0 0]]


In [9]:
# 문장의 최대 길이 고정
padded = pad_sequences(word_encoding, padding='post',maxlen=4)  #최대값을 4로 설정
print(padded)

[[1 1 1 1]
 [2 1 1 0]]


In [10]:
# 최대 길이보다 문장이 길 때 뒷부분 자르기
padded = pad_sequences(word_encoding, padding='post', truncating='post', maxlen=4)  #파라미터 설정
print(padded)

[[2 1 1 1]
 [2 1 1 0]]
