<a href="https://colab.research.google.com/github/Gugo-le/school_record_/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 토큰화

In [3]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'Today is a sunny day',
    'Today is a rainy day',
    'Is it sunny today?'
]

tokenizer = Tokenizer(num_words=100) # Tokenizer 객체를 만들 때 토큰화 할 수 있는 단어 개수를 지정합니다.(이 값은 말뭉치에서 추출할 수 있는 최대 토큰 개수입니다.)
tokenizer.fit_on_texts(sentences) # fit_on_texts를 호출해 토큰화된 단어 인덱스를 만듭니다.
word_index = tokenizer.word_index # word_index: 말뭉치 안에 있는 단어와 인덱스의 키/값 쌍이 출력됨.

print(word_index)

[[1, 2, 3, 4, 5], [1, 2, 3, 6, 5], [2, 7, 4, 1]]
{'today': 1, 'is': 2, 'a': 3, 'sunny': 4, 'day': 5, 'rainy': 6, 'it': 7}


# 문장을 시퀀스로 바꾸기

In [4]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'Today is a sunny day',
    'Today is a rainy day',
    'Is it sunny today?'
]

tokenizer = Tokenizer(num_words=100) # Tokenizer 객체를 만들 때 토큰화 할 수 있는 단어 개수를 지정합니다.(이 값은 말뭉치에서 추출할 수 있는 최대 토큰 개수입니다.)
tokenizer.fit_on_texts(sentences) # fit_on_texts를 호출해 토큰화된 단어 인덱스를 만듭니다.
word_index = tokenizer.word_index # word_index: 말뭉치 안에 있는 단어와 인덱스의 키/값 쌍이 출력됨.

sequences = tokenizer.texts_to_sequences(sentences)
print(sequences)


[[1, 2, 3, 4, 5], [1, 2, 3, 6, 5], [2, 7, 4, 1]]


# OOV 토큰 사용하기

In [6]:
test_data = [
    'Today is a snowy day',
    'Will it be rainy tomorrow?'
]

test_seq = tokenizer.texts_to_sequences(test_data)
print(word_index)
print(test_seq)

{'today': 1, 'is': 2, 'a': 3, 'sunny': 4, 'day': 5, 'rainy': 6, 'it': 7}
[[1, 2, 3, 5], [7, 6]]


In [7]:
tokenizer = Tokenizer(num_words=100, oov_token = "<OOV>") # oov토큰은 Tokenizer 객체를 만들 때 지정할 수 있으며 oov_token 매개변수로 설정합니다.(* 어떤 문자로도 지정할 수 있지만 현재 말뭉치에 등장하지 않는 문자열이어야 합니다.)
tokenizer.fit_on_texts(sentences) # fit_on_texts를 호출해 토큰화된 단어 인덱스를 만듭니다.
word_index = tokenizer.word_index # word_index: 말뭉치 안에 있는 단어와 인덱스의 키/값 쌍이 출력됨.

test_seq = tokenizer.texts_to_sequences(test_data)
print(word_index)
print(test_seq)

{'<OOV>': 1, 'today': 2, 'is': 3, 'a': 4, 'sunny': 5, 'day': 6, 'rainy': 7, 'it': 8}
[[2, 3, 4, 1, 6], [1, 8, 1, 7, 1]]


# TeztVectorization 층 사용하기

In [9]:
tv = keras.layers.TextVectorization(max_tokens=100)
tv.adapt(sentences)


In [11]:
tv.get_vocabulary()

['', '[UNK]', 'today', 'is', 'sunny', 'day', 'a', 'rainy', 'it']

In [12]:
test_seq = tv(test_data)
test_seq.numpy()

array([[2, 3, 6, 1, 5],
       [1, 8, 1, 7, 1]])

# 패딩 이해하기

In [13]:
sentences = [
    'Today is a sunny day',
    'Today is a rainy day',
    'Is it sunny today?',
    'I really enjoyed walking in the snow today'
]
tokenizer.fit_on_texts(sentences)
sequences = tokenizer.texts_to_sequences(sentences)
print(sequences)

[[2, 3, 4, 5, 6], [2, 3, 4, 7, 6], [3, 8, 5, 2], [9, 10, 11, 12, 13, 14, 15, 2]]


In [17]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences, padding = 'post', maxlen = 6, truncating='post')
print(padded)

[[ 2  3  4  5  6  0]
 [ 2  3  4  7  6  0]
 [ 3  8  5  2  0  0]
 [ 9 10 11 12 13 14]]
