In [14]:
import numpy as np
import pickle
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
from google.colab import files

In [15]:
# Texto base
# trocar o texto da frase pelo dataset de treinamento
frase = "o gato está em cima do muro"

In [16]:
# Tokenização
tokenizer = Tokenizer()
tokenizer.fit_on_texts([frase])
sequences = tokenizer.texts_to_sequences([frase])[0]
vocab_size = len(tokenizer.word_index) + 1  # +1 para o índice 0

In [17]:
# Criar pares (entrada -> próxima palavra)
X = []
y = []
for i in range(1, len(sequences)):
    X.append(sequences[:i])
    y.append(sequences[i])

In [18]:
print(X)

[[1], [1, 2], [1, 2, 3], [1, 2, 3, 4], [1, 2, 3, 4, 5], [1, 2, 3, 4, 5, 6]]


In [19]:
# Padronizar tamanhos das sequências (preenchendo com 0 à esquerda)
X = pad_sequences(X, maxlen=max([len(seq) for seq in X]), padding='pre')
y = to_categorical(y, num_classes=vocab_size)

In [20]:
# Criar o modelo
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=10, input_length=X.shape[1]))
model.add(SimpleRNN(32))
model.add(Dense(vocab_size, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [21]:
# Treinar
model.fit(X, y, epochs=300, verbose=0)

<keras.src.callbacks.history.History at 0x7b9ce9d897d0>

In [22]:
# Função para prever a próxima palavra
def prever_proxima(palavras):
    seq = tokenizer.texts_to_sequences([palavras])[0]
    seq = pad_sequences([seq], maxlen=X.shape[1], padding='pre')
    pred = model.predict(seq, verbose=0)
    idx = np.argmax(pred)
    for palavra, i in tokenizer.word_index.items():
        if i == idx:
            return palavra
    return "?"

In [23]:
# Testar
entrada = "o gato está em cima"
proxima = prever_proxima(entrada)
print(f"Próxima palavra depois de '{entrada}': '{proxima}'")

Próxima palavra depois de 'o gato está em cima': 'do'


In [25]:
# salvar o modelo treinado em um arquivo para enviar ao professor
# troque nome_do_grupo no arquivo nome_do_grupo_RNN.h5 pelo da sua equipe
with open('tokenizer.pkl', 'wb') as f:
    pickle.dump(tokenizer, f)
model.save('nome_do_grupo_modelo_RNN.keras')
files.download('nome_do_grupo_modelo_RNN.keras')
files.download('nome_do_grupo_tokenizer_RNN.pkl')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>