<a href="https://colab.research.google.com/github/brunorreiss/GloVe_Embeddings/blob/main/rrn_lstm_py.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Geração de Texto com Redes Neurais e Embeddings GloVe

Este projeto demonstra como treinar um modelo de rede neural para geração de texto utilizando embeddings de palavras pretreinados (GloVe) e um modelo LSTM. O código está implementado em Python usando a biblioteca Keras.

## Sumário

1. [Importação de Bibliotecas](#importação-de-bibliotecas)
2. [Download e Extração dos Vetores de Palavras GloVe](#download-e-extração-dos-vetores-de-palavras-glove)
3. [Função para Mostrar as Primeiras Linhas de um Arquivo](#função-para-mostrar-as-primeiras-linhas-de-um-arquivo)
4. [Processamento de Texto e Tokenização](#processamento-de-texto-e-tokenização)
5. [Preparação de Sequências para Treinamento](#preparação-de-sequências-para-treinamento)
6. [Carregamento dos Vetores de Palavras GloVe](#carregamento-dos-vetores-de-palavras-glove)
7. [Função para Imprimir os Primeiros Itens de um Dicionário](#função-para-imprimir-os-primeiros-itens-de-um-dicionário)
8. [Criação da Matriz de Embeddings](#criação-da-matriz-de-embeddings)
9. [Construção do Modelo de Rede Neural](#construção-do-modelo-de-rede-neural)
10. [Compilação do Modelo](#compilação-do-modelo)
11. [Treinamento do Modelo](#treinamento-do-modelo)
12. [Função para Geração de Texto](#função-para-geraçao-de-texto)
13. [Geração de Texto com o Modelo Treinado](#geraçao-de-texto-com-o-modelo-treinado)

## Importação de Bibliotecas

As bibliotecas necessárias são importadas para manipulação de dados, processamento de texto, construção de modelo e download de arquivos.

## Download e Extração dos Vetores de Palavras GloVe

Os vetores de palavras GloVe são baixados e descompactados se ainda não estiverem presentes no diretório especificado. Esta etapa é crucial para utilizar embeddings de palavras pretreinados em nosso modelo.

## Função para Mostrar as Primeiras Linhas de um Arquivo

Uma função é definida para abrir um arquivo e exibir as primeiras linhas, permitindo uma rápida inspeção do conteúdo do arquivo.

## Processamento de Texto e Tokenização

Um texto de entrada é definido e tokenizado, convertendo-o em uma sequência de números inteiros que representam as palavras no vocabulário.

## Preparação de Sequências para Treinamento

As sequências de entrada e os rótulos são preparados para o treinamento da rede neural, com as entradas consistindo em subsequências de palavras e os rótulos sendo a próxima palavra na sequência.

## Carregamento dos Vetores de Palavras GloVe

Os vetores de palavras do GloVe são carregados em um dicionário, onde as chaves são as palavras e os valores são os vetores de embeddings correspondentes.

## Função para Imprimir os Primeiros Itens de um Dicionário

Uma função é fornecida para imprimir os primeiros itens de um dicionário, permitindo a inspeção rápida do conteúdo do dicionário de embeddings.

## Criação da Matriz de Embeddings

Uma matriz de embeddings é criada e preenchida com os vetores de palavras do GloVe para as palavras no vocabulário do texto de entrada.

## Construção do Modelo de Rede Neural

Um modelo sequencial é construído com uma camada de embeddings, uma camada LSTM e uma camada densa com ativação softmax para predição das próximas palavras.

## Compilação do Modelo

O modelo é compilado utilizando o otimizador Adam e a função de perda `categorical_crossentropy`, configurando-o para treinamento.

## Treinamento do Modelo

O modelo é treinado por 300 épocas com os dados de entrada preparados, ajustando os pesos para minimizar a função de perda.

## Função para Geração de Texto

Uma função é definida para gerar uma sequência de texto a partir de um texto inicial utilizando o modelo treinado. A função ajusta a predição com base na diversidade para controlar a aleatoriedade na escolha das próximas palavras.

## Geração de Texto com o Modelo Treinado

O modelo treinado é utilizado para gerar e imprimir uma sequência de texto com 10 palavras a partir de um texto inicial fornecido.

---
# Text Generation with Neural Networks and GloVe Embeddings

This project demonstrates how to train a neural network model for text generation using pre-trained GloVe word embeddings and an LSTM model. The code is implemented in Python using the Keras library.

## Table of Contents

1. [Importing Libraries](#importing-libraries)
2. [Downloading and Extracting GloVe Word Vectors](#downloading-and-extracting-glove-word-vectors)
3. [Function to Show First Lines of a File](#function-to-show-first-lines-of-a-file)
4. [Text Processing and Tokenization](#text-processing-and-tokenization)
5. [Preparing Sequences for Training](#preparing-sequences-for-training)
6. [Loading GloVe Word Vectors](#loading-glove-word-vectors)
7. [Function to Print First Items of a Dictionary](#function-to-print-first-items-of-a-dictionary)
8. [Creating the Embedding Matrix](#creating-the-embedding-matrix)
9. [Building the Neural Network Model](#building-the-neural-network-model)
10. [Compiling the Model](#compiling-the-model)
11. [Training the Model](#training-the-model)
12. [Text Generation Function](#text-generation-function)
13. [Generating Text with the Trained Model](#generating-text-with-the-trained-model)

## Importing Libraries

The necessary libraries are imported for data manipulation, text processing, model building, and file downloading.

## Downloading and Extracting GloVe Word Vectors

The GloVe word vectors are downloaded and extracted if they are not already present in the specified directory. This step is crucial for using pre-trained word embeddings in our model.

## Function to Show First Lines of a File

A function is defined to open a file and display the first few lines, allowing for a quick inspection of the file's content.

## Text Processing and Tokenization

An input text is defined and tokenized, converting it into a sequence of integers representing the words in the vocabulary.

## Preparing Sequences for Training

Input sequences and labels are prepared for training the neural network, with inputs consisting of subsequences of words and labels being the next word in the sequence.

## Loading GloVe Word Vectors

The GloVe word vectors are loaded into a dictionary where the keys are words and the values are the corresponding embedding vectors.

## Function to Print First Items of a Dictionary

A function is provided to print the first few items of a dictionary, allowing for quick inspection of the embedding dictionary's content.

## Creating the Embedding Matrix

An embedding matrix is created and filled with the GloVe word vectors for the words in the input text's vocabulary.

## Building the Neural Network Model

A sequential model is built with an embedding layer, an LSTM layer, and a dense layer with softmax activation for predicting the next words.

## Compiling the Model

The model is compiled using the Adam optimizer and the `categorical_crossentropy` loss function, setting it up for training.

## Training the Model

The model is trained for 300 epochs with the prepared input data, adjusting weights to minimize the loss function.

## Text Generation Function

A function is defined to generate a sequence of text from an initial seed text using the trained model. The function adjusts predictions based on diversity to control randomness in word selection.

## Generating Text with the Trained Model

The trained model is used to generate and print a sequence of text with 10 words from a given initial seed text.


In [None]:
# Importando bibliotecas necessárias
import numpy as np  # Biblioteca para manipulação de arrays e operações matemáticas
from keras.preprocessing.text import Tokenizer  # Tokenizer para processar texto em tokens
from keras.preprocessing.sequence import pad_sequences  # Função para padronizar sequências de texto em uma mesma dimensão
from keras.models import Sequential  # Para criar um modelo sequencial em Keras
from keras.layers import Embedding, LSTM, Dense  # Camadas de rede neural: Embedding, LSTM e Dense
from keras.utils import to_categorical  # Função para converter rótulos para o formato one-hot
from keras.initializers import Constant  # Inicializador de constantes para pesos
import os  # Biblioteca para interações com o sistema operacional, como manipulação de arquivos e diretórios
import zipfile  # Biblioteca para manipular arquivos zip
import urllib.request  # Biblioteca para fazer requisições de URLs, como downloads de arquivos

# Descrição geral:
# Este script importa as bibliotecas necessárias para criar e treinar uma rede neural recorrente (RNN) usando Keras.
# A rede é configurada para processar texto, utilizando técnicas de processamento de linguagem natural (NLP),
# incluindo tokenização, padronização de sequências e embeddings de palavras.
# O modelo final é composto por uma camada de embeddings, seguida por uma camada LSTM e uma camada densa para classificação ou regressão.


In [None]:
# Acicionando logging
import logging

# Configurando o logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

In [None]:
# URL e nomes de arquivos para o modelo de vetores de palavras GloVe
glove_url = 'http://nlp.stanford.edu/data/glove.6B.zip'  # URL do arquivo zip do GloVe
glove_file = 'glove.6B.zip'  # Nome do arquivo zip do GloVe
glove_dir = 'glove.6B'  # Diretório onde os arquivos descompactados do GloVe serão armazenados
glove_txt = os.path.join(glove_dir, 'glove.6B.100d.txt')  # Caminho para o arquivo de texto específico do GloVe (100 dimensões)

# Verifica se o arquivo de texto GloVe já foi descompactado
if not os.path.exists(glove_txt):
    # Se o diretório não existir, cria o diretório e baixa o arquivo zip do GloVe
    if not os.path.exists(glove_dir):
        os.makedirs(glove_dir)
        logging.info('Baixando os arquivos do GloVe...')
        urllib.request.urlretrieve(glove_url, glove_file)  # Faz o download do arquivo zip do GloVe
        logging.info('Descompactando os arquivos do GloVe...')
        with zipfile.ZipFile(glove_file, 'r') as zip_ref:
            zip_ref.extractall(glove_dir)  # Descompacta todos os arquivos no diretório especificado
    else:
        logging.warning('Diretório GloVe já existe, mas o arquivo de texto específico não foi encontrado.')
else:
    logging.info('Arquivo de texto GloVe já existe.')

# Descrição geral:
# Este trecho de código baixa e descompacta os vetores de palavras pré-treinados do GloVe.
# O GloVe (Global Vectors for Word Representation) é um algoritmo de aprendizado não supervisionado
# para obter representações vetoriais de palavras. Ele mapeia palavras para vetores de alta dimensão que
# capturam significados semânticos.
# O código verifica se os arquivos necessários já existem no sistema; se não, baixa e descompacta os arquivos do GloVe.

In [None]:
def mostrar_primeiras_linhas(caminho_arquivo, num_linhas=5):
    """
    Função para exibir as primeiras linhas de um arquivo de texto.

    Parâmetros:
    caminho_arquivo (str): O caminho completo do arquivo de texto.
    num_linhas (int): O número de linhas a serem exibidas. O padrão é 5.

    Retorna:
    None
    """
    try:
        # Abre o arquivo no modo de leitura com codificação UTF-8
        with open(caminho_arquivo, 'r', encoding='utf-8') as arquivo:
            # Lê e registra as primeiras 'num_linhas' linhas do arquivo
            for i in range(num_linhas):
                linha = arquivo.readline()  # Lê uma linha do arquivo
                if not linha:
                    break  # Sai do loop se não houver mais linhas
                logging.info(linha.strip())  # Registra a linha sem espaços em branco no início e no fim
    except FileNotFoundError:
        # Exibe uma mensagem de erro se o arquivo não for encontrado
        logging.error(f"Arquivo '{caminho_arquivo}' não encontrado.")

# Caminho do arquivo específico GloVe com vetores de 300 dimensões
caminho_arquivo = os.path.join(glove_dir, 'glove.6B.300d.txt')

# Chama a função para mostrar as primeiras 100 linhas do arquivo GloVe
mostrar_primeiras_linhas(caminho_arquivo, num_linhas=100)

# Descrição geral:
# Esta função abre um arquivo de texto no caminho especificado e exibe as primeiras 'num_linhas' linhas.
# É útil para inspecionar rapidamente o conteúdo de arquivos grandes sem precisar abri-los manualmente.
# No contexto do GloVe, a função é utilizada para visualizar os primeiros vetores de palavras do arquivo 'glove.6B.300d.txt'.

In [None]:
# Abrir e ler o conteúdo de um arquivo de texto do Corpus em Português
with open('text.txt', 'r', encoding='utf-8') as f:
    data = f.read()  # Lê todo o conteúdo do arquivo e armazena na variável 'data'

# Comentários:
# O código acima abre o arquivo 'text.txt' no modo de leitura ('r') com codificação UTF-8.
# O método 'read()' lê todo o conteúdo do arquivo e o armazena na variável 'data'.
# Usar o gerenciador de contexto 'with' garante que o arquivo será fechado corretamente após a leitura,
# mesmo que ocorra uma exceção durante o processo de leitura.
# Esse arquivo específico é proveniente do site Corpus em Português, que contém uma grande coleção de textos
# em português para análise linguística e treinamento de modelos de NLP (Processamento de Linguagem Natural).


In [None]:
# Inicializando o tokenizer
tokenizer = Tokenizer()  # Cria uma instância do Tokenizer do Keras

# Ajustando o tokenizer ao texto fornecido
tokenizer.fit_on_texts([data])  # Atualiza o índice interno do tokenizer com base no texto fornecido

# Convertendo o texto em uma sequência de inteiros
sequence_data = tokenizer.texts_to_sequences([data])[0]  # Transforma o texto em uma sequência de números inteiros

# Descrição geral:
# Este bloco de código utiliza o Tokenizer do Keras para processar o texto de entrada 'data'.
# 1. Inicializa um objeto Tokenizer, que será usado para transformar texto em tokens.
# 2. 'fit_on_texts' ajusta o tokenizer ao texto fornecido, criando um vocabulário de palavras.
#    - O Tokenizer percorre todo o texto e atribui um índice único para cada palavra.
#    - Este índice será usado para converter as palavras em números inteiros.
# 3. 'texts_to_sequences' converte o texto em uma sequência de números inteiros, onde cada inteiro representa uma palavra do vocabulário.
#    - A função retorna uma lista de listas, por isso usamos '[0]' para acessar a primeira lista (no caso, a única lista, já que passamos um único texto).
# A sequência resultante 'sequence_data' será usada em etapas subsequentes para modelagem ou análise.


In [None]:
# Imprimindo a sequência de inteiros
print(sequence_data)  # Exibe a sequência de números inteiros correspondente ao texto 'data'

# Descrição geral:
# Este comando imprime a sequência de inteiros gerada a partir do texto de entrada.
# Cada número na sequência representa a posição de uma palavra no vocabulário criado pelo tokenizer.
# Por exemplo, se a palavra "rede" foi a primeira palavra encontrada pelo tokenizer, ela pode ser representada pelo número 1.
# Esta etapa é útil para verificar e validar a tokenização do texto, assegurando que o tokenizer funcionou conforme esperado.

[6121, 148, 69, 6, 15, 4517, 5, 33, 148, 69, 6, 15, 1017, 2, 3, 1175, 51, 6, 442, 283, 7479, 401, 2, 1128, 802, 144, 3, 2478, 23, 77, 4018, 10, 61, 14299, 13, 3, 5224, 1, 1273, 2934, 25, 16, 402, 1599, 1222, 11, 276, 1, 442, 6122, 1273, 2934, 14300, 14301, 14, 16, 9794, 9795, 14302, 2935, 4, 3, 338, 1, 4019, 14303, 13, 3, 42, 924, 6, 25, 14304, 9, 1175, 4, 2, 695, 1, 14305, 14306, 28, 1051, 220, 2, 76, 1, 1052, 11, 719, 14307, 6, 12, 14308, 10, 16, 822, 14309, 5, 20, 123, 263, 2936, 612, 2, 26, 65, 21, 141, 426, 14, 2166, 6122, 2937, 696, 1, 12, 953, 15, 14, 11, 1051, 4518, 1, 11, 3564, 23, 14, 16, 402, 1679, 9, 63, 529, 1, 11, 149, 1, 3565, 5, 5225, 3, 3229, 14, 2682, 6123, 10, 264, 4020, 20, 3, 122, 1, 7, 7480, 4519, 14310, 5, 9796, 14311, 23, 220, 45, 13, 5226, 14312, 14313, 14314, 14315, 4021, 1018, 19, 187, 1, 887, 4021, 5, 14316, 14317, 14318, 343, 888, 7, 888, 7481, 14319, 1, 16, 14320, 2683, 1, 14321, 6124, 9797, 5, 161, 2014, 2, 26, 1092, 14322, 5, 4022, 14, 7482, 1, 8, 330, 1

In [None]:
# Definindo o tamanho do vocabulário e o comprimento da sequência
vocab_size = len(tokenizer.word_index) + 1  # O tamanho do vocabulário é igual ao número de palavras únicas + 1 (para a palavra OOV - Out Of Vocabulary)
seq_length = 5  # Comprimento da sequência de entrada para a rede neural

# Descrição geral:
# Este bloco de código define dois parâmetros importantes para a construção do modelo de rede neural:
# 1. 'vocab_size': Calcula o tamanho do vocabulário baseado no índice de palavras gerado pelo tokenizer.
#    - O 'tokenizer.word_index' é um dicionário onde as chaves são palavras e os valores são seus índices correspondentes.
#    - Adiciona 1 ao tamanho do vocabulário para considerar a palavra OOV (Out Of Vocabulary), que é usada para palavras que não foram vistas durante o treinamento.
# 2. 'seq_length': Define o comprimento da sequência de entrada que será usada para treinar a rede neural.
#    - Neste caso, as sequências de entrada terão 5 palavras cada.
#    - Esse parâmetro pode ser ajustado dependendo do problema específico e do modelo utilizado.

In [None]:
# Criando subsequências a partir dos dados de sequência
sequences = []  # Lista para armazenar as subsequências geradas

# Itera sobre os dados da sequência para criar subsequências de comprimento 'seq_length + 1'
for i in range(seq_length, len(sequence_data)):
    sequence = sequence_data[i - seq_length:i + 1]  # Cria uma subsequência de comprimento 'seq_length + 1'
    sequences.append(sequence)  # Adiciona a subsequência à lista de sequências

# Converte a lista de subsequências para um array NumPy
sequences = np.array(sequences)

# Descrição geral:
# Este bloco de código gera subsequências a partir dos dados de sequência original para preparar os dados de entrada para a rede neural.
# 1. Inicializa uma lista vazia 'sequences' para armazenar as subsequências.
# 2. Itera sobre a 'sequence_data' a partir do índice 'seq_length' até o final da sequência original.
#    - Começa a partir de 'seq_length' para garantir que cada subsequência tenha o comprimento desejado.
# 3. Em cada iteração, cria uma subsequência de comprimento 'seq_length + 1' (incluindo a palavra alvo).
#    - A subsequência inclui 'seq_length' palavras de entrada e 1 palavra alvo (a próxima palavra na sequência).
# 4. Adiciona cada subsequência à lista 'sequences'.
# 5. Converte a lista de subsequências em um array NumPy, que será usado para treinar a rede neural.
#    - Este array será útil para a criação de batches e para a manipulação eficiente dos dados durante o treinamento.

In [None]:
print(sequences)  # Imprime as subsequências geradas

[[6121  148   69    6   15 4517]
 [ 148   69    6   15 4517    5]
 [  69    6   15 4517    5   33]
 ...
 [   6   46    3   19 1210  246]
 [  46    3   19 1210  246    4]
 [   3   19 1210  246    4 1773]]


In [None]:
# Separando os dados em entradas (X) e rótulos (y)
X, y = sequences[:, :-1], sequences[:, -1]  # 'X' são todas as palavras nas subsequências exceto a última, 'y' é a última palavra

# Convertendo os rótulos para o formato one-hot
y = to_categorical(y, num_classes=vocab_size)  # Converte 'y' para uma matriz one-hot com o tamanho do vocabulário

# Descrição geral:
# Este bloco de código prepara os dados de entrada (X) e os rótulos (y) para treinamento da rede neural.
# 1. Separa as subsequências em 'X' e 'y':
#    - 'X' contém todas as palavras da subsequência exceto a última.
#    - 'y' contém a última palavra da subsequência, que é o rótulo que queremos prever.
#    - Isso é feito usando indexação NumPy: 'sequences[:, :-1]' pega todas as colunas exceto a última, e 'sequences[:, -1]' pega a última coluna.
# 2. Converte 'y' para o formato one-hot utilizando a função 'to_categorical':
#    - Isso transforma os rótulos em vetores binários onde apenas a posição correspondente à classe verdadeira é 1, e todas as outras são 0.
#    - A variável 'num_classes' é definida como 'vocab_size', garantindo que cada vetor one-hot tenha a mesma dimensão do vocabulário.
#    - Essa conversão é essencial para a saída da rede neural, especialmente em tarefas de classificação de múltiplas classes.

In [None]:
# Imprimindo os dados de entrada (X) e os rótulos (y)
print(X)  # Exibe as subsequências de entrada
print(y)  # Exibe os rótulos no formato one-hot

# Descrição geral:
# Estes comandos imprimem os dados de entrada 'X' e os rótulos 'y' para inspeção.
# 'X' são as subsequências de palavras que serão usadas como entrada para a rede neural.
#    - Cada linha de 'X' representa uma subsequência de palavras, com um comprimento de 'seq_length'.
#    - Essas subsequências serão usadas como entradas para a rede neural durante o treinamento.
# 'y' são os rótulos correspondentes no formato one-hot, representando a próxima palavra na sequência.
#    - Cada linha de 'y' é um vetor one-hot que indica a palavra alvo correspondente à subsequência em 'X'.
#    - O formato one-hot é essencial para a saída da rede neural em tarefas de classificação de múltiplas classes.
# Esta etapa é útil para verificar a correção dos dados preparados antes de prosseguir com o treinamento do modelo.
#    - Inspecionar 'X' e 'y' ajuda a garantir que as subsequências e os rótulos foram gerados e formatados corretamente.

[[6121  148   69    6   15]
 [ 148   69    6   15 4517]
 [  69    6   15 4517    5]
 ...
 [   6   46    3   19 1210]
 [  46    3   19 1210  246]
 [   3   19 1210  246    4]]
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [None]:
# Inicializando o índice de embeddings
embeddings_index = {}  # Dicionário para armazenar os vetores de palavras do GloVe

# Abrindo o arquivo de embeddings do GloVe
with open(os.path.join(glove_dir, 'glove.6B.200d.txt'), encoding='utf-8') as f:
    # Iterando sobre cada linha do arquivo de embeddings
    for line in f:
        values = line.split()  # Divide a linha em valores individuais
        word = values[0]  # A primeira entrada é a palavra
        coefs = np.asarray(values[1:], dtype='float32')  # As entradas seguintes são os coeficientes do vetor da palavra
        embeddings_index[word] = coefs  # Adiciona a palavra e seu vetor ao dicionário de embeddings

# Descrição geral:
# Este bloco de código lê o arquivo de embeddings do GloVe e constrói um dicionário onde as chaves são palavras
# e os valores são os vetores de embeddings correspondentes.
# 1. Inicializa um dicionário vazio 'embeddings_index' para armazenar os embeddings.
# 2. Abre o arquivo de embeddings do GloVe ('glove.6B.200d.txt') no modo de leitura com codificação UTF-8.
# 3. Itera sobre cada linha do arquivo, onde cada linha representa uma palavra e seu vetor de embeddings.
# 4. Divide a linha em valores individuais, com a primeira entrada sendo a palavra e as restantes sendo os coeficientes do vetor.
#    - O método 'split()' divide a linha em uma lista de strings, separadas por espaços.
# 5. Converte os coeficientes para um array NumPy de tipo float32.
#    - 'np.asarray(values[1:], dtype='float32')' cria um array NumPy dos coeficientes do vetor da palavra.
# 6. Adiciona a palavra e seu vetor ao dicionário 'embeddings_index'.
#    - A palavra é a chave e o vetor de embeddings é o valor.

In [None]:
def print_primeiros_itens(dicionario, num_itens=5):
    """
    Função para imprimir os primeiros itens de um dicionário.

    Parâmetros:
    dicionario (dict): O dicionário cujos itens serão impressos.
    num_itens (int): O número de itens a serem impressos. O padrão é 5.

    Retorna:
    None
    """
    for chave, valor in list(dicionario.items())[:num_itens]:
        print(f"{chave}: {valor}")

# Chamando a função para imprimir os primeiros 5 itens do dicionário 'embeddings_index'
print_primeiros_itens(embeddings_index, num_itens=5)

# Descrição geral:
# Esta função imprime os primeiros 'num_itens' itens de um dicionário.
# 1. A função 'print_primeiros_itens' recebe um dicionário e o número de itens a serem impressos.
# 2. Itera sobre os primeiros 'num_itens' itens do dicionário, imprimindo a chave e o valor de cada um.
#    - 'list(dicionario.items())[:num_itens]' cria uma lista dos itens do dicionário e pega os primeiros 'num_itens' itens.
#    - O loop 'for chave, valor in ...' itera sobre esses itens e imprime a chave e o valor.
# 3. A função é chamada com o dicionário 'embeddings_index' para visualizar os primeiros 5 itens.
#    - Isso é útil para inspecionar rapidamente os conteúdos do dicionário de embeddings e garantir que os dados foram carregados corretamente.

the: [-7.1549e-02  9.3459e-02  2.3738e-02 -9.0339e-02  5.6123e-02  3.2547e-01
 -3.9796e-01 -9.2139e-02  6.1181e-02 -1.8950e-01  1.3061e-01  1.4349e-01
  1.1479e-02  3.8158e-01  5.4030e-01 -1.4088e-01  2.4315e-01  2.3036e-01
 -5.5339e-01  4.8154e-02  4.5662e-01  3.2338e+00  2.0199e-02  4.9019e-02
 -1.4132e-02  7.6017e-02 -1.1527e-01  2.0060e-01 -7.7657e-02  2.4328e-01
  1.6368e-01 -3.4118e-01 -6.6070e-02  1.0152e-01  3.8232e-02 -1.7668e-01
 -8.8153e-01 -3.3895e-01 -3.5481e-02 -5.5095e-01 -1.6899e-02 -4.3982e-01
  3.9004e-02  4.0447e-01 -2.5880e-01  6.4594e-01  2.6641e-01  2.8009e-01
 -2.4625e-02  6.3302e-01 -3.1700e-01  1.0271e-01  3.0886e-01  9.7792e-02
 -3.8227e-01  8.6552e-02  4.7075e-02  2.3511e-01 -3.2127e-01 -2.8538e-01
  1.6670e-01 -4.9707e-03 -6.2714e-01 -2.4904e-01  2.9713e-01  1.4379e-01
 -1.2325e-01 -5.8178e-02 -1.0290e-03 -8.2126e-02  3.6935e-01 -5.8442e-04
  3.4286e-01  2.8426e-01 -6.8599e-02  6.5747e-01 -2.9087e-02  1.6184e-01
  7.3672e-02 -3.0343e-01  9.5733e-02 -5.2860e-

In [None]:
# Dimensão dos embeddings
embedding_dim = 200

# Inicializando a matriz de embeddings com zeros
embedding_matrix = np.zeros((vocab_size, embedding_dim))  # Matriz de tamanho (vocab_size, embedding_dim)

# Preenchendo a matriz de embeddings com os vetores do GloVe
for word, i in tokenizer.word_index.items():
    embedding_vector = embeddings_index.get(word)  # Obtendo o vetor de embedding para a palavra
    if embedding_vector is not None:
        embedding_matrix[i] = embedding_vector  # Atribuindo o vetor de embedding à matriz na posição correspondente à palavra

# Descrição geral:
# Este bloco de código cria e preenche uma matriz de embeddings para as palavras no vocabulário.
# 1. Define a dimensão dos embeddings (embedding_dim) como 200 para corresponder aos vetores do GloVe.
#    - Isso deve corresponder à dimensão dos vetores no arquivo GloVe que você está utilizando.
# 2. Inicializa uma matriz de embeddings 'embedding_matrix' com zeros, de tamanho (vocab_size, embedding_dim).
#    - 'vocab_size' é o número de palavras únicas no vocabulário, incluindo a palavra OOV.
#    - 'embedding_dim' é a dimensão de cada vetor de embedding.
# 3. Itera sobre o índice de palavras gerado pelo tokenizer.
#    - 'tokenizer.word_index.items()' retorna um dicionário onde as chaves são palavras e os valores são os índices correspondentes.
# 4. Para cada palavra, obtém o vetor de embedding correspondente do dicionário 'embeddings_index'.
#    - 'embeddings_index.get(word)' retorna o vetor de embedding para a palavra, ou None se a palavra não estiver no dicionário.
# 5. Se o vetor de embedding existir (não for None), atribui esse vetor à posição correspondente na matriz de embeddings.
#    - 'embedding_matrix[i]' é preenchido com 'embedding_vector'.
#    - Isso mapeia cada palavra no vocabulário para seu vetor de embedding correspondente.

In [None]:
embedding_matrix

array([[ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-0.1988    ,  0.60279   , -0.69542003, ..., -1.04449999,
         0.24343   ,  0.61053002],
       [ 0.24168999, -0.34534001, -0.22307   , ...,  0.27801001,
        -0.10171   , -0.071521  ],
       ...,
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.058846  ,  0.068457  ,  0.20666   , ...,  0.078029  ,
         0.0077981 ,  0.0039256 ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ]])

In [None]:
# Inicializando o modelo sequencial
model = Sequential()

# Adicionando a camada de embeddings
model.add(Embedding(vocab_size,  # Tamanho do vocabulário
                    embedding_dim,  # Dimensão dos embeddings
                    embeddings_initializer=Constant(embedding_matrix),  # Inicializa com a matriz de embeddings pretreinada
                    input_length=seq_length,  # Comprimento das sequências de entrada
                    trainable=False))  # Não permite que os embeddings sejam atualizados durante o treinamento

# Adicionando uma camada LSTM com 150 unidades
model.add(LSTM(150))

# Adicionando uma camada densa com ativação softmax para classificação
model.add(Dense(vocab_size, activation='softmax'))

# Descrição geral:
# Este bloco de código cria um modelo de rede neural sequencial usando Keras.
# 1. Adiciona uma camada de embeddings que usa a matriz de embeddings pretreinada do GloVe.
#    - vocab_size: Tamanho do vocabulário, incluindo a palavra OOV.
#    - embedding_dim: Dimensão dos embeddings (200, para corresponder aos vetores do GloVe utilizados).
#    - embeddings_initializer: Inicializa com a matriz de embeddings pretreinada.
#    - input_length: Comprimento das sequências de entrada (seq_length).
#    - trainable=False: Indica que os pesos dos embeddings não serão atualizados durante o treinamento.
# 2. Adiciona uma camada LSTM com 150 unidades.
#    - LSTM (Long Short-Term Memory) é uma variante das redes neurais recorrentes (RNN) que é eficaz para capturar dependências de longo prazo em sequências.
# 3. Adiciona uma camada densa com ativação softmax, que é usada para prever a próxima palavra na sequência.
#    - Dense(vocab_size): A saída tem o tamanho do vocabulário.
#    - activation='softmax': Cada valor da saída representa a probabilidade de uma palavra específica, normalizada entre 0 e 1.
# Este modelo será usado para prever a próxima palavra em uma sequência de texto, baseando-se nos embeddings pretreinados do GloVe e nas capacidades da LSTM de capturar dependências sequenciais.

In [None]:
# Compilando o modelo
model.compile(optimizer='adam',  # Otimizador Adam
              loss='categorical_crossentropy',  # Função de perda para classificação categórica
              metrics=['accuracy'])  # Métrica de avaliação: acurácia

# Descrição geral:
# Este bloco de código compila o modelo de rede neural criado anteriormente.
# 1. Define 'adam' como o otimizador:
#    - Adam é um método eficiente de otimização que combina as vantagens de dois outros métodos de descida de gradiente: AdaGrad e RMSProp.
#    - Ele ajusta dinamicamente a taxa de aprendizado com base nas iterações, o que pode resultar em uma convergência mais rápida e eficiente.
# 2. Define 'categorical_crossentropy' como a função de perda:
#    - Adequada para problemas de classificação multi-classe onde as classes são mutuamente exclusivas.
#    - A função de perda mede a diferença entre as distribuições previstas e as verdadeiras, ajudando a rede a ajustar seus pesos durante o treinamento.
# 3. Define 'accuracy' como a métrica de avaliação:
#    - A acurácia mede a proporção de previsões corretas, fornecendo uma visão direta de quão bem o modelo está performando.
# Compilar o modelo é um passo necessário antes de iniciar o treinamento, pois configura o processo de aprendizagem.
#    - Este passo reúne o otimizador, a função de perda e as métricas de avaliação, preparando o modelo para ser treinado nos dados.

In [None]:
# Treinando o modelo
model.fit(X, y, epochs=300, verbose=2)  # Treina o modelo por 300 épocas e exibe o progresso do treinamento

# Descrição geral:
# Este bloco de código realiza o treinamento do modelo de rede neural com os dados de entrada 'X' e rótulos 'y'.
# 1. 'X' são as sequências de entrada usadas para treinar o modelo.
#    - Cada entrada em 'X' é uma subsequência de palavras do texto original.
#    - O comprimento de cada sequência é igual a 'seq_length'.
# 2. 'y' são os rótulos correspondentes no formato one-hot.
#    - Cada rótulo em 'y' é a próxima palavra na sequência, representada como um vetor one-hot.
#    - O formato one-hot é necessário para a função de perda 'categorical_crossentropy'.
# 3. 'epochs=300' especifica que o modelo será treinado por 300 épocas.
#    - Uma época é uma passagem completa pelo conjunto de dados de treinamento.
#    - Treinar por múltiplas épocas ajuda o modelo a ajustar os pesos iterativamente para melhorar a performance.
# 4. 'verbose=2' configura o nível de verbosidade.
#    - Verbose 2 significa que a função fit irá imprimir uma linha por época com o progresso do treinamento.
# Durante o treinamento, o modelo ajusta os pesos para minimizar a função de perda definida anteriormente ('categorical_crossentropy').
#    - O otimizador Adam é usado para atualizar os pesos com base nos gradientes calculados.
#    - A métrica de acurácia é usada para monitorar o desempenho do modelo durante o treinamento.
#    - A função de perda e a métrica são monitoradas a cada época para verificar o progresso e ajustar o modelo conforme necessário.

In [None]:
def generate_text(seed_text, next_words, model, max_sequence_length, diversity=0.7):
    """
    Gera uma sequência de texto a partir de um texto inicial (seed_text) utilizando um modelo de rede neural treinado.

    Parâmetros:
    seed_text (str): O texto inicial para começar a geração.
    next_words (int): O número de palavras a serem geradas.
    model (keras.Model): O modelo de rede neural treinado.
    max_sequence_length (int): O comprimento máximo das sequências de entrada para o modelo.
    diversity (float): Um fator de diversidade para controlar a aleatoriedade na escolha das próximas palavras. Padrão é 0.7.

    Retorna:
    str: A sequência de texto gerada.
    """
    generated_words = []  # Lista para armazenar as palavras geradas

    for _ in range(next_words):
        # Converte o texto inicial em uma sequência de tokens
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        # Padroniza a sequência para ter o comprimento máximo necessário
        token_list = pad_sequences([token_list], maxlen=max_sequence_length, padding='pre')
        # Faz a predição da próxima palavra usando o modelo
        predicted = model.predict(token_list, verbose=0)

        # Ajusta a predição com base na diversidade
        preds = np.asarray(predicted).astype('float64')
        preds = np.log(preds) / diversity
        exp_preds = np.exp(preds)
        preds = exp_preds / np.sum(exp_preds)

        # Seleciona a próxima palavra de forma aleatória com base nas probabilidades ajustadas
        probas = np.random.multinomial(1, preds[0], 1)
        sampled_word_index = np.argmax(probas)

        # Obtém a palavra prevista a partir do índice
        predicted_word = tokenizer.index_word.get(sampled_word_index, '')

        # Verifica se a palavra já foi gerada para evitar repetições
        if predicted_word in generated_words:
            continue

        # Adiciona a palavra prevista à lista de palavras geradas
        generated_words.append(predicted_word)
        # Atualiza o texto inicial com a palavra prevista
        seed_text += ' ' + predicted_word

    # Retorna o texto gerado como uma única string
    return ' '.join(generated_words)

# Descrição geral:
# Esta função gera texto a partir de um texto inicial utilizando um modelo de rede neural treinado.
# 1. 'seed_text' é o texto inicial fornecido pelo usuário.
# 2. 'next_words' é o número de palavras a serem geradas.
# 3. 'model' é o modelo de rede neural treinado.
# 4. 'max_sequence_length' é o comprimento máximo das sequências de entrada para o modelo.
# 5. 'diversity' é um fator que controla a aleatoriedade na escolha das próximas palavras, afetando a diversidade das predições.
# A função itera para gerar a quantidade especificada de palavras, ajustando a probabilidade de predição com base na diversidade,
# e retorna o texto gerado como uma string única.

In [None]:
# Texto inicial para a geração de texto
seed_text = "Uma rede neural é"  # Texto inicial fornecido para começar a geração

# Gerando texto a partir do texto inicial usando o modelo treinado
generated_text = generate_text(seed_text, next_words=10, model=model, max_sequence_length=seq_length)

# Imprimindo o texto gerado
print(generated_text)  # Exibe o texto gerado pelo modelo

# Descrição geral:
# Este bloco de código utiliza a função 'generate_text' para gerar uma sequência de texto baseada em um texto inicial.
# 1. 'seed_text' define o texto inicial para a geração. Neste caso, "Uma rede neural é".
# 2. 'generate_text' é chamada com os seguintes parâmetros:
#    - 'seed_text': o texto inicial.
#    - 'next_words': o número de palavras a serem geradas (neste caso, 10).
#    - 'model': o modelo de rede neural treinado.
#    - 'max_sequence_length': o comprimento máximo das sequências de entrada para o modelo.
# 3. A função retorna uma sequência de texto gerada, que é armazenada em 'generated_text'.
# 4. O texto gerado é impresso para visualização.
