###Geração de texto com redes neurais 

In [2]:
#Funções para Processamento de Texto Lendo arquivos como uma string de texto

def read_file(filepath):
    
    with open(filepath) as f:
        str_text = f.read()
    
    return str_text

In [None]:
read_file('../input/melville-moby-dick/melville-moby_dick.txt')

In [None]:
#Nesse código, utilizando a biblioteca Spacy para processamento de linguagem natural em inglês.  o modelo de idioma é carregado e desativamos componentes específicos que não são necessários. 
#Também é definidi o comprimento máximo dos textos que o modelo pode processar.

import spacy
nlp = spacy.load('en',disable=['parser', 'tagger','ner'])

nlp.max_length = 1198623

In [5]:
# Nesse código, temos uma função chamada "separate_punc" que recebe um texto como entrada.
# A função utiliza o modelo do Spacy para tokenizar o texto e retorna uma lista de tokens convertidos para letras minúsculas (lowercase), 
# excluindo os tokens que são pontuações ou caracteres especiais especificados na condição da compreensão de lista. Essa função separa e remove a pontuação do texto.

def separate_punc(doc_text):
    return [token.text.lower() for token in nlp(doc_text) if token.text not in '\n\n \n\n\n!"-#$%&()--.*+,-/:;<=>?@[\\]^_`{|}~\t\n ']

In [None]:
# 
# Nesse código, estamos lendo um arquivo chamado 'melville-moby_dick.txt' usando a função 'read_file', que provavelmente é uma função personalizada definida anteriormente no código.
# Em seguida, estamos chamando a função 'separate_punc' passando o conteúdo do arquivo como argumento e armazenando o resultado na variável 'tokens'. 
# Isso nos dará uma lista de tokens do texto, com a pontuação separada e removida.

d = read_file('../input/melville-moby-dick/melville-moby_dick.txt')
tokens = separate_punc(d)

In [None]:
# A variável 'tokens' conterá uma lista de tokens do texto após a remoção e separação da pontuação. Cada elemento da lista representará uma palavra ou um símbolo não pontuado encontrado no texto.
# Esses tokens podem ser usados para análises ou processamento adicional do texto.

tokens

In [None]:
# A função len(tokens) retorna o tamanho da lista de tokens, ou seja, o número de elementos na lista. 
# Isso indica a quantidade de palavras e símbolos não pontuados presentes no texto após a separação e remoção da pontuação.

len(tokens)

In [None]:
# A variável max é definida como o resultado da multiplicação entre o tamanho da lista de tokens, len(tokens), e 0,75. Isso significa que max receberá 75% do tamanho total da lista de tokens. 
# Essa variável provavelmente será usada para determinar um limite máximo em algum contexto específico do código.

max=int(len(tokens)*.75)
max

In [None]:
# A variável tokens é reatribuída com uma nova lista contendo apenas os primeiros max elementos da lista original de tokens. 
# Isso significa que estamos limitando a lista de tokens ao tamanho especificado por max, descartando os elementos após a posição max.

tokens=tokens[:max]

###Criando uma sequencia de tokens 


In [None]:
# O comprimento de treinamento train_len é definido como 25 + 1, o que significa que teremos 25 palavras de treinamento e depois uma palavra alvo.

# A variável text_sequences é inicializada como uma lista vazia. Em seguida, é realizado um loop começando do valor train_len até o tamanho total da lista de tokens (len(tokens)).
# A cada iteração do loop, é criada uma sequência seq de palavras que contém as 25 palavras anteriores à palavra atual. Essa sequência é então adicionada à lista text_sequences.

# Esse processo é repetido até que todas as sequências possíveis de tamanho train_len sejam criadas a partir dos tokens disponíveis. 
# O objetivo é preparar os dados para treinar um modelo de rede neural que será capaz de prever a próxima palavra com base nas palavras anteriores.


train_len = 25+1 

text_sequences = []

for i in range(train_len, len(tokens)):
    
    
    seq = tokens[i-train_len:i]
    
    
    text_sequences.append(seq)

In [None]:
# O código ' '.join(text_sequences[0]) junta as palavras da primeira sequência de texto em uma única string, separando cada palavra por um espaço. Por exemplo, 
# se a primeira sequência for ['palavra1', 'palavra2', 'palavra3'], a saída será "palavra1 palavra2 palavra3".


# De forma semelhante, ' '.join(text_sequences[1]) junta as palavras da segunda sequência de texto em uma única string.


# ' '.join(text_sequences[2]) junta as palavras da terceira sequência de texto em uma única string.


# len(text_sequences) retorna o tamanho da lista text_sequences, ou seja, o número total de sequências de texto criadas.


# O código max = int(len(text_sequences) * .75) calcula o valor máximo com base no comprimento das sequências de texto. 
# Ele multiplica o comprimento total das sequências de texto por 0,75 e converte o resultado para um número inteiro usando a função int(). O valor resultante é atribuído à variável max.


# A linha de código text_sequences = text_sequences[:max] seleciona um subconjunto das sequências de texto. 
# Ele usa a variável max para determinar a quantidade de elementos que serão mantidos na lista text_sequences.
#  Através dessa operação, text_sequences é atualizado para conter apenas os primeiros max elementos da lista original.

In [None]:
' '.join(text_sequences[0])

In [None]:
' '.join(text_sequences[1])

In [None]:
' '.join(text_sequences[2])

In [None]:
len(text_sequences)

In [None]:
max=int(len(text_sequences)*.75)
max

In [None]:
text_sequences=text_sequences[:max]

###Keras

In [None]:
# A função Tokenizer do Keras é usada para dividir o texto em tokens e criar um dicionário que associa cada token a um índice único.
# Isso é útil para o pré-processamento de dados de texto antes de alimentá-los em modelos de redes neurais.

from keras.preprocessing.text import Tokenizer

In [None]:
#O código  cria um objeto Tokenizer e o ajusta aos textos fornecidos. Em seguida, os textos são convertidos em sequências de números inteiros usando o método texts_to_sequences do objeto Tokenizer.
# Essas sequências de números inteiros podem ser usadas como entrada para modelos de redes neurais.


tokenizer = Tokenizer()
tokenizer.fit_on_texts(text_sequences)
sequences = tokenizer.texts_to_sequences(text_sequences)

In [None]:
# sequences[0] retorna a primeira sequência numérica de palavras após a tokenização. A saída será uma lista de números inteiros representando as palavras na primeira sequência.


# tokenizer.index_word retorna um dicionário em que as chaves são os índices das palavras e os valores são as palavras correspondentes.
#  Ele mapeia os índices das palavras para as palavras originais do corpus de texto.


# Para a sequência sequences[0], o código itera sobre cada índice i e imprime o índice e a palavra correspondente usando o tokenizer.index_word.
# Ele imprime o índice e a palavra associada para cada elemento da sequência.


# tokenizer.word_counts é um dicionário que contém a contagem de ocorrências de cada palavra no corpus de texto. As chaves do dicionário são as palavras e os valores são as contagens correspondentes.
# Ele fornece uma visão geral das frequências das palavras no texto analisado.


# A variável vocabulary_size armazena o tamanho do vocabulário, ou seja, o número total de palavras distintas no corpus de texto. 
# É calculado utilizando o número de elementos no dicionário tokenizer.word_counts.


In [None]:
sequences[0]

In [None]:
tokenizer.index_word

In [None]:
for i in sequences[0]:
    print(f'{i} : {tokenizer.index_word[i]}')

In [None]:
tokenizer.word_counts

In [None]:
vocabulary_size = len(tokenizer.word_counts)

Convertendo pra a matriz numpy

In [None]:
# importando a biblioteca NumPy

# A linha de código "sequences = np.array(sequences)" está convertendo a lista "sequences" em uma matriz NumPy. Isso significa que cada elemento da lista se tornará um elemento da matriz NumPy

# A variável "sequences" contém a matriz NumPy resultante da conversão da lista de sequências.

In [None]:
import numpy as np

In [None]:
sequences = np.array(sequences)

In [None]:
sequences

###Criando um modelo baseado em LSTM






In [None]:
# Neste trecho de código, estamos importando as bibliotecas e classes necessárias do Keras para criar um modelo LSTM. 
# Isso inclui a classe Sequential para criar modelos sequenciais, as camadas Dense, LSTM, Embedding e Dropout para construir o modelo LSTM.
# Essas classes fornecem as funcionalidades necessárias para criar redes neurais LSTM e aplicá-las a tarefas de geração de texto.

import keras
from keras.models import Sequential
from keras.layers import Dense,LSTM,Embedding,Dropout

In [None]:
# A função create_model é responsável por criar e configurar um modelo de rede neural LSTM utilizando a biblioteca Keras. 
# O modelo consiste em camadas de Embedding, LSTM e Dense, seguidas por uma camada de saída.

# A camada de Embedding é usada para representar as palavras como vetores densos. Em seguida, temos duas camadas LSTM para processar as sequências de entrada e capturar informações contextuais.
# A camada Dense é adicionada para reduzir a dimensionalidade da saída da camada LSTM.

# A camada de saída usa a função de ativação softmax para gerar as probabilidades de ocorrência das palavras no vocabulário. 
# O modelo é compilado com a função de perda categorical_crossentropy, o otimizador Adam e a métrica de acurácia.

# Ao final, um resumo do modelo é exibido, mostrando a arquitetura das camadas e o número de parâmetros. O modelo é retornado para ser utilizado posteriormente.

In [None]:



def create_model(vocabulary_size, seq_len):
    model = Sequential()
    model.add(Embedding(vocabulary_size, 25, input_length=seq_len))
    model.add(LSTM(150, return_sequences=True))
    model.add(LSTM(150))
    model.add(Dense(150, activation='relu'))

    model.add(Dense(vocabulary_size, activation='softmax'))
    
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
   
    model.summary()
    
    return model

Train / Test Split

In [None]:
#Em resumo, esses comandos estão preparando os dados para o treinamento do modelo, dividindo as sequências em características de entrada (X) e rótulos de saída (y), 
#convertendo os rótulos em uma representação adequada para classificação e obtendo o comprimento da sequência para definição de parâmetros do modelo.


In [None]:
from keras.utils import to_categorical

In [None]:
sequences

In [None]:
sequences[:,:-1]

In [None]:
sequences[:,-1]

In [None]:
X = sequences[:,:-1]

In [None]:
y = sequences[:,-1]

In [None]:
y = to_categorical(y, num_classes=vocabulary_size+1)

In [None]:
seq_len = X.shape[1]

In [None]:
seq_len

###Treinando o modelo

In [None]:
# Esses comandos criam, treinam e salvam um modelo LSTM com base nos dados fornecidos, além de salvar o objeto "tokenizer" para uso posterior.

In [None]:
model = create_model(vocabulary_size+1, seq_len)

In [None]:
from pickle import dump,load

In [None]:
model.fit(X, y, batch_size=512, epochs=300,verbose=1)

In [None]:
model.save('./epochBIG.h5')
dump(tokenizer, open('./epochBIG', 'wb'))

###Gerando um novo texto

In [None]:
# Esses comandos importam as funções necessárias para gerar números aleatórios, carregar objetos serializados,
# carregar um modelo treinado e realizar o preenchimento de sequências com base em um comprimento máximo.

from random import randint
from pickle import load
from keras.models import load_model
from keras.preprocessing.sequence import pad_sequences

In [None]:
# Essa função gera texto com base no modelo treinado, usando uma Seed inicial e predizendo palavras subsequentes a partir do modelo.


def generate_text(model, tokenizer, seq_len, seed_text, num_gen_words):
    '''
    INPUTS:
    model : model that was trained on text data
    tokenizer : tokenizer that was fit on text data
    seq_len : length of training sequence
    seed_text : raw string text to serve as the seed
    num_gen_words : number of words to be generated by model
    '''
    
    # Final Output
    output_text = []
    
    # Intial Seed Sequence
    input_text = seed_text
    
    # Create num_gen_words
    for i in range(num_gen_words):
        
        # Take the input text string and encode it to a sequence
        encoded_text = tokenizer.texts_to_sequences([input_text])[0]
        
        # Pad sequences to our trained rate (50 words in the video)
        pad_encoded = pad_sequences([encoded_text], maxlen=seq_len, truncating='pre')
        
        # Predict Class Probabilities for each word
        pred_word_ind = model.predict_classes(pad_encoded, verbose=0)[0]
        
        # Grab word
        pred_word = tokenizer.index_word[pred_word_ind] 
        
        # Update the sequence of input text (shifting one over with the new word)
        input_text += ' ' + pred_word
        
        output_text.append(pred_word)
        
    # Make it look like a sentence.
    return ' '.join(output_text)

###Escolhendo uma sequencia de seed aleatória

In [None]:
# esses comandos envolvem a seleção aleatória de uma sequência de texto, 
# a formatação dessa sequência como uma semente de texto e a geração de texto adicional com base nessa semente usando o modelo treinado.

In [None]:
text_sequences[0]

In [None]:
import random
random.seed(101)
random_pick = random.randint(0,len(text_sequences))

In [None]:
random_seed_text = text_sequences[random_pick]

In [None]:
random_seed_text

In [None]:
seed_text = ' '.join(random_seed_text)

In [None]:
seed_text

In [None]:
generate_text(model,tokenizer,seq_len,seed_text=seed_text,num_gen_words=50)

###Explorando a Sequência Gerada






In [None]:
# Esses comandos permitem explorar o contexto em que a palavra "inkling" aparece no texto completo, 
# exibindo as palavras antes e depois dela. Isso pode ajudar a entender melhor o contexto e o significado da palavra dentro do texto

In [None]:
full_text = read_file('../input/melville-moby-dick/melville-moby_dick.txt')

In [None]:
for i,word in enumerate(full_text.split()):
    if word == 'inkling':
        print(' '.join(full_text.split()[i-20:i+20]))
        print('\n')