In [1]:
import json
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Embedding, Bidirectional, Dense, LSTM
import numpy as np
import string
import pickle

#### Load beer and brahma references to train the ML

In [2]:
def clean_sentence(sentence):
    sentence = sentence.replace(",", "")
    sentence = sentence.replace(".", "")
    sentence = sentence.replace("-", "")
    sentence = sentence.replace("/", "")
    sentence = sentence.replace(":", "")
    sentence = sentence.replace("!", "")
    sentence = sentence.replace("\"", "")
    sentence = sentence.replace("“","")
    return sentence.lower()

corpus = ""
with open('todas_campanhas.txt', 'r') as f:
    datastore = json.load(f)
    for item in datastore:
            corpus += " " + clean_sentence(item['titulo'])

with open('frases_famosos.txt', 'r') as f:
    datastore = json.load(f)
    for item in datastore:
            corpus += " " + clean_sentence(item['frase'])

            
#print(corpus)

#### Create sentences for each word in the corpus using the next "window_size" words

In [3]:
window_size=10
max_sequence_len = 30
sentences = []
alltext = []
words = corpus.split(" ")
print("Number words: ", len(words))
range_size = len(words) - max_sequence_len
for i in range(0, range_size):
    thissentence = ""
    for word in range(0, window_size-1):
        word = words[i+word]
        thissentence = thissentence + word
        thissentence = thissentence + " "
    sentences.append(thissentence)

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
total_words = len(tokenizer.word_index) + 1
print("Number of unique words: ", total_words)
print("Number of sentences generated: ", len(sentences))

#### Tokeni


In [5]:
input_sequences = []
for line in sentences:
    #print(line)
    token_list = tokenizer.texts_to_sequences([line])[0]
    #print(token_list)
    for i in range(1, len(token_list)):
        n_gram_sequence = token_list[:i+1]
        input_sequences.append(n_gram_sequence)

input_sequences = np.array(pad_sequences(input_sequences, maxlen=max_sequence_len, padding='pre'))

xs, labels = input_sequences[:,:-1], input_sequences[:,-1]
ys = tf.keras.utils.to_categorical(labels, num_classes=total_words)


In [6]:
model = Sequential()
model.add(Embedding(total_words, 4))
model.add(Bidirectional(LSTM(max_sequence_len-1, return_sequences='True')))
model.add(Bidirectional(LSTM(max_sequence_len-1)))
model.add(Dense(total_words, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])


In [14]:
history = model.fit(xs, ys, epochs=500, verbose=1)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

In [8]:
print(model.summary())

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 4)           2376      
_________________________________________________________________
bidirectional (Bidirectional (None, None, 58)          7888      
_________________________________________________________________
bidirectional_1 (Bidirection (None, 58)                20416     
_________________________________________________________________
dense (Dense)                (None, 594)               35046     
Total params: 65,726
Trainable params: 65,726
Non-trainable params: 0
_________________________________________________________________
None


In [107]:

seed_text = "brahma"

token_list = tokenizer.texts_to_sequences([seed_text])[0]
token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
arr = model.predict(token_list)
print(arr[0])
arr[0].sort()
print(arr[0][len(arr[0])-1])
predicted = np.argmax(model.predict(token_list), axis=-1)
print(predicted)

for word, index in tokenizer.word_index.items():
    if index == predicted:
            print(word)
            break;

[1.82915905e-09 7.30433560e-04 1.94196527e-05 1.95448119e-02
 1.39184017e-02 1.17504746e-02 3.32405380e-23 1.55619608e-04
 1.32578327e-15 2.66198072e-06 6.21342915e-05 2.36184553e-12
 6.54617764e-08 1.72529407e-02 9.84203865e-08 7.08981603e-03
 4.43584831e-05 4.89988494e-09 3.42972092e-02 9.31034519e-05
 1.80821615e-07 4.91485698e-05 4.28486237e-06 2.50696391e-02
 7.99031986e-04 8.71146657e-03 1.15522183e-01 1.59531143e-02
 1.12499008e-02 6.47659426e-11 3.19532337e-05 5.07383523e-13
 1.65527745e-03 1.19819333e-15 1.65442121e-04 1.37576470e-04
 1.27032035e-04 3.29698436e-02 7.37199002e-07 5.23645258e-06
 1.56193084e-04 3.65986952e-09 6.93389121e-03 9.19297454e-05
 4.92703512e-05 2.16428043e-06 1.69453600e-07 1.12313892e-07
 2.40768950e-12 5.24212354e-08 2.57496469e-10 1.64340785e-09
 5.11994267e-06 2.19476167e-02 2.26389542e-02 3.77596915e-02
 7.25581951e-04 1.82212426e-10 1.61969829e-02 1.94824473e-16
 4.12574117e-08 2.50495301e-04 6.23216474e-05 4.19182310e-12
 4.70782334e-06 3.604831

In [9]:
def generate_sentence(_seed_text, next_words):
    seed_text = _seed_text
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        predicted = model.predict_classes(token_list, verbose=0)
        #print(predicted)
        output_word = ''

        for word, index in tokenizer.word_index.items():
            if index == predicted:
                output_word = word
                seed_text += " " + output_word
                break
    print(seed_text)

In [10]:
print(generate_sentence("cerveja", 9))



cerveja oficial do carnaval n1 camarote bar brahma personaliza hotel
None


In [110]:
print(generate_sentence("brahma", 25))

brahma lança campanha sobre a copa do mundo brahma fará o maior circuito brahma sertanejo do brasil para a casa dos consumidores brahma enaltece a transformação
None


In [111]:
print(generate_sentence("cerveja brahma gelada", 25))

cerveja brahma gelada zeca pagodinho para comandar celebração de dia das mães em casa brahma duplo malte e zé neto e cristiano exclusivos recomeçar para brahma se são
None


In [112]:
print(generate_sentence("já é verão na brahma ", 25))

já é verão na brahma  renovam parceria outback steakhouse e a brahma se unem em ação na brahma valley brahma valley lança campanha em clima da brahma artistas surpreendem fãs
None


In [113]:
print(generate_sentence("pessoas bebem cerveja ", 25))

pessoas bebem cerveja  todos cerveja um interessantes ok fãs em ação do fatos vital para a marquês de carnaval para o futebol brahma cria ok cérebro eu não
None


In [126]:
print(generate_sentence("futebol ", 50))



futebol  brasileiro brahma promove concurso para eleger o melhor tirador de chopp do país iniciativa de entretenimento bar brahma realiza blackout nas redes sociais para anunciar reabertura brahma prova que a cerveja um redes conhecidas ingrediente superar marcas sem festival brahma brinda homem n°1 e uma cerveja eu bebo para fazer
None


In [115]:
print(generate_sentence("brahma inova ", 50))

brahma inova  lança campanha sobre a copa do mundo brahma fará o maior circuito brahma sertanejo do brasil para a casa dos consumidores brahma enaltece a transformação na relação entre pais e cerveja mais que realmente importa cerveja é assim que se faz o sabor está lança suor todas o não bares
None


In [119]:
print(generate_sentence("ambev ", 50))

ambev  cerveja oficial do nã nã nã nã refresca até pensamento refresca com brahma pessoas se ok clima nossas para copa do apesar ingrediente superar marta marta marta marta camarote quartafeira vender botar gelada na pouco ingrediente qualidade ingrediente pessoas camarote sobre quartafeira ingrediente festival ingrediente outback rei sem festival ingrediente
None


In [116]:
print(generate_sentence("brahma da ambev", 50))

brahma da ambev cerveja eu não posso oferecer nada mais que sangue labuta suor e cerveja um governo opressivo deve ser mais temido que se faz sentir da histórias pouco conhecidas ajuda e se hotel 128 cerveja mas todas que se faz todas várzea sem festa do pouco de brasil 2019 em ação
None


In [122]:
model.save("modelo_refresca")



INFO:tensorflow:Assets written to: modelo_refresca\assets


INFO:tensorflow:Assets written to: modelo_refresca\assets


In [93]:
reconstructed_model = keras.models.load_model("modelo3")

In [143]:
seed_text = "futebol"

token_list = tokenizer.texts_to_sequences([seed_text])[0]
token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
arr = reconstructed_model.predict(token_list)
a = np.array(arr[0])
ind = np.argpartition(a, -4)[-4:]
print(ind)
print(a[ind])
#print(arr[0])
arr[0].sort()
print(arr[0][len(arr[0])-1])
predicted = np.argmax(reconstructed_model.predict(token_list), axis=-1)
print(predicted)

for word, index in tokenizer.word_index.items():
    if index in ind:
            print(index)
            print(word)

[33 17  2  8]
[0.00115453 0.00458651 0.48371136 0.5093073 ]
0.5093073
[8]
2
de
8
para
17
os
33
especial


In [140]:
predicted = np.argmax(reconstructed_model.predict(token_list), axis=-1)
print(predicted)

for word, index in tokenizer.word_index.items():
    if index == predicted:
            print(word)

[8]
para


In [11]:
def generate_sentence_rec(_seed_text, next_words):
    seed_text = _seed_text
    if next_words == 0:
        print(seed_text)
        return
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = pad_sequences([token_list], maxlen=max_sequence_len-1, padding='pre')
        arr = model.predict(token_list)
        ind = np.argpartition(np.array(arr[0]), -4)[-4:]
        output_word = ''

        for word, index in tokenizer.word_index.items():
            if index in ind:
                output_word = word
                seed_text_temp = seed_text
                seed_text_temp += " " + output_word
                generate_sentence_rec(seed_text_temp, (next_words - 1))
        break;
    #print(seed_text)



In [12]:
generate_sentence("cerveja", 9)

cerveja oficial do carnaval n1 camarote bar brahma personaliza hotel


In [13]:
generate_sentence("brindar com cerveja brahma é", 9)

brindar com cerveja brahma é a nova patrocinadora da conmebol copa américa brasil 2019


In [239]:
generate_sentence_rec("cerveja brahma a cada brahmeiro", 5)

erveja brahma a cada brahmeiro é um crime que a
erveja brahma a cada brahmeiro é um crime que uma
erveja brahma a cada brahmeiro é um crime que busca
erveja brahma a cada brahmeiro é um crime que ame
erveja brahma a cada brahmeiro é um crime campanha brahma
erveja brahma a cada brahmeiro é um crime campanha o
erveja brahma a cada brahmeiro é um crime campanha cerveja
erveja brahma a cada brahmeiro é um crime campanha com
erveja brahma a cada brahmeiro é um crime futebol brahma
erveja brahma a cada brahmeiro é um crime futebol no
erveja brahma a cada brahmeiro é um crime futebol contra
erveja brahma a cada brahmeiro é um crime futebol exclusivo
erveja brahma a cada brahmeiro é um crime contra o
erveja brahma a cada brahmeiro é um crime contra que
erveja brahma a cada brahmeiro é um crime contra lança
erveja brahma a cada brahmeiro é um crime contra especiais
erveja brahma a cada brahmeiro é um tigre e uma
erveja brahma a cada brahmeiro é um tigre e leva
erveja brahma a cada brahmeiro é 