<a href="https://colab.research.google.com/github/JefteLG/Estudos/blob/main/NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><strong><center>Processamento de Linguagem Natural (Natural Language Processing)<center></strong><h1>

# <strong>Estudo(Tokenização Com TensorFlow e Keras)</strong>

**<h2>`OBS.:`<h2>**
- **<h2>`Ao tokenizar poucas ou diversas palavras, as que mais repete recebe o menor token numerico.`<h2>**

- **<h2>`A palavra que recebe o token numerico é convertida para lowercase, ou seja, toda palavra fica em minusculo.`<h2>**

- **<h2>`0 é um índice reservado que não será atribuído a nenhuma palavra.`<h2>**

- **<h2>Esse notebook foi criado com o intuito de explicar mais detalhadamente e simplicar alguns conceitos e partes importantes abordadas de maneira rapidas nos videos presente na playlist <a href="https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S&index=1&ab_channel=TensorFlow">Natural Language Processing (NLP) Zero to Hero</a>.<h2>**






## <strong>Seção 01</strong>

Como representar palavras de forma que um computador possa processa-las com o objetivo de treinar uma rede neural que possa entender o seu significado. 




- Para que o computador consiga reconhecer a frase é necessario realizar a codificação das palavras.

- Nesse caso cada palavra vai ter um valor 

- Ex1.: `'I love my dog'` == `{'i': 1, 'love': 2, 'my': 3, 'dog': 4}`

- Ex2.: `'I love my cat'` == `{'i': 1, 'love': 2, 'my': 3, 'cat': 5}`

- Como as palavras `"i, love, my"` ja estão codificadas elas continuam com mesmo valor, já a palavra `"cat"` recebe um novo valor de codificação.

In [1]:

"""
Tokenizer é uma classe permite vetorizar um corpus de texto, transformando cada texto em uma sequência
de inteiros (cada inteiro sendo o índice de um token em um dicionário) ou em um vetor onde o coeficiente
de cada token pode ser binário, com base na contagem de palavras.

Por padrão, toda pontuação é removida, transformando os textos em sequências de palavras separadas por
espaço (as palavras podem incluir o caractere `'`). Essas sequências são então dividido em listas de
tokens. Eles serão então indexados ou vetorizados.
"""
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
#Array de frases para facilitar a codificação das palavras
sentences = [
  'I love my dog',
  'I love my cat',
  'I LOVE YOU DOG'
]

In [3]:
#Instanciar a classe Tokenizer e criar um objeto TK
"""
O argumento num_word define o número máximo de palavras a serem mantidas, com base na
frequência das palavras. Apenas as palavras `num_words-1` mais comuns serão mantidas. 

Nesse caso, num_words=100, apenas as 100 palavras mais repitidas no array de frases serão codificadas. 
"""
TK = Tokenizer(num_words=100)

In [4]:
"""
O metodo fit_on_texts percorre todas as frases do array e então se ajusta a elas. Ou seja,
esse metodo Atualiza o vocabulário interno com base em uma lista de textos.

No caso em que os textos contêm listas, assumimos que cada entrada das listas é um token.

A variavel word_index armazena os dados, sendo a chave a palavra e o valor o Token numerico,
respectivamente, em um dicionario. Por meio do atributo word_index, acessado pelo objeto
TK que foi instanciado pela classe Tokenizer.

Ex1.: 'I love my dog' == {'i': 1, 'love': 2, 'my': 3, 'dog': 4}

"""
TK.fit_on_texts(sentences)
word_index = TK.word_index
print(word_index)

{'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5, 'you': 6}


##<strong>Seção 02</strong>
Criar sequencias de numeros a partir de suas frases e usar ferramentas para processá-los e torná-los prontos para o ensino de redes neurais.

### <strong> 2.1 Transformar as palvras da frase em sequencias de tokens numericos </strong>

- IMPORTANTE: `Para inserir os dados na rede neural é necessario um pré-processamento dos dados.`

- Até o momento foi codificando varias sentenças em tokens númericos.

- Para inserir os dados em uma rede neural é necessario sequenciar os tokens numericos de cada array em tamanhos iguais de tokens por array.

- Ex1.:
 - `'I love my dog'` == `{'i': 5, 'love': 3, 'my': 1, 'dog': 2}`

- Ex2.:
 - `'You love my dog'` == `{'you': 4, 'love': 3, 'my': 1, 'dog': 2}`

- Ex3.:
 - `'Do you think my dog is amazing?'` == `{'do': 6, 'you': 4, 'think': 7, 'my': 1, 'dog': 2, 'is': 8, 'amazing': 9}`

- Os exemplos 1, 2 e 3 respectivamente resutariam na seguinte sequencia:
 - `Sequencias: [[5, 3, 1, 2], [4, 3, 1, 2], [6, 4, 7, 1, 2, 8, 9]]`





In [5]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [6]:
sentences = [
  'I love my dog',
  'I love my cat',
  'You love my dog',
  'Do you think my dog is amazing?'
]

In [7]:
TK = Tokenizer(num_words=100)

In [8]:
TK.fit_on_texts(sentences)
word_index = TK.word_index
# texts_to_sequences é utilizado para criar uma sequencia de tokens de acordo com o corpus
sequences = TK.texts_to_sequences(sentences)

In [9]:
print(f'indice das palavras(Tokens): {word_index}') 
print(f'Sequencias: {sequences}')

indice das palavras(Tokens): {'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}
Sequencias: [[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]


### <strong>2.2 lidando com palavras não conhecida(sem codificação)</strong>

In [10]:
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
  'I love my dog',
  'I love my cat',
  'You love my dog',
  'Do you think my dog is amazing?'
]

TK.fit_on_texts(sentences)
word_index = TK.word_index

- Ao classificar as palavra a rede neural pode-se encontrar uma ou mais palavras que não possui codificação, logo, a palavra não é reconhecida, acarretando confusões no Tokenizer

- O script abaixo executa um metodo pertecente ao objeto TK instanciado da classe Tokenizer, que é responsavel pelo sequenciamento dos tokens das palavras, entretanto, a sequencia de tokens faltou algumas palavras, devido ao utilizar palavras que o Tokenizer ainda não tinha codificado, logo, não existe no indice de palavras(word_index).

In [11]:
"""
Dados para testar o metodo text_to_sequences e ver as palavras que não possui indeces, são elas: ("really, loves, manatee").
Isso ocorreu porque essas palavras não estão no meu conjunto de dados iniciais onde foi executato o metodo fit_on_texts, no qual é
responsavel pela criação dos Tokens numericos .
"""
data_test = [
  'I really love my dog',
  'My dog loves my manatee'
]

test_seq = TK.texts_to_sequences(data_test)
print(f'sequencias de teste: {test_seq}')
print(f'indice das palavras{word_index}')

sequencias de teste: [[4, 2, 1, 3], [1, 3, 1]]
indice das palavras{'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}


- É importante sempre ter uma quantidade boa(grande) de indece de palavras(word_index), para lidar com palavras e/ou frases que não estão no conjunto de treinamento 

### <strong>2.3 Usando o argumento oov_token para não perder a duração da sequencia</strong>

- Para prezervar o tamanho da sequencia mesmo se uma ou mais palavras não sendo reconhecida, é utilizado o argumento oov_token.

- Ao usar o metodo fit_on_texts, se fornecido o argumento oov_token, será adicionado a word_index e usado para substituir palavras fora do vocabulário durante as chamadas text_to_sequence.

- Simplificando: Com esse argumento o Tokenizer reserva um token para atribuir a palavras não identificadas no `(vocabulario/indice de palavras/word_index) = tudo a mesma coisa`.

- `Muito mais Simplificado: Caso alguma palavras não seja identificada a mesma sera substituida por outra qualquer especificada.`

In [12]:
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
  'I love my dog',
  'I love my cat',
  'You love my dog',
  'Do you think my dog is amazing?'
]

TK = Tokenizer(num_words=100, oov_token='<oov>')

TK.fit_on_texts(sentences)
word_index = TK.word_index

sequences = TK.texts_to_sequences(sentences)

data_test = [
  'I really love my dog',
  'My dog loves my manatee'
]

test_seq = TK.texts_to_sequences(data_test)

print(f'word_index : {word_index}')
print(f'Sequencias_TREINO: {sequences}')
print(f'Sequencias_TESTE: {test_seq}')


word_index : {'<oov>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}
Sequencias_TREINO: [[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]
Sequencias_TESTE: [[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]]


### <strong>2.4 Como a rede neural lida com frases de tamanho diferentes?</strong>

- Existe um metodo avançado chamado RaggedTensor que torna mais fácil armazenar e processar dados com formas não uniformes. Entretanto, eu busco algo mais simples.

- Para resolver o problema de tamanhos variaveis é usado a solução de preenchimento, com a função pad_sequences.

- Esta função transforma uma lista (de comprimento `num_samples`) de sequências (listas de inteiros) em uma matriz Numpy 2D de forma `(num_samples, num_timesteps)`. `num_timesteps` é o argumento` maxlen` se fornecido, ou o comprimento da sequência mais longa da lista.

- Sequências mais curtas que `num_timesteps` são preenchidos com `valor` até que tenham` num_timesteps`.

- Sequências maiores que `num_timesteps` são truncadas para que se ajustem ao comprimento desejado.

- A posição onde o preenchimento ou truncamento acontece é determinada por os argumentos `padding` e` truncating`, respectivamente. Pré-preenchimento ou remoção de valores do início da sequência é o padrão.

- <strong>Simplificando: A função pad_sequences transforma uma lista de sequências (listas de inteiros) em uma matriz Numpy 2D, preencheendo as sequencias de tamanho variado, resultanto em sequencias de tamanhos iguais.</strong>

In [13]:
from tensorflow.keras.preprocessing.text import Tokenizer
#Importação da Função responsavel pelo preenchimento uniforme das sequencias 
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [14]:
sentences = [
  'I love my dog',
  'I love my cat',
  'You love my dog',
  'Do you think my dog is amazing?'
]

In [15]:
TK = Tokenizer(num_words=100, oov_token='oov')
TK.fit_on_texts(sentences)
word_index = TK.word_index

In [16]:
sequences = TK.texts_to_sequences(sentences)
"""
Se o argumento argumento maxlen não for fornecido, o preenchimento vai ter
como base o comprimento da sequência mais longa da lista.

Com o maxlen definido o comprimento de uma sequencia é referente ao valor do
maxlen.

Se a sequencia for maior que o maxlen especificado os dados serão
perdidos/descatados, caso queira um truncating especifico use truncating='post'
para descartar os dados à direita, ou somente truncating para descartar os dados
à esquerda.

Caso queira os zeros à direita é só usar o parametro padding com o valor
'post'(padding = 'post').
"""
# A variavel padded recebe uma matriz Numpy 2D de forma (num_samples, num_timesteps).
# num_timesteps é o argumento maxlen se fornecido, ou o comprimento da sequência mais longa da lista.
padded = pad_sequences(sequences, padding = 'post', maxlen=5, truncating='post')

In [17]:
print(f'word_index: {word_index}')
print(f'Sequences: {sequences}')
print(f'{padded}')

word_index: {'oov': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}
Sequences: [[5, 3, 2, 4], [5, 3, 2, 7], [6, 3, 2, 4], [8, 6, 9, 2, 4, 10, 11]]
[[5 3 2 4 0]
 [5 3 2 7 0]
 [6 3 2 4 0]
 [8 6 9 2 4]]


## <strong>Aplicação_01</strong>
<h1><strong>Construindo um classificador capaz de identificar sentimentos no texto.</strong><h1>

In [18]:
# Variaveis essenciais no decorrer da execução do script
# Já executa logo

# apenas as 10000 palavras mais repitidas no array de frases serão codificadas.
vocab_size = 10000

# Dimensão da incorporação densa.
embedding_dim = 16

# Comprimento das sequências de entrada, quando é constante
max_length = 100

# Quebrar a direita da sequencia
trunc_type='post'

# Preencher a direita
padding_type='post'

# valor para substituir os valores não reconhecido
oov_tok = "<OOV>"

# tamanho dos dados de treinamento
training_size = 20000

# Quantidade de vezes que o processamento pelo algoritmo de aprendizagem vai ser repetido em todo o conjunto de treinamento.
num_epochs = 30

### **Tratar e selecionar os dados Necessarios**
Converter os objetos JSON para python e selecionar apenas os dados necessario para o Pré-Processamento.

- Vamos treinar um classificador capaz de indentificar trechos de textos com caracteristicas sacastica, usando um dataset com diversos trechos sacaticos e não sacasticos.

- Os dados estão armazenados em formato JSON, para treinar o modelo de rede neural é preciso converte-lo para o formato python.

- Ao converter para python cada elemento do JSON vai se emcapsulado. Para fazer isso vamos utilizar o pacote json.


In [19]:
import json

OBS.: A celula abaixo é opcional

In [20]:
# Esse script pode ser usado caso você tenha o base de dados no computador e queira carrega-la no google colab. 
# from google.colab import files
# uploaded = files.upload()

In [21]:
# A base de dados desse exemplo está no meu repositorio do github e pode ser baixada no link abaixo

!wget --no-check-certificate \
    https://raw.githubusercontent.com/JefteLG/datasets/main/Sarcasm_Headlines_Dataset.json \
    -O /tmp/sarcasm.json

--2020-12-30 15:13:16--  https://raw.githubusercontent.com/JefteLG/datasets/main/Sarcasm_Headlines_Dataset.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.0.133, 151.101.64.133, 151.101.128.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.0.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5616830 (5.4M) [text/plain]
Saving to: ‘/tmp/sarcasm.json’


2020-12-30 15:13:16 (28.3 MB/s) - ‘/tmp/sarcasm.json’ saved [5616830/5616830]



O codigo abaixo vai carregar os dados em json e vai armazena-lo em uma variavel nomeada como `data`. Isso é necessario porque os dados estão em formato JSON e para utilizar no treinamento e teste é preciso converter para o formato python, nesse caso, vai ser uma lista de objetos JSON.

**OBS.: LEIA OS COMENTARIOS COM ATENÇÃO.**

In [22]:
# Pegar cada linha do arquivo JSON(base de dados) e armazenar em uma lista

data = []

for line in open('/tmp/sarcasm.json', 'r'):
  data.append(json.loads(line))

In [23]:
# Não é necessario executar esse codigo, ele é usado apenas para melhorar o arquivo JSON inicial
# Serializar

# with open('/tmp/sarcasm.json', 'w') as json_file:
#     json.dump(data, json_file, indent=4)

# with open("/tmp/sarcasm.json", 'r') as f:
#   datastore = json.load(f)


In [24]:
# Percorrer a lista para ter acesso as informações necessaria e armazena-las e locais diferentes

labels=[]
sentences=[]

for dt in data:
  sentences.append(dt['headline'])
  labels.append(dt['is_sarcastic'])

### **Divisão dos dados**
Divisão dos dados de treinamento para criar o modelo e dados de teste para medir a eficiencia do modelo.

In [25]:
training_sentences = sentences[0:training_size]
testing_sentences = sentences[training_size:]
training_labels = labels[0:training_size]
testing_labels = labels[training_size:]

### **Pré-Processamento dos dados utilizados para criação do modelo**
Tokenizar os dados, preencher as sequencias, e padronizar o tamanho das sequancias dos dados selecionados

In [26]:
# classe permite vetorizar um corpus de texto, transformando cada texto em uma sequência de inteiros
from tensorflow.keras.preprocessing.text import Tokenizer

# Importação da Função responsavel pelo preenchimento uniforme das sequencias
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [27]:
#Instanciar a classe Tokenizer e criar um objeto TK
TK = Tokenizer(num_words=vocab_size, oov_token=oov_tok)

In [28]:
# O metodo fit_on_texts é utilizado para percorrer todas as frases do array e então se ajusta a elas.
TK.fit_on_texts(training_sentences)

# A variavel word_index armazena os dados em um dicionario, onde, a chave é a palavra, e o valor é o Token numerico, respectivamente.
# A variavel word_index recebe os valores referente ao atributo word_index, acessado pelo objeto TK que foi instanciado pela classe Tokenizer.
word_index = TK.word_index

- No momento de tokennizar a base de dados é interessante separar os dados de treino e teste para verificar a eficiencia do modelo.

- Fazendo isso vamos testar com mais precisão o quão bom está o modelo, simulando palavras e frases que possivelmente não foram codificada, e como o modelo vai reagir nesse cenario. 

In [29]:
# A variavel training_sequences recebe o valor retornado pelo metodo texts_to_sequences, no qual, é utilizado para criar uma sequencia de tokens de acordo com o corpus.
# Gera sequancias de tokens
training_sequences = TK.texts_to_sequences(training_sentences)

# A variavel padded recebe uma matriz Numpy 2D de forma (num_samples, num_timesteps).
# num_timesteps é o argumento maxlen, o tamanho maximo se fornecido, ou o comprimento da sequência mais longa da lista.
# Gera uma matriz de tokens padronizada para ser usada para treinar o modelo 
training_padded = pad_sequences(training_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

#dados de testes
testing_sequences = TK.texts_to_sequences(testing_sentences)
testing_padded = pad_sequences(testing_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

In [30]:
# A primeira frase da base de dados referente aos dados de treino e teste, respectivamente, codificada e sequenciada por tokens.
print(training_sequences[0])
print(testing_sequences[0])

# A primeira frase da base de dados referente aos dados de treino e teste, respectivamente, não codificada.
print(training_sentences[0])
print(testing_sentences[0])

# A primeira frase da base de dados referente aos dados de treino e teste, respectivamente, codificada, sequenciada por tokens e com o tamanho padronizado.
print(training_padded[0])
print(testing_padded[0])

# quantidade de sequancias e tokens por sequencias(dados de treino e teste, respectivamente).
print(training_padded.shape)
print(testing_padded.shape)

[328, 1, 799, 3405, 2404, 47, 389, 2214, 1, 6, 2614, 8863]
[1, 1100, 6663, 9423, 30, 1, 2439, 5, 519, 109]
former versace store clerk sues over secret 'black code' for minority shoppers
pediatricians announce 2011 newborns are ugliest babies in 30 years
[ 328    1  799 3405 2404   47  389 2214    1    6 2614 8863    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0]
[   1 1100 6663 9423   30    1 2439    5  519  109    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    

In [31]:
# arrays numpy multidimencionanis
import numpy as np
training_padded = np.array(training_padded)
training_labels = np.array(training_labels)
testing_padded = np.array(testing_padded)
testing_labels = np.array(testing_labels)

### **Configurando a rede neural**

- Vamos usar um modelo Sequencial para criar o nosso modelo de classificação.

- Um modelo Sequential é apropriado para uma pilha simples de camadas onde cada camada tem exatamente um tensor de entrada e um tensor de saída. [**ESTUDAR**](https://www.tensorflow.org/api_docs/python/tf/keras/Sequential)

- Um modelo sequencial não é apropriado quando:
  - Seu modelo possui múltiplas entradas ou múltiplas saídas
  - Qualquer uma de suas camadas tem múltiplas entradas ou múltiplas saídas
  - Você precisa fazer o compartilhamento de camadas
  - Você deseja uma topologia não linear (por exemplo, uma conexão residual, um modelo de vários ramos)

In [32]:
import tensorflow as tf

# A classe `Sequential` fornece recursos de treinamento e inferência neste modelo.
# O modelo sequencial definido tem 4 camadas
# Modelo sequencial criado passa uma lista de camadas para o construtor sequencial:
model = tf.keras.Sequential([
  # Transforma inteiros positivos (índices) em vetores densos de tamanho fixo.
  # Esta camada só pode ser usada como a primeira camada em um modelo. Por ser responsavel pelo aprendizado das palavras, epoca por epoca
  tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_length),
  # Operação de agrupamento médio global para dados temporais, ou seja, vai somar todos os vetores e retorna um resultado, classificando o dando.
  tf.keras.layers.GlobalAveragePooling1D(),
  # Essas são duas camadas NN normal densamente conectada.
  tf.keras.layers.Dense(24, activation='relu'),
  tf.keras.layers.Dense(1, activation='sigmoid')
])

# Configuração do modelo de treinamento
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

In [33]:
# visão geral do modelo
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 100, 16)           160000    
_________________________________________________________________
global_average_pooling1d (Gl (None, 16)                0         
_________________________________________________________________
dense (Dense)                (None, 24)                408       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 25        
Total params: 160,433
Trainable params: 160,433
Non-trainable params: 0
_________________________________________________________________


In [34]:
# Treina o modelo para um número fixo de épocas (iterações em um conjunto de dados).
history = model.fit(training_padded, training_labels, epochs=num_epochs, validation_data=(testing_padded, testing_labels), verbose=2)

Epoch 1/30
625/625 - 3s - loss: 0.6608 - accuracy: 0.5891 - val_loss: 0.5820 - val_accuracy: 0.6698
Epoch 2/30
625/625 - 2s - loss: 0.4461 - accuracy: 0.8288 - val_loss: 0.4045 - val_accuracy: 0.8264
Epoch 3/30
625/625 - 2s - loss: 0.3241 - accuracy: 0.8727 - val_loss: 0.3604 - val_accuracy: 0.8487
Epoch 4/30
625/625 - 2s - loss: 0.2690 - accuracy: 0.8972 - val_loss: 0.3464 - val_accuracy: 0.8562
Epoch 5/30
625/625 - 2s - loss: 0.2327 - accuracy: 0.9107 - val_loss: 0.3435 - val_accuracy: 0.8526
Epoch 6/30
625/625 - 2s - loss: 0.2040 - accuracy: 0.9222 - val_loss: 0.3608 - val_accuracy: 0.8478
Epoch 7/30
625/625 - 2s - loss: 0.1822 - accuracy: 0.9327 - val_loss: 0.3681 - val_accuracy: 0.8483
Epoch 8/30
625/625 - 2s - loss: 0.1645 - accuracy: 0.9390 - val_loss: 0.3679 - val_accuracy: 0.8541
Epoch 9/30
625/625 - 2s - loss: 0.1474 - accuracy: 0.9481 - val_loss: 0.3943 - val_accuracy: 0.8475
Epoch 10/30
625/625 - 2s - loss: 0.1358 - accuracy: 0.9512 - val_loss: 0.4092 - val_accuracy: 0.8457

In [35]:
#Testando
sentence = ["top snake handler leaves sinking huckabee campaign"]
sequences = TK.texts_to_sequences(sentence)
padded = pad_sequences(sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
print(model.predict(padded))

[[0.9973521]]


TESTES

In [36]:
len(model.weights)

5

In [37]:
from tensorflow.keras import layers

In [38]:
layer = layers.Dense(3)
layer.weights  # Empty

[]

In [39]:
# Call layer on a test input
x = tf.ones((1, 4))
y = layer(x)
layer.weights  # Now it has weights, of shape (4, 3) and (3,)

[<tf.Variable 'dense_2/kernel:0' shape=(4, 3) dtype=float32, numpy=
 array([[ 0.6746961 ,  0.46956277,  0.84156907],
        [ 0.27659857,  0.3058219 ,  0.46519685],
        [ 0.18105757, -0.8942871 ,  0.56895053],
        [-0.14560658, -0.24164319, -0.28311706]], dtype=float32)>,
 <tf.Variable 'dense_2/bias:0' shape=(3,) dtype=float32, numpy=array([0., 0., 0.], dtype=float32)>]