# Etapa 1: Importação das bibliotecas

In [None]:
import numpy as np
import math
import re
import pandas as pd
from bs4 import BeautifulSoup
import random
import seaborn as sns
import matplotlib.pyplot as plt
from google.colab import drive

In [None]:
!pip install bert-for-tf2

In [None]:
!pip install sentencepiece

In [None]:
%tensorflow_version 2.x

In [None]:
import tensorflow as tf
tf.__version__

In [None]:
import tensorflow_hub as hub

In [None]:
from tensorflow.keras import layers
import bert

# Etapa 2: Carregamento da base de dados

In [None]:
drive.mount('/content/drive')

In [None]:
cols = ['sentiment', 'id', 'date', 'query', 'user', 'text']

In [None]:
data = pd.read_csv('/content/drive/MyDrive/ProjetoIA/training.1600000.processed.noemoticon.csv',
                   header = None,
                   names = cols,
                   engine = 'python',
                   encoding='latin-1')

In [None]:
data.shape

In [None]:
data.head()

In [None]:
data.tail()

In [None]:
data.drop(['id', 'date', 'query', 'user'],
          axis=1,
          inplace=True)

# Etapa 3: Limpeza dos textos

In [None]:
def limpar_tweet(tweet):
  tweet = BeautifulSoup(tweet, 'lxml').get_text() #Deixar o texto em um formato adequado para fazer a limpeza
  tweet = re.sub(r"@[A-Za-z0-9]+", ' ', tweet)
  tweet = re.sub(r"https?://[A-Za-z0-9./]+", ' ', tweet)
  tweet = re.sub(r"[^a-zA-Z.!?']", ' ', tweet)
  tweet = re.sub(r" +", ' ', tweet)

  return tweet

In [None]:
teste = data['text'][0]
teste

In [None]:
result = limpar_tweet(teste)
result

In [None]:
data_limpo = [limpar_tweet(tweet) for tweet in data.text] #Utiliza a função para limpar todos os tweets

In [None]:
data_limpo[0:4]

In [None]:
data_labels = data.sentiment.values #Ajustando os valores do sentimento positivo
data_labels[data_labels == 4] = 1

# Etapa 4: Tokenização

In [None]:
FullTokenizer = bert.bert_tokenization.FullTokenizer
bert_layer = hub.KerasLayer('https://tfhub.dev/tensorflow/bert_en_uncased_L-24_H-1024_A-16/1', trainable=False) #Pegar modelo
vocab_file = bert_layer.resolved_object.vocab_file.asset_path.numpy() #Adicionando o arquivo de vocabulario
do_lower_case = bert_layer.resolved_object.do_lower_case.numpy() #Deixando transformar em minusculo
tokenizer = FullTokenizer(vocab_file, do_lower_case)

In [None]:
tokenizer.tokenize("My cat is happy.")

In [None]:
def encode_sentence(sent):
  return tokenizer.convert_tokens_to_ids(tokenizer.tokenize(sent))

In [None]:
encode_sentence("My dog is hungry.")

In [None]:
data_entradas = [encode_sentence(sentence) for sentence in data_limpo]

In [None]:
data_entradas[0]

# Etapa 5: Criação da base de dados

In [None]:
data_with_len = [[sent, data_labels[i], len(sent)]
                 for i, sent in enumerate(data_entradas)]

In [None]:
data_with_len[0]

In [None]:
random.shuffle(data_with_len) #Mistura os dados da base de dados
data_with_len.sort(key=lambda x: x[2]) #Ordenada de forma crescente pegando o tamanho
sorted_all = [(sent_lab[0], sent_lab[1])
              for sent_lab in data_with_len if sent_lab[2] > 7] #Cria uma nova lista e pega a textos mais relevantes

In [None]:
all_dataset = tf.data.Dataset.from_generator(lambda: sorted_all,
                                             output_types=(tf.int32, tf.int32)) #Tranformar os dados para que o tensorflow consiga interpretar

In [None]:
BATCH_SIZE = 32
all_batched = all_dataset.padded_batch(BATCH_SIZE, padded_shapes=((None,), ())) #Definir o numero de registros em cada batch e criar uma lista

In [None]:
next(iter(all_batched))

In [None]:
NB_BATCHES = len(sorted_all) // BATCH_SIZE #Quantidade de batches para treinamento
NB_BATCHES

In [None]:
NB_BATCHES_TEST = NB_BATCHES // 10 #Quantidade de batches para teste
NB_BATCHES_TEST

In [None]:
all_batched.shuffle(NB_BATCHES) #Embaralhar os dados

In [None]:
test_dataset = all_batched.take(NB_BATCHES_TEST) #Criar base de dados de teste
train_dataset = all_batched.skip(NB_BATCHES_TEST) #Crirar base de dados de treinamento