<a href="https://colab.research.google.com/github/legalnlp21/legalnlp/blob/main/demo/BERT/BERT_TUTORIAL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from IPython.display import Image
from IPython.display import clear_output

In [None]:
def show(link,width):
   return IPython.display.Image(data = link, width = width)

# Introdução


Com o amadurecimento das Redes Neurais Recorrentes (RNNs, em inglês), veio o surgimento e desenvolvimento de modelos de processamento de linguagem natural (PLN) mais complexos, capazes de compreender cada vez mais sentenças e seus contextos em um conjunto de textos. Como exemplo de uma aplicação dessas redes, temos o **BERT**, que é um modelo de aprendizado profundo bastante utilizado em diversas tarefas de processamento de linguagem natural.

BERT significa **B**idirectional **E**ncoder **R**epresentations for **T**ransformers e foi desenvolvido por pesquisadores do $\textit{Google AI Language}$ em 2018 e apresentado ao público em 2019, obtendo resultados espetaculares, conforme seu [artigo original](https://arxiv.org/pdf/1810.04805.pdf). Além disso, os [códigos do modelo](https://github.com/google-research/bert) também foram liberados pela equipe.

Sendo utilizado ainda como inspiração em diversas arquiteturas de PLN, formas de treinamento e modelos de linguagem natural, como XLNet, ERNIE2.0, RoBERTa, entre outros.

##O que é o BERT e como funciona

O que faz o BERT ser um modelo que se destaca é o fato dele utilizar um treinamento bidirecional do Transformer, que é um tipo de mecanismo de atenção muito efieciente que aprende as relações entre as componentes de um determinado texto.

Os Transformers funcionam com dois mecanismos: o $\textit{encoder}$ e o $\textit{decoder}$. Basicamente, o encoder funciona transformando o input recebido em contexto e o decoder funciona transformando esse contexto em algum outro objetivo, como por exemplo a tradução para uma outra língua.

Para mais informações sobre os Tranformers, leia o artigo original em que foi apresentado: [Attention is all you need](https://arxiv.org/pdf/1706.03762.pdf).


Diferentemente dos modelos unidirecionais baseados em "contexto livre", como é o caso do $\textit{word2vec}$, gerando um $\textit{embedding}$ (representação do espaço das palavras no espaço real) igual para uma determinada palavra independentemente do seu contexto, o BERT, por ser um modelo bidirecional, consegue extrair o significado da palavra em cada contexto, por isso é chamado também de um "modelo contextual".

Para exemplificar o parágrafo acima, pense na palavra "banco". Nos modelos livres de contexto, essa palavra teria a mesma representação independentemente do seu contexto, embora banco representando uma agência bancária é diferente do banco de uma praça, por exemplo. Por sua vez, os modelos baseados em contexto, identificam cada palavra em seu contexto.  [click here to acess slides form Stanford about BERT](https://nlp.stanford.edu/seminar/details/jdevlin.pdf)


In [None]:
show('https://raw.githubusercontent.com/legalnlp21/legalnlp/b7e2fcd4c4065bd1599f5ff0987d9581fb667d4c/demo/BERT/notebook_images/image1.jpg',600)

NameError: ignored

In [None]:
show('https://raw.githubusercontent.com/legalnlp21/legalnlp/main/demo/BERT/notebook_images/image2.jpg',600)

Além disso, o BERT foi treinado utilizando uma enorme quantidade de dados não rotulados da Wikipedia (cerca de 2,5 bilhões de palavras) e em corpus de livros (cerca de 800 milhões de palavras).

Agora veremos brevemente a arquitetura desse modelo.

##Arquitetura

Quanto à arquitetura, o BERT possui dois tipos, de acordo com o artigo citado acima: o Base e o Large. As diferenças estão listadas abaixo:

**BERTBASE:** 

  * L = 12 \
  * H = 768 \
  * A = 12 \
  * Total de Parâmetros = 110 milhões

**BERTLARGE:**

  * L = 24 \
  * H = 1024 \
  * A = 16 \
  * Total de Parâmetros = 340 milhões

\
**Onde**:\
    L = Número de camadas (Blocos Transformer)\
    H = Quantidade de unidades na rede neural\
    A = Cabeças de auto-atenção

In [None]:
show('https://raw.githubusercontent.com/legalnlp21/legalnlp/main/demo/BERT/notebook_images/bert1.jpg',600)

### Entrada do Modelo

A entrada do modelo pode ser composta por uma sentença ou por um par de sentenças, com tamanho máximo suportado pelo modelo de 512 tokens. O BERT utiliza a tokenização WordPiece.

O primeiro token de entrada é sempre marcado como [CLS], que é um token especial de classificação. Quando duas frases entram no modelo, elas podem ser diferenciadas por meio do token [SEP].

In [None]:
show('https://raw.githubusercontent.com/legalnlp21/legalnlp/main/demo/BERT/notebook_images/enconder1.jpg',600)

In [None]:
show('https://raw.githubusercontent.com/legalnlp21/legalnlp/main/demo/BERT/notebook_images/enconder2.jpg',600)

Para um dado token de entrada, sua forma é dada por um embedding da soma de 3 outros tokens, como visto na figura acima. São eles:

* **Position Embeddings**: O modelo aprende e utiliza embeddings de posição para expressar a posição/ordem das palavras na sentença. 

* **Segment Embeddings**: O BERT recebe pares de sentenças e utiliza embeddings para o modelo aprender e conseguir distingui-las.  

* **Token Embeddings**: São embeddings específicos, aprendidos através do vocabulário do WordPiece.

### Saída do Modelo

Já a saída do modelo consiste em um vetor de tamanho $\textit{hidden_size}$, que no caso do BERT BASE é 768 para cada token de entrada, que também pode ser visto como uma representação vetorial real daquele determinado token.

## Pré Treinamento

O BERT possui 2 estratégias de pré treinamento: Masked Language Model (MLM) e Next Sentence Prediction (NSP).

### **Masked LM (MLM)**

Nessa abordagem, são mascarados ([MASK]) aleatoriamente $15\%$ dos tokens de entrada e então feita a predição apenas desses tokens mascarados por meio de uma função $\textit{softmax}$. 

Porém, surge um problema com essa abordagem: É criado um desbalanceamento entre a fase de pré-treinamento e a fase de ajuste-fino (fine-tuning), pois o token [MASK] não aparece na última. Para solucionar isso, é realizado, dentro dos $15\%$ dos tokens aleatoriamente selecionados:

\
* $80\%$ das vezes é sustituído com [MASK]:

$\quad\quad\quad$ Fui ao banco $\rightarrow$ Fui ao [MASK]

\
* $10\%$ das vezes é susbtituído com alguma palavra aleatória:

$\quad\quad\quad$ Fui ao banco $\rightarrow$ Fui ao chovendo

\
* $10\%$ das vezes é mantido a mesma palavra

$\quad\quad\quad$ Fui ao banco $\rightarrow$ Fui ao banco

In [None]:
# example
# Input Sequence  : The man went to [MASK] store with [MASK] dog
# Target Sequence :                  the                his

### **Next Sentence Prediction (NSP)**

Essa estratégia, por sua vez, se caracteriza por focar nas relações entre as sentenças, pré-treinando assim para uma tarefa de predição de próximas sentenças em que são possíveis apenas 2 resultados, "IsNext", caso a sentença B seja a próxima sentença de A ou "NotNext" caso contrário.

Para essa tarefa, os dados de treino consistem de $50\%$ dos dados rotulados como "IsNext" e os outros $50\%$ como "NotNext", e é aplicada em conjunto com a estratégia de Masked ML explicada acima.

Exemplos:

Input = [CLS] the man went to [MASK] store [SEP]
he bought a gallon [MASK] milk [SEP]

Label = IsNext

Input = [CLS] the man [MASK] to the store [SEP]
penguin [MASK] are flight ##less birds [SEP]

Label = NotNext


# Utilizando o BERT: **Fine-Tuning** 

Classificação de Pares de Sentenças — É semelhante ao processo de Next Sentence Prediction (NSP), adicionando uma camada de classificação no topo do output referente ao token [CLS] retornando uma distribuição de probabilidades calculadas por uma função $\textit{softmax}$. 

Classificação de Sentenças Únicas — Semelhante ao processo acima. 

Single Sentence Tagging Task — Nessa tarefa são preditas tags para um determinado token. Como exemplo, para uma tarefa de classificar partes do discurso em Pronome, Verbo, Adjetivo, etc. 

Question Answering Tasks — Essa é uma tarefa de predição. O modelo recebe uma pergunta, que atua como a primeira sentença e um parágrafo contendo o contexto relacionado a pergunta, atuando como a segunda sentença. É feito então o produto escalar da forma final do embedding de cada token com um vetor de pesos, sendo aplicado em uma função de ativação para retornar uma distribuição de probabilidade. Segue um link com mais informações sobre: [https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/](https://mccormickml.com/2020/03/10/question-answering-with-a-fine-tuned-BERT/) 


#Mão na Massa

## Loading Data

Instalando as bibliotecas necessárias:

In [None]:
!pip install unidecode
!pip install ftfy
!pip install transformers==4.2.2
!pip install pyreadr
!pip install git+https://github.com/legalnlp21/legalnlp
clear_output()

Aqui vamos importar algumas bibliotecas que serão muito úteis para frente!

In [None]:
# manipulação numérica e de dataframes
import numpy as np
import pandas as pd

# gráficos e ajustes visuais
import seaborn as sns
import matplotlib.pyplot as plt
import textwrap
from tqdm import tqdm

# pré-processamento de textos e lidar com variáveis categóricas, modelos e métricas 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# tratamento de textos 
import unidecode
import re
import ftfy

In [None]:
# If you want to use Google drive for get data, use this code
#from google.colab import drive
#drive.mount('/content/gdrive')
#data=pd.read_csv('/content/gdrive/MyDrive/data_base.csv')
#data.drop(columns=['Unnamed: 0'],inplace=True)

In [None]:
# Code for get data from github
data=pd.read_csv('https://raw.githubusercontent.com/legalnlp21/legalnlp/main/demo/data_base.csv')
data.drop(columns=['Unnamed: 0'],inplace=True)
data.dropna(inplace=True)

## Breve exploração na base de dados

Antes de aplicar os modelos, vale a pena dar uma explorada nos dados que estamos trabalhando. Primeiramente, qual o tamanho desse conjunto de dados?

In [None]:
print("Quantidade de linhas: ", data.shape[0])
print("Quantidade de colunas: ", data.shape[1])

Vamos visualizar uma pequena amostra desses dados:

In [None]:
# amostra de tamanho 5
data.sample(5)

Vamos verificar se tem algum valor faltante nas colunas:

In [None]:
# valores nas colunas faltante
print(f'Total de: {data["text"].isna().sum()} textos vazios')
print(f'Total de: {data["label"].isna().sum()} classes vazias')

Aqui um gráfico de como os rótulos da coluna "label" estão distribuídos:

In [None]:
# countplot das labels
sns.countplot(x = data['label'])

plt.xticks(np.arange(0, 3, step = 1), ['Arquivado', 'Ativo', 'Não Ativo'])
plt.xlabel('Status')
plt.ylabel('Quantidade')
plt.title('Status countplot')

plt.show()

E em frequências relativas:

In [None]:
# Frequência das labels
freq = pd.DataFrame(data['label'].value_counts()/len(data))
freq

##Limpando os textos

Aqui vamos aplicar a função abaixo (clean_bert), que recebe um texto como argumento e realiza a limpeza desse texto, cuidando de Unicodes ruins (caracteres estranhos) por meio do atributo fix_text da biblioteca [ftfy: fixes text for you](https://ftfy.readthedocs.io/en/latest/) e fazendo substituições de determinados caracteres para outros específicos.

In [None]:
from legalnlp.clean_functions import clean_bert

'''
def clean_bert(texto):   
    result = ftfy.fix_text(texto)
    result=result.replace("nº", "" )
    result=result.replace("n.º" ,"" )
    result=result.replace("n°", "")
    result=result.replace("lei estadual nº ", "lei") 
    result=result.replace("lei federal nº ", "lei") 
    result=result.replace("lei municipal nº ", "lei")
    result=result.replace("fl.", "fls.")
    result=result.replace("p.", "pp.")
    result=result.replace("art.", "artigo")
    result=result.replace("\n", " ")
    result=result.replace("dr", "dr.")
    result=result.replace("dra", "dr.")
    result=result.replace("ª", "")
    result=result.replace("º", "")
    result=result.replace("°", "")
    result=result.replace(":", " : ") 
    result=re.sub(' +', ' ', result)
    
    return(result)
'''

Com a função clean_bert, aplicamos na coluna de textos do nosso conjunto de dados:

In [None]:
data['text'] = data['text'].apply(lambda x:clean_bert(x))
data

Após a limpeza dos dados, vamos dar uma olhada em alguns exemplos:

In [None]:
str(data.loc[3, 'text'])

In [None]:
str(data.loc[1278, 'text'])

#Aplicando o Label Enconder para deixar o target com valores númericos

Agora, com os textos limpos, vamos ver brevemente como lidar com as variáveis categóricas através do LabelEnconder: 

In [None]:
encoder = LabelEncoder()
encoder.fit(data['label'])
data['encoded'] = encoder.transform(data['label'])
data

A coluna 'encoded' representa a forma que os elementos da coluna 'label' foram transformados em variáveis numéricas, como temos 3 classes, cada uma recebeu um valor 0, 1 ou 2, como podemos ver abaixo:

In [None]:
data.loc[[0, 1, 5], ['label', 'encoded']]

#Aplicando o tokenizador

O processo de tokenização é o processo de divisão do texto a fim de identificarmos as diferentes palavras das quais ele é formado. No caso do BERT, temos um tokenizador próprio que além de focar na identificação de cada palavra do textos, também há um processo de reconhecimento de palavras que não estão no nosso vocabulário propriamente dito, o que é feito por meio da divisão dessas palavras na tokenização, de tal forma que um palavra pode gerar mais de um token. Dessa maneira, o modelo pode aprender as partes dessa palavra e baseado no contexto em que ela está inserada e no contexto de outras palavras que possuam tokens em comum com ela é possível "aprender seu significado".

In [None]:
import pickle
import random
import os
import copy 

import torch
import torch.nn as nn
import torch.utils.data as tdata
import torch.optim as optim
import transformers
from transformers import AutoModel, AutoTokenizer, AutoConfig
from transformers import BertForPreTraining, BertModel, BertTokenizer, BertForMaskedLM, BertForNextSentencePrediction, BertForQuestionAnswering

torch.cuda.is_available()

In [None]:
# verificando se tem cuda disponível
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"
device = torch.device('cuda:0')

## Loading Tokenizer and PreTrained Model

link2 interessante: [Bert - Transformers Documentation](https://huggingface.co/transformers/)


Aqui vamos criar duas variáveis que servirão como o tokenizador e o modelo BERT que foi pré-treinado. 

In [None]:
from legalnlp.get_premodel import *
# Fazendo o download do modelo pre-treinado BERTikal e o seu tokenizador
get_premodel('bert')

In [None]:
%%time

bert_model =  BertModel.from_pretrained('/content/BERTikal/BERTikal').to(device)
bert_tokenizer = BertTokenizer.from_pretrained('/content/BERTikal/BERTikal/vocab.txt', do_lower_case=False)

clear_output()

Aqui as configurações do modelo:

In [None]:
# configuração do BERT
bert_model.config

# Usando o tokenizador

Nessa seção veremos como o tokenizador importado acima funciona com alguns exemplos, relacionando com a teoria apresentada no começo desse tutorial.

Links interessantes sobre o BERT:
https://nlpiation.medium.com/how-to-use-huggingfaces-transformers-pre-trained-tokenizers-e029e8d6d1fa

http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/

In [None]:
# Exemplo 1
print(bert_tokenizer.tokenize('Example to test the text tokenizer'))
print()

# Exemplo 2
print(bert_tokenizer.encode('Another example with the tokenizer'))
print(bert_tokenizer.decode(bert_tokenizer.encode('Another example with the tokenizer')))
print()

# Exemplo 3
tokens = bert_tokenizer.tokenize("This is a sample text to test the tokenizer.")
print(bert_tokenizer.convert_tokens_to_ids(tokens))
print(bert_tokenizer.decode(bert_tokenizer.convert_tokens_to_ids(tokens)))

In [None]:
bert_tokenizer.convert_tokens_to_ids(['[CLS]', '[SEP]'])

In [None]:
# Tamaho do vocabulário
print("Vocab size: ", bert_tokenizer.vocab_size)

In [None]:
bert = data['text'].apply(lambda x: bert_tokenizer.encode(x, add_special_tokens=True,max_length=512, truncation = True))
print('Max sentence length: ', max([len(sen) for sen in bert]))

# Transformando nossos dados em tensores

## Escrever texto aqui 

In [None]:
# Fazendo a padronização dos textos
wrapper = textwrap.TextWrapper()
data_text = list(data['text'])

for text in range(len(data_text[:4])):
  print(f'{wrapper.fill(data_text[text])}')
  print()

In [None]:
# Aplicando o bert_tokenizer em nosso dataset com um comprimento máximo de 512 tokens
encoded_inputs = bert_tokenizer(data_text, padding=True, truncation=True, max_length=512, return_tensors="pt")


#Agora temos nossos encoded_input em um dicionário com 3 chaves
encoded_inputs.keys()

In [None]:
#Visualiando o primeiro texto após a aplicação do tokenizador
print(encoded_inputs['input_ids'][0])

print()

# Mostrando o mesmo texto decodificado 
print(wrapper.fill(bert_tokenizer.decode(encoded_inputs['input_ids'][0])))

In [None]:
# Enviando os tensores para para a GPU
input_ids = encoded_inputs['input_ids'].to(device)

In [None]:
# Criando o nosso vetor de features 
features = []

# Aplicando o modelo pré-treinado em cada frase e adicionando-o ao nosso vetor

for i in tqdm(range(len(data_text))):

    with torch.no_grad():
    
      last_hidden_states = bert_model(input_ids[i:(i+1)])[1].cpu().numpy().reshape(-1).tolist()

    features.append(last_hidden_states)


In [None]:
# Criando um numpy array com as features extraidas
features = np.array(features)
features[:2]

In [None]:
# Printando o numero de linhas e de colunas das features extraídas
print('Número de linhas: ', features.shape[0])
print('Número de colunas: ', features.shape[1])

#Splitting the data

In [None]:
data.head(5)

In [None]:
features

In [None]:
df_features = pd.DataFrame(features)
features_label = pd.concat([df_features, data['encoded']], axis = 1)
features_label.shape

In [None]:
features_label.head(5)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(features_label.drop(columns = ['encoded']), features_label['encoded'], random_state = 42,test_size = 0.3)

In [None]:
# Tamanhos dos x e y de treino e teste
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

#Classificação

## O Modelo de Regressão Logística

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import loguniform

In [None]:
# Instanciando o modelo de Regressão Logística em que será feito o cross-validaton em seguida
log_reg = LogisticRegression(max_iter = 10000,
                             random_state = 42, 
                             solver = 'liblinear')

log_reg

In [None]:
y_train
#y_train.shape

In [None]:
# Definindo o espaço de busca de parâmetros
space = dict()
space['solver'] = ['liblinear']
space['penalty'] = ['l1'] #, 'l2'
space['C'] = np.logspace(-3, 3, 100)

rscv = RandomizedSearchCV(log_reg, space, cv = 3, n_jobs = -1, verbose = 1, random_state = 42, n_iter = 30)

# Fazendo o cross-validation
result = rscv.fit(x_train, y_train)

In [None]:
# Melhores hiperparâmetros
print('Best Score: %s' % result.best_score_)
print('Best Hyperparameters: %s' % result.best_params_)

In [None]:
log_reg = LogisticRegression(penalty = result.best_params_['penalty'],
                             C = result.best_params_['C'],
                             solver = result.best_params_['solver'],
                             random_state = 42)

# Treinando os modelos com os melhores hiperparâmetros
log_reg.fit(x_train, y_train)

In [None]:
# y hat - predicted values for y
y_pred = log_reg.predict(x_test)
y_pred[:5]

In [None]:
# Prevendo as probabilidades 
log_reg.predict_proba(x_test)[:5]

In [None]:
accuracy_score(y_test, y_pred)

In [None]:
y_pred_train = log_reg.predict(x_train)
y_pred_train[:5]

In [None]:
# Acurácia
accuracy_score(y_train, y_pred_train)

In [None]:
# Plotando a matriz de confusão
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot = True, cmap = 'Greens', fmt = '.3g')
plt.title("Heatmap")
plt.show()

In [None]:
print(classification_report(y_test, y_pred))

## O Modelo de Boosting: CatBoost

Links de exemplo de aplição do CatBoost: 

https://github.com/catboost/tutorials

https://github.com/catboost/tutorials/blob/master/classification/classification_tutorial.ipynb

Link a respeito de validação:
https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7

Nesa seção vamos aplicar um modelo chamado CatBoost (Categorical Boosting), que é um modelo de aprendizado por comitê (ensemble learning).

In [None]:
!pip install catboost
clear_output()

In [None]:
# Importando o CatBoostClassifier 
from catboost import CatBoostClassifier

In [None]:
# creating validation sets
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size = 0.1, stratify = y_train, random_state = 42)

In [None]:
tunned_model = CatBoostClassifier(
    loss_function = 'MultiClass',
#    thread_count = -1, 
    random_seed=42,
#    iterations=3000,
#    l2_leaf_reg=3,
#    bagging_temperature=1,
#    random_strength=1,
#    leaf_estimation_method='Newton'
)

tunned_model.fit(
    x_train, y_train,
    verbose=500,
    eval_set=(x_val, y_val),
    early_stopping_rounds = 100
)

In [None]:
y_cat_pred = tunned_model.predict(x_test)

In [None]:
accuracy_score(y_test, y_cat_pred)

In [None]:
tunned_model.predict_proba(x_test)[:5]

In [None]:
cm = confusion_matrix(y_test, y_cat_pred)
sns.heatmap(cm, annot = True, cmap = 'Greens', fmt = '.3g')
plt.title("Heatmap")
plt.show()

In [None]:
print(classification_report(y_test, y_cat_pred))