# Lista 9 - BERT

Nessa lista exploraremos como usar o HuggingFace para aplicar modelos baseados em transformers. O HuggingFace é (também) um conjunto de bibliotecas para Python que abstrai o treinamento, ajuste fino e utilização de modelos baseados em transformers, como o BERT. Como complemento aos slides das aulas, use o próprio [curso/livro texto do HuggingFace](https://huggingface.co/learn/nlp-course/chapter1/1), disponível gratuitamente, e a documentação das funções, para a resolução desta lista.

Vamos começar instalando as bibliotecas do ecosistema da HuggingFace que serão necessários e importando os itens necessários (Na dúvida sobre o que usar, dê uma olhada no que está sendo importado).

In [None]:
!pip install transformers[torch] tokenizers datasets
!pip install accelerate -U

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoConfig, pipeline, DataCollatorWithPadding, TrainingArguments, Trainer
from datasets import load_dataset, load_metric
import torch
import numpy as np

# Questão 1 - Usando um modelo ajustado
Nessa questão, vamos explorar como utilizar um modelo BERT que já foi ajustado para uma tarefa específica, rodando-o num input ou conjunto de inputs de interesse.
Usaremos o modelo **BERT Go Emotion Base** cujo identificador no HuggingFace é ``bhadresh-savani/bert-base-go-emotion``. Esse é um modelo BERT ajustado para o problema de classificar um texto em inglês segundo as emoções que ele expressa.
Complete a célula abaixo de forma a importar e usar o modelo em questão para a classificação do texto armazenado na variável ``text``, usando a estrutura ``pipeline``.

In [None]:
text="Then plainly know my heart's dear love is set on the fair daughter of rich Capulet: as mine on hers, so hers is set on mine;"
# Instancie o tokenizador do modelo
# [Seu código aqui]

# Instancie o modelo
# [Seu código aqui]

# Instancie o pipeline de uso a partir do modelo e do tokenizador
# Obs: instancie de forma a retornar o score previsto para todas as classes e não apenas
# a classe mais provável
# [Seu código aqui]

#Aplique o modelo ao texto
# [Seu código aqui]


# Questão 2 - Ajustando o BERTimbau para uma tarefa de classificação
O [BERTimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased) é o modelo de atenção pioneiro para o Português. Ele é uma versão do BERT pré-treinado com dados em português e está disponível abertamente no HUggingFace em dois tamanhos. Nesse exercício vamos fazer o ajuste-fino no BERTimbau Base (já pré-treinado) para a tarefa de Inferência em Linguagem Natural. Essa é a tarefa de receber dois textos, uma Premissa e uma Hipótese e classificar qual é a relação lógica entre premissa e hipótese. Usaremos o dataset ASSIN2 que modela esse como um problema de classificação em duas classes: Entailment (Existe acarretamento lógico) e None (Não existe acarretamento lógico).

Complete o código a seguir nos locais indicados, de forma a ajustar o BERTimbau para a tarefa citada. Na dúvida, consulte a documentação das referidas classes e o livro-texto do HuggingFace.

In [None]:

torch.manual_seed(1562517)

#CARREGAMENTO E PREPARAÇÃO DO DATASET

#Carregue o dataset "assin2"
# dataset = [Seu código aqui]

dataset=dataset.rename_columns({'entailment_judgment':'label'})


#CARREGAMENTO DO TOKENIZADOR
#Carregue o tokenizador do modelo (use  model_max_length=512):
#tokenizer = [Seu código aqui]

#TOKENIZAÇÃO:
# Crio uma função de tokenização dessa que processe cada dataset dessa forma permite que usemos a função .map() para aplicá-la no próprio dataset.
# O resultado de uma aplicação com map é um objeto do tipo dataset então continuaremos dispondo das comodidades dessa estrutura de dados,
# o que não aconteceríamos se aplicássemos o tokenizador diretamente ao dataset, caso no qual o resultado retornado seria um dicionário comum.
def tokenize_function(examples):
  return tokenizer([z for z in zip(examples["premise"], examples["hypothesis"])], truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

#"COLETOR" DE DADOS:
# Instancie um DataCollatorWithPadding a partir do tokenizador importado
#data_collator = [Seu código aqui]

#PARTICIONAMENTO E AMOSTRAGEM DO DATASET:
train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))
eval_dataset = tokenized_datasets["validation"].shuffle(seed=42)
test_set = tokenized_datasets["test"].shuffle(seed=42)

# CONFIGURAÇÕES DO MODELO:
label2id = {'NONE': 0, 'ENTAILMENT':1}
id2label = {0: 'NONE', 1: 'ENTAILMENT'}
config= AutoConfig.from_pretrained("neuralmind/bert-base-portuguese-cased", label2id=label2id, id2label=id2label, num_labels=2, seed=1)

# CARREGAMENTO DO MODELO:
# Carregue o modelo BERTimbau, usando as configurações definidas na linha anterior
# model = [Seu código aqui]

#ARGUMENTOS DE TREINAMENTO:
# Usando a classe TrainingArgs, crie um objeto que estabeleça os seguintes argumentos de treinamento?
# 1 época de treinamento
# 1 Validação a cada época
# 1 salvamento do modelo intermediário por época

#training_args = [Seu código aqui]


# MÉTRICA DE AVALIAÇÃO:

metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

# TREINADOR (Abstrai o loop de treinamento):
# Crie um objeto Trainer para treinar o modelo carregado, usando os argumentos
# de treinamento estabelecidos, os conjuntos de treinamento e validação produzidos
# a função compute_metrics para computar a métrica e o coletor de dados previamente instanciado

#trainer = [Seu código aqui]

# TREINAMENTO E SALVAMENTO
trained=trainer.train()
trainer.save_model("Bertinho")

# Questão 3
Ao carregar o modelo, na questão anterior, você deve ter recebido um aviso que começa com *Some weights of BertForSequenceClassification were not initialized...*
Explique porque carregar o modelo gera esse aviso e porque ele é esperado.



**Sua resposta aqui**