<a href="https://colab.research.google.com/github/osmarbraz/exemplos_BERT/blob/main/ExemplosQuestionAnweringBERT_pt_br.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplo de Question Answering em português

Usando biblioteca Transformer e MCL BERT ajustado para QA.

# 1 Instalação dos pacotes das biblioteca Transformer

In [1]:
# Instala a última versão da biblioteca
!pip install transformers

# Instala uma versão Especifica da biblioteca
# !pip install -U transformers==4.5.1



# 2 Modelos BERT de QA Disponíveis

https://huggingface.co/models?filter=pt&pipeline_tag=question-answering


* 'pucpr/bioBERTpt-squad-v1.1-portuguese'
* 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
* 'pierreguillou/bert-large-cased-squad-v1.1-portuguese'
* 'mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt'






# 3 Usando Classes do Huggingface



## Carrega o modelo

In [2]:
# Importando as bibliotecas
import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

nomeModeloBERT = 'mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt'
#nomeModeloBERT = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
#nomeModeloBERT = 'pierreguillou/bert-large-cased-squad-v1.1-portuguese'

# Carrega o tokenizador
tokenizer = AutoTokenizer.from_pretrained(nomeModeloBERT) 

# Carrega o modelo
model = AutoModelForQuestionAnswering.from_pretrained(nomeModeloBERT)

## Exemplo 1

Existem três etapas para o QA:
1. tokenizar a entrada
2. obter pontuações do modelo
3. obter a resposta

Essas etapas são discutidas em detalhes no HF [Transformer Notebooks](https://huggingface.co/transformers/notebooks.html).


In [3]:
contexto = r"""
          Pilha é uma estrutura de dados linear que segue uma ordem específica na qual as
          operações são executadas. Um pedido  pode ser UEPS(último a entrar é o primeiro
          a sair) ou PEPS(primeiro a entrar é o primeiro a sair). Em inglês UEPS é
          LIFO(last in first out) e PEPS é FIFO(first in firt out). Existem muitos
          exemplos da vida real de uma pilha. Considere um exemplo de pratos empilhados um
          sobre o outro na cantina. A placa que está no topo é a primeira a ser removida,
          isto é, a placa que foi colocada na posição mais inferior permanece na pilha
          pelo maior período de tempo. Portanto, pode-se ver simplesmente seguir a ordem
          UEPS/PEPS. Uma fila é uma estrutura linear que segue uma ordem específica na
          qual as operações são executadas. O pedido em um restaurante é o primeiro a
          entrar e o primeiro a sair(PEPS). Um bom exemplo de fila é qualquer fila de
          consumidores para um recurso em que o consumidor que veio primeiro é atendido
          primeiro. A diferença entre pilhas e filas está na remoção. Em uma pilha,
          removemos o item adicionado mais recentemente; em uma fila, removemos o item
          adicionado menos recentemente.
          """

pergunta = "O que é uma pilha?"

# 1. Tokenizando a entrada e o contexto
entrada = tokenizer.encode_plus(pergunta, contexto, return_tensors="pt") 

# 2. Obtendo a pontuação do modelo
pontuacao_inicio_resposta, pontuacao_fim_resposta = model(**entrada, return_dict=False)
inicio_resposta = torch.argmax(pontuacao_inicio_resposta) 
fim_resposta = torch.argmax(pontuacao_fim_resposta) + 1 

# 3. Obtendo a resposta
resposta = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(entrada["input_ids"][0][inicio_resposta:fim_resposta]))

print(f"Resposta:", resposta)

Resposta: uma estrutura de dados linear que segue uma ordem especifica na qual as operacoes sao executadas


## Exemplo 2


In [4]:
contexto = r"""
          A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, 
          uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). 
          A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, 
          em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. 
          Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados 
          tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos. 
          Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021, 
          pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios, 
          com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas.
          """

pergunta = "Quando começou a pandemia de Covid-19 no mundo?"

# 1. Tokenizando a entrada e o contexto
entrada = tokenizer.encode_plus(pergunta, contexto, return_tensors="pt") 

# 2. Obtendo a pontuação do modelo
pontuacao_inicio_resposta, pontuacao_fim_resposta = model(**entrada, return_dict=False)
inicio_resposta = torch.argmax(pontuacao_inicio_resposta) 
fim_resposta = torch.argmax(pontuacao_fim_resposta) + 1 

# 3. Obtendo a resposta
resposta = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(entrada["input_ids"][0][inicio_resposta:fim_resposta]))

print(f"Resposta:", resposta)

Resposta: 1 de dezembro de 2019


## Exemplo 3

In [5]:
contexto = r"""No dia 22 de abril comemoramos o descobrimento do Brasil. Na mesma data, 
            só que no ano de 1.500, Pedro Álvares Cabral chegava às terras de "Vera Cruz", 
            que mais tarde seriam chamadas de Brasil. 
            Ele chegou próximo à região de Porto Seguro, no estado da Bahia.
            Pedro Álvares Cabral não foi o primeiro português a pisar 
            em solo brasileiro. Na verdade, quem fez isso foi Duarte Pacheco Pereira, um navegador militar. 
            Em 1498 ele foi designado por D. Manuel I para uma expedição secreta para reconhecer as zonas situadas além da marcação de Tordesilhas. 
            A expedição dele partiu do arquipélago de Cabo Verde e chegou em algum ponto da costa entre o Maranhão e o Pará. A partir desse ponto, 
            Pereira seguido pela costa Norte, até a foz do Rio Amazonas e a Ilha de Marajó."""

pergunta = "Quem descobriu o Brasil?"

# 1. Tokenizando a entrada e o contexto
entrada = tokenizer.encode_plus(pergunta, contexto, return_tensors="pt") 

# 2. Obtendo a pontuação do modelo
pontuacao_inicio_resposta, pontuacao_fim_resposta = model(**entrada, return_dict=False)
inicio_resposta = torch.argmax(pontuacao_inicio_resposta) 
fim_resposta = torch.argmax(pontuacao_fim_resposta) + 1 

# 3. Obtendo a resposta
resposta = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(entrada["input_ids"][0][inicio_resposta:fim_resposta]))

print(f"Resposta:", resposta)

Resposta: pedro alvares cabral


# 4 Usando Pipeline do Huggingface

## Carrega o pipeline

In [6]:
# Importando as bibliotecas
import transformers
from transformers import pipeline

In [7]:
# Carrega o pipeline
model_qa = pipeline('question-answering', 
                    model='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt', 
                    tokenizer='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt')

In [8]:
# Importando as bibliotecas
#import transformers
#from transformers import QuestionAnsweringPipeline

# model_qa = QuestionAnsweringPipeline(model='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt', tokenizer='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt')

## Exemplo 1

In [9]:
contexto = r"""
          Pilha é uma estrutura de dados linear que segue uma ordem específica na qual as
          operações são executadas. Um pedido  pode ser UEPS(último a entrar é o primeiro
          a sair) ou PEPS(primeiro a entrar é o primeiro a sair). Em inglês UEPS é
          LIFO(last in first out) e PEPS é FIFO(first in firt out). Existem muitos
          exemplos da vida real de uma pilha. Considere um exemplo de pratos empilhados um
          sobre o outro na cantina. A placa que está no topo é a primeira a ser removida,
          isto é, a placa que foi colocada na posição mais inferior permanece na pilha
          pelo maior período de tempo. Portanto, pode-se ver simplesmente seguir a ordem
          UEPS/PEPS. Uma fila é uma estrutura linear que segue uma ordem específica na
          qual as operações são executadas. O pedido em um restaurante é o primeiro a
          entrar e o primeiro a sair(PEPS). Um bom exemplo de fila é qualquer fila de
          consumidores para um recurso em que o consumidor que veio primeiro é atendido
          primeiro. A diferença entre pilhas e filas está na remoção. Em uma pilha,
          removemos o item adicionado mais recentemente; em uma fila, removemos o item
          adicionado menos recentemente.
          """

pergunta = "O que é uma pilha?"

resultado = model_qa(question=pergunta, context=contexto)

print(" Resposta QA: ", resultado['answer'], ", pontuação: ",  round(resultado['score'], 4),  ", início: ", resultado['start'],  ", fim: ", resultado['end'])

 Resposta QA:  uma estrutura de dados linear , pontuação:  0.0012 , início:  19 , fim:  48


## Exemplo 2

In [10]:
contexto = r"""
          A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, 
          uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). 
          A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, 
          em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano. 
          Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados 
          tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos. 
          Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021, 
          pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios, 
          com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas.
          """

pergunta = "Quando começou a pandemia de Covid-19 no mundo?"

resultado = model_qa(question=pergunta, context=contexto)

print(" Resposta QA: ", resultado['answer'], ", pontuação: ",  round(resultado['score'], 4),  ", início: ", resultado['start'],  ", fim: ", resultado['end'])

 Resposta QA:  1 de dezembro de 2019 , pontuação:  0.6949 , início:  368 , fim:  389


## Exemplo 3

In [11]:
pergunta = "Quem descobriu o Brasil?"

contexto = """No dia 22 de abril comemoramos o descobrimento do Brasil. Na mesma data, 
            só que no ano de 1.500, Pedro Álvares Cabral chegava às terras de "Vera Cruz", 
            que mais tarde seriam chamadas de Brasil. 
            Ele chegou próximo à região de Porto Seguro, no estado da Bahia.
            Pedro Álvares Cabral não foi o primeiro português a pisar 
            em solo brasileiro. Na verdade, quem fez isso foi Duarte Pacheco Pereira, um navegador militar. 
            Em 1498 ele foi designado por D. Manuel I para uma expedição secreta para reconhecer as zonas situadas além da marcação de Tordesilhas. 
            A expedição dele partiu do arquipélago de Cabo Verde e chegou em algum ponto da costa entre o Maranhão e o Pará. A partir desse ponto, 
            Pereira seguido pela costa Norte, até a foz do Rio Amazonas e a Ilha de Marajó."""

resultado = model_qa(question=pergunta, context=contexto)

print(" Resposta QA: ", resultado['answer'], ", pontuação: ",  round(resultado['score'], 4),  ", início: ", resultado['start'],  ", fim: ", resultado['end'])

 Resposta QA:  Pedro Álvares Cabral , pontuação:  0.9999 , início:  110 , fim:  130


# Respondendo várias perguntas de um conjunto de dados

## Instalando a biblioteca Dataset

https://huggingface.co/docs/datasets/installation.html

In [12]:
!pip install datasets



## Carregando um conjunto de dados

Carregando o SQUAD 1.0 traduzido.

Lista dos conjunto de dados em português.
https://huggingface.co/datasets?filter=languages:pt

In [13]:
# Import da biblioteca
from datasets import load_dataset

# Carrega o conjunto de dados
datasets = load_dataset('squad_v1_pt')

print(datasets)

Using custom data configuration default
Reusing dataset squad_v1_pt (/root/.cache/huggingface/datasets/squad_v1_pt/default/1.1.0/65162e0fbe44f19a4d2ad9f5f507d2e965e74249fc3239dc78b4e3bd93bab7c4)


DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 87599
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 10570
    })
})


## Respondendo um conjunto de dados de perguntas

In [14]:
# Importando as bibliotecas
import transformers
from transformers import pipeline

In [15]:
# Carrega o pipeline
model_qa = pipeline('question-answering', model='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt', tokenizer='mrm8488/bert-base-portuguese-cased-finetuned-squad-v1-pt')

In [16]:
# Percorre o conjunto de dados
for i, pergunta in enumerate(datasets['validation']):
  # Responde somente 10 perguntas
  if i < 10:
    print("\nPergunta:", pergunta['question'])
    print("Contexto:",pergunta['context'])
    print("       Respostas esperada:",pergunta['answers'])
    for j, resposta in enumerate(pergunta['answers']['text']):
        print("       Resposta esperada:",resposta)

    resultado = model_qa(question=pergunta['question'], context=pergunta['context'])

    print("      Resposta QA: ", resultado['answer'], ", pontuação: ",  round(resultado['score'], 4),  ", início: ", resultado['start'],  ", fim: ", resultado['end'])



Pergunta: Qual time da NFL representou o AFC no Super Bowl 50?
Contexto: Super Bowl 50 foi um jogo de futebol americano para determinar o campeão da National Football League (NFL) para a temporada de 2015. O campeão da American Football Conference (AFC), Denver Broncos, derrotou a campeã Carolina Panthers, da National Football Conference (NFC), por 24 a 10, e conquistou seu terceiro título no Super Bowl. O jogo foi disputado em 7 de fevereiro de 2016, no Levi&#39;s Stadium, na área da baía de San Francisco, em Santa Clara, Califórnia. Como este foi o 50º Super Bowl, a liga enfatizou o &quot;aniversário de ouro&quot; com várias iniciativas de ouro, bem como a suspensão temporária da tradição de nomear cada jogo do Super Bowl com algarismos romanos (sob os quais o jogo seria conhecido como &quot; Super Bowl L &quot;), para que o logotipo possa destacar os algarismos arábicos 50.
       Respostas esperada: {'text': ['Denver Broncos', 'Denver Broncos', 'Denver Broncos'], 'answer_start': [