# 64. BERT

## BERT: Bidirectional Encoder Representations from Transformers

> Baseado em transformers.
> 
> Possuí apenas a parte do Encode, pois o objetivo é gerar uma representação da linguagem.
> 
> Bidirecional: Capaz de ler o texto em ambas as direções.
> 
> A representação do embedding para cada palavra é contextualizada.
> 
> O contexto é obtido buscando a relação entre as palavras utilizando multi-head attention.
> 
> 24 variações:
>> Tiny - 2 * 128
>>
>> Mini - 4 * 256
>>
>> Small - 4 * 512
>>
>> Medium - 8 * 512
>>
>> Base - 12 * 768
>>
>> Large - 24 * 1024

**Pré Treinamento**
> Treinamento não supervisionado.
>
> Bert em inglês, utiliza Toronto BookCorpus e Wikipédia.
>
> 4 dias utilizando 16 TPUs.
>
> Modelos pré-treinados estão disponíveis.
>> Masked language modeling
>>
>> Next sentence prediction
>
> Pode-se fazer ajuste fino (ajuste de pesos - custo baixo)
> 
> Masked Language Modeling (MLM):
>> 15% dos tokes são mascarados, recebendo [MASK].
>>
>> O modelo tenta prever o token mascarado através de um processo de treinamento (ajuste de pesos) baseado nas palavras não mascaradas.
>>
>> O modelo retorna uma lista de previsões com probabilidades.
>
> Next Sentence Prediction (NSP):
>> São utilizadas pares de sentenças.
>>
>> O objetivo é prever se a segunda sentença é a continuação da primeira.
>>
>> Problema de classificação binário: IsNext, NotNext.

**Bert**
> O Texto deve ser convertido em 3 embedding layers:
>> Token
>>
>> Segment
>>
>> Position

**Tokenizer**
> Se a palavra não estiver presente no vocabulário, é dividida n vezes até que seja encontrada no vocabulário.
>
> Palavras divididas são sinalizadas com ##

**Bert em Português**
> O Bert padrão é um modelo em inglês
> 
> Alternativas:
>> Multilingual Bert
>>> Treinado utilizando a Wikipédia em mais de 100 idiomas
>>> Open source
>>> Cased e Uncased
>>
>> BERTimbau
>>> Base e Large

# 65. Variantes de BERT

## ALBERT

> Versão mais leve.
> 
> Também possui diferentes versões.
> 
> Menos parâmetros, utilizando técnicas de redução de parâmetros.
> 
> Possui performance superior a vários outros modelos baseados em Transformers.

## roBERTa

> Robust Optimized BERT Pretraining Approach.
> 
> Implementado em PyTorch.
> 
> Sem etapa de previsão de próxima sentença.
> 
>  Treinado em diferentes tipos de textos (Notícias, novelas, etc.).

## Electra

> Efficient Learning an Encoder that Classifies Token Replacement Accurately.
> 
> Utiliza replace token detection technique (RTD) ao invés de máscaras.
> 
> RTD: Tokens são substituídos ao invés de mascarados.
> 
> Diferentes versões.

## XLNet

> Generalized Autoregressive Pretraining for Language Understanding.
> 
> Baseado em "Larger Bidirectional Transformer": XL.
> 
> Utiliza a técnica de permutação onde os tokens são previstos de forma aleatória.

## DistilBERT

> Versão menor e mais rápida do BERT.
> 
> Desenvolvido pelo Hugging Face.
> 
> Baseado em knowledge distillation.
>> Compressão de modelo, onde um modelo menor (estudante) é treinado a partit de um modelo maior (teacher).

# 66. Hugging Face e OpenAI

> Empresas especializadas em modelos de IA.
> 
> Especialmente NLP.
> 
> OpenAI criado os modelos GPT.

## Hugging Face

> Comunidade de IA - Empresa:
>> Modelos.
>> Datasets.
>> Serviços como Suporte Especializado, AutoNLP...
> 
> Biblioteca Transformers.

**Pipeline**
> Análise de Sentimento.
> 
> Geração de textos.
> 
> Perguntas e Respostas.
> 
> NER.
> 
> Preencha a lacuna.
> 
> Resumos.
> 
> Tradução.

## OpenAI

**Família de modelos GPT**
> Com maior e menor capacidade/custo/performance.
> 
> Método e Modelo Genérico para qualquer tarefa.
> 
> Modelo na Núvem.
> 
> Possível fine-tuning.
> 
> Cobrança por Token.
> 
> Necessita autenticação por chave.

https://platform.openai.com/api-keys

**API Key**
> sk-proj-...



# 67. Modelos Pré-treinados

https://huggingface.co/models

# 68. Aplicação de Perguntas e Respostas

In [None]:
!pip install transformers
!pip install transformers[tf]
!pip install h5py

In [None]:
import transformers
from transformers import pipeline

In [None]:
qea = pipeline("question-answering", model="pierreguillou/bert-large-cased-squad-v1.1-portuguese")

In [None]:
texto =  'Carl Edward Sagan foi um cientista planetário, astrônomo, astrobiólogo, astrofísico, escritor, divulgador científico e ativista norte-americano.'
#pergunta = 'Quais as profissões de Sagan?'
pergunta = 'Quem é Carl Sagan?'

In [None]:
resposta = qea(question=pergunta, context=texto)

In [None]:
print(pergunta)

In [None]:
print(resposta['answer'])

In [None]:
print(resposta['score'])

# 69. Aplicação de Preenchimento de Lacunas

In [None]:
import transformers
from transformers import pipeline

In [None]:
mascarar = pipeline("fill-mask", model="neuralmind/bert-base-portuguese-cased")

In [None]:
texto = mascarar("Existe uma chance do copo cair no [MASK]")
for x in range(len(texto)):
    print(texto[x])

In [None]:
texto = mascarar("Brasília é a capital do [MASK]")
for x in range(len(texto)):
    print(texto[x])

# 70. Aplicação de Resumos

In [None]:
import transformers
from transformers import pipeline

In [None]:
resumir = pipeline("summarization")

In [None]:
texto = """
INTRODUÇÃO 
Este 
trabalho 
tem como objetivo fundamental 
proporcionar ao estudante e interessado pela economia industrial 
um panorama de como funcionam as indústrias de 
transformação e de beneficiamento de um país, de uma região, 
ou de um município, que as tem como a maior fonte de emprego 
e de renda social, assim como a geração de produção para a 
sociedade. Os setores essenciais da economia são: o primário 
(agricultura, pecuária e extração vegetal); o terciário (o setor de 
serviços em geral); e, o secundário (as indústrias propriamente 
ditas), acionados pelas respectivas participações de trabalho, 
capital fixo e recursos naturais, acionados pela tecnologia que 
implementa o processo de produção da economia. Tudo isto 
constitui um sistema, que entrelaça as relações existentes entre 
todos que influenciam a dinamização econômica e social, ao 
proporcionar, inicialmente a produção, emprego e renda; depois, 
o crescimento com o desenvolvimento sócio-econômico; por 
conseqüência, o bem-estar aos membros da sociedade, quer 
ocupados, economicamente ativos ou desocupados. 
Em uma economia industrial, o primeiro ponto que deve 
ser abordado é a estrutura sistêmica, ou a interconexão que 
existe entre as diversas partes da economia, na qual a economia 
de transformação e beneficiamento está interligada, devido às 
necessidades que existem de matérias-primas e insumos, assim 
como as técnicas de comercialização que estão no setor serviços 
de um país. Daí, parte-se para o entendimento do conceito de 
indústria em sua adversidade para que se possam caracterizar os 
componentes participantes da economia industrial. Este setor de 
transformação está dividido em gêneros, com a sua subdivisão 
em ramos industriais que estão caracterizados como dinâmicos e 
tradicionais devido ao seu nível de utilização de capital 
intensivo, ou mão-de-obra intensiva. A indústria está 
decomposta em tamanhos de empresa, isto é, ser pequena, média 
ou 
grande empreendimento industrial. Um outro fator 
importante quanto à estrutura industrial é a influência da 
localização, do mercado, da tecnologia, e das oportunidades de 
investimentos como fundamentais ao desenvolvimento do 
sistema econômico.
"""

In [None]:
resumo = resumir(texto, max_length=100, min_length=50)
print(resumo)

# 71. Aplicação de Geração de Texto

In [1]:
import transformers
from transformers import pipeline

In [2]:
gerador = pipeline("text-generation", model="egonrp/gpt2-small-portuguese")

config.json:   0%|          | 0.00/666 [00:00<?, ?B/s]




pytorch_model.bin:   0%|          | 0.00/510M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/92.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/850k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/508k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.21M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

In [3]:
texto = "Em sentido estrito, ciência refere-se ao sistema de adquirir conhecimento baseado no método científico."

In [8]:
resultado = gerador(texto, max_length=60, do_sample=True)

In [9]:
print(resultado)

[{'generated_text': 'Em sentido estrito, ciência refere-se ao sistema de adquirir conhecimento baseado no método científico. O nome deriva de um latim primitivo, do latim "sialtus".\n\nO primeiro texto a ser escrito de uma língua portuguesa é o ""Depoimentos de Alertas"", publicado em meados do'}]
