<a href="https://colab.research.google.com/github/osmarbraz/exemplos_BERT/blob/main/ExemplosPythonBERTTransformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de uso do BERT in Transformers by Huggingface

Funções e exemplos de uso BERT através da biblioteca `Transformer` da [Huggingface](https://huggingface.co/transformers/).

- Exemplo de carregamento do tokenizador e modelo através de diretório e da comunidade
  - Download do arquivos do modelo 
  
- Função de retorno do tokenizador. 
- Função de retorno do modelo. 
- Função de retorno do tokenizador e do modelo. 

Artigo base do [BERT](https://arxiv.org/pdf/1810.04805.pdf).

O tokenizador da BERT utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb


# 1 Instalação dos pacotes das biblioteca Transformer

In [None]:
# Instala a última versão da biblioteca
!pip install transformers

# Instala uma versão específica da biblioteca
# !pip install -U transformers==4.5.1



# 2 Carregamento do modelo e tokenizador do BERT do Transfomer by Huggingface

Os tokenizadores e os modelos PyTorch podem ser carregados diretamente da comunidade ou através do download de arquivos.

Independente de onde foi carregado o tokenizador ou o modelo Pytorch existe a dpendência da instalação da biblioteca.

### Carregando BERT da comunidade

Lista de **modelos da comunidade** podem ser consultadas em 
https://huggingface.co/models.

Lista dos nomes dos modelos em **português** disponíveis na comunidade (https://github.com/neuralmind-ai/portuguese-bert):  
* **'neuralmind/bert-base-portuguese-cased'**
* **'neuralmind/bert-large-portuguese-cased'**

Lista dos nomes dos modelos em **inglês** disponíveis na comunidade:
* **'bert-base-uncased'**
* **'bert-large-uncased'**

O modelo do tokenizador pode ser acessado de duas formas, ou utilizando as AutoClasses ou Classes Específicas. A seguir as duas formas de carregar o modelo BERT.

#### AutoClasses

As `AutoClasses` recuperam automaticamente o modelo mais relevante, dado o nome/caminho para os pesos/configuração /vocabulário pré-treinados. A API destas classes podem ser consultadas [aqui](https://huggingface.co/transformers/model_doc/auto.html).

A classe `AutoTokenizer` identifica a arquitetura a partir do nome ou do caminho do modelo pré-treinado que você está fornecendo ao método from_pretrained.

Ao instanciar um  `AutoModel`, `AutoConfig` ou `AutoTokenizer` criará diretamente uma classe da arquitetura relevante, por exemplo:
- `tokenizador = AutoTokenizer.from_pretrained('bert-base-cased')` 
  - criará uma instância de `BertTokenizerr`.
- `model = AutoModel.from_pretrained('bert-base-cased')` 
  - criará uma instância de `BertModel`.

In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import AutoModel, AutoTokenizer

# Carregando o modelo do tokenizador o modelo do PyTorch da comunidade utilizando AutoClasses

# Tokenizador do modelo utilizando as AutoClasses
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased')

# Modelo pré-treinado utilizando as AutoClasses
model = AutoModel.from_pretrained('neuralmind/bert-base-portuguese-cased')

#### Classes específicas

In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import BertModel, BertTokenizer

# Carregando o modelo do tokenizador o modelo do PyTorch da comunidade utilizando classes específicas

# Tokenizador do modelo utilizando classe específica
tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased')

# Modelo pré-treinado utilizando classe específica
model = BertModel.from_pretrained('neuralmind/bert-base-portuguese-cased')

### Carregando BERT de diretório(arquivo)

O carregamento do BERT a partir de um diretório com os arquivos do tokenizador e do modelo. 

Os arquivo do modelo devem deve ser colocados na pasta '/content/modelo'.

Este arquivo pode ser utilizado tanto pelas classes especificas ou pelas AutoClasses, conforme apresentado na seção 'AutoTokenizer'.

Link dos arquivos do modelo BERT pré-treinado em português(pt-br) da neuralmind-ai chamado de [BERTTimbau](https://github.com/neuralmind-ai/portuguese-bert).

O BERT em português édisponibilizado em dois tamanhos: **BASE** e **LARGE** e em dois formatos: checkpoint do **TensorFlow** ou do **Pytorch**.

O arquivo do **Pytorch** é manipulado pela implementação da biblioteca torch disponível [aqui](https://pytorch.org/docs/stable/torch.html)

**BERT Base: 1.1 Gbytes**
* **Pytorch Checkpoint(Usado no exemplo)** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip

* **Tensor Flow Checkpoint** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_tensorflow_checkpoint.zip

* **Vocabulário(Usado no exemplo)** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/vocab.txt


**BERT Large: 3.2 Gbytes**
* **Pytorch Checkpoint** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip

* **Tensor Checkpoint** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_tensorflow_checkpoint.zip

* **Vocabulário** - https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/vocab.txt

-----------------
**Correção dos nomes dos arquivos para usar com o BERT as Service:**
* 'large'
    * model.ckpt-1000000.data-00000-of-00001 > bert_model.ckpt.data-00000-of-00001
    * model.ckpt-1000000.index bert_model.ckpt.index
    * model.ckpt-1000000.meta > bert_model.ckpt.meta

* 'base'
    * model.ckpt.data-00000-of-00001> bert_model.ckpt.data-00000-of-00001
    * model.ckpt.index > bert_model.ckpt.index
    * model.ckpt.meta > bert_model.ckpt.meta
-------------------------
O modelo foi treinado com dados de **BrWaC** (Brazilian Web as Corpus):

https://www.researchgate.net/publication/326303825_The_brWaC_Corpus_A_New_Open_Resource_for_Brazilian_Portuguese


#### Usando o BERT do diretório

##### Download do arquivo do Pytorch Checkpoint

É necessário realizar o download do arquivo de checkpoint e do vocabulário.

O arquivo do checkpoint precisa ser descompactado.

Os arquivos do modelo e do vocabulário são movidos para o diretório `modelo`.

In [None]:
# Importando as bibliotecas
import os

# Comente uma das urls para carregar modelo do BERT de tamanhos diferentes(base/large)
# url do arquivo do modelo do Pytorch checkpoint

# arquivo menor(base) 1.1 Gbytes
# url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"

# arquivo grande(large) 3.5 Gbytes
url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"
      
# Recupera o nome do arquivo do modelo da url anterior
arquivo = url.split("/")[-1]

# Nome do arquivo do vocabulário
arquivo_vocab = "vocab.txt"

# Caminho do arquivo na url
caminho = url[0:len(url)-len(arquivo)]

# Diretório descompactação do modelo
diretorio = '/content/modelo'

# Verifica se o diretório do modelo existe a partir do diretório corrente
if not os.path.exists(diretorio):
   
    # Realiza o download do arquivo do tokenizador
    !wget $url
    
    # Descompacta o arquivo no diretório do modelo
    !unzip -o $arquivo -d $diretorio

    # Realiza o download do arquivo do vocabulário
    # O vocabulário não está no arquivo compactado acima
    # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
    url_vocab = caminho + arquivo_vocab

    # Realiza o download do arquivo do vocabulário
    !wget $url_vocab
    
    # Move o arquivo do vocabulário para o diretório do modelo
    !mv $arquivo_vocab $diretorio
            
    # Apaga o arquivo baixado
    #!rm $arquivo
    
    # Move o arquivo do modelo para o diretório do modelo
    !mv $arquivo $diretorio
    
    print('Diretório do modelo:\'' + diretorio + '\' pronta!')
else:
    print('Diretório do modelo:\'' + diretorio + '\' já existe!')

# Lista o diretório corrente
!ls -la

Diretório do modelo:'/content/modelo' já existe!
total 28
drwxr-xr-x 1 root root 4096 Feb  2 15:35 .
drwxr-xr-x 1 root root 4096 Feb  2 15:08 ..
drwxr-xr-x 1 root root 4096 Jan 28 17:15 .config
drwxr-xr-x 2 root root 4096 Feb  2 15:13 modelo
drwxr-xr-x 2 root root 4096 Feb  2 15:34 modelobase
drwxr-xr-x 2 root root 4096 Feb  2 15:35 modelolarge
drwxr-xr-x 1 root root 4096 Jan 20 17:27 sample_data


##### Carregando o BERT do diretório

Carregando o **tokenizador** e **modelo** BERT do diretório '/content/modelo/' do diretório padrão.

A implementação do huggingface pytorch inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PNL. Embora essas interfaces sejam todas construídas sobre um modelo treinado de BERT, cada uma possui diferentes camadas superiores e tipos de saída projetados para acomodar suas tarefas específicas de PNL.

Aqui está a lista atual de classes fornecidas para o ajuste fino:
* BertModel
* BertForPreTraining
* BertForMaskedLM
* BertForNextSentencePrediction
* BertForSequenceClassification
* BertForTokenClassification
* BertForQuestionAnswering

A documentação para estas pode ser encontrada em [aqui](https://huggingface.co/transformers/v2.2.0/model_doc/bert.html).


In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import BertModel, BertTokenizer

# Carregando o modelo do tokenizador o modelo do PyTorch do diretório  utilizando classes específicas

print('Carregando o tokenizador BERT do diretório \'' + diretorio + '\'...')

# Tokenizador do modelo utilizando classe específica
tokenizer = BertTokenizer.from_pretrained('/content/modelo/', 
                                          do_lower_case=False)

print('Carregando o modelo BERT do diretório \'' + diretorio + '\'...')

# Modelo pré-treinado utilizando classe específica
model = BertModel.from_pretrained('/content/modelo/')

Carregando o tokenizador BERT do diretório '/content/modelo'...
Carregando o modelo BERT do diretório '/content/modelo'...


## Exemplos de formas de carregamento do BERT

#### Usando o BERT da comunidade ou diretório v1

Permite configurar a **fonte do modelo**.

A variável `url` setada especifica que o BERT deve ser carregado de um diretório, caso contrário da comunidade.

##### Download do arquivo do Pytorch Checkpoint

É necessário realizar o download do arquivo de checkpoint e do vocabulário.

O arquivo do checkpoint precisa ser descompactado.

Os arquivos do modelo e do vocabulário são movidos para o diretório `modelo`.

In [None]:
# Importando as bibliotecas
import os

# Variável para setar o tamanho do arquivo do BERT(base ou large)
url = None

# Comente uma das urls para carregar modelo do BERT de tamanhos diferentes(base/large)
# url do arquivo do modelo do Pytorch checkpoint

# arquivo menor(base) 1.1 Gbytes
# url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"

# arquivo grande(large) 3.5 Gbytes
# url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

# Se a variável foi setada
if url:

    # Diretório descompactação do modelo
    diretorio = '/content/modelo'

    # Recupera o nome do arquivo do modelo da url anterior
    arquivo = url.split("/")[-1]

    # Nome do arquivo do vocabulário
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na url
    caminho = url[0:len(url)-len(arquivo)]

    # Verifica se a pasta de descompactação existe no pasta corrente
    if not os.path.exists(diretorio):
   
        # Realiza o download do arquivo do modelo
        !wget $url
    
        # Descompacta o arquivo na pasta de destino
        !unzip -o $arquivo -d $diretorio

        # Realiza o download do arquivo do vocabulário
        # O vocabulário não está no arquivo compactado acima
        # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
        url_vocab = caminho + arquivo_vocab

        # Realiza o download do arquivo do vocabulário
        !wget $url_vocab
    
        # Move o arquivo do vocabulário para o diretório do modelo
        !mv $arquivo_vocab $diretorio
            
        # Move o arquivo do modelo para o diretório do modelo
        !mv $arquivo $diretorio
        
        print('Diretório do modelo:\'' + diretorio + '\' pronta!')
    else:      
      print('Diretório do modelo:\'' + diretorio + '\' já existe!')

    #lista a pasta corrente
    !ls -la $diretorio
else:
    print('Variável url não setada!')

Variável url não setada!


##### Carregando o BERT



In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import BertModel, BertTokenizer

# Se a variável url foi setada
if url:
    # Carregando o Tokenizador do diretório
    print('Carregando o tokenizador BERT do diretório \'' + diretorio + '\'...')

    tokenizer = BertTokenizer.from_pretrained(diretorio)

    # Carregano o Modelo do diretório
    print('Carregando o modelo BERT do diretório \'' + diretorio + '\'...')

    model = BertModel.from_pretrained(diretorio, 
                                      do_lower_case=False)

else:
    # Carregando o Tokenizador da comunidade
    print('Carregando o tokenizador BERT da comunidade...')

    tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', 
                                              do_lower_case=False)

    # Carregando o Modelo da comunidade
    print('Carregando o modelo BERT da comunidade...')

    model = BertModel.from_pretrained('neuralmind/bert-base-portuguese-cased')  


Carregando o tokenizador BERT da comunidade...
Carregando o modelo BERT da comunidade...


#### Usando o BERT da comunidade ou diretório v2

Permite configurar o **tamanho do modelo** e a **fonte do modelo**.

A variável `fonteBERT` com os valores `comunidade` ou `diretório` especifica se deve ser carregado o BERT de um diretório ou da comunidade.

A variável `tamanhoBERT` com os valores `base` ou `large` especifica se o tamanho do modelo BERT a ser utilizado.

##### Download do arquivo do Pytorch Checkpoint

É necessário realizar o download do arquivo de checkpoint e do vocabulário.

O arquivo do checkpoint precisa ser descompactado.

Os arquivos do modelo e do vocabulário são movidos para o diretório `modelo`.

In [None]:
# Importando as bibliotecas
import os

# Variável fonte especifica a origem do modelo(comunidade ou diretório)
#fonteBERT = 'comunidade'
fonteBERT = 'diretorio'

# Especifica o tamanho do modelo a ser carregado(base ou large)
tamanhoBERT = 'large'
#tamanhoBERT = 'base'

# Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
if fonteBERT == 'diretorio':
    
    # Se a variável 'tamanhoBERT' foi setada para 'base' faz o download do arquivo do tamanho base do BERT, caso contrário do large.
    if tamanhoBERT == 'base':
        # url do arquivo do modelo do Pytorch checkpoint
        # arquivo menor(base) 1.1 Gbytes
        url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"
    else:
        # url do arquivo do modelo do Pytorch checkpoint
        # arquivo grande(large) 3.5 Gbytes
        url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

    # Diretório descompactação do modelo
    diretorio = '/content/modelo'

    # Recupera o nome do arquivo do modelo da url anterior
    arquivo = url.split("/")[-1]

    # Nome do arquivo do vocabulário
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na url
    caminho = url[0:len(url)-len(arquivo)]

    # Verifica se a pasta de descompactação existe no pasta corrente
    if not os.path.exists(diretorio):
   
        # Realiza o download do arquivo do modelo
        !wget $url
    
        # Descompacta o arquivo na pasta de destino
        !unzip -o $arquivo -d $diretorio

        # Realiza o download do arquivo do vocabulário
        # O vocabulário não está no arquivo compactado acima
        # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
        url_vocab = caminho + arquivo_vocab

        # Realiza o download do arquivo do vocabulário
        !wget $url_vocab
    
        # Move o arquivo do vocabulário para o diretório do modelo
        !mv $arquivo_vocab $diretorio
            
        # Move o arquivo do modelo para o diretório do modelo
        !mv $arquivo $diretorio      
                
        print('Diretório do modelo:\'' + diretorio + '\' pronta!')
    else:      
      print('Diretório do modelo:\'' + diretorio + '\' já existe!')

    #lista a pasta corrente
    !ls -la $diretorio
else:
    print('Será carregado o BERT da comunidade')

Diretório do modelo:'/content/modelo' já existe!
total 2525908
drwxr-xr-x 2 root root       4096 Feb  2 15:13 .
drwxr-xr-x 1 root root       4096 Feb  2 15:35 ..
-rw-r--r-- 1 root root 1244275810 Jan 22  2020 bert-large-portuguese-cased_pytorch_checkpoint.zip
-rw-rw-r-- 1 root root        874 Jan 12  2020 config.json
-rw-rw-r-- 1 root root 1342014951 Jan 12  2020 pytorch_model.bin
-rw-r--r-- 1 root root     209528 Jan 21  2020 vocab.txt


##### Carregando o BERT

Carregando o **tokenizador** e **modelo** BERT do diretório '/content/modelo/' do diretório padrão.


In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import BertModel, BertTokenizer

# Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
if fonteBERT == 'diretorio':

    # Carregando o Tokenizador do diretório
    print('Carregando o tokenizador BERT_' + tamanhoBERT + ' do diretório ' + diretorio + '...')

    tokenizer = BertTokenizer.from_pretrained(diretorio,
                                              do_lower_case=False)   

    # Carregando o Modelo do diretório
    print('Carregando o modelo BERT_' + tamanhoBERT + ' do diretório ' + diretorio + '...')

    model = BertModel.from_pretrained(diretorio)

else:
    # Se a variável 'tamanhoBERT' foi setada para 'base' faz o carregamento do tamanho base do BERT, caso contrário do large.
    if tamanhoBERT == 'base':
        # Carregando o Tokenizador da comunidade
        print('Carregando o tokenizador BERT_base da comunidade...')

        tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', 
                                                  do_lower_case=False)

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT_base da comunidade...')

        model = BertModel.from_pretrained('neuralmind/bert-base-portuguese-cased')  
    else:
        # Carregando o Tokenizador da comunidade  
        print('Carregando o tokenizador BERT_large da comunidade...')

        tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased',
                                                  do_lower_case=False)

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT_large da comunidade...')

        model = BertModel.from_pretrained('neuralmind/bert-large-portuguese-cased')  


Carregando o tokenizador BERT_large do diretório /content/modelo...
Carregando o modelo BERT_large do diretório /content/modelo...


#### \>>> Usando o BERT da comunidade ou diretório v3 <<<

Permite configurar o **tamanho do modelo**, **fonte do modelo** e **se deve retornar os pesos das camadas ocultas**.

A variável `fonteBERT` com os valores `comunidade` ou `diretório` especifica se deve ser carregado o BERT de um diretório ou da comunidade.

A variável `tamanhoBERT` com os valores `base` ou `large` especifica se o tamanho do modelo BERT a ser utilizado.

A variável `pesosCamadasOcultas` com os valores `True` ou `False` especifica se é para gerar e retornar os pesos das camadas ocultas.

##### Download do arquivo do Pytorch Checkpoint

É necessário realizar o download do arquivo de checkpoint e do vocabulário.

O arquivo do checkpoint precisa ser descompactado.

Os arquivos do modelo e do vocabulário são movidos para o diretório `modelo`.

In [None]:
# Importando as bibliotecas
import os

# Variável fonte especifica a origem do modelo(comunidade ou diretório)
#fonteBERT = 'comunidade'
fonteBERT = 'diretorio'

# Especifica o tamanho do modelo a ser carregado(base ou large)
tamanhoBERT = 'large'
#tamanhoBERT = 'base'

# Especifica se o modelo deve ser carregado com os pesos das camadas ocultas(True ou False)
pesosCamadasOcultas = False

# Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
if fonteBERT == 'diretorio':
    
    # Se a variável 'tamanhoBERT' foi setada para 'base' faz o download do arquivo do tamanho base do BERT, caso contrário do large.
    if tamanhoBERT == 'base':
        # url do arquivo do modelo do Pytorch checkpoint
        # arquivo menor(base) 1.1 Gbytes
        url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"
    else:
        # url do arquivo do modelo do Pytorch checkpoint
        # arquivo grande(large) 3.5 Gbytes
        url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

    # Diretório descompactação do modelo
    diretorio = '/content/modelo'

    # Recupera o nome do arquivo do modelo da url anterior
    arquivo = url.split("/")[-1]

    # Nome do arquivo do vocabulário
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na url
    caminho = url[0:len(url)-len(arquivo)]

    # Verifica se a pasta de descompactação existe no pasta corrente
    if not os.path.exists(diretorio):
   
        # Realiza o download do arquivo do modelo
        !wget $url
    
        # Descompacta o arquivo na pasta de destino
        !unzip -o $arquivo -d $diretorio

        # Realiza o download do arquivo do vocabulário
        # O vocabulário não está no arquivo compactado acima
        # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
        url_vocab = caminho + arquivo_vocab

        # Realiza o download do arquivo do vocabulário
        !wget $url_vocab
    
        # Move o arquivo do vocabulário para o diretório do modelo
        !mv $arquivo_vocab $diretorio
            
        # Move o arquivo do modelo para o diretório do modelo
        !mv $arquivo $diretorio      
                
        print('Diretório do modelo:\'' + diretorio + '\' pronta!')
    else:      
      print('Diretório do modelo:\'' + diretorio + '\' já existe!')

    #lista a pasta corrente
    !ls -la $diretorio
else:
    print('Será carregado o BERT da comunidade')

Diretório do modelo:'/content/modelo' já existe!
total 2525908
drwxr-xr-x 2 root root       4096 Feb  2 15:13 .
drwxr-xr-x 1 root root       4096 Feb  2 15:35 ..
-rw-r--r-- 1 root root 1244275810 Jan 22  2020 bert-large-portuguese-cased_pytorch_checkpoint.zip
-rw-rw-r-- 1 root root        874 Jan 12  2020 config.json
-rw-rw-r-- 1 root root 1342014951 Jan 12  2020 pytorch_model.bin
-rw-r--r-- 1 root root     209528 Jan 21  2020 vocab.txt


##### Carregando o BERT

Carregando o **tokenizador** e **modelo** BERT do diretório '/content/modelo/' do diretório padrão.

O tokenizador utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

Carregando o tokenizador da pasta '/content/modelo/' do diretório padrão se variável `url` setada.

**Caso contrário carrega da comunidade**

Por default(`do_lower_case=True`) todas as letras são colocadas para minúsculas. Para ignorar a conversão para minúsculo use o parâmetro `do_lower_case=False`. Esta opção também considera as letras acentuadas(ãçéí...), que são necessárias a língua portuguesa.

O parâmetro `do_lower_case` interfere na quantidade tokens a ser gerado apartir de um texto. Quando igual a `False` reduz a quantidade de tokens gerados.

In [None]:
# Importando as bibliotecas do Modelo e do Tokenizador
from transformers import BertModel, BertTokenizer

# Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
if fonteBERT == 'diretorio':

    # Carregando o Tokenizador do diretório
    print('Carregando o tokenizador BERT_' + tamanhoBERT + ' do diretório ' + diretorio + '...')

    tokenizer = BertTokenizer.from_pretrained(diretorio,
                                               do_lower_case=False)   

    # Carregando o Modelo do diretório
    print('Carregando o modelo BERT_' + tamanhoBERT + ' do diretório ' + diretorio + '...')

    model = BertModel.from_pretrained(diretorio,
                                      output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos)

else:
    # Se a variável 'tamanhoBERT' foi setada para 'base' faz o carregamento do tamanho base do BERT, caso contrário do large.
    if tamanhoBERT == 'base':
        # Carregando o Tokenizador da comunidade
        print('Carregando o tokenizador BERT_base da comunidade...')

        tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased',
                                                   do_lower_case=False)     

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT_base da comunidade...')

        model = BertModel.from_pretrained('neuralmind/bert-base-portuguese-cased', 
                                          output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos)  
    else:
        # Carregando o Tokenizador da comunidade  
        print('Carregando o tokenizador BERT_large da comunidade...')

        tokenizer = BertTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased',
                                                   do_lower_case=False)     

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT_large da comunidade...')

        model = BertModel.from_pretrained('neuralmind/bert-large-portuguese-cased', 
                                          output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos)  


Carregando o tokenizador BERT_large do diretório /content/modelo...
Carregando o modelo BERT_large do diretório /content/modelo...


#### Usando o BERT da comunidade ou diretório  com uma função que retorna o tokenizador v4

Função que retorna o tokenizador do BERT. permite configurar o tamanho do modelo e a fonte do modelo. 

A linguagem do modelo é especificada internamente na função.

O parâmetro  `fonteBERT` com os valores `comunidade` ou `diretório` especifica se deve ser carregado o BERT de um diretório ou da comunidade.

O parâmetro `tamanhoBERT` com os valores `base` ou `large` especifica se o tamanho do modelo BERT a ser utilizado.

O parâmetro `lingua` com os valores `portugues` ou `ingles` especifica a lingua do modelo BERT a ser utilizado.

O parâmetro `do_lower_case` específica para colocar as letras em maiúsculo ou minísculo e a remoção das letras acentuadas. Nesta função o default `False` pois a língua portugues possui letras acentuadas(ãçéí...), que são necessárias a língua portuguesa. No método `from_treina from_pretrained` o default é `True` quando o parämetro não é especificado.

A função retorna o **tokenizador** para os parâmetros especificado

##### Declarando uma função que retorna o tokenizador.

In [None]:
# Valores default para os parâmetros da função
def getTokenizadorBERT(fonteBERT = 'comunidade', 
                       tamanhoBERT = 'base', 
                       linguaBERT = 'portugues',
                       do_lower_case = False):

    """Retorna o tokenizador BERT carregado.
    De acordo com os parâmetros especificados ou carrega o BERT da comunidade 
    ou realiza o download dos arquivos do modelo.

    Args:
        fonteBERT: Especifica a origem do modelo do BERT 'comunidade' ou 'diretorio'.
        tamanhoBERT: Especifica o tamanho do modelo do BERT 'large' ou 'base'.
        linguaBERT: Especifica a língua do modelo do BERT 'portugues' ou 'ingles'.

    Returns:
        `tokenizador` com o tokenizador do modelo BERT carregado.       
    """
    #======================================================================
    # Verificação do idioma e tamanho do modelo
    #======================================================================
    # Verifica se a língua é português e o tamanho do modelo
    if linguaBERT == 'portugues' and tamanhoBERT == 'base':
        nome_modelo_bert = 'neuralmind/bert-base-portuguese-cased'
    else:
        if linguaBERT == 'portugues' and tamanhoBERT == 'large':
            nome_modelo_bert = 'neuralmind/bert-large-portuguese-cased'
        else:
            # Verifica se a língua é inglés e o tamanho do modelo
            if linguaBERT == 'ingles' and tamanhoBERT == 'base':
                nome_modelo_bert = 'bert-base-uncased'
            else:
                if linguaBERT == 'ingles' and tamanhoBERT == 'large':
                    nome_modelo_bert = 'bert-large-uncased'
                else:
                    print("Parâmetros \'língua\' e \'tamanhoBERT\' especificados incorretamente!")
                    return None, None

    #======================================================================
    # Download do arquivo do modelo
    #======================================================================
    #Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':
    
      # Se a variável 'tamanhoBERT' foi setada para 'base' faz o download do arquivo do tamanho base do BERT, caso contrário do large.
      if tamanhoBERT == 'base':
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo menor(base) 1.1 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"
      else:
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo grande(large) 3.5 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

      # Diretório descompactação do modelo
      diretorio = '/content/modelo' + tamanhoBERT

      # Recupera o nome do arquivo do modelo da url anterior
      arquivo = url.split("/")[-1]

      # Nome do arquivo do vocabulário
      arquivo_vocab = "vocab.txt"

      # Caminho do arquivo na url
      caminho = url[0:len(url)-len(arquivo)]

      # Verifica se a pasta de descompactação existe no pasta corrente
      if not os.path.exists(diretorio):
   
          # Realiza o download do arquivo do modelo
          !wget $url
    
          # Descompacta o arquivo na pasta de destino
          !unzip -o $arquivo -d $diretorio

          # Realiza o download do arquivo do vocabulário
          # O vocabulário não está no arquivo compactado acima
          # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
          url_vocab = caminho + arquivo_vocab

          # Realiza o download do arquivo do vocabulário
          !wget $url_vocab
    
          # Move o arquivo do vocabulário para o diretório do modelo
          !mv $arquivo_vocab $diretorio
            
          # Move o arquivo do modelo para o diretório do modelo
          !mv $arquivo $diretorio      
                
          print('Diretório do modelo:\'' + diretorio + '\' pronta!')
      else:      
          print('Diretório do modelo:\'' + diretorio + '\' já existe!')
      
    else:
        if linguaBERT == 'ingles':
            print('O modelo BERT na língua inglesa deve ser carregado somente da comunidade.')
       
    #======================================================================
    # Carregamento do tokenizador
    #======================================================================

    # Importando as bibliotecas do Tokenizador
    from transformers import BertTokenizer

    # Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    # Carregamento de diretório somente para a língua portuguesa
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':

        # Carregando o Tokenizador do diretório
        print('Carregando o tokenizador BERT_' + tamanhoBERT 
              + ' do diretório \'' + diretorio 
              + '\' em língua \''+ linguaBERT + '\'...')

        tokenizer = BertTokenizer.from_pretrained(diretorio,
                                                  do_lower_case=do_lower_case)
    else:
        # Carregando o Tokenizador da comunidade
        print('Carregando o tokenizador BERT \'' + nome_modelo_bert 
              + '\' da comunidade em língua \''+ linguaBERT + '\'...')

        tokenizer = BertTokenizer.from_pretrained(nome_modelo_bert,
                                                  do_lower_case=do_lower_case)

    # Retorna o tokenizador BERT carregado           
    return tokenizer

##### Usando a função **getTokenizadorBERT()**

In [None]:
tokenizador = getTokenizadorBERT()

del tokenizador

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(tamanhoBERT='large')

del tokenizador

Carregando o tokenizador BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(tamanhoBERT='base')

del tokenizador

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='diretorio', 
                      tamanhoBERT='base')

del tokenizador

Diretório do modelo:'/content/modelobase' já existe!
Carregando o tokenizador BERT_base do diretório '/content/modelobase' em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='diretorio', 
                      tamanhoBERT='large', 
                      linguaBERT='portugues')

del tokenizador

Diretório do modelo:'/content/modelolarge' já existe!
Carregando o tokenizador BERT_large do diretório '/content/modelolarge' em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='diretorio', 
                                 tamanhoBERT='base', 
                                 linguaBERT='portugues')

del tokenizador

Diretório do modelo:'/content/modelobase' já existe!
Carregando o tokenizador BERT_base do diretório '/content/modelobase' em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='comunidade', 
                      tamanhoBERT='large', 
                      linguaBERT='portugues')

del tokenizador

Carregando o tokenizador BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='comunidade', 
                                 tamanhoBERT='base', 
                                 linguaBERT='portugues')

del tokenizador

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...


In [None]:
tokenizador  = getTokenizadorBERT(tamanhoBERT='large', 
                                  linguaBERT='ingles')

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...


In [None]:
tokenizador = getTokenizadorBERT(tamanhoBERT='base', 
                                 linguaBERT='ingles')

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='diretorio', 
                                tamanhoBERT='large', 
                                linguaBERT='ingles')

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='diretorio', 
                                 tamanhoBERT='base', 
                                 linguaBERT='ingles')

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='comunidade', 
                                 tamanhoBERT='large', 
                                 linguaBERT='ingles')

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...


In [None]:
tokenizador = getTokenizadorBERT(fonteBERT='comunidade', 
                                 tamanhoBERT='base', 
                                 linguaBERT='ingles') 

del tokenizador

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...


In [None]:
import gc
gc.collect()

3381

#### Usando o BERT da comunidade ou diretório com uma função que retorna o modelo v5

Função que retorna modelo do BERT. permite configurar o tamanho do modelo e a fonte do modelo. 

A linguagem do modelo é especificada internamente na função.

O parâmetro  `fonteBERT` com os valores `comunidade` ou `diretório` especifica se deve ser carregado o BERT de um diretório ou da comunidade.

O parâmetro `tamanhoBERT` com os valores `base` ou `large` especifica se o tamanho do modelo BERT a ser utilizado.

O parâmetro `lingua` com os valores `portugues` ou `ingles` especifica a lingua do modelo BERT a ser utilizado.

O parâmetro `pesosCamadasOcultas` com os valores `True` ou `False` especifica se é para gerar e retornar os pesos das camadas ocultas.

A função retorna o **modelo** para os parâmetros especificado

##### Declarando uma função que retorna o modelo.

In [None]:
# Valores default para os parâmetros da função
def getModeloBERT(fonteBERT = 'comunidade', 
                  tamanhoBERT = 'base', 
                  linguaBERT = 'portugues', 
                  pesosCamadasOcultas = False):

    """Retorna o modelo BERT carregado.
    De acordo com os parâmetros especificados ou carrega o BERT da comunidade 
    ou realiza o download dos arquivos do modelo.

    Args:
        fonteBERT: Especifica a origem do modelo do BERT 'comunidade' ou 'diretorio'.
        tamanhoBERT: Especifica o tamanho do modelo do BERT 'large' ou 'base'.
        linguaBERT: Especifica a língua do modelo do BERT 'portugues' ou 'ingles'.
        pesosCamadasOcultas: Especifica ao modelo para manter os pesos de todas as camadas 
            ocultas, caso contrário mantém somente a última. A avaliação do modelo retorna
            um número de diferentes objetos com base em como é configurado na chamada do
            método `from_pretrained`. O retorno de model quando output_hidden_states=True´ é:  
                #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states            
            Veja a documentação para mais detalhes:
            https://huggingface.co/transformers/model_doc/bert.html#bertmodel

    Returns:        
        `modelo` com o modelo BERT carregado.
    """
    #======================================================================
    # Verificação do idioma e tamanho do modelo
    #======================================================================
    # Verifica se a língua é português e o tamanho do modelo
    if linguaBERT == 'portugues' and tamanhoBERT == 'base':
        nome_modelo_bert = 'neuralmind/bert-base-portuguese-cased'
    else:
        if linguaBERT == 'portugues' and tamanhoBERT == 'large':
            nome_modelo_bert = 'neuralmind/bert-large-portuguese-cased'
        else:
            # Verifica se a língua é inglés e o tamanho do modelo
            if linguaBERT == 'ingles' and tamanhoBERT == 'base':
                nome_modelo_bert = 'bert-base-uncased'
            else:
                if linguaBERT == 'ingles' and tamanhoBERT == 'large':
                    nome_modelo_bert = 'bert-large-uncased'
                else:
                    print("Parâmetros \'língua\' e \'tamanhoBERT\' especificados incorretamente!")
                    return None, None

    #======================================================================
    # Download do arquivo do modelo
    #======================================================================
    #Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':
    
      # Se a variável 'tamanhoBERT' foi setada para 'base' faz o download do arquivo do tamanho base do BERT, caso contrário do large.
      if tamanhoBERT == 'base':
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo menor(base) 1.1 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"
      else:
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo grande(large) 3.5 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

      # Diretório descompactação do modelo
      diretorio = '/content/modelo' + tamanhoBERT

      # Recupera o nome do arquivo do modelo da url anterior
      arquivo = url.split("/")[-1]

      # Nome do arquivo do vocabulário
      arquivo_vocab = "vocab.txt"

      # Caminho do arquivo na url
      caminho = url[0:len(url)-len(arquivo)]

      # Verifica se a pasta de descompactação existe no pasta corrente
      if not os.path.exists(diretorio):
   
          # Realiza o download do arquivo do modelo
          !wget $url
    
          # Descompacta o arquivo na pasta de destino
          !unzip -o $arquivo -d $diretorio

          # Realiza o download do arquivo do vocabulário
          # O vocabulário não está no arquivo compactado acima
          # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
          url_vocab = caminho + arquivo_vocab

          # Realiza o download do arquivo do vocabulário
          !wget $url_vocab
    
          # Move o arquivo do vocabulário para o diretório do modelo
          !mv $arquivo_vocab $diretorio
            
          # Move o arquivo do modelo para o diretório do modelo
          !mv $arquivo $diretorio      
                
          print('Diretório do modelo:\'' + diretorio + '\' pronta!')
      else:      
          print('Diretório do modelo:\'' + diretorio + '\' já existe!')
      
    else:
        if linguaBERT == 'ingles':
            print('O modelo BERT na língua inglesa deve ser carregado somente da comunidade.')
       
    #======================================================================
    # Carregamento do modelo
    #======================================================================

    # Importando as bibliotecas do Modelo
    from transformers import BertModel

    # Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    # Carregamento de diretório somente para a língua portuguesa
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':

        # Carregando o Modelo do diretório
        print('Carregando o modelo BERT_' + tamanhoBERT 
              + ' do diretório \'' + diretorio 
              + '\' em língua \''+ linguaBERT 
              + '\' com os pesos das camadas ocultas=' + str(pesosCamadasOcultas) + '...')

        model = BertModel.from_pretrained(diretorio, 
                                          output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos

    else:

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT \'' + nome_modelo_bert 
              + '\' da comunidade em língua \''+ linguaBERT 
              + '\' com os pesos das camadas ocultas=' + str(pesosCamadasOcultas) + '...')

        model = BertModel.from_pretrained(nome_modelo_bert, 
                                          output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos 
    
    # Retorna o modelo BERT carregado           
    return  model

##### Usando a função getModeloBERT()

In [None]:
model = getModeloBERT()

del model

Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(tamanhoBERT='large')

del model

Carregando o modelo BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(tamanhoBERT='base')

del model

Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='diretorio', 
                      tamanhoBERT='base')
del model

Diretório do modelo:'/content/modelobase' já existe!
Carregando o modelo BERT_base do diretório '/content/modelobase' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='diretorio', 
                      tamanhoBERT='large', 
                      linguaBERT='portugues')

del model

Diretório do modelo:'/content/modelolarge' já existe!
Carregando o modelo BERT_large do diretório '/content/modelolarge' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='diretorio', 
                      tamanhoBERT='base', 
                      linguaBERT='portugues')

del model

Diretório do modelo:'/content/modelobase' já existe!
Carregando o modelo BERT_base do diretório '/content/modelobase' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='comunidade', 
                      tamanhoBERT='large', 
                      linguaBERT='portugues')

del model

Carregando o modelo BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='comunidade', 
                      tamanhoBERT='base', 
                      linguaBERT='portugues')

del model

Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model =getModeloBERT(fonteBERT='comunidade', 
                     tamanhoBERT='base', 
                     linguaBERT='portugues',
                     pesosCamadasOcultas = False)

del model

Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(tamanhoBERT='large', 
                      linguaBERT='ingles')

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=434.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1344997306.0, style=ProgressStyle(descr…




In [None]:
model = getModeloBERT(tamanhoBERT='base', 
                     linguaBERT='ingles')

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


HBox(children=(FloatProgress(value=0.0, description='Downloading', max=433.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=440473133.0, style=ProgressStyle(descri…




In [None]:
model = getModeloBERT(fonteBERT='diretorio', 
                      tamanhoBERT='large', 
                      linguaBERT='ingles')

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='diretorio', 
                      tamanhoBERT='base', 
                      linguaBERT='ingles')

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='comunidade', 
                      tamanhoBERT='large', 
                      linguaBERT='ingles')

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='comunidade', 
                      tamanhoBERT='base', 
                      linguaBERT='ingles') 

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
model = getModeloBERT(fonteBERT='comunidade', 
                      tamanhoBERT='base', 
                      linguaBERT='ingles', 
                      pesosCamadasOcultas = False)

del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
import gc
gc.collect()

4761

#### Usando o BERT da comunidade ou diretório com uma função que retorna o tokenizador e o modelo v6

Função que retorna o tokenizador e modelo do BERT. permite configurar o tamanho do modelo e a fonte do modelo. 

A linguagem do modelo é especificada internamente na função.

O parâmetro  `fonteBERT` com os valores `comunidade` ou `diretório` especifica se deve ser carregado o BERT de um diretório ou da comunidade.

O parâmetro `tamanhoBERT` com os valores `base` ou `large` especifica se o tamanho do modelo BERT a ser utilizado.

O parâmetro `lingua` com os valores `portugues` ou `ingles` especifica a lingua do modelo BERT a ser utilizado.

O parâmetro `pesosCamadasOcultas` com os valores `True` ou `False` especifica se é para gerar e retornar os pesos das camadas ocultas.

O parâmetro `do_lower_case` específica para colocar as letras em maiúsculo ou minísculo e a remoção das letras acentuadas. Nesta função o default `False` pois a língua portugues possui letras acentuadas(ãçéí...), que são necessárias a língua portuguesa. No método `from_treina from_pretrained` o default é `True` quando o parämetro não é especificado.



A função retorna o **tokenizador** e o **modelo** para os parâmetros especificado

##### Declarando uma função que retorna o tokenizador e o modelo.

In [None]:
# Valores default para os parâmetros da função
def getBERT(fonteBERT = 'comunidade', 
            tamanhoBERT = 'base', 
            linguaBERT = 'portugues', 
            pesosCamadasOcultas = False,
            do_lower_case = False):

    """Retorna o tokenizador e modelo BERT carregado.
    De acordo com os parâmetros especificados ou carrega o BERT da comunidade 
    ou realiza o download dos arquivos do modelo.

    Args:
        fonteBERT: Especifica a origem do modelo do BERT 'comunidade' ou 'diretorio'.
        tamanhoBERT: Especifica o tamanho do modelo do BERT 'large' ou 'base'.
        linguaBERT: Especifica a língua do modelo do BERT 'portugues' ou 'ingles'.
        pesosCamadasOcultas: Especifica ao modelo para manter os pesos de todas as camadas 
            ocultas, caso contrário mantém somente a última. A avaliação do modelo retorna
            um número de diferentes objetos com base em como é configurado na chamada do
            método `from_pretrained`. O retorno de model quando output_hidden_states=True´ é:  
                #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states            
            Veja a documentação para mais detalhes:
            https://huggingface.co/transformers/model_doc/bert.html#bertmodel

    Returns:
        `tokenizador` com o tokenizador do modelo BERT carregado.
        `modelo` com o modelo BERT carregado.
    """
    #======================================================================
    # Verificação do idioma e tamanho do modelo
    #======================================================================
    # Verifica se a língua é português e o tamanho do modelo
    if linguaBERT == 'portugues' and tamanhoBERT == 'base':
        nome_modelo_bert = 'neuralmind/bert-base-portuguese-cased'
    else:
        if linguaBERT == 'portugues' and tamanhoBERT == 'large':
            nome_modelo_bert = 'neuralmind/bert-large-portuguese-cased'
        else:
            # Verifica se a língua é inglés e o tamanho do modelo
            if linguaBERT == 'ingles' and tamanhoBERT == 'base':
                nome_modelo_bert = 'bert-base-uncased'
            else:
                if linguaBERT == 'ingles' and tamanhoBERT == 'large':
                    nome_modelo_bert = 'bert-large-uncased'
                else:
                    print("Parâmetros \'língua\' e \'tamanhoBERT\' especificados incorretamente!")
                    return None, None

    #======================================================================
    # Download do arquivo do modelo
    #======================================================================
    #Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':
    
      # Se a variável 'tamanhoBERT' foi setada para 'base' faz o download do arquivo do tamanho base do BERT, caso contrário do large.
      if tamanhoBERT == 'base':
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo menor(base) 1.1 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"
      else:
          # url do arquivo do modelo do Pytorch checkpoint
          # arquivo grande(large) 3.5 Gbytes
          url = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

      # Diretório descompactação do modelo
      diretorio = '/content/modelo' + tamanhoBERT

      # Recupera o nome do arquivo do modelo da url anterior
      arquivo = url.split("/")[-1]

      # Nome do arquivo do vocabulário
      arquivo_vocab = "vocab.txt"

      # Caminho do arquivo na url
      caminho = url[0:len(url)-len(arquivo)]

      # Verifica se a pasta de descompactação existe no pasta corrente
      if not os.path.exists(diretorio):
   
          # Realiza o download do arquivo do modelo
          !wget $url
    
          # Descompacta o arquivo na pasta de destino
          !unzip -o $arquivo -d $diretorio

          # Realiza o download do arquivo do vocabulário
          # O vocabulário não está no arquivo compactado acima
          # Concatena o caminho do modelo mais o nome do arquivo do vocabulário
          url_vocab = caminho + arquivo_vocab

          # Realiza o download do arquivo do vocabulário
          !wget $url_vocab
    
          # Move o arquivo do vocabulário para o diretório do modelo
          !mv $arquivo_vocab $diretorio
            
          # Move o arquivo do modelo para o diretório do modelo
          !mv $arquivo $diretorio      
                
          print('Diretório do modelo:\'' + diretorio + '\' pronta!')
      else:      
          print('Diretório do modelo:\'' + diretorio + '\' já existe!')
      
    else:
        if linguaBERT == 'ingles':
            print('O modelo BERT na língua inglesa deve ser carregado somente da comunidade.')
       
    #======================================================================
    # Carregamento do tokenizador e do modelo 
    #======================================================================

    # Importando as bibliotecas do Modelo e do Tokenizador
    from transformers import BertModel, BertTokenizer

    # Se a variável 'fonteBERT' foi setada para 'diretorio' faz o download dos arquivos modelo
    # Carregamento de diretório somente para a língua portuguesa
    if fonteBERT == 'diretorio' and linguaBERT == 'portugues':

        # Carregando o Tokenizador do diretório
        print('Carregando o tokenizador BERT_' + tamanhoBERT 
              + ' do diretório \'' + diretorio 
              + '\' em língua \''+ linguaBERT + '\'...')

        tokenizer = BertTokenizer.from_pretrained(diretorio,
                                                  do_lower_case = do_lower_case)

        # Carregando o Modelo do diretório
        print('Carregando o modelo BERT_' + tamanhoBERT 
              + ' do diretório \'' + diretorio 
              + '\' em língua \''+ linguaBERT 
              + '\' com os pesos das camadas ocultas=' + str(pesosCamadasOcultas) + '...')

        model = BertModel.from_pretrained(diretorio, 
                                          output_hidden_states = pesosCamadasOcultas) # Se o modelo retorna todos os estados ocultos

    else:
        # Carregando o Tokenizador da comunidade
        print('Carregando o tokenizador BERT \'' + nome_modelo_bert 
              + '\' da comunidade em língua \''+ linguaBERT + '\'...')

        tokenizer = BertTokenizer.from_pretrained(nome_modelo_bert,
                                                  do_lower_case = do_lower_case)  

        # Carregando o Modelo da comunidade
        print('Carregando o modelo BERT \'' + nome_modelo_bert 
              + '\' da comunidade em língua \''+ linguaBERT 
              + '\' com os pesos das camadas ocultas=' + str(pesosCamadasOcultas) + '...')

        model = BertModel.from_pretrained(nome_modelo_bert, 
                                          output_hidden_states = pesosCamadasOcultas)  # Se o modelo retorna todos os estados ocultos
    
    # Retorna o tokenizador e o modelo BERT carregado           
    return tokenizer, model

##### Usando a função getBERT()

In [None]:
tokenizador, model = getBERT()

del tokenizador
del model

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(tamanhoBERT='large')

Carregando o tokenizador BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(tamanhoBERT='base')

del tokenizador
del model

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='diretorio', 
                             tamanhoBERT='base')

del tokenizador
del model

Diretório do modelo:'/content/modelobase' já existe!
Carregando o tokenizador BERT_base do diretório '/content/modelobase' em língua 'portugues'...
Carregando o modelo BERT_base do diretório '/content/modelobase' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='diretorio', 
                             tamanhoBERT='large', 
                             linguaBERT='portugues')

del tokenizador
del model

Diretório do modelo:'/content/modelolarge' já existe!
Carregando o tokenizador BERT_large do diretório '/content/modelolarge' em língua 'portugues'...
Carregando o modelo BERT_large do diretório '/content/modelolarge' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='diretorio', 
                             tamanhoBERT='base', 
                             linguaBERT='portugues')

del tokenizador
del model

Diretório do modelo:'/content/modelobase' já existe!
Carregando o tokenizador BERT_base do diretório '/content/modelobase' em língua 'portugues'...
Carregando o modelo BERT_base do diretório '/content/modelobase' em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='large', 
                             linguaBERT='portugues')

del tokenizador
del model

Carregando o tokenizador BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-large-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='base', 
                             linguaBERT='portugues')

del tokenizador
del model

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='base', 
                             linguaBERT='portugues',
                             pesosCamadasOcultas = False)

del tokenizador
del model

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(tamanhoBERT='large', 
                             linguaBERT='ingles')

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(tamanhoBERT='base', 
                             linguaBERT='ingles')

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='diretorio', 
                             tamanhoBERT='large', 
                             linguaBERT='ingles')

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='diretorio', 
                             tamanhoBERT='base', 
                             linguaBERT='ingles')

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='large', 
                             linguaBERT='ingles')

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-large-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-large-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='base', 
                             linguaBERT='ingles') 

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
tokenizador, model = getBERT(fonteBERT='comunidade', 
                             tamanhoBERT='base', 
                             linguaBERT='ingles', 
                             pesosCamadasOcultas = False)

del tokenizador
del model

O modelo BERT na língua inglesa deve ser carregado somente da comunidade.
Carregando o tokenizador BERT 'bert-base-uncased' da comunidade em língua 'ingles'...
Carregando o modelo BERT 'bert-base-uncased' da comunidade em língua 'ingles' com os pesos das camadas ocultas=False...


In [None]:
import gc
gc.collect()

5062

## Declarando uma função que recupera embeddings de frase

In [None]:
def getEmbedding(texto, tokenizadorBERT, modeloBERT):

    """
    Retorna os embeddings de uma frase utilizando um tokenizador e modelo BERT carregado.
    
    Args:
        texto: Texto a ser convertindo em embeddings utilizando o BERT.
        tokenizadorBERT: Tokenizador BERT carregado.
        modelBERT: Modelo BERT carregado.
        
    Returns:
          0-texto_tokenizado, 
          1-input_ids, 
          2-attention_mask, 
          3-token_type_ids, 
          4-outputs 
              0-last_hidden_state,
              1-pooler_output,
              2-hidden_states
    """
    # Importando a biblioteca
    import torch

    # Adiciona os tokens especiais
    texto_marcado = "[CLS] " + texto + " [SEP]"

    # Tokeniza o texto marcado
    texto_tokenizado = tokenizer.tokenize(texto_marcado)
    
    # Recupera a quantidade tokens do texto tokenizado
    qtdeTokens = len(texto_tokenizado)

    #tokeniza o texto e retorna os tensores
    dic_codificado = tokenizadorBERT.encode_plus(
                        text=texto,                     # texto a ser codificado.
                        add_special_tokens = True,      # Adiciona os tokens especiais '[CLS]' e '[SEP]'
                        max_length = qtdeTokens,        # Define o tamanho máximo para preencheer ou truncar.
                        truncation = True,              # Trunca o texto por max_length
                        padding = 'max_length',         # Preenche o texto até max_length
                        return_attention_mask = True,   # Constrói a máscara de atenção.
                        return_tensors = 'pt'           # Retorna os dados como tensores pytorch.
                   )                   

    # Ids dos tokens de entrada mapeados em seus índices do vocabuário    
    input_ids =  dic_codificado['input_ids']

    # Máscara de atenção de cada um dos tokens como pertencentes à frase "1".
    attention_mask = dic_codificado['attention_mask']

    # Recupera os tensores dos segmentos
    token_type_ids = dic_codificado['token_type_ids']

    # Roda o texto através do BERT, e coleta todos os estados ocultos produzidos
    # das 12 camadas. 
    with torch.no_grad():

        # Passe para a frente, calcule as previsões outputs
        outputs = modeloBERT(input_ids=input_ids, 
                             attention_mask=attention_mask)

        # A avaliação do modelo retorna um número de diferentes objetos com base em
        # como é configurado na chamada do método `from_pretrained` anterior. Nesse caso,
        # porque definimos `output_hidden_states = True`, o terceiro item será o
        # estados ocultos(hidden_states) de todas as camadas. Veja a documentação para mais detalhes:
        # https://huggingface.co/transformers/model_doc/bert.html#bertmodel

        # Retorno de model quando ´output_hidden_states=True´ é setado:    
        #last_hidden_state = outputs[0], pooler_output = outputs[1], hidden_states = outputs[2]

    # 0-texto_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)    
    return texto_tokenizado, input_ids, attention_mask, token_type_ids, outputs

# 4 Preparando a entrada

## Tokenizador

### Exemplo do tokenizador com método 'tokenize'

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Tokeniza o texto em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Mostra o texto exemplo
print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']


## Codificador (input_ids)

Converte cada token do texto tokenizado para um id presente no vocabulário do modelo do Tokenizador. Se houver um token que não está presente no vocabulário, o tokenizador usará o id token especial [UNK].

- encode
- convert_tokens_to_ids

### Exemplo de gerador do id do token com o método 'encode'

Método encode tokeniza e converte os tokens para os ids do vocabulário.

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Tokeniza o texto em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Converte os tokens para os ids do vocabulário, por default(add_special_tokens=True) 
# já adiciona os tokens especiais.
texto_token_ids = tokenizer.encode(text=texto_tokenizado, 
                                   add_special_tokens=False)

# Mostra o texto exemplo
print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

# Mostra o id do texto tokenizado
print("Texto id token     :", texto_token_ids)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']
Texto id token     : [101, 231, 179, 253, 173, 483, 14852, 446, 136, 102]


### Exemplo de gerador do id do token com o método 'convert_tokens_to_ids'

Método convert_tokens_to_ids tokeniza e converte os tokens para os ids do vocabulário.

Função semenlhante ao método `enconde`.

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Tokeniza o texto em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Converte os tokens para os ids do vocabulário
texto_token_ids = tokenizer.convert_tokens_to_ids(texto_tokenizado)

# Mostra o texto exemplo
print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

# Mostra o id do texto tokenizado
print("Texto id token     :", texto_token_ids)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']
Texto id token     : [101, 231, 179, 253, 173, 483, 14852, 446, 136, 102]


### Exemplo de decodificação dos id dos tokens com o método 'decode'

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Tokeniza o texto em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Converte os tokens para os ids do vocabulário
texto_token_ids = tokenizer.convert_tokens_to_ids(texto_tokenizado)

# Decodifica o id texto tokenizado
# skip_special_tokens: bool = False retira os tokens especiais
texto_decodificado = tokenizer.decode(texto_token_ids)

print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

# Mostra o id do texto tokenizado
print("Texto id token     :", texto_token_ids)

# Mostra texto decodificado
print("Texto decodificado :", texto_decodificado)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']
Texto id token     : [101, 231, 179, 253, 173, 483, 14852, 446, 136, 102]
Texto decodificado : [CLS] O que é embedding? [SEP]


## Gerador da máscara de atenção (attention_mask)

O BERT é treinado e espera pares de frases, usando 1s e 0s para distinguir entre as duas frases. Ou seja, para cada token em "texto_tokenizado", devemos especificar a qual frase pertence: sentença 0 (uma série de 0s) ou sentença 1 (uma série de 1s). 

Para casos onde as entradas de texto é **única** requerem apenas uma série de 1s; portanto, criaremos um vetor de 1s para cada token em input_ids.

Se desejar processar **duas frases**, atribua cada palavra na primeira frase mais o token '[SEP]' a 0 e todos os tokens da segunda frase a 1.

### Exemplo de gerador de máscara para frase única com lista

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Tokeniza o texto em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Converte os tokens para os ids do vocabulário
texto_token_ids = tokenizer.convert_tokens_to_ids(texto_tokenizado)

# Cria um vetor com o tamanho da quantidade de tokens do texto preenchidos com 1.
mascara_atencao = [1] * len(texto_token_ids)

print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

# Mostra o id do texto tokenizado
print("Texto id token     :", texto_token_ids)

# Mostra a máscara de atenção
print("Máscara de atenção :", mascara_atencao)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']
Texto id token     : [101, 231, 179, 253, 173, 483, 14852, 446, 136, 102]
Máscara de atenção : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


## Gerando toda a entrada com o encode_plus(input_ids, attention_mask, token_type_ids)

O método `enconde_plus` gera todas as entradas necessárias a partir do texto. O método retorna um dicionário com as chaves:

- 'input_ids' - O id do texto tokenizado
- 'attention_mask' - A máscara de atenção truncada ou preenchida até `max_length`
- 'token_type_ids' - A máscara de atenção de pares de frase. Quando o texto é tokenizado com duas frases, a primeira recebe 0 a segunda frase recebe 1.

https://huggingface.co/transformers/main_classes/tokenizer.html?highlight=encode_plus#transformers.PreTrainedTokenizer.encode_plus

In [None]:
# Recupera o tokenizador BERT
tokenizer = getTokenizadorBERT()

# Texto de exemplo
texto = "O que é embedding?"

# `encode_plus` irá:
#   (1) Tokenize a frase sentence.
#   (2) Adicionar o token `[CLS]` no início.
#   (3) Adicionar o token `[SEP]` no fim.
#   (4) Mapear tokens para os seus IDS.
#   (5) Preencher ou truncar as frases para `max_length`
#   (6) Criar máscara de atenção para os tokens [PAD].    
#   (7) Retorna os dados com tensores
dic_codificado = tokenizer.encode_plus(
                        text=texto,                     # Texto a ser codificado.
                        add_special_tokens = True,      # Adiciona os tokens especiais '[CLS]' e '[SEP]'
                        max_length = 10,                # Define o tamanho máximo para preencheer ou truncar.
                        truncation = True,              # Trunca o texto por max_length
                        padding = 'max_length',         # Preenche o texto até max_length
                        return_attention_mask = True,   # Constrói a máscara de atenção.
                        return_tensors = 'pt'           # Retorna os dados como tensores pytorch.
                   )

# Recupera os dados do dicionário
texto_token_ids = dic_codificado['input_ids']
mascara_atencao = dic_codificado['attention_mask']
token_type_ids = dic_codificado['token_type_ids']

print("Texto exemplo      :", texto)

# Mostra o texto marcado
print("Texto marcado      :", texto_marcado)

# Mostra o texto tokenizado
print("Texto tokenizado   :", texto_tokenizado)

# Mostra o id do texto tokenizado
print("Texto id token     :", texto_token_ids)

# Mostra a máscara de atenção
print("Máscara de atenção :", mascara_atencao)

# Mostra a máscara de atenção de pares de frase (0 primeira frase e 1 para a segunda frase)
print("Token types ids    :", token_type_ids)

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Texto exemplo      : O que é embedding?
Texto marcado      : [CLS] O que é embedding? [SEP]
Texto tokenizado   : ['[CLS]', 'O', 'que', 'é', 'em', '##be', '##dd', '##ing', '?', '[SEP]']
Texto id token     : tensor([[  101,   231,   179,   253,   173,   483, 14852,   446,   136,   102]])
Máscara de atenção : tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
Token types ids    : tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])


# 5 Usando o modelo Pré-treinado

Uso do modell pré-treinado sem ajuste fino.

# 6 Teste Completo do Tokenizador e Modelo BERT

Testa o tokenizador e modelo de vretorno da função getBERT.


In [None]:
# Utiliza a função para retornar o tokenizador e o modelo
tokenizer, model = getBERT(tamanhoBERT='base')

# Define um sentença de exemplo com diversos siginificados da palavra  "banco"
texto = "Depois de roubar o cofre do banco,"\
        " o ladrão de banco foi visto " \
        "sentado no banco da praça central."

# Adiciona os tokens especiais
texto_marcado = "[CLS] " + texto + " [SEP]"

# Divide a sentença em tokens
texto_tokenizado = tokenizer.tokenize(texto_marcado)

# Mapeia os tokens em seus índices do vocabuário
tokens_indexados = tokenizer.convert_tokens_to_ids(texto_tokenizado)

# Mostra os tokens com seus índices
i = 0
for tup in zip(texto_tokenizado, tokens_indexados):
    print('{:>3} {:<12} {:>6,}'.format(i, tup[0], tup[1]))
    i= i + 1

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...
  0 [CLS]           101
  1 Depois        1,603
  2 de              125
  3 roubar       16,150
  4 o               146
  5 co              144
  6 ##fre         1,198
  7 do              171
  8 banco         6,465
  9 ,               117
 10 o               146
 11 lad          13,503
 12 ##rão         1,759
 13 de              125
 14 banco         6,465
 15 foi             262
 16 visto         3,382
 17 sentado      21,541
 18 no              202
 19 banco         6,465
 20 da              180
 21 praça         6,357
 22 central       2,692
 23 .               119
 24 [SEP]           102


In [None]:
# Importa a bibliteca
import torch

# Marca cada um dos tokens como pertencentes à frase "1", pois só iremos analisar uma.
segmentos_ids = [1] * len(texto_tokenizado)

# Converte as entradas de listas para tensores do torch
input_ids = torch.as_tensor([tokens_indexados])
attention_mask = torch.as_tensor([segmentos_ids])

In [None]:
# Prediz os atributos dos estados ocultos para cada camada
with torch.no_grad():    
  
    # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states    
    outputs = model(input_ids=input_ids, 
                    attention_mask=attention_mask)
    
    # Recupera a última camada oculta da saída
    last_hidden_states = outputs[0]

# Remove a dimensão 1, o lote "batches".
# O método ´squeeze´ remove a primeira dimensão(0) pois possui tamanho 1
token_embeddings = torch.squeeze(last_hidden_states, dim=0)    

BASE em português:
* banco tensor([ 0.2817, -0.2229,  0.4058, -0.1698,  0.4350])
* banco tensor([ 0.3844, -0.2985,  0.1629, -0.2853,  0.4661])
* banco tensor([ 0.0382, -0.1985,  0.0825,  0.1369,  0.6871])


LARGE em português:
* banco tensor([ 0.4261, -0.1251, -0.4406,  0.0736, -1.4059])
* banco tensor([ 0.4835,  0.1447, -0.4306,  0.3436, -1.4682])
* banco tensor([ 0.3631,  0.9212,  0.1919, -0.2493, -0.9418])

In [None]:
palavra1 = 8
palavra2 = 14
palavra3 = 19

print('Os primeiros 5 valores de cada instância de "banco".')
print('')
print(texto_tokenizado[palavra1], str(token_embeddings[palavra1][:5]))
print(texto_tokenizado[palavra2], str(token_embeddings[palavra2][:5]))
print(texto_tokenizado[palavra3], str(token_embeddings[palavra3][:5]))

Os primeiros 5 valores de cada instância de "banco".

banco tensor([ 0.2817, -0.2229,  0.4058, -0.1698,  0.4350])
banco tensor([ 0.3844, -0.2985,  0.1629, -0.2853,  0.4661])
banco tensor([ 0.0382, -0.1985,  0.0825,  0.1369,  0.6871])


BASE em português:
* Vetor de similaridade  para diferentes significados( 14 , 19 ):  0.71
* Vetor de similaridade  para mesmo significado( 14 , 8 ):  0.88
* Vetor de similaridade  para diferentes significados( 19 , 8 ):  0.76

LARGE em português:
* Vetor de similaridade  para diferentes significados( 14 , 19 ):  0.78
* Vetor de similaridade  para mesmo significado( 14 , 8 ):  0.92
* Vetor de similaridade  para diferentes significados( 19 , 8 ):  0.77

In [None]:
from scipy.spatial.distance import cosine

print("Período:", texto)
print("Palavra1= ", palavra1, "=", texto_tokenizado[palavra1], "(instituição financeira)")
print("Palavra2=", palavra2, "=", texto_tokenizado[palavra2], "(instituição financeira)")
print("Palavra3=", palavra3, "=", texto_tokenizado[palavra3], "(assento)")

# Calcula a similaridade de coseno entre as palavras banco
# Em "ladrão de banco" versus "banco da praça" (diferentes significados).
banco_diferente = 1 - cosine(token_embeddings[palavra2], token_embeddings[palavra3])

print('Vetor de similaridade  para diferentes significados(',palavra2,',',palavra3,'):  %.2f' % banco_diferente)

# Calcula a similaridade de coseno entre as palavras banco
# Em "ladrão de banco" versus "cofre do banco" (mesmo significado).
mesmo_banco = 1 - cosine(token_embeddings[palavra2], token_embeddings[palavra1])

print('Vetor de similaridade  para mesmo significado      (',palavra2,', ',palavra1,'):  %.2f' % mesmo_banco)

# Calcula a similaridade de coseno entre as palavras banco
# Em "cofre do banco" versus "banco da praça" (diferente significados).
banco_diferente2 = 1 - cosine(token_embeddings[palavra3], token_embeddings[palavra1])

print('Vetor de similaridade  para diferentes significados(',palavra3,', ',palavra1,'):  %.2f' % banco_diferente2)

Período: Depois de roubar o cofre do banco, o ladrão de banco foi visto sentado no banco da praça central.
Palavra1=  8 = banco (instituição financeira)
Palavra2= 14 = banco (instituição financeira)
Palavra3= 19 = banco (assento)
Vetor de similaridade  para diferentes significados( 14 , 19 ):  0.71
Vetor de similaridade  para mesmo significado      ( 14 ,  8 ):  0.88
Vetor de similaridade  para diferentes significados( 19 ,  8 ):  0.76


# 7 Teste completo da função de recuperação de embeddings de frase

Testa os embeddings de retorno da função getEmbedding.

In [None]:
# Utiliza a função para retornar o tokenizador e o modelo
tokenizer, model = getBERT(tamanhoBERT='base')

# Define um sentença de exemplo com diversos siginificados da palavra  "banco"
texto = "Depois de roubar o cofre do banco,"\
        " o ladrão de banco foi visto " \
        "sentado no banco da praça central."

# 0-texto_tokenizado, 1-input_ids, 2-attention_mask, 3-token_type_ids, 4-outputs(0=last_hidden_state,1=pooler_output,2=hidden_states)
outputs = getEmbedding(texto, tokenizer, model)        

# Recupera a última camada oculta da saída
# 4-outputs 0=last_hidden_state
last_hidden_states = outputs[4][0]

# Remove a dimensão 1, o lote "batches".
# O método ´squeeze´ remove a primeira dimensão(0) pois possui tamanho 1
token_embeddings = torch.squeeze(last_hidden_states, dim=0)    

Carregando o tokenizador BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues'...
Carregando o modelo BERT 'neuralmind/bert-base-portuguese-cased' da comunidade em língua 'portugues' com os pesos das camadas ocultas=False...


In [None]:
# Divide a sentença em tokens
texto_tokenizado = outputs[0]

# Mapeia os tokens em seus índices do vocabuário
tokens_indexados = outputs[1]

# Mostra os tokens com seus índices
for i, token in enumerate(texto_tokenizado):
    print(i, token)

0 [CLS]
1 Depois
2 de
3 roubar
4 o
5 co
6 ##fre
7 do
8 banco
9 ,
10 o
11 lad
12 ##rão
13 de
14 banco
15 foi
16 visto
17 sentado
18 no
19 banco
20 da
21 praça
22 central
23 .
24 [SEP]


BASE em português:
* banco tensor([ 0.2817, -0.2229,  0.4058, -0.1698,  0.4350])
* banco tensor([ 0.3844, -0.2985,  0.1629, -0.2853,  0.4661])
* banco tensor([ 0.0382, -0.1985,  0.0825,  0.1369,  0.6871])


LARGE em português:
* banco tensor([ 0.4261, -0.1251, -0.4406,  0.0736, -1.4059])
* banco tensor([ 0.4835,  0.1447, -0.4306,  0.3436, -1.4682])
* banco tensor([ 0.3631,  0.9212,  0.1919, -0.2493, -0.9418])

In [None]:
palavra1 = 8
palavra2 = 14
palavra3 = 19

print('Os primeiros 5 valores de cada instância de "banco".')
print('')
print(texto_tokenizado[palavra1], str(token_embeddings[palavra1][:5]))
print(texto_tokenizado[palavra2], str(token_embeddings[palavra2][:5]))
print(texto_tokenizado[palavra3], str(token_embeddings[palavra3][:5]))

Os primeiros 5 valores de cada instância de "banco".

banco tensor([ 0.2817, -0.2229,  0.4058, -0.1698,  0.4350])
banco tensor([ 0.3844, -0.2985,  0.1629, -0.2853,  0.4661])
banco tensor([ 0.0382, -0.1985,  0.0825,  0.1369,  0.6871])


BASE em português:
* Vetor de similaridade  para diferentes significados( 14 , 19 ):  0.71
* Vetor de similaridade  para mesmo significado( 14 , 8 ):  0.88
* Vetor de similaridade  para diferentes significados( 19 , 8 ):  0.76

LARGE em português:
* Vetor de similaridade  para diferentes significados( 14 , 19 ):  0.78
* Vetor de similaridade  para mesmo significado( 14 , 8 ):  0.92
* Vetor de similaridade  para diferentes significados( 19 , 8 ):  0.77