#Exemplo de Visualização de Embeddings usando BERT Transformers by HuggingFace e Embedding Projector.

Gera os arquivos para Embedding Projector(https://projector.tensorflow.org/).

Pode ser configurado para utilizar o BERTimbau **Large** e **Base**.

Gera arquivos **records.tsv** com:
- Com e sem pooling dos embeddings das palavras fora do vocabulário.
- Gera embeddings da concatenação das 4 últimas camadas do BERT ou da última camada.

O arquivo **meta.tsv** possui as seguindas colunas:
 - Token
 - PoS-Tag
 - OOV
 - Sentença

Exemplo de visualização dos arquivos gerados: 
https://projector.tensorflow.org/?config=https://raw.githubusercontent.com/osmarbraz/cohebertv1visualizacao/main/config.json

Repositório dos arquivos no github.
https://github.com/osmarbraz/cohebertv1visualizacao


---------------------------

Artigos:

- https://arxiv.org/pdf/1611.05469v1.pdf 

- https://towardsdatascience.com/visualizing-bias-in-data-using-embedding-projector-649bc65e7487

- https://towardsdatascience.com/bert-visualization-in-embedding-projector-dfe4c9e18ca9

- https://krishansubudhi.github.io/deeplearning/2020/08/27/bert-embeddings-visualization.html

- https://amitness.com/interactive-sentence-embeddings/

---------------------------

**Link biblioteca Huggingface:**
https://github.com/huggingface/transformers


**Artigo original BERT Jacob Devlin:**
https://arxiv.org/pdf/1506.06724.pdf

# 0 - Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## Tratamento de logs

Método para tratamento dos logs.

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## Identificando o ambiente Colab

Cria uma variável para identificar que o notebook está sendo executado no Google Colaboratory.

In [None]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

# 1 - Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U spacy==2.3.5

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy==2.3.5
  Downloading spacy-2.3.5-cp37-cp37m-manylinux2014_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 9.5 MB/s 
Collecting catalogue<1.1.0,>=0.0.7
  Downloading catalogue-1.0.0-py2.py3-none-any.whl (7.7 kB)
Collecting plac<1.2.0,>=0.9.6
  Downloading plac-1.1.3-py2.py3-none-any.whl (20 kB)
Collecting srsly<1.1.0,>=1.0.2
  Downloading srsly-1.0.5-cp37-cp37m-manylinux2014_x86_64.whl (184 kB)
[K     |████████████████████████████████| 184 kB 65.9 MB/s 
Collecting thinc<7.5.0,>=7.4.1
  Downloading thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0 MB)
[K     |████████████████████████████████| 1.0 MB 47.3 MB/s 
Installing collected packages: srsly, plac, catalogue, thinc, spacy
  Attempting uninstall: srsly
    Found existing installation: srsly 2.4.4
    Uninstalling srsly-2.4.4:
      Successfully uninstalled srsly-2.4.4
  Attempting uninstall:

Realiza o download e carrega os modelos necessários a biblioteca

https://spacy.io/models/pt

In [None]:
# Definição do nome do arquivo do modelo
#ARQUIVOMODELO = "pt_core_news_sm"
#ARQUIVOMODELO = "pt_core_news_md"
ARQUIVOMODELO = "pt_core_news_lg"

# Definição da versão da spaCy
#VERSAOSPACY = "-3.0.0a0"
VERSAOSPACY = "-2.3.0"

In [None]:
#Baixa automaticamente o arquivo do modelo.
#!python -m spacy download {ARQUIVOMODELO}

In [None]:
# Realiza o download do arquivo do modelo para o diretório corrente
!wget https://github.com/explosion/spacy-models/releases/download/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

--2022-08-03 19:12:39--  https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-2.3.0/pt_core_news_lg-2.3.0.tar.gz
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a899e480-ab07-11ea-831b-b5aa9cc04510?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220803%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220803T191240Z&X-Amz-Expires=300&X-Amz-Signature=ec35453a92567d8881782703ad34a5f8bf1f52f6b44c1b5a4d59126808c264e2&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=84940268&response-content-disposition=attachment%3B%20filename%3Dpt_core_news_lg-2.3.0.tar.gz&response-content-type=application%2Foctet-stream [following]
--2022-08-03 19:12:40--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/84940268/a

Descompacta o arquivo do modelo

In [None]:
# Descompacta o arquivo do modelo
!tar -xvf  /content/{ARQUIVOMODELO}{VERSAOSPACY}.tar.gz

pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/PKG-INFO
pt_core_news_lg-2.3.0/setup.py
pt_core_news_lg-2.3.0/setup.cfg
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/dependency_links.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/PKG-INFO
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/SOURCES.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/requires.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/top_level.txt
pt_core_news_lg-2.3.0/pt_core_news_lg.egg-info/not-zip-safe
pt_core_news_lg-2.3.0/pt_core_news_lg/
pt_core_news_lg-2.3.0/pt_core_news_lg/__init__.py
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/cfg
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/moves
pt_core_news_lg-2.3.0/pt_core_news_lg/pt_core_news_lg-2.3.0/parser/model
pt_core_news_lg-2.3.0/pt_core_news_l

In [None]:
# Coloca a pasta do modelo descompactado em uma pasta de nome mais simples
!mv /content/{ARQUIVOMODELO}{VERSAOSPACY}/{ARQUIVOMODELO}/{ARQUIVOMODELO}{VERSAOSPACY} /content/{ARQUIVOMODELO}

Carrega o modelo

In [None]:
import spacy

CAMINHOMODELO = "/content/" + ARQUIVOMODELO

#nlp = spacy.load(CAMINHOMODELO)
# Necessário "tagger" para encontrar os substantivos
nlp = spacy.load(CAMINHOMODELO, disable=["tokenizer", "lemmatizer", "ner", "parser", "textcat", "custom"])

# 2 - Instalação BERT da Hugging Face

Instala a interface pytorch para o BERT by Hugging Face. 

In [None]:
# Instala a última versão da biblioteca
#!pip install transformers

# Instala uma versão específica da biblioteca
!pip install -U transformers==4.5.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 7.5 MB/s 
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.3-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 44.6 MB/s 
[?25hCollecting sacremoses
  Downloading sacremoses-0.0.53.tar.gz (880 kB)
[K     |████████████████████████████████| 880 kB 59.4 MB/s 
Building wheels for collected packages: sacremoses
  Building wheel for sacremoses (setup.py) ... [?25l[?25hdone
  Created wheel for sacremoses: filename=sacremoses-0.0.53-py3-none-any.whl size=895260 sha256=7c3eb042f6da4c2617f7b1ca470a922de9bbc29fab40ffded1b269e091e24f8f
  Stored in directory: /root/.cache/pip/wheels/87/39/dd/a83eeef36d0bf98e7a4d1933a4ad2d660295a40613079baf

# 3 - Configuração do BERT

Lista de modelos da comunidade:
* https://huggingface.co/models

Português(https://github.com/neuralmind-ai/portuguese-bert):  
* **"neuralmind/bert-base-portuguese-cased"**
* **"neuralmind/bert-large-portuguese-cased"**

In [None]:
MODELO_BERT = "neuralmind/bert-large-portuguese-cased"
# MODELO_BERT = "neuralmind/bert-base-portuguese-cased"

print("BERT:",MODELO_BERT)

TAMANHO_BERT = 'large'
if 'base' in MODELO_BERT:
  TAMANHO_BERT = 'base'

BERT: neuralmind/bert-large-portuguese-cased


# 4 - Carregando o Tokenizador BERT

O tokenizador utiliza WordPiece, veja em [artigo original](https://arxiv.org/pdf/1609.08144.pdf).

Carregando o tokenizador da pasta "/content/modelo/" do diretório padrão se variável `URL_MODELO` setada.

**Caso contrário carrega da comunidade**

Por default(`do_lower_case=True`) todas as letras são colocadas para minúsculas. Para ignorar a conversão para minúsculo use o parâmetro `do_lower_case=False`. Esta opção também considera as letras acentuadas(ãçéí...), que são necessárias a língua portuguesa.

O parâmetro `do_lower_case` interfere na quantidade tokens a ser gerado apartir de um documento. Quando igual a `False` reduz a quantidade de tokens gerados.

In [None]:
# Importando as bibliotecas
import os

# Variável para setar o arquivo
URL_MODELO = None

# Comente uma das urls para carregar modelos de tamanhos diferentes(base/large)
# URL_MODELO do arquivo do modelo tensorflow
# arquivo menor(base) 1.1 Gbytes
#URL_MODELO = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip"

# arquivo grande(large) 3.5 Gbytes
#URL_MODELO = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip"

# Se a variável foi setada
if URL_MODELO:

    # Diretório descompactação
    DIRETORIO_MODELO = "/content/modelo"

    # Recupera o nome do arquivo do modelo da URL_MODELO
    arquivo = URL_MODELO.split("/")[-1]

    # Nome do arquivo do vocabulário
    arquivo_vocab = "vocab.txt"

    # Caminho do arquivo na URL_MODELO
    caminho = URL_MODELO[0:len(URL_MODELO)-len(arquivo)]

    # Verifica se a pasta de descompactação existe na pasta corrente
    if os.path.exists(DIRETORIO_MODELO):
      print("Apagando diretório existente do modelo!")
      # Apaga a pasta e os arquivos existentes
      !rm -rf $DIRETORIO_MODELO    

    # Baixa o arquivo do modelo
    !wget $URL_MODELO
    
    # Descompacta o arquivo na pasta de descompactação
    !unzip -o $arquivo -d $DIRETORIO_MODELO

    # Baixa o arquivo do vocabulário
    # O vocabulário não está no arquivo compactado acima, mesma url mas arquivo diferente
    URL_MODELO_VOCAB = caminho + arquivo_vocab
    !wget $URL_MODELO_VOCAB
    
    # Coloca o arquivo do vocabulário no diretório de descompactação
    !mv $arquivo_vocab $DIRETORIO_MODELO
            
    # Move o arquivo para pasta de descompactação
    !mv $arquivo $DIRETORIO_MODELO
       
    print("Pasta do " + DIRETORIO_MODELO + " pronta!")
    
    # Lista a pasta corrente
    !ls -la $DIRETORIO_MODELO
else:
    DIRETORIO_MODELO = None
    print("Variável URL_MODELO não setada!")

Variável URL_MODELO não setada!


In [None]:
# Importando as bibliotecas do tokenizador
from transformers import BertTokenizer

# Se a variável URL_MODELO foi setada
if URL_MODELO:
    # Carregando o Tokenizador
    print("Carrgando o tokenizador BERT do diretório " + DIRETORIO_MODELO + "...")

    tokenizer = BertTokenizer.from_pretrained(DIRETORIO_MODELO, 
                                              do_lower_case=False)    
else:
    # Carregando o Tokenizador da comunidade
    print("Carregando o tokenizador da comunidade...")
    
    tokenizer = BertTokenizer.from_pretrained(MODELO_BERT, do_lower_case=False)

Carregando o tokenizador da comunidade...


Downloading:   0%|          | 0.00/210k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/155 [00:00<?, ?B/s]

# 5 - Carregando o Modelo BERT(BertModel)

Se a variável `URL_MODELO` estiver setada carrega o modelo do diretório `content/modelo`.

Caso contrário carrega da comunidade.

Carregando o modelo da pasta "/content/modelo/" do diretório padrão.

A implementação do huggingface pytorch inclui um conjunto de interfaces projetadas para uma variedade de tarefas de PNL. Embora essas interfaces sejam todas construídas sobre um modelo treinado de BERT, cada uma possui diferentes camadas superiores e tipos de saída projetados para acomodar suas tarefas específicas de PNL.

A documentação para estas pode ser encontrada em [aqui](https://huggingface.co/transformers/v2.2.0/model_doc/bert.html).

Por default o modelo está em modo avaliação ou seja `model.eval()`.

-----------------------

Durante a avaliação do modelo, este retorna um número de diferentes objetos com base em como é configurado na chamada do método `from_pretrained`. 

Quando definimos `output_hidden_states = True` na chamada do método `from_pretrained`, retorno do modelo possui no terceiro item os estados ocultos(**hidden_states**) de todas as camadas.  Veja a documentação para mais detalhes: https://huggingface.co/transformers/model_doc/bert.html#bertmodel

Quando **`output_hidden_states = True`** model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output; 
- outputs[2] = hidden_states.

Quando **`output_hidden_states = False`** ou não especificado model retorna:
- outputs[0] = last_hidden_state;
- outputs[1] = pooler_output.


**ATENÇÃO**: O parâmetro ´**output_hidden_states = True**´ habilita gerar as camadas ocultas do modelo. Caso contrário somente a última camada é mantida. Este parâmetro otimiza a memória mas não os resultados.


In [None]:
# Importando as bibliotecas do Modelo
from transformers import BertModel

# Se a variável URL_MODELO1 foi setada
if URL_MODELO:
    # Carregando o Tokenizador
    print("Carregando o modelo BERT do diretório " + DIRETORIO_MODELO + "...")

    model = BertModel.from_pretrained(DIRETORIO_MODELO, 
                                      output_hidden_states = True)    
else:
    # Carregando o Tokenizador da comunidade
    print("Carregando o modelo BERT da comunidade ...")

    model = BertModel.from_pretrained(MODELO_BERT, 
                                       output_hidden_states = True)    

Carregando o modelo BERT da comunidade ...


Downloading:   0%|          | 0.00/648 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

# 6 - Funções auxiliares BERT

#### getEmbeddingsCamadas

Funções que recuperam os embeddings das camadas:
- Primeira camada;
- Penúltima camada;
- Ùltima camada;
- Soma das 4 últimas camadas;
- Concatenação das 4 últimas camadas;
- Soma de todas as camadas.

In [None]:
def getEmbeddingPrimeiraCamada(output):
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
      
  # Retorna todas a primeira(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultado = output[2][0]
  # Saída: (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  
  return resultado

def getEmbeddingPenultimaCamada(output):
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
      
  # Retorna todas a primeira(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultado = output[2][-2]
  # Saída: (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  
  return resultado

def getEmbeddingUltimaCamada(output):
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
     
  # Retorna todas a primeira(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultado = output[2][-1]
  # Saída: (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  
  return resultado    

def getEmbeddingSoma4UltimasCamadas(output):
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
      
  # Retorna todas a primeira(-1) camada
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  embeddingCamadas = output[2][-4:]
  # Saída: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  

  # Usa o método `stack` para criar uma nova dimensão no tensor 
  # com a concateção dos tensores dos embeddings.        
  #Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultadoStack = torch.stack(embeddingCamadas, dim=0)
  # Saída: <4> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  
  # Realiza a soma dos embeddings de todos os tokens para as camadas
  # Entrada: <4> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  resultado = torch.sum(resultadoStack, dim=0)
  # Saida: <1(lote)> x <qtde_tokens> x <768 ou 1024>
  
  return resultado

def getEmbeddingConcat4UltimasCamadas(output):  
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
      
  # Cria uma lista com os tensores a serem concatenados
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  # Lista com os tensores a serem concatenados
  listaConcat = []
  # Percorre os 4 últimos
  for i in [-1,-2,-3,-4]:
      # Concatena da lista
      listaConcat.append(output[2][i])
  # Saída: Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  
  # Realiza a concatenação dos embeddings de todos as camadas
  # Saída: Entrada: List das camadas(4) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultado = torch.cat(listaConcat, dim=-1)
  # Saída: Entrada: (<1(lote)> x <qtde_tokens> <3072 ou 4096>)  
    
  return resultado   

def getEmbeddingSomaTodasAsCamada(output):
  # outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
  # hidden_states é uma lista python, e cada elemento um tensor pytorch no formado <lote> x <qtde_tokens> x <768 ou 1024>.
   
  # Retorna todas as camadas descontando a primeira(0)
  # Entrada: List das camadas(13 ou 25) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  embeddingCamadas = output[2][1:]
  # Saída: List das camadas(12 ou 24) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  
  # Usa o método `stack` para criar uma nova dimensão no tensor 
  # com a concateção dos tensores dos embeddings.        
  #Entrada: List das camadas(12 ou 24) (<1(lote)> x <qtde_tokens> <768 ou 1024>)  
  resultadoStack = torch.stack(embeddingCamadas, dim=0)
  # Saída: <12 ou 24> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
    
  # Realiza a soma dos embeddings de todos os tokens para as camadas
  # Entrada: <12 ou 24> x <1(lote)> x <qtde_tokens> x <768 ou 1024>
  resultado = torch.sum(resultadoStack, dim=0)
  # Saida: <1(lote)> x <qtde_tokens> x <768 ou 1024>
    
  return resultado

#### Imports

In [None]:
# Import das bibliotecas
import numpy as np
import torch

import matplotlib.pyplot as plt
%matplotlib inline

#### getEmbeddingsVisual

Função para gerar as coordenadas de plotagem a partir das sentenças de embeddings.

Existe uma função para os tipos de camadas utilizadas:
- Ùltima camada;
- Soma das 4 últimas camadas;
- Concatenação das 4 últimas camadas;
- Soma de todas as camadas.

In [None]:
def getEmbeddingsVisualUltimaCamada(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingUltimaCamada(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    # Recupera os embeddings dos tokens como um vetor
    embeddings = token_embeddings.numpy()

    # Converte para um array
    W = np.array(embeddings)
    # Transforma em um array
    B = np.array([embeddings[0], embeddings[-1]])
    # Invertee B.T
    Bi = np.linalg.pinv(B.T)

    #Projeta a palavra no espaço
    Wp = np.matmul(Bi,W.T)

    return Wp, documento_tokenizado

In [None]:
def getEmbeddingsVisualSoma4UltimasCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingSoma4UltimasCamadas(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    # Recupera os embeddings dos tokens como um vetor
    embeddings = token_embeddings.numpy()

    # Converte para um array
    W = np.array(embeddings)
    # Transforma em um array
    B = np.array([embeddings[0], embeddings[-1]])
    # Invertee B.T
    Bi = np.linalg.pinv(B.T)

    #Projeta a palavra no espaço
    Wp = np.matmul(Bi,W.T)

    return Wp, documento_tokenizado

In [None]:
def getEmbeddingsVisualConcat4UltimasCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingConcat4UltimasCamadas(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    # Recupera os embeddings dos tokens como um vetor
    embeddings = token_embeddings.numpy()

    # Converte para um array
    W = np.array(embeddings)
    # Transforma em um array
    B = np.array([embeddings[0], embeddings[-1]])
    # Invertee B.T
    Bi = np.linalg.pinv(B.T)

    #Projeta a palavra no espaço
    Wp = np.matmul(Bi,W.T)

    return Wp, documento_tokenizado

In [None]:
def getEmbeddingsVisualSomaTodasAsCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingSomaTodasAsCamada(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    # Recupera os embeddings dos tokens como um vetor
    embeddings = token_embeddings.numpy()

    # Converte para um array
    W = np.array(embeddings)
    # Transforma em um array
    B = np.array([embeddings[0], embeddings[-1]])
    # Invertee B.T
    Bi = np.linalg.pinv(B.T)

    #Projeta a palavra no espaço
    Wp = np.matmul(Bi,W.T)

    return Wp, documento_tokenizado

#### getEmbeddings

Função para gerar os embeddings das sentenças.

Existe uma função para os tipos de camadas utilizadas:
- Ùltima camada;
- Soma das 4 últimas camadas;
- Concatenação das 4 últimas camadas;
- Soma de todas as camadas.

In [None]:
def getEmbeddingsUltimaCamada(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingUltimaCamada(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)
 
    return token_embeddings, documento_tokenizado

In [None]:
def getEmbeddingsSoma4UltimasCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingSoma4UltimasCamadas(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)
   
    return token_embeddings, documento_tokenizado

In [None]:
def getEmbeddingsConcat4UltimasCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingConcat4UltimasCamadas(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    return token_embeddings, documento_tokenizado

In [None]:
def getEmbeddingsSomaTodasAsCamadas(documento, modelo, tokenizador):
    
    # Adiciona os tokens especiais
    documento_marcado = "[CLS] " + documento + " [SEP]"

    # Divide a sentença em tokens
    documento_tokenizado = tokenizador.tokenize(documento_marcado)

    # Mapeia as strings dos tokens em seus índices do vocabuário    
    tokens_indexados = tokenizador.convert_tokens_to_ids(documento_tokenizado)
    
    # Marca cada um dos tokens como pertencentes à sentença "1".
    mascara_atencao = [1] * len(documento_tokenizado)

    # Converte a entrada em tensores
    tokens_tensores = torch.as_tensor([tokens_indexados])
    mascara_atencao_tensores = torch.as_tensor([mascara_atencao])
    
    # Prediz os atributos dos estados ocultos para cada camada
    with torch.no_grad():        
        # Retorno de model quando ´output_hidden_states=True´ é setado:  
        #outputs[0] = last_hidden_state, outputs[1] = pooler_output, outputs[2] = hidden_states
        outputs = modelo(tokens_tensores, mascara_atencao_tensores)

    # Camada embedding    
    camada = getEmbeddingSomaTodasAsCamada(outputs)

    # Remove a dimensão 1, o lote "batches".
    token_embeddings = torch.squeeze(camada, dim=0)

    return token_embeddings, documento_tokenizado

## Similaridade do cosseno entre os embeddings.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html#scipy.spatial.distance.cosine

A função spatial.distance.cosine do módulo scipy calcula a distância em vez da similaridade do cosseno, mas para conseguir isso, podemos subtrair o valor da distância de 1.

Intervalo de [-1,1] 

Vetores iguais a distância é igual 1.

Vetores diferentes medida próxima de -1.

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import cosine

def similaridadeCosseno(embeddings1, embeddings2):
    """
      Similaridade do cosseno dos embeddings dos textos.
      
      Parâmetros:
      `embeddings1` - Um embedding a ser medido.
      `embeddings2` - Um embedding a ser medido.
    """
    
    similaridade = 1 - cosine(embeddings1, embeddings2)
    
    return similaridade

## Distância Euclidiana entre os embeddings.

Possui outros nomes como distância L2 ou norma L2.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.euclidean.html#scipy.spatial.distance.euclidean

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import euclidean

def distanciaEuclidiana(embeddings1, embeddings2):
    """
      Distância euclidiana entre os embeddings dos textos.
      Possui outros nomes como distância L2 ou norma L2.
      
      Parâmetros:
      `embeddings1` - Um embedding a ser medido.
      `embeddings2` - Um embedding a ser medido.
    """
    
    distancia = euclidean(embeddings1, embeddings2)
    
    return distancia

## Distância Manhattan entre os embeddings.

Possui outros nomes como distância Cityblock, distância L1, norma L1 e métrica do táxi.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cityblock.html#scipy.spatial.distance.cityblock

In [None]:
# Import das bibliotecas.
from scipy.spatial.distance import cityblock

def distanciaManhattan(embeddings1, embeddings2):
    """
      Distância Manhattan entre os embeddings dos textos 
      Possui outros nomes como distância Cityblock, distância L1, norma L1 e métrica do táxi.
      
      Parâmetros:
      `embeddings1` - Um embedding a ser medido.
      `embeddings2` - Um embedding a ser medido.
    """
    
    distancia = cityblock(embeddings1, embeddings2)

    return distancia

## getDocumentoTokenizado 

Retorna o documento tokenizado

In [None]:
def getDocumentoTokenizado(documento, tokenizer):
    """
      Retorna o documento tokenizado pelo BERT.
    
      Parâmetros:
      `documento` - Documento a ser tokenizado.
      `tokenizer` - Tokenizador do BERT.
    """    

    # Adiciona os tokens especiais.
    documentoMarcado = "[CLS] " + documento + " [SEP]"

    # Documento tokenizado
    documentoTokenizado = tokenizer.tokenize(documentoMarcado)

    del tokenizer

    return documentoTokenizado    

## encontrarIndiceSubLista 

Retorna os índices de início e fim da sublista na lista

In [None]:
# Localiza os índices de início e fim de uma sublista em uma lista
def encontrarIndiceSubLista(lista, sublista):

    """
      Localiza os índices de início e fim de uma sublista em uma lista.
    
      Parâmetros:
      `lista` - Uma lista.
      `sublista` - Uma sublista a ser localizada na lista.
    """    
    # https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm

    # Recupera o tamanho da lista 
    h = len(lista)
    # Recupera o tamanho da sublista
    n = len(sublista)    
    skip = {sublista[i]: n - i - 1 for i in range(n - 1)}
    i = n - 1
    while i < h:
        for j in range(n):
            if lista[i - j] != sublista[-j - 1]:
                i += skip.get(lista[i], n)
                break
        else:
            indiceInicio = i - n + 1
            indiceFim = indiceInicio + len(sublista)-1
            return indiceInicio, indiceFim
    return -1, -1

## getEmbeddingSentencaEmbeddingDocumentoComTodasPalavras

A partir dos embeddings do documento, localiza o indíce de início e fim de uma sentença no documento e retorna os embeddings da sentença.

In [None]:
def getEmbeddingSentencaEmbeddingDocumentoComTodasPalavras(embeddingDocumento, 
                                                           tokenBERTDocumento, 
                                                           sentenca, 
                                                           tokenizer):

  # Tokeniza a sentença
  sentencaTokenizadaBert = getDocumentoTokenizado(sentenca, tokenizer)
  #print(sentencaTokenizadaBert)

  # Remove os tokens de início e fim da sentença
  sentencaTokenizadaBert.remove("[CLS]")
  sentencaTokenizadaBert.remove("[SEP]")    
  #print(len(sentencaTokenizadaBert))
  
  # Localiza os índices dos tokens da sentença no documento
  inicio, fim = encontrarIndiceSubLista(tokenBERTDocumento, sentencaTokenizadaBert)
  #print(inicio,fim) 
 
  # Recupera os embeddings dos tokens da sentença a partir dos embeddings do documento
  embeddingSentenca = embeddingDocumento[inicio:fim+1]
  #print("embeddingSentenca=", embeddingSentenca.shape)

  del tokenizer
  del tokenBERTDocumento
  del embeddingDocumento
  
  # Retorna o embedding da sentença no documento
  return embeddingSentenca, sentencaTokenizadaBert

## criarLotesInteligentes

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook
import random

def criarLotesInteligentes(tokenizer, 
                           documentos,     
                           batch_size):
    '''
    Esta função combina todos os passos para preparar os lotes.
    '''
    logging.info("Criando Lotes Inteligentes de {:,} amostras com tamanho de lote {:,}...".format(len(documentos), batch_size))

    # ============================
    #   Tokenização & Truncamento
    # ============================

    input_ids_completos = []
    
    # Tokeniza todas as amostras de treinamento
    #logging.info("Tokenizando {:,} amostra...".format(len(classes)))
    
    # Barra de progresso dos documentos
    documentos_bar = tqdm_notebook(documentos, desc=f'Documentos ', unit=f'documento', total=len(documentos))

    # Para cada amostra de treinamento...
    for documento in documentos_bar:
    
        # Relatório de progresso
        #if ((len(input_ids_completos) % intervalo_atualizacao) == 0):
        #    logging.info("  Tokenizado {:,} amostras.".format(len(input_ids_completos)))

        # Tokeniza a amostra.
        input_ids = tokenizer.encode(text=documento,                    # Documento a ser codificado.
                                    add_special_tokens=True,            # Adiciona os ttokens especiais.
                                    max_length=128,                     # Tamanho do truncamento!
                                    truncation=True,                    # Faz o truncamento!
                                    padding=False)                      # Não preenche.
                
        # Adicione o resultado tokenizado à nossa lista.
        input_ids_completos.append(input_ids)

        del input_ids
    
    del documentos    
    
    #logging.info("{:>10,} amostras tokenizadas.".format(len(input_ids_completos)))

    # =========================
    #      Seleciona os Lotes
    # =========================    
    
    # Classifique as duas listas pelo comprimento da sequência de entrada.
    amostras = sorted(zip(input_ids_completos), key=lambda x: len(x[0]))

    del input_ids_completos
    
    #logging.info("{:>10,} amostras após classificação.".format(len(amostras)))

    # Lista de lotes que iremos construir.
    batch_ordered_documentos = []
    batch_ordered_classes = []

    logging.info("Criando lotes de tamanho {:}...".format(batch_size))

    # Faça um loop em todas as amostras de entrada ... 
    while len(amostras) > 0:
        
        # Mostra o progresso.
        # if ((len(batch_ordered_documentos) % intervalo_atualizacao) == 0 \          
          #  and not len(batch_ordered_documentos) == 0):
           #logging.info("  Selecionado {:,} lotes.".format(len(batch_ordered_documentos)))
        
        # `to_take` é o tamanho real do nosso lote. Será `batch_size` até
        # chegamos ao último lote, que pode ser menor.
        to_take = min(batch_size, len(amostras))
        
        # Escolha um índice aleatório na lista de amostras restantes para começar o nosso lote.
        select = random.randint(0, len(amostras) - to_take)

        # Selecione um lote contíguo de amostras começando em `select`.
        #print ("Selecionando lote de {:} a {:}".format(select, select+to_take))
        batch = amostras[select:(select + to_take)]

        #print("Tamanho do lote:", len(batch))
        
        # Cada amostra é uma tupla --divida para criar uma lista separada de
        # sequências e uma lista de rótulos para este lote.
        batch_ordered_documentos.append([s[0] for s in batch])
                
        # Remova a amostra da lista
        del amostras[select:select + to_take]

    logging.info("  FEITO - Selecionado {:,} lotes.".format(len(batch_ordered_documentos)))

    # =========================
    #        Adicionando o preenchimento
    # =========================    

    # logging.info("Preenchendo sequências dentro de cada lote...")

    py_input_ids = []
    py_attention_masks = []

    # Para cada lote...
    for batch_input_ids in batch_ordered_documentos:

        # Nova versão do lote, desta vez com sequências preenchidas e agora com
        # as máscaras de atenção definidas.
        batch_padded_input_ids = []
        batch_attention_masks = []
                
        # Primeiro, encontre a amostra mais longa do lote.
        # Observe que as sequências atualmente incluem os tokens especiais!
        max_size = max([len(input) for input in batch_input_ids])
                
        # Para cada entrada neste lote...
        for input in batch_input_ids:
                        
            # Quantos tokens pad precisam ser adicionados
            num_pads = max_size - len(input)

            # Adiciona `num_pads` do pad token(tokenizer.pad_token_id) até o final da sequência.
            padded_input = input + [tokenizer.pad_token_id] * num_pads

            # Define a máscara de atenção --é apenas um `1` para cada token real
            # e um `0` para cada token de preenchimento(pad).
            attention_mask = [1] * len(input) + [0] * num_pads
                        
            # Adiciona o resultado preenchido ao lote.
            batch_padded_input_ids.append(padded_input)
            batch_attention_masks.append(attention_mask)

            del padded_input
            del attention_mask
        
        # Nosso lote foi preenchido, portanto, precisamos salvar este lote atualizado.
        # Também precisamos que as entradas sejam tensores PyTorch, então faremos isso aqui.
        py_input_ids.append(torch.tensor(batch_padded_input_ids))
        py_attention_masks.append(torch.tensor(batch_attention_masks))

        del batch_padded_input_ids
        del batch_attention_masks

    del batch_ordered_documentos
    del batch_ordered_classes
    
    del tokenizer    

    # Retorna o conjunto de dados em lotes inteligentes!
    return (py_input_ids, py_attention_masks)

# 7 - Funções auxiliares spaCy

### getStopwords

Recupera as stopwords do spaCy

In [None]:
def getStopwords(nlp):
    """
      Recupera as stop words do nlp(Spacy).
    
      Parâmetros:
        `nlp` - Um modelo spaCy carregado.           
    """
    
    spacy_stopwords = nlp.Defaults.stop_words

    return spacy_stopwords 

Lista dos stopwords

In [None]:
logging.info("Quantidade de stopwords: {}.".format(len(getStopwords(nlp))))

print(getStopwords(nlp))

2022-08-03 19:14:45,995 : INFO : Quantidade de stopwords: 413.


{'vós', 'vossa', 'novas', 'estão', 'conhecido', 'esta', 'coisa', 'terceira', 'num', 'têm', 'tão', 'põem', 'fim', 'ligado', 'somos', 'longe', 'sétima', 'possível', 'como', 'nível', 'certamente', 'segunda', 'após', 'menor', 'este', 'esses', 'também', 'ademais', 'meio', 'nova', 'enquanto', 'tudo', 'em', 'parece', 'próxima', 'último', 'você', 'tiveram', 'com', 'nove', 'cujo', 'valor', 'ali', 'nesse', 'vários', 'quinze', 'quarto', 'tiveste', 'das', 'boa', 'minha', 'vindo', 'desde', 'quê', 'estar', 'acerca', 'forma', 'eles', 'máximo', 'novo', 'vinda', 'tal', 'sempre', 'dezasseis', 'maiorias', 'nas', 'aquela', 'depois', 'sim', 'sexta', 'partir', 'parte', 'é', 'irá', 'tentaram', 'foram', 'grupo', 'apenas', 'entre', 'estiveste', 'portanto', 'vêm', 'dizem', 'então', 'aqueles', 'quieta', 'aqui', 'relação', 'vossos', 'pelas', 'isso', 'além', 'fazer', 'porque', 'área', 'sobre', 'quais', 'nos', 'tivemos', 'pôde', 'cuja', 'oitava', 'pelos', 'perto', 'baixo', 'uns', 'tem', 'tente', 'bastante', 'cima',

### getListaTokensPOSSentenca

Retorna duas listas uma com os tokens e a outra com a POS-Tagging dos tokens da sentenca.

In [None]:
def getListaTokensPOSSentenca(sentenca):
  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  listatokens = []
  listapos = []

  # Percorre a sentença adicionando os tokens e as POS
  for token in doc:    
    listatokens.append(token.text)
    listapos.append(token.pos_)
    
  return listatokens, listapos

# 8 - Exemplo de visualização sem pooling

Apresenta os tokens gerados pelo BERT e seus embeddings. 

## Documentos a serem visualizados

Crie uma lista com os documentos a serem visualizados.

In [None]:
documentos = [
  "Realizo AM de 4 dia (s); Solicito RT-PCR, oriento realizar com 72h do início dos sintomas e retornar o contato quando estiver com resultado em mãos; Prescrevo sintomáticos SN (Dipirona, Cetoprofeno, Zyrtec, Avamys, Bromexina, Lavagem nasal com SF); Oriento quanto à importância do isolamento social (10-14 dias a partir do início dos sintomas + a48h assintomático (a) + 24h afebril) e higiene individual, além da necessidade de repousar, manter uma alimentação balanceada e se hidratar adequadamente; Oriento à buscar atendimento de urgência em caso de sintomas graves (febre > 39,5ºC que não cessa com uso de antitérmico, dispneia, desmaio e queda do quadro geral); Oriento ainda a retornar o contato em caso de piora dos sintomas;Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito PCR-RT para Covid-19 - retornar contato se exame positivo; Prescrevo sintomáticos; Oriento quanto à importância do isolamento social até resultado de exame e por pelo menos 10 dias dos sintomas; Orientar sobre medidas não farmacológicas, como repouso, hidratação e alimentação adequada.; Oriento sinais de alarme e necessidade de buscar atendimento de urgência em caso de sintomas graves. Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito Rt-PCR para SARSCOV 2/Sorol Dengue-Orientado(a) ao uso de analgésico de 6/6 horas se dor ou febre >37,8 C e hidratação (6 a 8 copos de água por dia). Orientado(a) sobre sinais e sintomas de alerta e necessidade de reavaliação médica presencial se necessário. Oriento sobre medidas de higiene e isolamento social além de alimentação saudável e não ingestão de bebidas alcoólicas. Se dúvidas ou outros sintomas orientado também a entrar em contato via 0800 para nova (re)avaliação. Informo ao paciente sobre as limitações do atendimento online  não excluindo a necessidade de avaliação médica presencial se agravo dos sintomas relatados ou aparecimento de sinais e sintomas de gravidade  orientados durante consulta médica. ATM 3 DIAS",
  "Prescrevo Cetoprofeno e descolonização da pele com Triclosan, e manter Mometasona. Oriento buscar atendimento com Dermatologista caso não haja melhora; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Paciente com Sepse pulmonar em D8 tazocin (paciente não recebeu por 2 dias Atb). Acesso venoso central em subclavia D duplolumen recebendo solução salina e glicosada em BI.",
  "Prescrevo Liposic 5x ao dia e buscar atendimento com Oftalmo caso sintomas persistirem. Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações",
  "Solicito USG de Mama e oriento buscar atendimento com Gineco ou Masto; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito Rt-PCR; Atestado de 9 dias; Hidratação + sintomáticos; Oriento sinais e sintomas de alerta e necessidade de retorno para reavaliação ou necessidade de procurar emergência; Manter isolamento domiciliar - reforço medidas de higiene e distanciamento social",
  "Oriento medidas de isolamento até 10/05; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Nimesulida 100mg 12/12h por 5 dias",
  "Oriento medidas de isolamento; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Nimesulida 100mg 12/12h por 5 dias + Loratadina10mg/dia por 5 dias + Dip 1g 6/6h, SN; Solicito RT pcr; Atestado médico para 7 dias",
  "Prescrevo cefalium 1 cp de 6/6h e dipirona (intercalar se necessário). Orientado(a) sobre sinais e sintomas de alerta e necessidade de reavaliação médica presencial se necessário. Oriento sobre medidas de higiene e isolamento social,  além de alimentação saudável e não ingestão de bebidas alcoólicas. Se dúvidas ou outros sintomas durante/após quarentena,  não excluindo a necessidade de avaliação médica presencial se agravo dos sintomas relatados ou aparecimento de sinais e sintomas de gravidade,  orientados durante consulta médica. Atesto 02 dias e oriento novo contato quando resultado de exame ou quando término do afastamento para verificar necessidade de aumento do atestado.",
  "Orientações + Prescrevo sintomáticos (Koid D + Novalgina + Enterogermina). Reforço sinais de alarme.",
  "Orientações + Sintomático (20Bi + Zincopro + Enterogermina) + AM 3d (CID A09). Reforço sinais de alarme e retorno se novos sinais. Hoje sem critérios para teste COVID.",
  "SOLICITO USG PAREDE ABDOMINAL. PRESCREVO CETOPROFENO SE DOR; ATESTADO DE 2 DIAS. ORIENTO SINAIS DE ALERTA ",
  "Orientações + Sintomáticos + AM 6d (CID U071). Reforço isolamento e sinais de alarme",
  "Orientações + Sintomáticos + AM 5d (CID B349). Reforço sinais de alarme",
  "PACIENTE SEM GRAVIDADE. SOLICITO TESTE PCR. PRESCREVO CELERG E ACETILCISTEINA. DIZ NÃO PRECISAR DE ATESTADO.",
  "Oriento estancar lesão, assepsia local, curativo 2x ao dia e observar evolução; Prescrevo Dipirona e Cetoprofeno SN; Oriento ainda a retornar o contato em caso de piora dos sintomas; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "CD: Oriento paciente procurar pronto atendimento para realização de consulta presencial para realização de exame físico devido piora do quadro geral com retorno da febre",
  "Oriento retorno seguro ao trabalho sem a necessidade de nova testagem",
  "CD: Orientações gerais, oriento sinais de alarme, procurar pronto atendimento se sinais de alarme; Loratadina 10mg 01cp ao dia; Dipirona 1g 01cp de 6/6h S/N; Atestado médico 06 dias",
  "Orientações + Prescrevo Atak 400mg/5ml (7d) + Koid D (5d) + Novalgina sol (s/n) + Maresis AR + AM 7d (CID J069). Oriento higiene das mãos",
  "Oriento avaliação emergencial vez que paciente tem tido sintomas de desidratação e necessita de avaliação médica presencial.",
  "P (ACICLOVIR TOPICO+ TTO PARA FLORA INTESTINAL) SINAIS E SINTOMAS DE ALERTA PARA ATEND MÉDICO PRESENCIAL",
  "Aplicação protocolo de Mindfulness; Compromisso com uma pessoa da rede de apoio; Diminuição da meta com foco no agora; Consulta médica para exames de rotina e marcadores importantes para saúde mental (vit B12, vit D, Ferro, Cortisol)",
  "1. Solicito RT PCR COVID 2. Atestado de isolamento por 05 dias 3, Sintomáticos e orientações sobre COVId",
  "1. Reenvio pedido + atestado isolamento de 05 dias e labs a pedido 2. Orientações COVID",
  "1. Solicito PCR e atestado de isolamento 2. Sintomáticos + orientações sobre COVID",
  "1. Oriento consulta presencial com médico em emergência hoje devido a pneumopatia e comorbidades importantes. 2. Orientações sobre sindrome respiratória aguda grave",
  "Solicito RX- Coluna Cervical e Lombar a pedido; Orientações gerais, retornar SN",
  "Prescrevo nitrofurantoina 100 1 cp de 6/6h por 7 dias e oriento sinais e sintomas de alerta. ",
  "Orientações + Mantenho ttos propostos + Prescrevo Pantoprazol 20mg (jejum - 2m) + Vonau 8mg (s/n).; Reforço sinais de alarme para necessidade de consulta presencial.",
  "1. Prescrevo azitromicina susp 200mg/5ml conforme peso 17Kg; 2. Solicito PCR COVID e isolamento social; 3. Oriento consulta presencial em emergência pediatrica se ausÊncia de melhora em 24h",
  "1. Prescrevo nasonex, levocetirizina 5mg por 6 dias, prednisona 40mg por 5 dias e salbutamol spray; 2. Oriento esposa sobre risco de COVID e necessidade de realizar exames se persistência dos sintomas",
  "1. Poderá usar o dorflex",
  "Faço atestado médico para 10 dias, manter uso de sintomáticos prescritos, hidratação vigorosa e alimentação conforme aceitação. Oriento atendimento emergencial em caso de piora.",
  "Prescrevo macrodantina por 7 dias. Paciente vem bastante ansiosa. Converso e oriento sobre sintomas do COVID.",
  "Prescrevo Fluconazol em dose única, prescrevo amoxicilina + clavulanato por 10 dias. Retornar caso não haja melhora.",
  "Converso com paciente sobre atestado médico, relato que o tempo de internamento conta no atestado e que é necessário maiores informações para fazer um atestado que não o prejudique evidenciado o tempo de afastamento. Oriento também que procure o chefe pra negociar questões sobre o modelo de trabalho em Home Office.",
  "Prescrevo macrodantina por 7 dias e oriento aumento de ingesta hídrica.",
  "Prescrevo Desloratadina Xarope 5ml/dia por 5 dias + Dexametasona Pomada nas lesões; Entrar em contato se persistência/piora dos sintomas",
  "Orientações + Sintomáticos + AM 5d (CID B349). Reforço sinais de alarme ",
  "Já solicitados exames por outra plataforma- Prescrevo sintomáticos. Oriento quanto à importância do isolamento social, medidas higiênico-dietéticas (alimentação equilibrada e hidratação,lavar as mãos com frequência, utilizar máscaras, manter distanciamento físico, evitar ambientes fechados,).Oriento durante a consulta médica sinais e sintomas de gravidade- para buscar atendimento de urgência em caso de sintomas graves-esclareço limitações quanto ao  teleatendimento médico(coloco por escrito em receita enviada ao paciente). Oriento ainda a retornar o contato quando estiver com o resultado do exame em mãos e em caso de piora dos sintomas; Deixo o serviço disponível em caso de dúvidas ou necessidade de novas orientações. Coloco número de contato de nossa Central Telefônica 24hs em receita enviada ao paciente.ATM 4 dias",
  "Orientações + Aguardando resultado de exame + Prescrevo sintomáticos (Novalgina,  Koid D,  Lavagem nasal) + AM (CID Z209 - nome do esposo, como contactante)",
  "Prescrevo Cipro por 3 dias, Annita por 3 dias, Floratil, Buscopam e Dipirona; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "orientações sobre biossegurança; orientações sobre sinais de alerta; encam para atend medico devido risco ocupacional",
  "Tratamento flora Intestinal +Dieta+Sintocalmy se necessário.Oriento fazer acompanhamento de quadro intestinal/emocional. ATM 2 dias - Anexo ao PEP-",
  "Oriento medidas de isolamento até 09/05; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Dip 1g 6/6h, SN +Paracetamol 750mg 6/6h, SN + Aviant EFE 1 cp 12/12h por 5 dias; Atestado médico para 5 dias",
  "Solicito Sorologia com IgG e IgM e oriento realizar hoje, e RT-PCR para realizar com 72h do início dos sintomas e retornar o contato quando estiver com resultado em mãos; Oriento ainda a retornar o contato em caso de piora dos sintomas; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  ]

print("Quantidade de documentos:", len(documentos))

Quantidade de documentos: 49


## Gera os embeddings dos documentos

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook

lista_embeddings = []
lista_documentos_tokenizado = []

maior_sequencia = 0

total_tokens = 0

# Barra de progresso dos documentos
documentos_bar = tqdm_notebook(enumerate(documentos), desc=f"Documentos", unit=f" documento", total=len(documentos))

# Percorre os documentos
for i, documento in documentos_bar:
  
    # Gera embeddings utilizando as 4 últimas camadas do BERT
    # token_embeddings, documento_tokenizado = getEmbeddingsUltimaCamada(documento, model, tokenizer)

    # Gera embeddings concatenando as 4 últimas camadas do BERT    
    token_embeddings, documento_tokenizado = getEmbeddingsConcat4UltimasCamadas(documento, model, tokenizer)
    
    # Guarda o maior tamanho de documento
    if len(documento_tokenizado) > maior_sequencia:
        maior_sequencia = len(documento_tokenizado)

    # Guarda o total de tokens dos documentos
    total_tokens = total_tokens + len(documento_tokenizado)

    # Guarda os embeddings e o documento tokenizado
    lista_embeddings.append(token_embeddings)
    lista_documentos_tokenizado.append(documento_tokenizado)    

Documentos:   0%|          | 0/49 [00:00<?, ? documento/s]

Mostra um documento processado.

In [None]:
print(len(lista_embeddings[0]))
print(lista_documentos_tokenizado[0])

223
['[CLS]', 'Real', '##izo', 'AM', 'de', '4', 'dia', '(', 's', ')', ';', 'Sol', '##ici', '##to', 'R', '##T', '-', 'PC', '##R', ',', 'orient', '##o', 'realizar', 'com', '72', '##h', 'do', 'início', 'dos', 'sintomas', 'e', 'retornar', 'o', 'contato', 'quando', 'estiver', 'com', 'resultado', 'em', 'mãos', ';', 'Pres', '##cre', '##vo', 'sinto', '##máticos', 'SN', '(', 'Di', '##pi', '##ron', '##a', ',', 'Ce', '##top', '##ro', '##fen', '##o', ',', 'Z', '##yr', '##tec', ',', 'Av', '##am', '##ys', ',', 'Bro', '##me', '##xi', '##na', ',', 'Lava', '##gem', 'nas', '##al', 'com', 'S', '##F', ')', ';', 'Ori', '##ent', '##o', 'quanto', 'à', 'importância', 'do', 'isolamento', 'social', '(', '10', '-', '14', 'dias', 'a', 'partir', 'do', 'início', 'dos', 'sintomas', '+', 'a', '##48', '##h', 'ass', '##into', '##mático', '(', 'a', ')', '+', '24', '##h', 'afe', '##bri', '##l', ')', 'e', 'higi', '##ene', 'individual', ',', 'além', 'da', 'necessidade', 'de', 'repou', '##sar', ',', 'manter', 'uma', 'alimen

Quantidade de tokens nos documentos

In [None]:
print("Quantidade de tokens:", total_tokens)

Quantidade de tokens: 2863


Maior tamanho  de documento

In [None]:
print("max_seq_length:", maior_sequencia)

max_seq_length: 223


## Gera os arquivos para o Embedding Projector

Arquivos com os valores dos embeddings

In [None]:
# Import das bibliotecas.
import csv

# Sufixo do arquivo
sufixo_arquivo = "_" + str(lista_embeddings[0].size()[1]) + "_" + TAMANHO_BERT

# Abre o arquivo
with open("records" + sufixo_arquivo + ".tsv", 'w') as tsvfile:
  # Cria um arquivo separado por tab
    writer = csv.writer(tsvfile, delimiter='\t')
    
    # Percorre os embeddings
    for i, documento_embedding in enumerate(lista_embeddings):

        # Converte os tensores em numpy array
        documento_embedding_np =  documento_embedding.numpy()        
        # Qtde de tokens do documento
        length = len(lista_documentos_tokenizado[i]) 
        
        # Escreve no arquivo os embeddings do documento       
        writer.writerows(documento_embedding_np[:length])     
        

Arquivo com os metadados dos embeddings

In [None]:
# Import das bibliotecas.
import csv

# Sufixo do arquivo
sufixo_arquivo = "_" + str(lista_embeddings[0].size()[1]) + "_" + TAMANHO_BERT

# Abre o arquivo
with open("meta" + sufixo_arquivo + ".tsv", 'w') as tsvfile:
    # Define o escritor do arquivo
    writer = csv.writer(tsvfile, delimiter='\t')
    
    # Cabeçalho do arquivo
    writer.writerow(["Token", "Sentença"])    

    # Percorre os embeddings
    for i, documento_embedding in enumerate(lista_embeddings):
        length = len(lista_documentos_tokenizado[i])        
        
        # Escreve a palavra e sua sentença
        for j in range(length):            
            s = [lista_documentos_tokenizado[i][j], documentos[i]]
            writer.writerow(s)

Faça o download dos arquivos **records_4096.tsv** e **meta_4096.tsv** e carregue em https://projector.tensorflow.org/ na opção load.

Carrega os arquivos na ferramenta através do link "Load". Na opção existe um link botão para carregar o arquivo dos embeddings e um outro botão para carregar os metadados.



Você também pode utilizar um link a um arquivo de configuração config.json com a referência aos arquivos em algum repositório publico na internet, por exemplo github ou gist


Aqui um exemplo.

https://projector.tensorflow.org/?config=https://raw.githubusercontent.com/osmarbraz/cohebertv1visualizacao/main/config.json




# 9 - Exemplo de visualização com pooling de embeddings com POS

Apresenta a combinação embeddings de tokens de palavras fora do vocabulário do BERT realizando a média e PoS-Tagging.

### getTokensEmbeddingsPOSSentenca
Gera os tokens, POS e embeddings de cada sentença.

In [None]:
# Dicionário de tokens de exceções e seus deslocamentos para considerar mais tokens do BERT em relação ao spaCy
# A tokenização do BERT gera mais tokens que a tokenização das palavras do spaCy
dic_excecao_maior = {"":-1,
                    }

In [None]:
def getExcecaoDicMaior(token, dic_excecao_maior):   
    
  valor = dic_excecao_maior.get(token)
  if valor != None:
      return valor
  else:
      return -1

In [None]:
# Dicionário de tokens de exceções e seus deslocamentos para considerar menos tokens do BERT em relação ao spaCy
# A tokenização do BERT gera menos tokens que a tokenização das palavras do spaCy
dic_excecao_menor = {"1°":1,
                    }

In [None]:
def getExcecaoDicMenor(token, dic_excecao_menor):   
    
  valor = dic_excecao_menor.get(token)
  if valor != None:
      return valor
  else:
      return -1

Função que retorna os embeddings, tokens e POS da sentença com um mesmo tamanho.

In [None]:
# Importa a biblioteca
import torch

def getTokensEmbeddingsPOSSentenca(embeddingDocumento, 
                                   tokenBERTDocumento, 
                                   sentenca):
    """    
      Retorna os tokens, as postagging e os embeddings dos tokens igualando a quantidade de tokens do spaCy com a tokenização do BERT de acordo com a estratégia. 
      Usa a estratégia MEAN para calcular a média dos embeddings dos tokens que formam uma palavra.
      Usa a estratégia MAX para calcular o valor máximo dos embeddings dos tokens que formam uma palavra.
    """
   
    #Guarda os tokens e embeddings
    listaTokens = []
    listaTokensOOV = []
    listaEmbeddingsMEAN = []
    listaEmbeddingsMAX = []
    
    # Gera a tokenização e POS-Tagging da sentença    
    sentenca_token, sentenca_pos = getListaTokensPOSSentenca(sentenca)

    # print("\nsentenca          :",sentenca)    
    # print("sentenca_token      :",sentenca_token)
    # print("len(sentenca_token) :",len(sentenca_token))    
    # print("sentenca_pos        :",sentenca_pos)
    # print("len(sentenca_pos)   :",len(sentenca_pos))
    
    # Recupera os embeddings da sentença dos embeddings do documento    
    embeddingSentenca = embeddingDocumento    
    sentencaTokenizadaBert = tokenBERTDocumento
    
    # embedding <qtde_tokens x 4096>        
    # print("embeddingSentenca          :",embeddingSentenca.shape)
    # print("sentencaTokenizadaBert     :",sentencaTokenizadaBert)
    # print("len(sentencaTokenizadaBert):",len(sentencaTokenizadaBert))

    # Seleciona os pares de palavra a serem avaliadas
    posWi = 0 # Posição do token da palavra gerado pelo spaCy
    posWj = posWi # Posição do token da palavra gerado pelo BERT
    pos2 = -1

    # Enquanto o indíce da palavra posWj(2a palavra) não chegou ao final da quantidade de tokens do BERT
    while posWj < len(sentencaTokenizadaBert):  

      # Seleciona os tokens da sentença
      Wi = sentenca_token[posWi] # Recupera o token da palavra gerado pelo spaCy
      Wi1 = ""
      pos2 = -1
      if posWi+1 < len(sentenca_token):
        Wi1 = sentenca_token[posWi+1] # Recupera o próximo token da palavra gerado pelo spaCy
  
        # Localiza o deslocamento da exceção        
        pos2 = getExcecaoDicMenor(Wi+Wi1, dic_excecao_menor)  
        #print("Exceção pos2:", pos2)

      Wj = sentencaTokenizadaBert[posWj] # Recupera o token da palavra gerado pelo BERT
      # print("Wi[",posWi,"]=", Wi)
      # print("Wj[",posWj,"]=", Wj)

      # Tratando exceções
      # Localiza o deslocamento da exceção
      pos = getExcecaoDicMaior(Wi, dic_excecao_maior)  
      #print("Exceção pos:", pos)
            
      if pos != -1 or pos2 != -1:      
        if pos != -1:
          #print("Adiciona 1 Exceção palavra == Wi or palavra = [UNK]:",Wi)
          listaTokens.append(Wi)          
          # Verifica se tem mais de um token
          if pos != 1:
            indiceToken = posWj + pos
            #print("Calcula a média de :", posWj , "até", indiceToken)
            embeddingsTokensPalavra = embeddingSentenca[posWj:indiceToken]
            #print("embeddingsTokensPalavra:",embeddingsTokensPalavra.shape)
            # calcular a média dos embeddings dos tokens do BERT da palavra
            embeddingEstrategiaMEAN = torch.mean(embeddingsTokensPalavra, dim=0)
            #print("embeddingEstrategiaMEAN:",embeddingEstrategiaMEAN.shape)
            listaEmbeddingsMEAN.append(embeddingEstrategiaMEAN)

            # calcular o máximo dos embeddings dos tokens do BERT da palavra
            embeddingEstrategiaMAX, linha = torch.max(embeddingsTokensPalavra, dim=0)
            #print("embeddingEstrategiaMAX:",embeddingEstrategiaMAX.shape)
            listaEmbeddingsMAX.append(embeddingEstrategiaMAX)
          else:
            # Adiciona o embedding do token a lista de embeddings
            listaEmbeddingsMEAN.append(embeddingSentenca[posWj])            
            listaEmbeddingsMAX.append(embeddingSentenca[posWj])
         
          # Avança para a próxima palavra e token do BERT
          posWi = posWi + 1
          posWj = posWj + pos
          #print("Proxima:")            
          #print("Wi[",posWi,"]=", sentenca_token[posWi])
          #print("Wj[",posWj,"]=", sentencaTokenizadaBert[posWj])
        else:
          if pos2 != -1:
            #print("Adiciona 1 Exceção palavra == Wi or palavra = [UNK]:",Wi)
            listaTokens.append(Wi+Wi1)          
            # Verifica se tem mais de um token
            if pos2 == 1: 
              # Adiciona o embedding do token a lista de embeddings
              listaEmbeddingsMEAN.append(embeddingSentenca[posWj])
              listaEmbeddingsMAX.append(embeddingSentenca[posWj])
          
            # Avança para a próxima palavra e token do BERT
            posWi = posWi + 2
            posWj = posWj + pos2
            #print("Proxima:")            
            #print("Wi[",posWi,"]=", sentenca_token[posWi])
            #print("Wj[",posWj,"]=", sentencaTokenizadaBert[posWj])
      else:  
        # Tokens iguais adiciona a lista, o token não possui subtoken
        if (Wi == Wj or Wj=="[UNK]"):
          # Adiciona o token a lista de tokens
          #print("Adiciona 2 Wi==Wj or Wj==[UNK]:", Wi )
          listaTokens.append(Wi)    
          # Marca como dentro do vocabulário do BERT
          listaTokensOOV.append(0)
          # Adiciona o embedding do token a lista de embeddings
          listaEmbeddingsMEAN.append(embeddingSentenca[posWj])
          listaEmbeddingsMAX.append(embeddingSentenca[posWj])
          #print("embedding1[posWj]:", embeddingSentenca[posWj].shape)
          # Avança para a próxima palavra e token do BERT
          posWi = posWi + 1
          posWj = posWj + 1   
              
        else:          
          # A palavra foi tokenizada pelo Wordpice com ## ou diferente do spaCy ou desconhecida
          # Inicializa a palavra a ser montada          
          palavraPOS = Wj
          indiceToken = posWj + 1                 
          while  ((palavraPOS != Wi) and indiceToken < len(sentencaTokenizadaBert)):
              if "##" in sentencaTokenizadaBert[indiceToken]:
                # Remove os caracteres "##" do token
                parte = sentencaTokenizadaBert[indiceToken][2:]
              else:                
                parte = sentencaTokenizadaBert[indiceToken]
              
              palavraPOS = palavraPOS + parte
              #print("palavraPOS:",palavraPOS)
              # Avança para o próximo token do BERT
              indiceToken = indiceToken + 1

          #print("\nMontei palavra:",palavraPOS)
          if (palavraPOS == Wi or palavraPOS == "[UNK]"):
              # Adiciona o token a lista
              #print("Adiciona 3 palavra == Wi or palavraPOS = [UNK]:",Wi)
              listaTokens.append(Wi)
              # Marca como fora do vocabulário do BERT
              listaTokensOOV.append(1)
              # Calcula a média dos tokens da palavra
              #print("Calcula o máximo :", posWj , "até", indiceToken)
              embeddingsTokensPalavra = embeddingSentenca[posWj:indiceToken]
              #print("embeddingsTokensPalavra2:",embeddingsTokensPalavra)
              #print("embeddingsTokensPalavra2:",embeddingsTokensPalavra.shape)
              
              # calcular a média dos embeddings dos tokens do BERT da palavra
              embeddingEstrategiaMEAN = torch.mean(embeddingsTokensPalavra, dim=0)        
              #print("embeddingEstrategiaMEAN:",embeddingEstrategiaMEAN)
              #print("embeddingEstrategiaMEAN.shape:",embeddingEstrategiaMEAN.shape)      
              listaEmbeddingsMEAN.append(embeddingEstrategiaMEAN)
             
              # calcular o valor máximo dos embeddings dos tokens do BERT da palavra
              embeddingEstrategiaMAX, linha = torch.max(embeddingsTokensPalavra, dim=0)
              #print("embeddingEstrategiaMAX:",embeddingEstrategiaMAX)
              #print("embeddingEstrategiaMAX.shape:",embeddingEstrategiaMAX.shape)     
              listaEmbeddingsMAX.append(embeddingEstrategiaMAX)

          # Avança para o próximo token do spaCy
          posWi = posWi + 1
          # Pula para o próximo token do BERT
          posWj = indiceToken
    
    # Verificação se as listas estão com o mesmo tamanho
    #if (len(listaTokens) != len(sentenca_token)) or (len(listaEmbeddingsMEAN) != len(sentenca_token)):
    if (len(listaTokens) !=  len(listaEmbeddingsMEAN)):
       print("\nsentenca                :",sentenca)         
       print("sentenca_pos            :",sentenca_pos)
       print("sentenca_token          :",sentenca_token)
       print("sentencaTokenizadaBert  :",sentencaTokenizadaBert)
       print("listaTokens             :",listaTokens)        
       print("len(listaTokens)        :",len(listaTokens))       
       print("listaEmbeddingsMEAN     :",listaEmbeddingsMEAN)
       print("len(listaEmbeddingsMEAN):",len(listaEmbeddingsMEAN))
       print("listaEmbeddingsMAX      :",listaEmbeddingsMAX)
       print("len(listaEmbeddingsMAX) :",len(listaEmbeddingsMAX))

    del embeddingSentenca
    del tokenBERTDocumento
    del sentencaTokenizadaBert
    del sentenca_token

    return listaTokens, sentenca_pos, listaTokensOOV, listaEmbeddingsMEAN, listaEmbeddingsMAX

## Documentos a serem visualizados

Crie uma lista com os documentos a serem visualizados.

In [None]:
documentos = [
  "Realizo AM de 4 dia (s); Solicito RT-PCR, oriento realizar com 72h do início dos sintomas e retornar o contato quando estiver com resultado em mãos; Prescrevo sintomáticos SN (Dipirona, Cetoprofeno, Zyrtec, Avamys, Bromexina, Lavagem nasal com SF); Oriento quanto à importância do isolamento social (10-14 dias a partir do início dos sintomas + a48h assintomático (a) + 24h afebril) e higiene individual, além da necessidade de repousar, manter uma alimentação balanceada e se hidratar adequadamente; Oriento à buscar atendimento de urgência em caso de sintomas graves (febre > 39,5ºC que não cessa com uso de antitérmico, dispneia, desmaio e queda do quadro geral); Oriento ainda a retornar o contato em caso de piora dos sintomas;Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito PCR-RT para Covid-19 - retornar contato se exame positivo; Prescrevo sintomáticos; Oriento quanto à importância do isolamento social até resultado de exame e por pelo menos 10 dias dos sintomas; Orientar sobre medidas não farmacológicas, como repouso, hidratação e alimentação adequada.; Oriento sinais de alarme e necessidade de buscar atendimento de urgência em caso de sintomas graves. Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito Rt-PCR para SARSCOV 2/Sorol Dengue-Orientado(a) ao uso de analgésico de 6/6 horas se dor ou febre >37,8 C e hidratação (6 a 8 copos de água por dia). Orientado(a) sobre sinais e sintomas de alerta e necessidade de reavaliação médica presencial se necessário. Oriento sobre medidas de higiene e isolamento social além de alimentação saudável e não ingestão de bebidas alcoólicas. Se dúvidas ou outros sintomas orientado também a entrar em contato via 0800 para nova (re)avaliação. Informo ao paciente sobre as limitações do atendimento online  não excluindo a necessidade de avaliação médica presencial se agravo dos sintomas relatados ou aparecimento de sinais e sintomas de gravidade  orientados durante consulta médica. ATM 3 DIAS",
  "Prescrevo Cetoprofeno e descolonização da pele com Triclosan, e manter Mometasona. Oriento buscar atendimento com Dermatologista caso não haja melhora; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Paciente com Sepse pulmonar em D8 tazocin (paciente não recebeu por 2 dias Atb). Acesso venoso central em subclavia D duplolumen recebendo solução salina e glicosada em BI.",
  "Prescrevo Liposic 5x ao dia e buscar atendimento com Oftalmo caso sintomas persistirem. Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações",
  "Solicito USG de Mama e oriento buscar atendimento com Gineco ou Masto; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "Solicito Rt-PCR; Atestado de 9 dias; Hidratação + sintomáticos; Oriento sinais e sintomas de alerta e necessidade de retorno para reavaliação ou necessidade de procurar emergência; Manter isolamento domiciliar - reforço medidas de higiene e distanciamento social",
  "Oriento medidas de isolamento até 10/05; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Nimesulida 100mg 12/12h por 5 dias",
  "Oriento medidas de isolamento; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Nimesulida 100mg 12/12h por 5 dias + Loratadina10mg/dia por 5 dias + Dip 1g 6/6h, SN; Solicito RT pcr; Atestado médico para 7 dias",
  "Prescrevo cefalium 1 cp de 6/6h e dipirona (intercalar se necessário). Orientado(a) sobre sinais e sintomas de alerta e necessidade de reavaliação médica presencial se necessário. Oriento sobre medidas de higiene e isolamento social,  além de alimentação saudável e não ingestão de bebidas alcoólicas. Se dúvidas ou outros sintomas durante/após quarentena,  não excluindo a necessidade de avaliação médica presencial se agravo dos sintomas relatados ou aparecimento de sinais e sintomas de gravidade,  orientados durante consulta médica. Atesto 02 dias e oriento novo contato quando resultado de exame ou quando término do afastamento para verificar necessidade de aumento do atestado.",
  "Orientações + Prescrevo sintomáticos (Koid D + Novalgina + Enterogermina). Reforço sinais de alarme.",
  "Orientações + Sintomático (20Bi + Zincopro + Enterogermina) + AM 3d (CID A09). Reforço sinais de alarme e retorno se novos sinais. Hoje sem critérios para teste COVID.",
  "SOLICITO USG PAREDE ABDOMINAL. PRESCREVO CETOPROFENO SE DOR; ATESTADO DE 2 DIAS. ORIENTO SINAIS DE ALERTA ",
  "Orientações + Sintomáticos + AM 6d (CID U071). Reforço isolamento e sinais de alarme",
  "Orientações + Sintomáticos + AM 5d (CID B349). Reforço sinais de alarme",
  "PACIENTE SEM GRAVIDADE. SOLICITO TESTE PCR. PRESCREVO CELERG E ACETILCISTEINA. DIZ NÃO PRECISAR DE ATESTADO.",
  "Oriento estancar lesão, assepsia local, curativo 2x ao dia e observar evolução; Prescrevo Dipirona e Cetoprofeno SN; Oriento ainda a retornar o contato em caso de piora dos sintomas; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "CD: Oriento paciente procurar pronto atendimento para realização de consulta presencial para realização de exame físico devido piora do quadro geral com retorno da febre",
  "Oriento retorno seguro ao trabalho sem a necessidade de nova testagem",
  "CD: Orientações gerais, oriento sinais de alarme, procurar pronto atendimento se sinais de alarme; Loratadina 10mg 01cp ao dia; Dipirona 1g 01cp de 6/6h S/N; Atestado médico 06 dias",
  "Orientações + Prescrevo Atak 400mg/5ml (7d) + Koid D (5d) + Novalgina sol (s/n) + Maresis AR + AM 7d (CID J069). Oriento higiene das mãos",
  "Oriento avaliação emergencial vez que paciente tem tido sintomas de desidratação e necessita de avaliação médica presencial.",
  "P (ACICLOVIR TOPICO+ TTO PARA FLORA INTESTINAL) SINAIS E SINTOMAS DE ALERTA PARA ATEND MÉDICO PRESENCIAL",
  "Aplicação protocolo de Mindfulness; Compromisso com uma pessoa da rede de apoio; Diminuição da meta com foco no agora; Consulta médica para exames de rotina e marcadores importantes para saúde mental (vit B12, vit D, Ferro, Cortisol)",
  "1. Solicito RT PCR COVID 2. Atestado de isolamento por 05 dias 3, Sintomáticos e orientações sobre COVId",
  "1. Reenvio pedido + atestado isolamento de 05 dias e labs a pedido 2. Orientações COVID",
  "1. Solicito PCR e atestado de isolamento 2. Sintomáticos + orientações sobre COVID",
  "1. Oriento consulta presencial com médico em emergência hoje devido a pneumopatia e comorbidades importantes. 2. Orientações sobre sindrome respiratória aguda grave",
  "Solicito RX- Coluna Cervical e Lombar a pedido; Orientações gerais, retornar SN",
  "Prescrevo nitrofurantoina 100 1 cp de 6/6h por 7 dias e oriento sinais e sintomas de alerta. ",
  "Orientações + Mantenho ttos propostos + Prescrevo Pantoprazol 20mg (jejum - 2m) + Vonau 8mg (s/n).; Reforço sinais de alarme para necessidade de consulta presencial.",
  "1. Prescrevo azitromicina susp 200mg/5ml conforme peso 17Kg; 2. Solicito PCR COVID e isolamento social; 3. Oriento consulta presencial em emergência pediatrica se ausÊncia de melhora em 24h",
  "1. Prescrevo nasonex, levocetirizina 5mg por 6 dias, prednisona 40mg por 5 dias e salbutamol spray; 2. Oriento esposa sobre risco de COVID e necessidade de realizar exames se persistência dos sintomas",
  "1. Poderá usar o dorflex",
  "Faço atestado médico para 10 dias, manter uso de sintomáticos prescritos, hidratação vigorosa e alimentação conforme aceitação. Oriento atendimento emergencial em caso de piora.",
  "Prescrevo macrodantina por 7 dias. Paciente vem bastante ansiosa. Converso e oriento sobre sintomas do COVID.",
  "Prescrevo Fluconazol em dose única, prescrevo amoxicilina + clavulanato por 10 dias. Retornar caso não haja melhora.",
  "Converso com paciente sobre atestado médico, relato que o tempo de internamento conta no atestado e que é necessário maiores informações para fazer um atestado que não o prejudique evidenciado o tempo de afastamento. Oriento também que procure o chefe pra negociar questões sobre o modelo de trabalho em Home Office.",
  "Prescrevo macrodantina por 7 dias e oriento aumento de ingesta hídrica.",
  "Prescrevo Desloratadina Xarope 5ml/dia por 5 dias + Dexametasona Pomada nas lesões; Entrar em contato se persistência/piora dos sintomas",
  "Orientações + Sintomáticos + AM 5d (CID B349). Reforço sinais de alarme ",
  "Já solicitados exames por outra plataforma- Prescrevo sintomáticos. Oriento quanto à importância do isolamento social, medidas higiênico-dietéticas (alimentação equilibrada e hidratação,lavar as mãos com frequência, utilizar máscaras, manter distanciamento físico, evitar ambientes fechados,).Oriento durante a consulta médica sinais e sintomas de gravidade- para buscar atendimento de urgência em caso de sintomas graves-esclareço limitações quanto ao  teleatendimento médico(coloco por escrito em receita enviada ao paciente). Oriento ainda a retornar o contato quando estiver com o resultado do exame em mãos e em caso de piora dos sintomas; Deixo o serviço disponível em caso de dúvidas ou necessidade de novas orientações. Coloco número de contato de nossa Central Telefônica 24hs em receita enviada ao paciente.ATM 4 dias",
  "Orientações + Aguardando resultado de exame + Prescrevo sintomáticos (Novalgina,  Koid D,  Lavagem nasal) + AM (CID Z209 - nome do esposo, como contactante)",
  "Prescrevo Cipro por 3 dias, Annita por 3 dias, Floratil, Buscopam e Dipirona; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  "orientações sobre biossegurança; orientações sobre sinais de alerta; encam para atend medico devido risco ocupacional",
  "Tratamento flora Intestinal +Dieta+Sintocalmy se necessário.Oriento fazer acompanhamento de quadro intestinal/emocional. ATM 2 dias - Anexo ao PEP-",
  "Oriento medidas de isolamento até 09/05; Oriento sinais de alarme e retorno /atendimento presencial SN; Prescrevo sintomáticos. Dip 1g 6/6h, SN +Paracetamol 750mg 6/6h, SN + Aviant EFE 1 cp 12/12h por 5 dias; Atestado médico para 5 dias",
  "Solicito Sorologia com IgG e IgM e oriento realizar hoje, e RT-PCR para realizar com 72h do início dos sintomas e retornar o contato quando estiver com resultado em mãos; Oriento ainda a retornar o contato em caso de piora dos sintomas; Deixo o serviço disponível em caso de duvidas ou necessidade de novas orientações.",
  ]

print("Quantidade de documentos:", len(documentos))

Quantidade de documentos: 49


## Gera os embeddings dos documentos

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook

lista_embeddings = []
lista_documentos_tokenizado = []
lista_documentos_tokenizado_oov = []
lista_documentos_pos = []

maior_sequencia = 0

total_tokens = 0

# Barra de progresso dos documentos
documentos_bar = tqdm_notebook(enumerate(documentos), desc=f"Documentos", unit=f" documento", total=len(documentos))

# Percorre os documentos
for i, documento in documentos_bar:
  
    # Gera embeddings utilizando da última camada do BERT
    # token_embeddings, documento_tokenizado =  getEmbeddingsUltimaCamada(documento, model, tokenizer)

    # Gera embeddings concatenando as 4 últimas camadas do BERT
    token_embeddings, documento_tokenizado = getEmbeddingsConcat4UltimasCamadas(documento, model, tokenizer)

    # Combina os embeddings de palavras fora do vocabulário do BERT
    listaTokens, listaPOS, listaTokensOOV, listaEmbeddingsMEAN, listaEmbeddingsMAX =  getTokensEmbeddingsPOSSentenca(token_embeddings[1:-1],
                                                                                                     documento_tokenizado[1:-1], 
                                                                                                     documento)
    
    # Guarda o maior tamanho de documento
    if len(listaTokens) > maior_sequencia:
        maior_sequencia =  len(listaTokens)

    # Guarda o total de tokens dos documentos
    total_tokens = total_tokens + len(listaTokens)

    # Guarda os embeddings e os os outros dados do documento
    lista_embeddings.append(listaEmbeddingsMEAN)
    lista_documentos_tokenizado.append(listaTokens)
    lista_documentos_tokenizado_oov.append(listaTokensOOV)
    lista_documentos_pos.append(listaPOS)

Documentos:   0%|          | 0/49 [00:00<?, ? documento/s]

Mostra um documento processado.

In [None]:
print(len(lista_embeddings[0]))
print(lista_documentos_tokenizado[0])
print(lista_documentos_pos[0])

110
['Realizo', 'AM', 'de', '4', 'dia', '(', 's', ')', ';', 'Solicito', 'RT-PCR', ',', 'oriento', 'realizar', 'com', '72h', 'do', 'início', 'dos', 'sintomas', 'e', 'retornar', 'o', 'contato', 'quando', 'estiver', 'com', 'resultado', 'em', 'mãos', ';', 'Prescrevo', 'sintomáticos', 'SN', '(', 'Dipirona', ',', 'Cetoprofeno', ',', 'Zyrtec', ',', 'Avamys', ',', 'Bromexina', ',', 'Lavagem', 'nasal', 'com', 'SF', ')', ';', 'Oriento', 'quanto', 'à', 'importância', 'do', 'isolamento', 'social', '(', '10-14', 'dias', 'a', 'partir', 'do', 'início', 'dos', 'sintomas', '+', 'a48h', 'assintomático', '(', 'a', ')', '+', '24h', 'afebril', ')', 'e', 'higiene', 'individual', ',', 'além', 'da', 'necessidade', 'de', 'repousar', ',', 'manter', 'uma', 'alimentação', 'balanceada', 'e', 'se', 'hidratar', 'adequadamente', ';', 'Oriento', 'à', 'buscar', 'atendimento', 'de', 'urgência', 'em', 'caso', 'de', 'sintomas', 'graves', '(', 'febre', '>']
['VERB', 'NOUN', 'ADP', 'NUM', 'NOUN', 'PUNCT', 'NOUN', 'PUNCT', '

Quantidade de tokens nos documentos

In [None]:
print("Quantidade de tokens:", total_tokens)

Quantidade de tokens: 1447


Maior tamanho  de documento

In [None]:
print("max_seq_length:", maior_sequencia)

max_seq_length: 110


## Gera os arquivos para o Embedding Projector

Arquivos com os valores dos embeddings

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook
import csv

# Sufixo do arquivo
sufixo_arquivo = "_" + str(lista_embeddings[0][0].size()[0]) + "_" + TAMANHO_BERT + "_pool"

# Abre o arquivo
with open("records" + sufixo_arquivo + ".tsv", 'w') as tsvfile:
  # Cria um arquivo separado por tab
    writer = csv.writer(tsvfile, delimiter='\t')    

    # Barra de progresso dos embedings
    lista_embeddings_bar = tqdm_notebook(enumerate(lista_embeddings), desc=f"Embeddings", unit=f" embedding", total=len(lista_embeddings))

    # Percorre os embeddings
    for i, documento_embedding in lista_embeddings_bar:
      
        # Converte os tensores em numpy array
        documento_embedding_np = []
        for linha in documento_embedding:
            novo = linha.numpy()
            # print(len(novo))
            # print(novo)
            documento_embedding_np.append(novo)

        # Qtde de tokens do documento
        length = len(lista_documentos_tokenizado[i]) 
        # print("length:", length)
        # Escreve no arquivo os embeddings do documento       
        writer.writerows(documento_embedding_np[:length])                

Embeddings:   0%|          | 0/49 [00:00<?, ? embedding/s]

Arquivo com os metadados dos embeddings

In [None]:
# Import das bibliotecas.
from tqdm.notebook import tqdm as tqdm_notebook
import csv

# Sufixo do arquivo
sufixo_arquivo = "_" + str(lista_embeddings[0][0].size()[0]) + "_" + TAMANHO_BERT + "_pool"

# Abre o arquivo
with open("meta" + sufixo_arquivo + ".tsv", 'w') as tsvfile:
    # Define o escritor do arquivo
    writer = csv.writer(tsvfile, delimiter='\t')
    
    # Cabeçalho do arquivo
    writer.writerow(["Token", "POS-Tag", "OOV", "Sentence"])    

    # Barra de progresso dos embedings
    lista_embeddings_bar = tqdm_notebook(enumerate(lista_embeddings), desc=f"Embeddings", unit=f" embedding", total=len(lista_embeddings))

    # Percorre os embeddings
    for i, documento_embedding in lista_embeddings_bar:
        length = len(lista_documentos_tokenizado[i])        
        
        # Escreve a palavra e sua sentença
        for j in range(length):            
            s = [lista_documentos_tokenizado[i][j], lista_documentos_pos[i][j], lista_documentos_tokenizado_oov[i][j], documentos[i]]
            writer.writerow(s)

Embeddings:   0%|          | 0/49 [00:00<?, ? embedding/s]

Faça o download dos arquivos **records_4096.tsv** e **meta_4096.tsv** e carregue em https://projector.tensorflow.org/ na opção load.

Carrega os arquivos na ferramenta através do link "Load". Na opção existe um link botão para carregar o arquivo dos embeddings e um outro botão para carregar os metadados.



Você também pode utilizar um link a um arquivo de configuração config.json com a referência aos arquivos em algum repositório publico na internet, por exemplo github ou gist


Aqui um exemplo.

https://projector.tensorflow.org/?config=https://raw.githubusercontent.com/osmarbraz/cohebertv1visualizacao/main/config.json


