# Gerar POS-Tagging dos documentos originais do conjunto de dados clínicos

Gera as POS-Tagging dos documentos originais do conjunto de dados Clínicos.

- Utiliza os dados pré-processados `original.zip`.
- Gera o arquivo `originalpos.zip`com as postagging.

Cada linha do arquivo `originalpos.csv` é formado por `["id","pos_documento"]`.
 - `"id"` é o idenficador da pergunta na base de dados original.
 - `"pos_documento"` é uma lista das sentenças do documento, formado por `"tokens","pos","verbos"`.
  - `"tokens"` é uma lista com os tokens da sentença.
  - `"pos"` é uma lista com as postagging das palavras da  sentença.
  - `"verbos"` é uma lista com os verbos da sentença.
  - `"lemma"` é uma lista com os lemmas das palavras da sentença.

  Futuramente incluir a lista dos lemas das palavras da sentença
  

# 1 Preparação do ambiente

Preparação do ambiente para execução do script.

## 1.1 Tempo inicial de processamento

In [1]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento = time.time()

## 1.2 Funções e classes auxiliares

Verifica se existe o diretório de dados clínicos no diretório corrente.   


In [2]:
# Import das bibliotecas.
import os # Biblioteca para manipular arquivos

# ============================  
def verificaDiretorioDadosClinicos():
    """
    Verifica se existe o diretório de dados clínicos no diretório corrente.    
    """
    
    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_CLINIASSIST):  
        # Cria o diretório
        os.makedirs(DIRETORIO_CLINIASSIST)
        logging.info("Diretório criado: {}".format(DIRETORIO_CLINIASSIST))
    
    return DIRETORIO_CLINIASSIST

Realiza o download e um arquivo

In [3]:
# Import das bibliotecas.
import requests # Biblioteca de download
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso
import os # Biblioteca para manipular arquivos

def downloadArquivo(url_arquivo, nome_arquivo_destino):
    """    
      Realiza o download de um arquivo de uma url em salva em nome_arquivo_destino.
    
      Parâmetros:
        `url_arquivo` - URL do arquivo a ser feito download.      
        `nome_arquivo_destino` - Nome do arquivo a ser salvo.      
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_CLINIASSIST = verificaDiretorioDadosClinicos()
    
    # Realiza o download de um arquivo em uma url
    data = requests.get(url_arquivo, stream=True)
    
    # Verifica se o arquivo existe
    if data.status_code != 200:
        logging.info("Exceção ao tentar realizar download {}. Response {}.".format(url_arquivo, data.status_code))
        data.raise_for_status()
        return

    # Recupera o nome do arquivo a ser realizado o download    
    nome_arquivo = nome_arquivo_destino.split("/")[-1]  

    # Define o nome e caminho do arquivo temporário    
    nome_arquivo_temporario = DIRETORIO_CLINIASSIST + "/" + nome_arquivo + "_part"
    
    logging.info("Download do arquivo: {}.".format(nome_arquivo_destino))
    
    # Baixa o arquivo
    with open(nome_arquivo_temporario, "wb") as arquivo_binario:        
        tamanho_conteudo = data.headers.get("Content-Length")        
        total = int(tamanho_conteudo) if tamanho_conteudo is not None else None
        # Barra de progresso de download
        progresso_bar = tqdm_notebook(unit="B", total=total, unit_scale=True)                
        # Atualiza a barra de progresso
        for chunk in data.iter_content(chunk_size=1024):        
            if chunk:                
                progresso_bar.update(len(chunk))
                arquivo_binario.write(chunk)
    
    # Renomeia o arquivo temporário para o arquivo definitivo
    os.rename(nome_arquivo_temporario, nome_arquivo_destino)
    
    # Fecha a barra de progresso.
    progresso_bar.close()

Remove tags de um documento

In [4]:
def remove_tags(documento):
    """
      Remove tags de um documento
    """
    
    import re

    documento_limpo = re.compile("<.*?>")
    return re.sub(documento_limpo, "", documento)

Funções auxiliares de arquivos

In [5]:
def carregar(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.  
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    paragrafo = ""
    for linha in arquivo:
        linha = linha.splitlines()
        linha = " ".join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != "":
          paragrafo = paragrafo + linha.strip() + " "
    
    # Fecha o arquivo
    arquivo.close()

    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

In [6]:
def carregarLista(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.   
        `encoding` - Codificação dos caracteres do arquivo.
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    sentencas = []
    for linha in arquivo:        
        linha = linha.splitlines()
        linha = " ".join(linha)
        linha = remove_tags(linha)
        if linha != "":
          sentencas.append(linha.strip())
    
    # Fecha o arquivo
    arquivo.close()

    return sentencas 

In [7]:
def salvar(nome_arquivo,texto):                       
    """
      Salva um texto em arquivo.
     
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser salvo.
        `texto` - Texto a ser salvo.     
    """

    arquivo = open(nome_arquivo, "w")
    arquivo.write(str(texto))
    arquivo.close()

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [8]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))    

Classe(ModelArguments) de definição dos parâmetros do modelo

In [9]:
# Import das bibliotecas.
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModeloArgumentosMedida:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={"help": "max seq len"},
    )    
    pretrained_model_name_or_path: str = field(
        default="neuralmind/bert-base-portuguese-cased",
        metadata={"help": "nome do modelo pré-treinado do BERT."},
    )
    modelo_spacy: str = field(
        default="pt_core_news_lg",
        metadata={"help": "nome do modelo do spaCy."},
    )
    versao_modelo_spacy: str = field(
        default="-3.2.0",
        metadata={"help": "versão do nome do modelo no spaCy."},
    )
    sentenciar_documento: bool = field(
        default=True,
        metadata={"help": "Dividir o documento em sentenças(frases)."},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={"help": "define se o texto do modelo deve ser todo em minúsculo."},
    )    
    output_attentions: bool = field(
        default=False,
        metadata={"help": "habilita se o modelo retorna os pesos de atenção."},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={"help": "habilita gerar as camadas ocultas do modelo."},
    )
    usar_mcl_ajustado : bool = field(
        default=False,
        metadata={"help": "habilita o carragamento de mcl ajustado."},
    )

Biblioteca de limpeza de tela


In [10]:
# Import das bibliotecas.
from IPython.display import clear_output

## 1.3 Tratamento de logs

In [11]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.4 Identificando o ambiente Colab

In [12]:
# Import das bibliotecas.
import sys # Biblioteca para acessar módulos do sistema

# Se estiver executando no Google Colaboratory
# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## 1.5 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [13]:
# Import das bibliotecas.
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == "/device:GPU:0":
    logging.info("Encontrei GPU em: {}".format(device_name))
else:
    logging.info("Dispositivo GPU não encontrado")
    #raise SystemError("Dispositivo GPU não encontrado")

INFO:numexpr.utils:NumExpr defaulting to 2 threads.
INFO:root:Dispositivo GPU não encontrado


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla P100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla P100
- 2o Tesla T4
- 3o Tesla P4 (Não tem memória para execução 4 x 8, somente 2 x 4)
- 4o Tesla K80 (Não tem memória para execução 4 x 8, somente 2 x 4)

In [14]:
# Import das bibliotecas.
import torch

def getDeviceGPU():
    """
      Retorna um dispositivo de GPU se disponível ou CPU.
    
      Retorno:
        `device` - Um device de GPU ou CPU.       
    """
        
    # Se existe GPU disponível.
    if torch.cuda.is_available():
        
        # Diz ao PyTorch para usar GPU.    
        device = torch.device("cuda")
        
        logging.info("Existem {} GPU(s) disponíveis.".format(torch.cuda.device_count()))
        logging.info("Iremos usar a GPU: {}.".format(torch.cuda.get_device_name(0)))

    # Se não.
    else:        
        logging.info("Sem GPU disponível, usando CPU.")
        device = torch.device("cpu")
        
    return device

In [15]:
# Recupera o device com GPU ou CPU
device = getDeviceGPU()

INFO:root:Sem GPU disponível, usando CPU.


Memória

Memória disponível no ambiente

In [16]:
# Importando as bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
logging.info("Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n".format(ram_gb))

if ram_gb < 20:
  logging.info("Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> \"Alterar tipo de tempo de execução\"")
  logging.info("e selecione High-RAM. Então, execute novamente está célula")
else:
  logging.info("Você está usando um ambiente de execução de memória RAM alta!")

INFO:root:Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

INFO:root:Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"
INFO:root:e selecione High-RAM. Então, execute novamente está célula


## 1.6 Monta uma pasta no google drive para carregar os arquivos de dados.

In [17]:
# import necessário
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount("/content/drive")     

Mounted at /content/drive


## 1.7 Instalação do wandb

Instalação

In [18]:
!pip install --upgrade wandb

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting wandb
  Downloading wandb-0.13.4-py2.py3-none-any.whl (1.9 MB)
[K     |████████████████████████████████| 1.9 MB 5.0 MB/s 
Collecting setproctitle
  Downloading setproctitle-1.3.2-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (30 kB)
Collecting pathtools
  Downloading pathtools-0.1.2.tar.gz (11 kB)
Collecting docker-pycreds>=0.4.0
  Downloading docker_pycreds-0.4.0-py2.py3-none-any.whl (9.0 kB)
Collecting GitPython>=1.0.0
  Downloading GitPython-3.1.29-py3-none-any.whl (182 kB)
[K     |████████████████████████████████| 182 kB 53.7 MB/s 
[?25hCollecting sentry-sdk>=1.0.0
  Downloading sentry_sdk-1.10.1-py2.py3-none-any.whl (166 kB)
[K     |████████████████████████████████| 166 kB 64.0 MB/s 
[?25hCollecting shortuuid>=0.5.0
  Downloading shortuuid-1.0.9-py3-none-any.whl (9.4 kB)
Collecting gitdb<5,>=4.0.1
  Downloading gitdb-

## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [19]:
# Instala o spacy
!pip install -U pip setuptools wheel

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pip
  Downloading pip-22.3-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 5.1 MB/s 
Collecting setuptools
  Downloading setuptools-65.5.0-py3-none-any.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 54.1 MB/s 
Installing collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 57.4.0
    Uninstalling setuptools-57.4.0:
      Successfully uninstalled setuptools-57.4.0
  Attempting uninstall: pip
    Found existing installation: pip 21.1.3
    Uninstalling pip-21.1.3:
      Successfully uninstalled pip-21.1.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython 7.9.0 requires jedi>=0.10, which is not installed.[0m
Successfully installed pip-22.3 

In [20]:
# Instala uma versão específica
!pip install -U spacy==3.2.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy==3.2.0
  Downloading spacy-3.2.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.0/6.0 MB[0m [31m46.3 MB/s[0m eta [36m0:00:00[0m
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.1/10.1 MB[0m [31m62.1 MB/s[0m eta [36m0:00:00[0m
Collecting typing-extensions<4.0.0.0,>=3.7.4
  Downloading typing_extensions-3.10.0.2-py3-none-any.whl (26 kB)
Collecting thinc<8.1.0,>=8.0.12
  Downloading thinc-8.0.17-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (660 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m660.6/660.6 kB[0m [31m34.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: typing-extensions, pydantic, thi

# 2 Parametrização

## Gerais

## Específicos

In [21]:
# Definição dos parâmetros do Modelo.
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",
    pretrained_model_name_or_path = "neuralmind/bert-large-portuguese-cased",
    #pretrained_model_name_or_path = "neuralmind/bert-base-portuguese-cased",    
    #pretrained_model_name_or_path = "bert-base-multilingual-cased",
    #pretrained_model_name_or_path = "bert-base-multilingual-uncased",
    modelo_spacy = "pt_core_news_lg",
    #modelo_spacy = "pt_core_news_md",
    #modelo_spacy = "pt_core_news_sm",
    versao_modelo_spacy = "3.2.0",
    sentenciar_documento = True,
    do_lower_case = False,   # default True  
    output_attentions = False,    # default False
    output_hidden_states = True, # default False, se True retorna todas as camadas do modelo para as operações de soma e concatenação
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path. 
)

## Nome do diretório dos arquivos de dados

In [22]:
# Diretório dos dados clínicos
DIRETORIO_CLINIASSIST = "DADOS_CLINICOS_PLANO_BERTIMBAU"

## Define o caminho para os arquivos de dados

In [23]:
# Diretório local para os arquivos pré-processados
DIRETORIO_LOCAL = "/content/" + DIRETORIO_CLINIASSIST + "/"

# Diretório no google drive com os arquivos pré-processados
DIRETORIO_DRIVE = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_CLINIASSIST + "/"

# 3 spaCy

## 3.1 Download arquivo modelo

https://spacy.io/models/pt

### Função download modelo spaCy

In [24]:
def downloadSpacy(model_args):
    """
      Realiza o download do arquivo do modelo para o diretório corrente.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    # Verifica se existe o diretório base
    DIRETORIO_CLINIASSIST = verificaDiretorioDadosClinicos()
        
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Nome arquivo compactado
    NOME_ARQUIVO_MODELO_COMPACTADO = ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    # Url do arquivo
    URL_ARQUIVO_MODELO_COMPACTADO = "https://github.com/explosion/spacy-models/releases/download/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + NOME_ARQUIVO_MODELO_COMPACTADO

    # Realiza o download do arquivo do modelo
    logging.info("Download do arquivo do modelo do spaCy.")
    downloadArquivo(URL_ARQUIVO_MODELO_COMPACTADO, DIRETORIO_CLINIASSIST + "/" + NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.2 Descompacta o arquivo do modelo

### Função descompacta modelo spaCy

In [25]:
# Import das bibliotecas.
import tarfile # Biblioteca de descompactação

def descompactaSpacy(model_args):
    """
      Descompacta o arquivo do modelo.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    
    # Verifica se existe o diretório base dos dados clínicos e retorna o nome do diretório
    DIRETORIO_CLINIASSIST = verificaDiretorioDadosClinicos()
    
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    
    # Nome do arquivo a ser descompactado
    NOME_ARQUIVO_MODELO_COMPACTADO = DIRETORIO_CLINIASSIST + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    logging.info("Descompactando o arquivo do modelo do spaCy.")
    arquivo_tar = tarfile.open(NOME_ARQUIVO_MODELO_COMPACTADO, "r:gz")    
    arquivo_tar.extractall(DIRETORIO_CLINIASSIST)    
    arquivo_tar.close()
    
    # Apaga o arquivo compactado
    if os.path.isfile(NOME_ARQUIVO_MODELO_COMPACTADO):        
        os.remove(NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.3 Carrega o modelo

### Função carrega modelo spaCy

In [26]:
# Import das bibliotecas.
import spacy # Biblioteca do spaCy

def carregaSpacy(model_args):
    """
    Realiza o carregamento do Spacy.
    
    Parâmetros:
      `model_args` - Objeto com os argumentos do modelo.           
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_CLINIASSIST = verificaDiretorioDadosClinicos()
                  
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Caminho raoz do modelo do spaCy
    DIRETORIO_MODELO_SPACY =  DIRETORIO_CLINIASSIST + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY

    # Verifica se o diretório existe
    if os.path.exists(DIRETORIO_MODELO_SPACY) == False:
        # Realiza o download do arquivo modelo do spaCy
        downloadSpacy(model_args)
        # Descompacta o spaCy
        descompactaSpacy(model_args)

    # Diretório completo do spaCy
    DIRETORIO_MODELO_SPACY = DIRETORIO_CLINIASSIST + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + ARQUIVO_MODELO_SPACY + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/"

    # Carrega o spaCy. Necessário somente "tagger" para encontrar os substantivos
    nlp = spacy.load(DIRETORIO_MODELO_SPACY)
    logging.info("spaCy carregado.")

    # Retorna o spacy carregado
    return nlp 

### Carrega o modelo spaCy


In [27]:
# Carrega o modelo spaCy
nlp = carregaSpacy(model_args)

INFO:root:Diretório criado: DADOS_CLINICOS_PLANO_BERTIMBAU
INFO:root:Download do arquivo do modelo do spaCy.
INFO:root:Download do arquivo: DADOS_CLINICOS_PLANO_BERTIMBAU/pt_core_news_lg-3.2.0.tar.gz.


  0%|          | 0.00/577M [00:00<?, ?B/s]

INFO:root:Descompactando o arquivo do modelo do spaCy.
INFO:root:spaCy carregado.


INFO:root:Diretório criado: DADOS_CLINICOS_PLANO_BERTIMBAU
INFO:root:Download do arquivo do modelo do spaCy.
INFO:root:Download do arquivo: DADOS_CLINICOS_PLANO_BERTIMBAU/pt_core_news_lg-3.2.0.tar.gz.

## 3.4 Funções auxiliares spaCy

### getStopwords

Recupera as stopwords do spaCy

In [28]:
def getStopwords(nlp):
    """
      Recupera as stop words do nlp(Spacy).
    
      Parâmetros:
        `nlp` - Um modelo spaCy carregado.           
    """
    
    spacy_stopwords = nlp.Defaults.stop_words

    return spacy_stopwords 

Lista dos stopwords

In [29]:
logging.info("Quantidade de stopwords: {}.".format(len(getStopwords(nlp))))

print(getStopwords(nlp))

INFO:root:Quantidade de stopwords: 416.


{'pelas', 'estava', 'vosso', 'zero', 'aí', 'tais', 'nove', 'vós', 'certamente', 'este', 'parece', 'longe', 'mal', 'sexta', 'lugar', 'baixo', 'tive', 'estivemos', 'ir', 'antes', 'estas', 'próximo', 'fim', 'forma', 'vindo', 'sois', 'algumas', 'estou', 'povo', 'ele', 'querem', 'novas', 'pois', 'sim', 'nós', 'na', 'ser', 'seus', 'valor', 'não', 'elas', 'sobre', 'todo', 'pouco', 'até', 'nesta', 'portanto', 'oitavo', 'mesmo', 'próxima', 'à', 'quê', 'comprida', 'fez', 'custa', 'estará', 'cinco', 'cima', 'pouca', 'sua', 'seu', 'além', 'menor', 'sétima', 'inclusive', 'fomos', 'coisa', 'tuas', 'meu', 'falta', 'dentro', 'por', 'desse', 'embora', 'próprio', 'quinze', 'conhecida', 'ambas', 'cada', 'umas', 'ainda', 'tente', 'quatro', 'talvez', 'desta', 'nosso', 'maior', 'exemplo', 'vários', 'nuns', 'apenas', 'cuja', 'nem', 'nas', 'puderam', 'lhe', 'tentei', 'quinto', 'aqueles', 'área', 'fazeis', 'meses', 'suas', 'esta', 'obrigada', 'são', 'esses', 'pelo', 'três', 'segunda', 'se', 'pegar', 'uma', 'no

### getVerbos
Localiza os verbos da sentença

In [30]:
# Import das bibliotecas.
import spacy   
from spacy.util import filter_spans
from spacy.matcher import Matcher

# (verbo normal como auxilar ou auxilar) + vários verbos auxiliares +verbo principal ou verbo auxiliar
gramaticav1 =  [
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                                  
                {"POS": "VERB", "OP": "?", "DEP": {"IN": ["ROOT","aux","xcomp","aux:pass"]}},  #verbo normal como auxiliar
                {"POS": "AUX", "OP": "*", "DEP": {"IN": ["aux","xcomp","aux:pass"]}},  #verbo auxiliar   
                {"POS": "VERB", "OP": "+"}, #verbo principal
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop","aux","xcomp","aux:pass"]}},  #verbo auxiliar
               ] 

# verbo auxiliar + verbo normal como auxiliar + conjunção com preposição + verbo
gramaticav2 =  [               
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                   
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["ROOT"]}},  #verbo principal       
                {"POS": "SCONJ", "OP": "+", "DEP": {"IN": ["mark"]}}, #conjunção com preposição
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["xcomp"]}}, #verbo normal como complementar
               ] 

#Somente verbos auxiliares
gramaticav3 =  [
                {"POS": "AUX", "OP": "?"},  #Verbos auxiliar 
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop"]}},  #Verbos auxiliar de ligação (AUX+(cop))
                {"POS": "ADJ", "OP": "+", "DEP": {"IN": ["ROOT"]}}, 
                {"POS": "AUX", "OP": "?"}  #Verbos auxiliar 
               ] 

matcherv = Matcher(nlp.vocab)
         
matcherv.add("frase verbal", [gramaticav1])
matcherv.add("frase verbal", [gramaticav2])
matcherv.add("frase verbal", [gramaticav3])

#Retorna a Frase Verbal
def getVerbos(periodo):    
  #Processa o período
  doc1 = nlp(periodo.text)
  
  # Chama o mather para encontrar o padrão
  matches = matcherv(doc1)

  padrao = [doc1[start:end] for _, start, end in matches]

  #elimina as repetições e sobreposições
  #return filter_spans(padrao)
  lista1 = filter_spans(padrao)

  # Converte os itens em string
  lista2 = []
  for x in lista1:
      lista2.append(str(x))
  
  return lista2

### getDicPOSQtde

Conta as POS Tagging de uma sentença

In [31]:
def getDicPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades
  novo_dic = dict()
  
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

In [32]:
def getDicTodasPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades    
  novo_dic = {"PRON":0, "VERB":0, "PUNCT":0, "DET":0, "NOUN":0, "AUX":0, "CCONJ":0, "ADP":0, "PROPN":0, "ADJ":0, "ADV":0, "NUM":0, "SCONJ":0, "SYM":0, "SPACE":0, "INTJ":0, "X": 0}
    
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

### getSomaDic

Soma os valores de dicionários com as mesmas chaves.

In [33]:
# Import das bibliotecas.
from collections import Counter
from functools import reduce

def atualizaValor(a,b):
    a.update(b)
    return a

def getSomaDic(lista):
    
  # Soma os dicionários da lista
  novo_dic = reduce(atualizaValor, (Counter(dict(x)) for x in lista))
 
  return novo_dic

### getTokensSentenca

Retorna a lista de tokens da sentenca.

In [34]:
def getTokensSentenca(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.text)

  return lista

### getPOSTokensSentenca

Retorna a lista das POS-Tagging dos tokens da sentenca.

In [35]:
def getPOSTokensSentenca(sentenca):

  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.pos_)

  return lista

### getListaTokensPOSSentenca

Retorna três listas uma com os tokens, as POS-Tagging e o lemma das palavras da sentenca.

In [36]:
def getListaTokensPOSSentenca(sentenca):
  
  """
    Retorna três listas, a primeira com os tokens da sentença, 
    a segunda com as classes moforssintáticas dos tokens e a 
    última com o lemma das palavras da sentença.

    Parâmetros:
    `sentenca` - Sentença processada pelo spaCy.
  """

  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista_tokens = []
  lista_pos = []
  lista_lemma = []

  # Percorre a sentença adicionando os tokens e as POS
  for token in doc:    
    lista_tokens.append(token.text)
    lista_pos.append(token.pos_)
    lista_lemma.append(token.lemma_)
    
  return lista_tokens, lista_pos, lista_lemma

### Tradução das tags

Tags de palavras universal

https://universaldependencies.org/u/pos/

Detalhes das tags em português:
http://www.dbd.puc-rio.br/pergamum/tesesabertas/1412298_2016_completo.pdf

In [37]:
#dicionário que contêm pos tag universal e suas explicações
palavra_universal_dict = {
  "X"    : "Outro",
  "VERB" : "Verbo ",
  "SYM"  : "Símbolo",
  "CONJ" : "Conjunção",
  "SCONJ": "Conjunção subordinativa",
  "PUNCT": "Pontuação",
  "PROPN": "Nome próprio",
  "PRON" : "Pronome substativo",
  "PART" : "Partícula, morfemas livres",
  "NUM"  : "Numeral",
  "NOUN" : "Substantivo",
  "INTJ" : "Interjeição",
  "DET"  : "Determinante, Artigo e pronomes adjetivos",
  "CCONJ": "Conjunção coordenativa",
  "AUX"  : "Verbo auxiliar",
  "ADV"  : "Advérbio",
  "ADP"  : "Preposição",
  "ADJ"  : "Adjetivo"
}
  
#Explica a POS
def getPOSPalavraUniversalTraduzido(palavra):
  if palavra in palavra_universal_dict.keys():
      traduzido = palavra_universal_dict[palavra]
  else:
      traduzido = "NA" 
  return traduzido

## 3.5 Funções auxiliares NER DBpedia

In [38]:
# We annotated four types of entities corresponding to UMLS semantic groups (SG) of pathologies (DISO), anatomic entities (ANAT),
# biochemical or pharmacological substances (CHEM) and lab tests, diagnostic or therapeutic procedures (PROC) 
# Nós adicionamos mais 1 categoria para as especialidades médicas (SPEC)
from enum import Enum
import re
import numpy as np

class SG(Enum):
  CHEM = 1
  DISO = 2
  ANAT = 3
  PROC = 4
  SPEC = 5
  FOOD = 6

In [39]:
QUANTIDADE_DE_TIPOS_OBRSERVADOS = 6

### getNerToken

Retorna o tipo NER identificado pela DBpedia para cada token

In [40]:
# !pip install ipdb

In [41]:
# def getStrFromIntList(lista_de_inteiros):
  
#   lista_de_str = []
#   for i in range(len(lista_de_inteiros[0])):
#     lista_de_str.append("".join(str(x[i]) for x in lista_de_inteiros))
#   return lista_de_str

In [93]:
def getNERToken(lista_tokens):
  # print("lista_tokens: ", lista_tokens)

  # Cria uma lista com um zero para cada token na lista de tokens
  # [0, 0, 0, ...]
  lista_ner_por_palavra = np.zeros(len(lista_tokens), dtype = int).tolist()
  
  # Cria uma lista com 1 valor para cada tipo observado
  # [0, 0, 0, 0, 0, 0]
  # lista_ner_por_sentenca = np.zeros(QUANTIDADE_DE_TIPOS_OBRSERVADOS, dtype = int).tolist()
  lista_ner_por_sentenca = []

  for i, palavra in enumerate(lista_tokens):
    
    # Não faz o verificação com tokens de caracteres especiais
    if(bool(re.match('[@_!#$%&*()<>?/\}{~;:,.]', palavra))==False):
      
      # Verifica os 2 cases utilizados
      palavra = palavra.capitalize()
      palavra_upper = palavra.upper()
      
      if palavra in TODAS_PALAVRAS_COM_NER:
        tipo = str(TODAS_PALAVRAS_COM_NER[palavra][0])
        lista_ner_por_palavra[i] = tipo
        lista_ner_por_sentenca.append(tipo)
      
      if palavra_upper in TODAS_PALAVRAS_COM_NER:
        tipo = str(TODAS_PALAVRAS_COM_NER[palavra_upper][0])
        lista_ner_por_palavra[i] = tipo
        lista_ner_por_sentenca.append(tipo)

  # Transforma as sequencias de inteiros em strings
  # lista_ner_por_palavra = getStrFromIntList(lista_ner_por_palavra)
  lista_ner_por_sentenca = ", ".join(str(x) for x in lista_ner_por_sentenca)
  
  return lista_ner_por_palavra, lista_ner_por_sentenca

# 4 Gerar POS-Tagging

## 4.1 Carregamento dos arquivos de dados originais e permutados

### 4.1.1 Especifica os nomes dos arquivos de dados



In [94]:
# Nome do arquivo
NOME_ARQUIVO_ORIGINAL = "original.csv"
NOME_ARQUIVO_ORIGINAL_COMPACTADO = "original.zip"
ARQUIVO_CSV_TIPOS_DBPEDIA = 'tipos_dbpedia.csv'

### 4.1.2 Cria o diretório local para receber os dados

In [95]:
# Biblioteca para acessar o sistema de arquivos
import os

#Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):  
    # Cria o diretório
    os.makedirs(dirbase)    
    logging.info("Diretório criado: {}.".format(dirbase))
else:    
    logging.info("Diretório já existe: {}.".format(dirbase))

INFO:root:Diretório já existe: /content/DADOS_CLINICOS_PLANO_BERTIMBAU.


### 4.1.3 Copia os arquivos do Google Drive para o Colaboratory

Copia os arquivos do google drive

In [96]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:

  !cp "$DIRETORIO_DRIVE$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO"  
  !cp "$DIRETORIO_DRIVE$ARQUIVO_CSV_TIPOS_DBPEDIA" "$DIRETORIO_LOCAL$ARQUIVO_CSV_TIPOS_DBPEDIA"

  logging.info("Terminei a cópia.")

INFO:root:Terminei a cópia.


Descompacta os arquivos.

Usa o unzip para descompactar:
*   `-o` sobrescreve o arquivo se existir
*   `-j` Não cria nenhum diretório
*   `-q` Desliga as mensagens 
*   `-d` Diretório de destino



In [97]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
  !unzip -o -j -q "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" -d "$DIRETORIO_LOCAL"

  logging.info("Terminei a descompactação.")

INFO:root:Terminei a descompactação.


### 4.1.4 Carregamento das lista com os dados dos arquivos originais e permutados

#### Carrega o arquivo dos dados originais

In [98]:
# Import das bibliotecas
import pandas as pd

# Abre o arquivo e retorna o DataFrame
lista_documentos_originais = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", encoding="UTF-8")

logging.info("TERMINADO ORIGINAIS: {}.".format(len(lista_documentos_originais)))

INFO:root:TERMINADO ORIGINAIS: 277.


In [99]:
lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento
202,727,"['Conduta: Solicito RT-PCR, oriento realizar c...","Conduta: Solicito RT-PCR, oriento realizar com..."
218,810,['Substituo ibuprofeno por 3 dias de cetoprofe...,Substituo ibuprofeno por 3 dias de cetoprofeno...
60,164,"['Oriento medidas de isolamento', 'Oriento sin...",Oriento medidas de isolamento Oriento sinais d...
248,899,['orientações sobre sinais de alerta orientaçõ...,orientações sobre sinais de alerta orientações...
143,509,"['CD: Orientações gerais', 'Ciprofloxacino 500...",CD: Orientações gerais Ciprofloxacino 500 mg 0...


#### Corrigir os tipos de colunas dos dados originais

Em dados originais:
- coluna 1 - `sentenças` carregadas do arquivo vem como string e não como lista.

In [100]:
# Import das bibliotecas.
import ast # Biblioteca para conversão de string em lista

# Verifica se o tipo da coluna não é list e converte
lista_documentos_originais["sentencas"] = lista_documentos_originais["sentencas"].apply(lambda x: ast.literal_eval(x) if type(x)!=list else x)

logging.info("TERMINADO CORREÇÃO ORIGINAIS: {}.".format(len(lista_documentos_originais)))

INFO:root:TERMINADO CORREÇÃO ORIGINAIS: 277.


### 4.1.5 Carrega o arquivo com os tipos da DBPedia se existir

In [101]:
import csv
TODAS_PALAVRAS_COM_NER = dict()

try:
  with open(DIRETORIO_LOCAL + ARQUIVO_CSV_TIPOS_DBPEDIA, 'r', encoding="UTF-8") as types_csv_file:  
    for linha in csv.reader(types_csv_file, delimiter=';'):
      
      # Seleciona os tipos da palavra salvos no arquivo
      lista_ner_por_palavra = [int(float(x)) for x in linha[1:] if x]

      # Verifica se a palavra tem ao menos 1 tipo salvo no arquivo
      if lista_ner_por_palavra:
        
        # Seleciona a palavra
        palavra = linha[0].capitalize()

        # Insere a palavra e os tipos no dicionário
        TODAS_PALAVRAS_COM_NER[palavra] = lista_ner_por_palavra
      
  print("Arquivo de tipos DBpedia carregado")
  
except FileNotFoundError:
  print("Arquivo de Tipos DBpedia não encontrado.")

Arquivo de tipos DBpedia carregado


In [102]:
TODAS_PALAVRAS_COM_NER

{'Cetoprofeno': [1],
 'Ainda': [4],
 'Bromexina': [1],
 'Partir': [4],
 'Febre': [2],
 'Dispneia': [2],
 'Fome': [2],
 'Prednisona': [1],
 'Mental': [4],
 'Cortisol': [1],
 'Dexametasona': [1],
 'Paciente': [4],
 'Ipratrópio': [1],
 'Acetilcisteína': [1],
 'Pantoprazol': [1],
 'Reforço': [2],
 'Azitromicina': [1],
 'Salbutamol': [1],
 'Amoxicilina': [1],
 'Dengue': [2],
 'Aceclofenaco': [1],
 'Fluconazol': [1],
 'Desloratadina': [1],
 'Xarope': [6],
 'Tosse': [2],
 'Paracetamol': [1],
 'Coronavírus': [2],
 'Dor': [2],
 'Água': [1],
 'Gravidade': [2],
 'Loratadina': [1],
 'Simeticona': [1],
 'Ambroxol': [1],
 'Hemograma': [4],
 'Mama': [3],
 'Naproxeno': [1],
 'Lesão': [2],
 'Ivermectina': [1],
 'Vitamina': [1],
 'Narina': [3],
 'Vacina': [6],
 'Oportunidades': [4],
 'Diarreia': [2],
 'Mialgia': [2],
 'Colateral': [4],
 'Escitalopram': [1],
 'Baclofeno': [1],
 'Domperidona': [1],
 'Ciclobenzaprina': [1],
 'Itraconazol': [1],
 'Ibuprofeno': [1],
 'Nimesulida': [1],
 'Hipotiroidismo': [2]

## 4.2 Gerar POS-Tagging Dados Originais

### 4.2.1 Especifica os nomes dos arquivos de dados



In [103]:
# Nome do arquivo
NOME_ARQUIVO_ORIGINAL_POS = "originalpos.csv"
NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO = "originalpos.zip"

### 4.2.2 Gerar POS-Tagging



In [104]:
# Import das bibliotecas.
import os # Biblioteca para acessar o sistema de arquivos
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso

logging.info("Processando {} documentos originais.".format(len(lista_documentos_originais)))

# Barra de progresso dos dados
dados_bar = tqdm_notebook(lista_documentos_originais.iterrows(), desc=f"Dados", unit=f"registro", total=len(lista_documentos_originais))

# Lista para armazenar as postagging do documento   
lista_documentos_originais_pos = []

# Percorre as linhas dos documentos
for i, linha_documento in dados_bar:

    # Carrega a lista das sentenças do documento de acordo com o tipo armazenado
    lista_sentenca_documento = linha_documento["sentencas"]
    
    # Lista para armazenar as postagging das sentenças do documento   
    lista_sentencas_documentos_originais_pos = []

    # Percorre as sentenças do documento
    for j, sentenca in enumerate(lista_sentenca_documento):

      # Processa sentença no spaCy
      doc = nlp(sentenca)

      # Retorna os tokens e as postagging da sentença
      lista_tokens, lista_pos, lista_lemma = getListaTokensPOSSentenca(doc)
      # print("len(lista_tokens)", len(lista_tokens))

      # Retorna os tipor NER identificados pela DBpedia
      lista_ner_por_palavra, lista_ner_por_sentenca = getNERToken(lista_tokens)
      # print("len(lista_ner_por_palavra[0])", len(lista_ner_por_palavra[0]))
      
      # if len(lista_tokens) != len(lista_ner_por_palavra[0]):
      #   print("len(lista_tokens)", len(lista_tokens))
      #   print("len(lista_ner_por_palavra[0])", len(lista_ner_por_palavra[0]))
      #   print("sentenca: ", sentenca)
      #   print("linha_doc: ", linha_documento)
      
      # Retorna uma lista com os verbos da sentença
      lista_verbos = getVerbos(doc)

      # Concatena o pos do documento
      lista_sentencas_documentos_originais_pos.append([lista_tokens, 
                                                       lista_pos, 
                                                       lista_verbos, 
                                                       lista_lemma, 
                                                       lista_ner_por_palavra, 
                                                       lista_ner_por_sentenca])
      
    # Adiciona o documento a lista
    lista_documentos_originais_pos.append([linha_documento[0], lista_sentencas_documentos_originais_pos])  

INFO:root:Processando 277 documentos originais.


Dados:   0%|          | 0/277 [00:00<?, ?registro/s]

In [105]:
lista_documentos_originais_pos[1][1]

[[['Conduta', ':'], ['NOUN', 'PUNCT'], [], ['Conduta', ':'], [0, 0], ''],
 [['Realizo', 'AM', 'de', '1', 'dia', '(', 's', ')'],
  ['VERB', 'NOUN', 'ADP', 'NUM', 'NOUN', 'PUNCT', 'PROPN', 'PUNCT'],
  ['Realizo'],
  ['Realizo', 'AM', 'de', '1', 'dia', '(', 's', ')'],
  [0, 0, 0, 0, 0, 0, 0, 0],
  ''],
 [['Prescrevo',
   'sintomáticos',
   'SN',
   '(',
   'Cetoprofeno',
   ')',
   'e',
   'manter',
   'demais',
   'medicações',
   ';'],
  ['PROPN',
   'ADJ',
   'PROPN',
   'PUNCT',
   'PROPN',
   'PUNCT',
   'CCONJ',
   'VERB',
   'DET',
   'NOUN',
   'PUNCT'],
  ['manter'],
  ['Prescrevo',
   'sintomático',
   'SN',
   '(',
   'Cetoprofeno',
   ')',
   'e',
   'manter',
   'demais',
   'medicação',
   ';'],
  [0, 0, 0, 0, '1', 0, 0, 0, 0, 0, 0],
  '1'],
 [['Oriento',
   'ainda',
   'a',
   'retornar',
   'o',
   'contato',
   'em',
   'caso',
   'de',
   'piora',
   'dos',
   'sintomas',
   ';'],
  ['NOUN',
   'ADV',
   'SCONJ',
   'VERB',
   'DET',
   'NOUN',
   'ADP',
   'NOUN',
   'A

### 4.2.3 Gera arquivo POS

In [106]:
# Import das bibliotecas
import pandas as pd

# Cria o dataframe da lista
df_lista_documentos_originais_pos = pd.DataFrame(lista_documentos_originais_pos, columns = ["id","pos_documento"])

# Salva o arquivo original
df_lista_documentos_originais_pos.to_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL_POS,  sep=";", index=False)

### 4.2.4 Compacta e copia o arquivo para uma pasta do GoogleDrive

Compacta o arquivo gerado da comparação para facilitar o envio para o GoogleDrive

In [107]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:

  !zip -o -q -j "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO" "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_POS"

  logging.info("Terminei a compactação.")

INFO:root:Terminei a compactação.


Copia o arquivo para o GoogleDrive

In [108]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
   
    # Copia o arquivo das postagging original       
    !cp "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_POS_COMPACTADO" "$DIRETORIO_DRIVE"
        
    logging.info("Terminei a cópia do arquivo.")

INFO:root:Terminei a cópia do arquivo.


### 4.2.5 Carrega os dados

Carrega os dados das sentencas a partir dos arquivos.


In [109]:
# Import das bibliotecas
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df_lista_documentos_originais_pos = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL_POS, sep=";", encoding="UTF-8")

print(len(df_lista_documentos_originais_pos))

277


In [110]:
df_lista_documentos_originais_pos.sample(5)

Unnamed: 0,id,pos_documento
168,631,"[[['Conduta', ':'], ['NOUN', 'PUNCT'], [], ['C..."
78,225,"[[['Oriento', 'monitorar', 'sintomas', 'nos', ..."
234,869,"[[['Prescrevo', 'sintomáticos', ';', 'Oriento'..."
144,511,"[[['orientação', 'consultar', 'presencial', 'p..."
115,410,"[[['PACIENTE', 'SEM'], ['NOUN', 'ADJ'], [], ['..."


# 5 Finalização

## 5.1 Tempo final de processamento



In [111]:
# Pega o tempo atual menos o tempo do início do processamento.
final_processamento = time.time()
tempo_total_processamento = formataTempo(final_processamento - inicio_processamento)

print("")
print("  Tempo processamento:  {:} (h:mm:ss)".format(tempo_total_processamento))


  Tempo processamento:  1:28:07 (h:mm:ss)
