# # Segmentação e limpeza dos documentos do conjunto de dados SQUAD 2.0 P(1,0%) pt-br

Realiza o download/cópia do SQUAD 2.0 para segmentação e limpeza. 

Realiza as seguintes limpezas:
- Eliminar pontuações repetidas (???,!!!);
- Eliminar de espaços em branco repetidos;
- Remover documentos com mais de 10 sentenças, pois geram muitas permutações e acabam com a memória;
- Remover documentos que não possuem verbos(regular e auxiliar) ou substantivos;

Após a limpeza segmenta os documentos.

**Gera o arquivo original.csv compactado em original.zip com os documentos originais.**

Cada linha de **original.csv** é formado por `["id","sentencas","documento","respondivel"]`.
 - `"id"` é o idenficador do documento na base de dados original.
 - `"permutado"` é uma lista com as sentenças do documento permutado. 
 - `"sentencas"` é uma lista com as sentenças do documento (neste conjunto de dados todo os documentos possuem somente uma sentença). 
 - `"respondivel"` indica com 1 (Sim) se a questão é respondível ou 0 (Não) irrespondível.
 

# 1 Preparação do ambiente

Preparação do ambiente para execução do script.

## 1.1 Tempo inicial de processamento

In [None]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento = time.time()

## 1.2 Funções e classes auxiliares

Verifica se existe o diretório cohebert no diretório corrente.   


In [None]:
# Import das bibliotecas.
import os # Biblioteca para manipular arquivos

# ============================  
def verificaDiretorioCoheBERT():
    """
      Verifica se existe o diretório cohebert no diretório corrente.    
    """
    
    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_COHEBERT):  
        # Cria o diretório
        os.makedirs(DIRETORIO_COHEBERT)
        logging.info("Diretório Cohebert criado: {}".format(DIRETORIO_COHEBERT))
    
    return DIRETORIO_COHEBERT

Realiza o download e um arquivo

In [None]:
# Import das bibliotecas.
import requests # Biblioteca de download
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso
import os # Biblioteca para manipular arquivos

def downloadArquivo(url_arquivo, nome_arquivo_destino):
    """
      Realiza o download de um arquivo de uma url em salva em nome_arquivo_destino.
    
      Parâmetros:
        `url_arquivo` - URL do arquivo a ser feito download.      
        `nome_arquivo_destino` - Nome do arquivo a ser salvo.      
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
    
    # Realiza o download de um arquivo em uma url
    data = requests.get(url_arquivo, stream=True)
    
    # Verifica se o arquivo existe
    if data.status_code != 200:
        logging.info("Exceção ao tentar realizar download {}. Response {}.".format(url_arquivo, data.status_code))
        data.raise_for_status()
        return

    # Recupera o nome do arquivo a ser realizado o download    
    nome_arquivo = nome_arquivo_destino.split("/")[-1]  

    # Define o nome e caminho do arquivo temporário    
    nome_arquivo_temporario = DIRETORIO_COHEBERT + "/" + nome_arquivo + "_part"
    
    logging.info("Download do arquivo: {}.".format(nome_arquivo_destino))
    
    # Baixa o arquivo
    with open(nome_arquivo_temporario, "wb") as arquivo_binario:        
        tamanho_conteudo = data.headers.get("Content-Length")        
        total = int(tamanho_conteudo) if tamanho_conteudo is not None else None
        # Barra de progresso de download
        progresso_bar = tqdm_notebook(unit="B", total=total, unit_scale=True)                
        # Atualiza a barra de progresso
        for chunk in data.iter_content(chunk_size=1024):        
            if chunk:                
                progresso_bar.update(len(chunk))
                arquivo_binario.write(chunk)
    
    # Renomeia o arquivo temporário para o arquivo definitivo
    os.rename(nome_arquivo_temporario, nome_arquivo_destino)
    
    # Fecha a barra de progresso.
    progresso_bar.close()

Remove tags de um documento

In [None]:
def remove_tags(documento):
    """
      Remove tags de um documento
    """
    
    import re

    documento_limpo = re.compile("<.*?>")
    return re.sub(documento_limpo, "", documento)

Funções auxiliares de arquivos

In [None]:
def carregar(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.  
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    paragrafo = ""
    for linha in arquivo:
        linha = linha.splitlines()
        linha = " ".join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != "":
          paragrafo = paragrafo + linha.strip() + " "
    
    # Fecha o arquivo
    arquivo.close()

    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

In [None]:
def carregarLista(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.   
        `encoding` - Codificação dos caracteres do arquivo.
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    sentencas = []
    for linha in arquivo:        
        linha = linha.splitlines()
        linha = " ".join(linha)
        linha = remove_tags(linha)
        if linha != "":
          sentencas.append(linha.strip())
    
    # Fecha o arquivo
    arquivo.close()

    return sentencas 

In [None]:
def salvar(nome_arquivo,texto):                       
    """
      Salva um texto em um arquivo.
     
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser salvo.
        `texto` - Texto a ser salvo.     
    """

    arquivo = open(nome_arquivo, "w")
    arquivo.write(str(texto))
    arquivo.close()

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))    

Classe(ModelArguments) de definição dos parâmetros do modelo

In [None]:
# Import das bibliotecas.
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModeloArgumentosMedida:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={"help": "max seq len"},
    )    
    pretrained_model_name_or_path: str = field(
        default="neuralmind/bert-base-portuguese-cased",
        metadata={"help": "nome do modelo pré-treinado do BERT."},
    )
    modelo_spacy: str = field(
        default="pt_core_news_lg",
        metadata={"help": "nome do modelo do spaCy."},
    )
    versao_modelo_spacy: str = field(
        default="-3.2.0",
        metadata={"help": "versão do nome do modelo no spaCy."},
    )
    sentenciar_documento: bool = field(
        default=True,
        metadata={"help": "Dividir o documento em sentenças(frases)."},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={"help": "define se o texto do modelo deve ser todo em minúsculo."},
    )    
    output_attentions: bool = field(
        default=False,
        metadata={"help": "habilita se o modelo retorna os pesos de atenção."},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={"help": "habilita gerar as camadas ocultas do modelo."},
    )
    usar_mcl_ajustado : bool = field(
        default=False,
        metadata={"help": "habilita o carragamento de mcl ajustado."},
    )

Biblioteca de limpeza de tela


In [None]:
# Import das bibliotecas.
from IPython.display import clear_output

## 1.3 Tratamento de logs

In [None]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.4 Identificando o ambiente Colab

In [None]:
# Import das bibliotecas.
import sys # Biblioteca para acessar módulos do sistema

# Se estiver executando no Google Colaboratory
# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## 1.5 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Import das bibliotecas.
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == "/device:GPU:0":
    logging.info("Encontrei GPU em: {}".format(device_name))
else:
    logging.info("Dispositivo GPU não encontrado")
    #raise SystemError("Dispositivo GPU não encontrado")

2022-03-02 14:39:57,859 : INFO : Dispositivo GPU não encontrado


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla P100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla P100
- 2o Tesla T4
- 3o Tesla P4 (Não tem memória para execução 4 x 8, somente 2 x 4)
- 4o Tesla K80 (Não tem memória para execução 4 x 8, somente 2 x 4)

In [None]:
# Import das bibliotecas.
import torch

def getDeviceGPU():
    """
      Retorna um dispositivo de GPU se disponível ou CPU.
    
      Retorno:
        `device` - Um device de GPU ou CPU.       
    """
        
    # Se existe GPU disponível.
    if torch.cuda.is_available():
        
        # Diz ao PyTorch para usar GPU.    
        device = torch.device("cuda")
        
        logging.info("Existem {} GPU(s) disponíveis.".format(torch.cuda.device_count()))
        logging.info("Iremos usar a GPU: {}.".format(torch.cuda.get_device_name(0)))

    # Se não.
    else:        
        logging.info("Sem GPU disponível, usando CPU.")
        device = torch.device("cpu")
        
    return device

In [None]:
# Recupera o device com GPU ou CPU
device = getDeviceGPU()

2022-03-02 14:40:04,575 : INFO : Sem GPU disponível, usando CPU.


Memória

Memória disponível no ambiente

In [None]:
# Import das bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
logging.info("Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n".format(ram_gb))

if ram_gb < 20:
  logging.info("Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> \"Alterar tipo de tempo de execução\"")
  logging.info("e selecione High-RAM. Então, execute novamente está célula")
else:
  logging.info("Você está usando um ambiente de execução de memória RAM alta!")

2022-03-02 14:40:04,613 : INFO : Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

2022-03-02 14:40:04,616 : INFO : Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"
2022-03-02 14:40:04,621 : INFO : e selecione High-RAM. Então, execute novamente está célula


## 1.6 Monta uma pasta no google drive para carregar os arquivos de dados.

In [None]:
# Import das bibliotecas.
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount("/content/drive")

Mounted at /content/drive


## 1.7 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

Collecting wandb
  Downloading wandb-0.12.11-py2.py3-none-any.whl (1.7 MB)
[?25l[K     |▏                               | 10 kB 19.4 MB/s eta 0:00:01[K     |▍                               | 20 kB 17.1 MB/s eta 0:00:01[K     |▋                               | 30 kB 11.4 MB/s eta 0:00:01[K     |▊                               | 40 kB 9.6 MB/s eta 0:00:01[K     |█                               | 51 kB 5.0 MB/s eta 0:00:01[K     |█▏                              | 61 kB 5.9 MB/s eta 0:00:01[K     |█▎                              | 71 kB 6.0 MB/s eta 0:00:01[K     |█▌                              | 81 kB 4.5 MB/s eta 0:00:01[K     |█▊                              | 92 kB 4.9 MB/s eta 0:00:01[K     |█▉                              | 102 kB 5.4 MB/s eta 0:00:01[K     |██                              | 112 kB 5.4 MB/s eta 0:00:01[K     |██▎                             | 122 kB 5.4 MB/s eta 0:00:01[K     |██▍                             | 133 kB 5.4 MB/s eta 0:00:01

## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U pip setuptools wheel

Collecting pip
  Downloading pip-22.0.3-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 5.2 MB/s 
Collecting setuptools
  Downloading setuptools-60.9.3-py3-none-any.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 34.0 MB/s 
Installing collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 57.4.0
    Uninstalling setuptools-57.4.0:
      Successfully uninstalled setuptools-57.4.0
  Attempting uninstall: pip
    Found existing installation: pip 21.1.3
    Uninstalling pip-21.1.3:
      Successfully uninstalled pip-21.1.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.8.0 requires tf-estimator-nightly==2.8.0.dev2021122109, which is not installed.
datascience 0.10.6 requires folium==0.2.1, but you have folium 0.8.3 which is incompatible.[0m
Suc

In [None]:
# Instala uma versão específica
!pip install -U spacy==3.2.0

Collecting spacy==3.2.0
  Downloading spacy-3.2.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.0/6.0 MB[0m [31m42.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting typer<0.5.0,>=0.3.0
  Downloading typer-0.4.0-py3-none-any.whl (27 kB)
Collecting srsly<3.0.0,>=2.4.1
  Downloading srsly-2.4.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (451 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m452.0/452.0 KB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.1/10.1 MB[0m [31m66.9 MB/s[0m eta [36m0:00:00[0m
Collecting pathy>=0.3.5
  Downloading pathy-0.6.1-py3-none-any.whl (42 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.8/42.8 KB[0m [31m3.2 MB/s[0m eta [36m0:00

## 1.9 Instalando a biblioteca Dataset

https://huggingface.co/docs/datasets/installation.html

In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-1.18.3-py3-none-any.whl (311 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/311.7 KB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m307.2/311.7 KB[0m [31m9.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m311.7/311.7 KB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash
  Downloading xxhash-3.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.2/212.2 KB[0m [31m20.1 MB/s[0m eta [36m0:00:00[0m
Collecting fsspec[http]>=2021.05.0
  Downloading fsspec-2022.2.0-py3-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.9/134.9 KB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting aiohttp
  Downloading aiohttp-3.8.1-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_

# 2 Parametrização

## Gerais

In [None]:
# Definição dos parâmetros a serem avaliados

## Específicos

Parâmetros do modelo

In [None]:
# Definição dos parâmetros do Modelo.
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",
    pretrained_model_name_or_path = "neuralmind/bert-large-portuguese-cased",
    #pretrained_model_name_or_path = "neuralmind/bert-base-portuguese-cased",    
    #pretrained_model_name_or_path = "bert-base-multilingual-cased",
    #pretrained_model_name_or_path = "bert-base-multilingual-uncased",
    modelo_spacy = "pt_core_news_lg",
    #modelo_spacy = "pt_core_news_md",
    #modelo_spacy = "pt_core_news_sm",
    versao_modelo_spacy = "3.2.0",
    sentenciar_documento = False,
    do_lower_case = False, # default True  
    output_attentions = False, # default False
    output_hidden_states = True, # default False, se True retorna todas as camadas do modelo para as operações de soma e concatenação
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path. 
)

## Nome do diretório dos arquivos de dados

In [None]:
# Diretório do cohebert
DIRETORIO_COHEBERT = "SQUAD2_P"

## Define o caminho para os arquivos de dados

In [None]:
# Diretório local para os arquivos pré-processados
DIRETORIO_LOCAL = "/content/" + DIRETORIO_COHEBERT + "/"

# Diretório no google drive com os arquivos pré-processados
DIRETORIO_DRIVE = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_COHEBERT + "/"

# 3 spaCy

## 3.1 Download arquivo modelo

https://spacy.io/models/pt

### Função download modelo spaCy

In [None]:
def downloadSpacy(model_args):
    """
      Realiza o download do arquivo do modelo para o diretório corrente.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
        
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Nome arquivo compactado
    NOME_ARQUIVO_MODELO_COMPACTADO = ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    # Url do arquivo
    URL_ARQUIVO_MODELO_COMPACTADO = "https://github.com/explosion/spacy-models/releases/download/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + NOME_ARQUIVO_MODELO_COMPACTADO

    # Realiza o download do arquivo do modelo
    logging.info("Download do arquivo do modelo do spaCy.")
    downloadArquivo(URL_ARQUIVO_MODELO_COMPACTADO, DIRETORIO_COHEBERT + "/" + NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.2 Descompacta o arquivo do modelo

### Função descompacta modelo spaCy

In [None]:
# Import das bibliotecas.
import tarfile # Biblioteca de descompactação

def descompactaSpacy(model_args):
    """
      Descompacta o arquivo do modelo.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    
    # Verifica se existe o diretório base do cohebert e retorna o nome do diretório
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
    
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    
    # Nome do arquivo a ser descompactado
    NOME_ARQUIVO_MODELO_COMPACTADO = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    logging.info("Descompactando o arquivo do modelo do spaCy.")
    arquivoTar = tarfile.open(NOME_ARQUIVO_MODELO_COMPACTADO, "r:gz")    
    arquivoTar.extractall(DIRETORIO_COHEBERT)    
    arquivoTar.close()
    
    # Apaga o arquivo compactado
    if os.path.isfile(NOME_ARQUIVO_MODELO_COMPACTADO):        
        os.remove(NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.3 Carrega o modelo

### Função carrega modelo spaCy

In [None]:
# Import das bibliotecas.
import spacy # Biblioteca do spaCy

def carregaSpacy(model_args):
    """
    Realiza o carregamento do Spacy.
    
    Parâmetros:
      `model_args` - Objeto com os argumentos do modelo.           
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
                  
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Caminho raoz do modelo do spaCy
    DIRETORIO_MODELO_SPACY =  DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY

    # Verifica se o diretório existe
    if os.path.exists(DIRETORIO_MODELO_SPACY) == False:
        # Realiza o download do arquivo modelo do spaCy
        downloadSpacy(model_args)
        # Descompacta o spaCy
        descompactaSpacy(model_args)

    # Diretório completo do spaCy
    DIRETORIO_MODELO_SPACY = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + ARQUIVO_MODELO_SPACY + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/"

    # Carrega o spaCy. Necessário somente "tagger" para encontrar os substantivos
    nlp = spacy.load(DIRETORIO_MODELO_SPACY)
    logging.info("spaCy carregado.")

    # Retorna o spacy carregado
    return nlp 

### Carrega o modelo spaCy


In [None]:
# Carrega o modelo spaCy
nlp = carregaSpacy(model_args)

2022-03-02 14:41:54,727 : INFO : Diretório Cohebert criado: SQUAD2_P
2022-03-02 14:41:54,730 : INFO : Download do arquivo do modelo do spaCy.
2022-03-02 14:41:55,116 : INFO : Download do arquivo: SQUAD2_P/pt_core_news_lg-3.2.0.tar.gz.


  0%|          | 0.00/577M [00:00<?, ?B/s]

2022-03-02 14:42:28,332 : INFO : Descompactando o arquivo do modelo do spaCy.
2022-03-02 14:42:40,810 : INFO : spaCy carregado.


## 3.4 Funções auxiliares spaCy

### getStopwords

Recupera as stopwords do spaCy

In [None]:
def getStopwords(nlp):
    """
      Recupera as stop words do nlp(Spacy).
    
      Parâmetros:
        `nlp` - Um modelo spaCy carregado.           
    """
    
    spacy_stopwords = nlp.Defaults.stop_words

    return spacy_stopwords 

Lista dos stopwords

In [None]:
logging.info("Quantidade de stopwords: {}.".format(len(getStopwords(nlp))))

print(getStopwords(nlp))

2022-03-02 14:42:40,836 : INFO : Quantidade de stopwords: 416.


{'talvez', 'parece', 'nenhuma', 'qual', 'dentro', 'um', 'onze', 'vêm', 'antes', 'aquela', 'bom', 'veja', 'tentei', 'com', 'esses', 'tiveste', 'vos', 'dizer', 'possivelmente', 'sim', 'uns', 'deverá', 'oitava', 'muitos', 'mesmo', 'quando', 'tuas', 'doze', 'posição', 'tentaram', 'inicio', 'do', 'máximo', 'logo', 'dessa', 'números', 'coisa', 'a', 'pelo', 'novas', 'adeus', 'meus', 'fazem', 'meio', 'umas', 'corrente', 'parte', 'dezasseis', 'estar', 'todos', 'conhecida', 'por', 'estiveste', 'menor', 'quê', 'vez', 'sexto', 'quarto', 'todo', 'dão', 'nesse', 'através', 'na', 'aquilo', 'estás', 'estive', 'tanta', 'fomos', 'contra', 'momento', 'custa', 'estava', 'pelos', 'qualquer', 'era', 'pontos', 'ela', 'fui', 'maiorias', 'perto', 'as', 'fostes', 'ademais', 'eles', 'ali', 'fará', 'nesta', 'faz', 'nova', 'geral', 'desse', 'podia', 'nuns', 'vários', 'apoio', 'tendes', 'tarde', 'tudo', 'primeiro', 'vens', 'irá', 'podem', 'meu', 'nossas', 'vosso', 'já', 'diz', 'algumas', 'conselho', 'quanto', 'conh

### getVerbos
Localiza os verbos da sentença

In [None]:
# Import das bibliotecas.
import spacy   
from spacy.util import filter_spans
from spacy.matcher import Matcher

# (verbo normal como auxilar ou auxilar) + vários verbos auxiliares +verbo principal ou verbo auxiliar
gramaticav1 =  [
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                                  
                {"POS": "VERB", "OP": "?", "DEP": {"IN": ["ROOT","aux","xcomp","aux:pass"]}},  #verbo normal como auxiliar
                {"POS": "AUX", "OP": "*", "DEP": {"IN": ["aux","xcomp","aux:pass"]}},  #verbo auxiliar   
                {"POS": "VERB", "OP": "+"}, #verbo principal
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop","aux","xcomp","aux:pass"]}},  #verbo auxiliar
               ] 

# verbo auxiliar + verbo normal como auxiliar + conjunção com preposição + verbo
gramaticav2 =  [               
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                   
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["ROOT"]}},  #verbo principal       
                {"POS": "SCONJ", "OP": "+", "DEP": {"IN": ["mark"]}}, #conjunção com preposição
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["xcomp"]}}, #verbo normal como complementar
               ] 

#Somente verbos auxiliares
gramaticav3 =  [
                {"POS": "AUX", "OP": "?"},  #Verbos auxiliar 
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop"]}},  #Verbos auxiliar de ligação (AUX+(cop))
                {"POS": "ADJ", "OP": "+", "DEP": {"IN": ["ROOT"]}}, 
                {"POS": "AUX", "OP": "?"}  #Verbos auxiliar 
               ] 

matcherv = Matcher(nlp.vocab)
         
matcherv.add("frase verbal", [gramaticav1])
matcherv.add("frase verbal", [gramaticav2])
matcherv.add("frase verbal", [gramaticav3])

#Retorna a Frase Verbal
def getVerbos(periodo):    
  #Processa o período
  doc1 = nlp(periodo.text)
  
  # Chama o mather para encontrar o padrão
  matches = matcherv(doc1)

  padrao = [doc1[start:end] for _, start, end in matches]

  #elimina as repetições e sobreposições
  #return filter_spans(padrao)
  lista1 = filter_spans(padrao)

  # Converte os itens em string
  lista2 = []
  for x in lista1:
      lista2.append(str(x))
  
  return lista2

### getDicPOSQtde

Conta as POS Tagging de uma sentença

In [None]:
def getDicPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades
  novo_dic = dict()
  
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

In [None]:
def getDicTodasPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades    
  novo_dic = {"PRON":0, "VERB":0, "PUNCT":0, "DET":0, "NOUN":0, "AUX":0, "CCONJ":0, "ADP":0, "PROPN":0, "ADJ":0, "ADV":0, "NUM":0, "SCONJ":0, "SYM":0, "SPACE":0, "INTJ":0, "X": 0}
    
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

### getSomaDic

Soma os valores de dicionários com as mesmas chaves.

In [None]:
# Import das bibliotecas.
from collections import Counter
from functools import reduce

def atualizaValor(a,b):
    a.update(b)
    return a

def getSomaDic(lista):
    
  # Soma os dicionários da lista
  novo_dic = reduce(atualizaValor, (Counter(dict(x)) for x in lista))
 
  return novo_dic

### getTokensSentenca

Retorna a lista de tokens da sentenca.

In [None]:
def getTokensSentenca(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.text)

  return lista

### getPOSTokensSentenca

Retorna a lista das POS-Tagging dos tokens da sentenca.

In [None]:
def getPOSTokensSentenca(sentenca):

  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.pos_)

  return lista

### getListaTokensPOSSentenca

Retorna duas listas uma com os tokens e a outra com a POS-Tagging dos tokens da sentenca.

In [None]:
def getListaTokensPOSSentenca(sentenca):
  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista_tokens = []
  lista_pos = []

  # Percorre a sentença adicionando os tokens e as POS
  for token in doc:    
    lista_tokens.append(token.text)
    lista_pos.append(token.pos_)
    
  return lista_tokens, lista_pos

### Tadução das tags

Tags de palavras universal

https://universaldependencies.org/u/pos/

Detalhes das tags em português:
http://www.dbd.puc-rio.br/pergamum/tesesabertas/1412298_2016_completo.pdf

In [None]:
#dicionário que contêm pos tag universal e suas explicações
palavra_universal_dict = {
  "X"    : "Outro",
  "VERB" : "Verbo ",
  "SYM"  : "Símbolo",
  "CONJ" : "Conjunção",
  "SCONJ": "Conjunção subordinativa",
  "PUNCT": "Pontuação",
  "PROPN": "Nome próprio",
  "PRON" : "Pronome substativo",
  "PART" : "Partícula, morfemas livres",
  "NUM"  : "Numeral",
  "NOUN" : "Substantivo",
  "INTJ" : "Interjeição",
  "DET"  : "Determinante, Artigo e pronomes adjetivos",
  "CCONJ": "Conjunção coordenativa",
  "AUX"  : "Verbo auxiliar",
  "ADV"  : "Advérbio",
  "ADP"  : "Preposição",
  "ADJ"  : "Adjetivo"
}
  
#Explica a POS
def getPOSPalavraUniversalTraduzido(palavra):
  if palavra in palavra_universal_dict.keys():
      traduzido = palavra_universal_dict[palavra]
  else:
      traduzido = "NA" 
  return traduzido

# 4 Carregamento do arquivo de dados


## 4.1 Cria o diretório para receber os dados

In [None]:
# Import das bibliotecas.
import os

#Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):  
    # Cria o diretório
    os.makedirs(dirbase)    
    print("Diretório criado: {}".format(dirbase))
else:    
    print("Diretório já existe: {}".format(dirbase))

Diretório já existe: /content/SQUAD2_P


## 4.2 Carrega o dataset squad_v2

Versão em inglês:
https://huggingface.co/datasets/squad_v2 

Artigo original: https://rajpurkar.github.io/SQuAD-explorer/

O SQUAD 2 possui perguntas em inglês e foi traduzido para para português e disponibilizado em br-quad-2.0.

https://huggingface.co/datasets/piEsposito/br-quad-2.0




In [None]:
# Import das bibliotecas.
from datasets import load_dataset

#"piEsposito/br-quad-2.0", Não funciona
#"piEsposito/br_quad_20",  Não funciona
#"piEsposito/squad_20_ptbr

# Carrega o conjunto de dados
datasets = load_dataset("piEsposito/squad_20_ptbr")

print(datasets)

Downloading:   0%|          | 0.00/4.89k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.23k [00:00<?, ?B/s]

Downloading and preparing dataset squad_v2/squad_v2 to /root/.cache/huggingface/datasets/piEsposito___squad_v2/squad_v2/2.0.0/8f7de76308c3469dd63a790176a79c3359f340635a544050f659db8df3c3d609...


  0%|          | 0/2 [00:00<?, ?it/s]

Downloading:   0%|          | 0.00/10.6M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/911k [00:00<?, ?B/s]

  0%|          | 0/2 [00:00<?, ?it/s]

0 examples [00:00, ? examples/s]

0 examples [00:00, ? examples/s]

Dataset squad_v2 downloaded and prepared to /root/.cache/huggingface/datasets/piEsposito___squad_v2/squad_v2/2.0.0/8f7de76308c3469dd63a790176a79c3359f340635a544050f659db8df3c3d609. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 130319
    })
    validation: Dataset({
        features: ['id', 'title', 'context', 'question', 'answers'],
        num_rows: 11873
    })
})


## 4.3 Organiza os dados brutos

Campo respondível:
- 1 - Sim
- 0 - Não

In [None]:
perguntas = []
for i, x in enumerate(datasets["validation"]):    
  idPergunta = x["id"]
  pergunta = x["question"]
  respondivel = 1
  # Verifica se tem resposta
  if len(x["answers"]["text"]) == 0:
    respondivel = 0
      
  perguntas.append([idPergunta, pergunta, respondivel])  

for i, x in enumerate(datasets["train"]):    
  idPergunta = x["id"]
  pergunta = x["question"]
  respondivel = 1
  # Verifica se tem resposta
  if len(x["answers"]["text"]) == 0:
    respondivel = 0
  perguntas.append([idPergunta, pergunta, respondivel])  

In [None]:
print(len(perguntas))

142192


Converte em um dataframe
Atributos do arquivo **SQUAD2**:
0. "id"
1. "documento"
2. "respondivel" (1- Sim, 0 - Não)



In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df = pd.DataFrame(perguntas, columns = ["id","documento", "respondivel"])

#Mostra o número de documentos carregados
print("%d linhas carregadas do arquivo" % (len(df)))

# Mostra 10 linhas aleatórias dos dados
df.sample(10)

142192 linhas carregadas do arquivo


Unnamed: 0,id,documento,respondivel
10397,5ad02e3377cf76001a686d33,Que profissão Ronald Robinson e John Gallagher...,0
113477,572e91f8c246551400ce4363,Em que livro ele falou sobre o uso de LSD?,1
129584,5730b8da2461fd1900a9cff1,Acredita-se que Maria não tenha sofrido transg...,1
11046,5733a32bd058e614000b5f34,Quantas vezes a Polônia ganhou a copa?,1
119768,57303f5eb2c2fd1400568aeb,"É o solo tem um grande condutor, quanto da ond...",1
51735,570c634eb3d812140066d1c3,Quando John retomou o Castelo de Rochester?,1
8973,5a89473c3b2508001a72a599,Que tipo de ideais generalizam a aritmética no...,0
39398,56faed86f34c681400b0c1b9,O que os somalis chamam de pirâmides antigas?,1
38229,5a56c7e36349e2001acdcf2b,De que dois grupos é responsável o Secretário ...,0
141795,5735bd01dc94161900571f83,Como é chamado Boudhanath em nepalês?,1


Reduz o tamanho dos dados de entrada para teste.

In [None]:
#Reduzindo o tamanho do dataframe
#df = df[:100]

## 4.4 Formatandos os documentos originais

### 4.4.1 Pré-processamento

- Eliminar pontuações repetidas (???,!!!);
- Eliminar de espaços em branco repetidos;
- Remover documentos com mais de 10 sentenças, pois geram muitas permutações e acabam com a memória;
- Remover documentos que não possuem verbos(regular e auxiliar) ou substantivos.


In [None]:
# Import das bibliotecas.
import re
# Biblioteca para barra de progresso
from tqdm.notebook import tqdm as tqdm_notebook

# Dados documento tratados
documentos_tratados = []

# Acumula o total de sentenças
conta_barra_n = 0
total_sentencas = 0
conta_interrogacoes = 0
conta_sem_interrogacoes = 0
conta_espacos = 0
conta_pergunta_2Sentencas = 0
conta_pergunta_10Sentencas = 0
conta_respondivel = 0
conta_sem_classe_minimo = 0

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df.iterrows(), desc=f"Dados", unit=f"registro", total=len(df))

# Percorre os registros dos dados bruto
for (i, linha) in dados_bar:

  # Recupera o id documento
  id_documento = linha.values[0]

  # Recupera o documento
  documento = str(linha.values[1])

  # Recupera o documento
  respondivel = str(linha.values[2])

  # Substitui \n por espaço em branco no documento
  conta_caracter_barra_n = documento.count("\n")
  if conta_caracter_barra_n > 0:
    # Transforma \n em espaços em branco 
    documento = documento.replace("\n"," ")
    conta_barra_n = conta_barra_n + 1  

  # Transforma em string e remove os espaços do início e do fim
  documento = str(documento).strip()

  # Conta sentenças com duas ou mais interrogação
  conta_caracter_interrogacoes = documento.count("?")
  if conta_caracter_interrogacoes > 1:
    # Transforma 2 ou mais interrogações consecutivas em 1
    documento = re.sub("\?+", "?", documento)
    conta_interrogacoes = conta_interrogacoes + 1
  
  # Conta sentenças sem interrogação
  if conta_caracter_interrogacoes == 0:
      conta_sem_interrogacoes = conta_sem_interrogacoes + 1

  conta_caracter_espacos = documento.count("  ")
  if conta_caracter_espacos > 0:
    # Transforma 2 ou mais espaços em brancos consecutivas em 1    
    documento = re.sub("\s+", " ", documento)
    conta_espacos = conta_espacos + 1
  
  # Conta perguntas respondíveis
  if respondivel == 1:  
    conta_respondivel = conta_respondivel + 1

  # Remove caracteres estranhos
  documento = documento.replace("","")

  # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 

  # Conta o número de sentenças do documento
  conta_sentencas = len(list(doc.sents))
  if conta_sentencas > 1:
    conta_pergunta_2Sentencas = conta_pergunta_2Sentencas + 1

  # Conta os documentos com mais de 10 sentenças
  if conta_sentencas > 10:
    conta_pergunta_10Sentencas = conta_pergunta_10Sentencas + 1
    print("Texto com mais de 10 sentenças:",documento)

  # Conta o total de sentenças do documento
  total_sentencas = total_sentencas + conta_sentencas
     
  # Verifica se a sentença possui no mínimo um verbo(regular ou auxiliar) ou substantivo
  classe_pos_minimo = ["VERB", "NOUN", "AUX"]
  pos_minimo = False
  # Recupera a lista de tokens e pos do documento
  lista_tokens, lista_postagging = getListaTokensPOSSentenca(doc)
  for i, pos in enumerate(lista_postagging):
      if pos in classe_pos_minimo:
        pos_minimo = True

  if pos_minimo == False:
    conta_sem_classe_minimo = conta_sem_classe_minimo + 1

  # Adiciona textos somente com menos de 10 sentenças e possui no mínimo um verbo ou um substantivo
  if conta_sentencas < 10 and pos_minimo == True:
    # Adiciona a linha tratada com o id do documento, o documento e se é respondível a lista
    documentos_tratados.append([id_documento, documento, respondivel])

Dados:   0%|          | 0/142192 [00:00<?, ?registro/s]

In [None]:
print("Total de documentos com \\n                        :", conta_barra_n)
print("Total de documentos com 2 ou mais interrogações   :", conta_interrogacoes)
print("Total de documentos sem interrogações             :", conta_sem_interrogacoes)
print("Total de documentos com 2 ou mais espaços         :", conta_espacos)
print("Total de documentos com 2 ou mais sentenças       :", conta_pergunta_2Sentencas)
print("Total de documentos com mais de 10 sentenças      :", conta_pergunta_10Sentencas)
print("Total de documentos sem verbo ou substantivo      :", conta_sem_classe_minimo)
print("Total de documentos respondíveis                  :", conta_respondivel)
print("Total de documentos irrespondíveis                :", len(documentos_tratados) - conta_respondivel)
print("Total de sentenças nos dados tratados             :", total_sentencas)
print("Total de perguntas tratados                       :", len(documentos_tratados))

Total de documentos com 2 ou mais interrogações   : 25
Total de documentos sem interrogações             : 1485
Total de documentos com 2 ou mais espaços         : 0
Total de documentos com 2 ou mais sentenças       : 2173
Total de documentos com mais de 10 sentenças      : 0
Total de documentos sem verbo ou substantivo      : 266
Total de documentos respondíveis                  : 92749
Total de documentos irrespondíveis                : 49177
Total de sentenças nos dados tratados             : 144603
Total de perguntas tratados                       : 141926


In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df_documentos_tratados = pd.DataFrame(documentos_tratados, columns = ["id","documento","respondivel"])

#Mostra o número de documentos carregados
print("%d linhas carregadas do arquivo" % (len(df_documentos_tratados)))

# Mostra 10 linhas aleatórias dos dados
df_documentos_tratados.sample(10)

142192 linhas carregadas do arquivo


Unnamed: 0,id,documento,respondivel
99934,572bfe69dfb02c14005c6b27,Qual é a trindade no cristianismo?,1
33735,56f7241a3d8e2e1400e37392,Como estão as características do saxofone no B...,1
127131,5ad49528ba00c4001a268c89,Como as melhorias do sistema são lançadas no W...,0
141708,5a6b9bf84eec6b001a80a4a4,Quanto tempo demora um MI?,0
126343,5ad3ca55604f3c001a3ff0d3,Quem não forneceu o financiamento para cobrir ...,0
20987,5ad3e076604f3c001a3ff4b7,Quem atualmente é o Assistente-Chefe das Força...,0
84640,5ad41396604f3c001a40026f,Quem seguiu os passos de Johnson em termos de ...,0
34054,5ad4a602ba00c4001a268eb9,Com quem os Balts tinham um relacionamento des...,0
10561,5ad03a6b77cf76001a686e7a,Como os Estados Unidos planejavam subjugar ten...,0
141759,5a6bb9624eec6b001a80a53b,Quais inibidores são usados em cenários de bai...,0


Todas os documentos são formadas por uma única sentença. O Spacy realiza a divisão incorretamente dos documentos devido a caracteres e letras em maiúsculo.

In [None]:
# Import das bibliotecas.
import re
# Biblioteca para barra de progresso
from tqdm.notebook import tqdm as tqdm_notebook

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df_documentos_tratados.iterrows(), desc=f"Dados", unit=f"registro", total=len(df_documentos_tratados))

# Percorre os registros dos dados bruto
for (i, linha) in dados_bar:

  # Recupera o documento
  documento = str(linha.values[1])  

  # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 

  sentencas = []    
  # Percorre as sentenças do documento
  for sentenca in doc.sents:                  
      # Adiciona a sentença tratada na lista      
      sentencas.append(str(sentenca))

  conta_sentencas = len(list(doc.sents))
  if conta_sentencas > 1:
    conta_pergunta_2Sentencas = conta_pergunta_2Sentencas + 1
    #rint(conta_sentencas, " sentenças:", documento)
    #print(                "          Lista das sentenças:", sentencas)

Dados:   0%|          | 0/141926 [00:00<?, ?registro/s]

In [None]:
print("Documentos com duas ou mais sentencas:", conta_pergunta_2Sentencas)

Documentos com duas ou mais sentencas: 4339


### 4.4.2 Sentenciação do documento

Excluí documentos com uma única sentença e palavra. A seguir os ids dois documentos encontrados:
- 57262473271a42140099d4ec
- 57262473271a42140099d4ed

In [None]:
# Import das bibliotecas.
import os # Biblioteca para acessar o sistema de arquivos
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso

print("Processando",len(df_documentos_tratados),"documentos tratados")

# Sentenças por documento
lista_documentos_originais = []
total_sentencasDocumento = 0
total_documentos_sentenca_uma_palavra = 0
total_documentos_ao_menos_uma_sentenca_uma_palavra = 0

# Documentos excluídos
documentos_excluidos = []

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df_documentos_tratados.iterrows(), desc=f"Dados", unit=f"registro", total=len(df_documentos_tratados))

# Percorre os registros dos documento
for i, linha_documento in dados_bar:
 
  # Recupera o documento
  documento = str(linha.values[1])  

  # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 
  
  # Sequência das sentenças no documento
  sequencia = 1
  total_palavras = 0  
  sentencas = []
  total_sentencas = 0
  sentencas_com_uma_palavra = 0
  sentencas_com_mais_de_uma_palavra = 0
  
  # Percorre as sentenças do documento
  for sentenca in doc.sents:     
       
      # Conta as sentenças do documento
      total_sentencas = total_sentencas + 1
      total_sentencasDocumento = total_sentencasDocumento + 1
      
      # Transforma em string e remove os espaços do início e do fim
      sentenca1 = str(sentenca).strip()
      
      # Adiciona a sentença tratada na lista      
      sentencas.append(str(sentenca1))
                  
      # Incrementa a sequência da sentença no documento
      sequencia = sequencia + 1
      
      # Percorre a sentença procurando os tokens da sentença
      sentence_tokens = [token.text for token in sentenca]
      
      # Quantidade de palavras por sentença
      qtdePalavra = len(sentence_tokens)
      
      # Verifica se a sentença tem 1 palavra para excluir o documento
      if qtdePalavra == 1:
        sentencas_com_uma_palavra = sentencas_com_uma_palavra + 1
      else:
        sentencas_com_mais_de_uma_palavra = sentencas_com_mais_de_uma_palavra + 1

      # Acumula a quantidade de palavras da sentença
      total_palavras = total_palavras + qtdePalavra

  # Verifica se o documento tem mais de 1 palavra
  if total_palavras > 1:      

    # Se todas as sentencas possui mais de uma palavra  
    if sentencas_com_mais_de_uma_palavra == len(sentencas):      
      if model_args.sentenciar_documento == True:
        # Adiciona o documento na lista com a sentenciação
        lista_documentos_originais.append([linha_documento[0], sentencas, str(linha_documento[1]), linha_documento[2]])        
      else:        
        # Adiciona o documento na lista sem a sentenciação        
        lista_documentos_originais.append([linha_documento[0], [linha_documento[1]], str(linha_documento[1]), linha_documento[2]])
    else:
      # Se existe pelo menos uma sentença com uma palavra e outras sentencas com mais palavras e não é necessário sentenciar
      if sentencas_com_uma_palavra > 0 and sentencas_com_uma_palavra < len(sentencas):
          if model_args.sentenciar_documento == False:    
            # Adiciona o documento na lista sem a sentenciação
            lista_documentos_originais.append([linha_documento[0], [linha_documento[1]], str(linha_documento[1]), linha_documento[2]])
          else:        
            print("Documento não adicionado pois possui uma sentença com uma palavra e é necessário sentenciar.")        
            print(" linha_documento:",linha_documento)
            documentos_excluidos.append(linha_documento)
            total_documentos_ao_menos_uma_sentenca_uma_palavra = total_documentos_ao_menos_uma_sentenca_uma_palavra + 1
      else:
          # Se todas as sentenças possuem 1 palavra
          if sentencas_com_uma_palavra == len(sentencas):    
              print("Documento não adicionado pois todas as sentenças possui uma palavra.")        
              print(" linha_documento:",linha_documento)
              documentos_excluidos.append(linha_documento)
              total_documentos_sentenca_uma_palavra = total_documentos_sentenca_uma_palavra + 1
  else:
      print("Documento não adicionado pois possui somente uma palavra.")
      print(" linha_documento:",linha_documento)
      documentos_excluidos.append(linha_documento)

Processando 141926 documentos tratados


Dados:   0%|          | 0/141926 [00:00<?, ?registro/s]

Documento não adicionado pois possui somente uma palavra.
 linha_documento: id             57262473271a42140099d4ec
documento                            dd
respondivel                           1
Name: 62401, dtype: object


In [None]:
print("Total de documentos processados                                                :", len(lista_documentos_originais))
print("Total de documentos com sentenças com uma palavra                              :", total_documentos_sentenca_uma_palavra)
print("Total de documentos com pelo menos uma sentença com uma palavra(sem sentenciar):", total_documentos_ao_menos_uma_sentenca_uma_palavra)
print("Total de documentos excluídos                                                  :", len(documentos_excluidos))
print("Total sentenças nos documentos usando spaCy                                    :", total_sentencasDocumento)

Total de documentos processados                                                : 141925
Total de documentos com sentenças com uma palavra                              : 0
Total de documentos com pelo menos uma sentença com uma palavra(sem sentenciar): 0
Total de documentos excluídos                                                  : 1
Total sentenças nos documentos usando spaCy                                    : 144319


### 4.4.3 Divisão do conjunto de dados

Separa 1% para os experimentos.

A opção `stratify` mantêm a proporção de respondíveis e irrespondíveis. 

In [None]:
# Cria o dataframe da lista
df_lista_documentos_originais = pd.DataFrame(lista_documentos_originais, columns = ["id","sentencas","documento","respondivel"])

In [None]:
# Import das bibliotecas.
from sklearn.model_selection import train_test_split

# 10% de teste %70% de avaliação
divisao_qtde = int(0.01*len(df_lista_documentos_originais))

# Realiza a divisão
# stratify mantem a proporção de respondíveis e irrespondíveis
dfdados_pmaior, dfdados_pmenor = train_test_split(df_lista_documentos_originais, test_size=divisao_qtde, stratify=df_lista_documentos_originais['respondivel'])


In [None]:
logging.info("10% dos dados : {}.".format(len(dfdados_pmenor)))
logging.info("90% dos dados : {}.".format(len(dfdados_pmaior)))

2022-03-02 15:51:44,295 : INFO : 10% dos dados : 1419.
2022-03-02 15:51:44,301 : INFO : 90% dos dados : 140506.


In [None]:
dfdados_pmaior.groupby('respondivel').count()

Unnamed: 0_level_0,id,sentencas,documento
respondivel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,48863,48863,48863
1,91643,91643,91643


In [None]:
dfdados_pmenor.groupby('respondivel').count()

Unnamed: 0_level_0,id,sentencas,documento
respondivel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,493,493,493
1,926,926,926


### 4.4.4 Especifica os nomes dos arquivos de dados originais



In [None]:
# Nome do arquivo
NOME_ARQUIVO_ORIGINAL = "original.csv"
NOME_ARQUIVO_ORIGINAL_COMPACTADO = "original.zip"

### 4.4.5 Cria o arquivo dos documentos originais com P% dos dados

In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df_lista_documentos_originais = dfdados_pmenor

# Salva o arquivo original
df_lista_documentos_originais.to_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", index=False)

In [None]:
# Mostra os dados do DataFrame
print(len(df_lista_documentos_originais))

1419


In [None]:
df_lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento,respondivel
5165,5a592d703e1742001a15cfed,[Quem foi o primeiro geólogo?],Quem foi o primeiro geólogo?,0
104009,5728ea302ca10214002daa89,[Que político propositadamente criou divisões ...,Que político propositadamente criou divisões e...,1
88929,5727f18cff5b5019007d98ff,[O que ajudou a causar mais vida como som?],O que ajudou a causar mais vida como som?,1
69686,5728ab684b864d1900164bf4,[Qual estação BYU está disponível via cabo em ...,Qual estação BYU está disponível via cabo em a...,1
60236,571aa2cb4faf5e1900b8ab77,[Em que ano o Domo da Rocha terminou?],Em que ano o Domo da Rocha terminou?,1


### 4.4.6 Compacta e copia o arquivo original para uma pasta do GoogleDrive

Compacta os arquivos.

Usa o zip para compactar:
*   `-o` sobrescreve o arquivo se existir
*   `-j` Não cria nenhum diretório
*   `-q` Desliga as mensagens 


In [None]:
!zip -o -q -j "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL"

logging.info("Terminei a compactação.")

2022-03-02 15:51:44,727 : INFO : Terminei a compactação.


Copia o arquivo compactado para o GoogleDrive



In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
    # Copia o arquivo original   
    !cp "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_DRIVE"

    logging.info("Terminei a cópia.")

2022-03-02 15:51:46,007 : INFO : Terminei a cópia.


### 4.4.7 Carrega os dados

In [None]:
# Import das bibliotecas.
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df_lista_documentos_originais = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", encoding="UTF-8")

In [None]:
df_lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento,respondivel
678,5725cadc38643c19005acd0e,['Quem organizou a flotilha?'],Quem organizou a flotilha?,1
328,5726609b708984140094c414,['Quais áreas são compostas como o triângulo d...,Quais áreas são compostas como o triângulo de ...,1
753,57311e12a5e9cc1400cdbc39,['Que parte de uma linha de batalha são os avi...,Que parte de uma linha de batalha são os aviõe...,1
761,5acebb1632bba1001ae4b208,"[""Quem rejeitou o conceito de 'nova' polícia?""]",Quem rejeitou o conceito de 'nova' polícia?,0
701,5ace7ee632bba1001ae4a82d,['Que extensões semelhantes aos cabelos os cet...,Que extensões semelhantes aos cabelos os cetob...,0


# 5 Finalização

## 5.1 Tempo final de processamento



In [None]:
# Pega o tempo atual menos o tempo do início do processamento.
final_processamento = time.time()
tempo_total_processamento = formataTempo(final_processamento - inicio_processamento)

print("")
print("  Tempo processamento:  {:} (h:mm:ss)".format(tempo_total_processamento))


  Tempo processamento:  1:11:54 (h:mm:ss)
