# Segmentação e limpeza dos documentos do conjunto de dados FaQuAD

Realiza o download/cópia do FaQuAD para segmentação e limpeza. 

Realiza as seguintes limpezas:
- Eliminar pontuações repetidas (???,!!!);
- Eliminar de espaços em branco repetidos;
- Remover documentos com mais de 10 sentenças, pois geram muitas permutações e acabam com a memória;
- Remover documentos que não possuem verbos(regular e auxiliar) ou substantivos;1

Após a limpeza segmenta os documentos.

**Gera o arquivo original.csv compactado em original.zip com os documentos originais.**

Cada linha de **original.csv** é formado por `["id","sentencas","documento"]`.
 - `"id"` é o idenficador do documento na base de dados original.
 - `"sentencas"` é uma lista com as sentenças do documento (neste conjunto de dados todo os documentos possuem somente uma sentença).  
 - `"documento"` o documento no formato original.
 

 

# 1 Preparação do ambiente

Preparação do ambiente para execução do script.

## 1.1 Tempo inicial de processamento

In [None]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento = time.time()

## 1.2 Funções e classes auxiliares

Verifica se existe o diretório cohebert no diretório corrente.   


In [None]:
# Import das bibliotecas.
import os # Biblioteca para manipular arquivos

# ============================  
def verificaDiretorioCoheBERT():
    """
      Verifica se existe o diretório cohebert no diretório corrente.    
    """
    
    # Verifica se o diretório existe
    if not os.path.exists(DIRETORIO_COHEBERT):  
        # Cria o diretório
        os.makedirs(DIRETORIO_COHEBERT)
        logging.info("Diretório Cohebert criado: {}".format(DIRETORIO_COHEBERT))
    
    return DIRETORIO_COHEBERT

Realiza o download e um arquivo

In [None]:
# Import das bibliotecas.
import requests # Biblioteca de download
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso
import os # Biblioteca para manipular arquivos

def downloadArquivo(url_arquivo, nome_arquivo_destino):
    """
      Realiza o download de um arquivo de uma url em salva em nome_arquivo_destino.
    
      Parâmetros:
        `url_arquivo` - URL do arquivo a ser feito download.      
        `nome_arquivo_destino` - Nome do arquivo a ser salvo.      
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
    
    # Realiza o download de um arquivo em uma url
    data = requests.get(url_arquivo, stream=True)
    
    # Verifica se o arquivo existe
    if data.status_code != 200:
        logging.info("Exceção ao tentar realizar download {}. Response {}.".format(url_arquivo, data.status_code))
        data.raise_for_status()
        return

    # Recupera o nome do arquivo a ser realizado o download    
    nome_arquivo = nome_arquivo_destino.split("/")[-1]  

    # Define o nome e caminho do arquivo temporário    
    nome_arquivo_temporario = DIRETORIO_COHEBERT + "/" + nome_arquivo + "_part"
    
    logging.info("Download do arquivo: {}.".format(nome_arquivo_destino))
    
    # Baixa o arquivo
    with open(nome_arquivo_temporario, "wb") as arquivo_binario:        
        tamanho_conteudo = data.headers.get("Content-Length")        
        total = int(tamanho_conteudo) if tamanho_conteudo is not None else None
        # Barra de progresso de download
        progresso_bar = tqdm_notebook(unit="B", total=total, unit_scale=True)                
        # Atualiza a barra de progresso
        for chunk in data.iter_content(chunk_size=1024):        
            if chunk:                
                progresso_bar.update(len(chunk))
                arquivo_binario.write(chunk)
    
    # Renomeia o arquivo temporário para o arquivo definitivo
    os.rename(nome_arquivo_temporario, nome_arquivo_destino)
    
    # Fecha a barra de progresso.
    progresso_bar.close()

Remove tags de um documento

In [None]:
def remove_tags(documento):
    """
      Remove tags de um documento
    """
    
    import re

    documento_limpo = re.compile("<.*?>")
    return re.sub(documento_limpo, "", documento)

Funções auxiliares de arquivos

In [None]:
def carregar(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como um único parágrafo(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.  
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    paragrafo = ""
    for linha in arquivo:
        linha = linha.splitlines()
        linha = " ".join(linha)
        # Remove as tags existentes no final das linhas
        linha = remove_tags(linha)
        if linha != "":
          paragrafo = paragrafo + linha.strip() + " "
    
    # Fecha o arquivo
    arquivo.close()

    # Remove os espaços em branco antes e depois do parágrafo
    return paragrafo.strip()

In [None]:
def carregarLista(nome_arquivo, encoding="Windows-1252"):
    """
      Carrega um arquivo texto e retorna as linhas como uma lista de sentenças(texto).
    
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser carregado.   
        `encoding` - Codificação dos caracteres do arquivo.
    """

    # Abre o arquivo
    arquivo = open(nome_arquivo, "r", encoding= encoding)
    
    sentencas = []
    for linha in arquivo:        
        linha = linha.splitlines()
        linha = " ".join(linha)
        linha = remove_tags(linha)
        if linha != "":
          sentencas.append(linha.strip())
    
    # Fecha o arquivo
    arquivo.close()

    return sentencas 

In [None]:
def salvar(nome_arquivo,texto):                       
    """
      Salva um texto em arquivo.
     
      Parâmetros:
        `nome_arquivo` - Nome do arquivo a ser salvo.
        `texto` - Texto a ser salvo.     
    """

    arquivo = open(nome_arquivo, "w")
    arquivo.write(str(texto))
    arquivo.close()

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))
    
    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))    

Classe(ModelArguments) de definição dos parâmetros do modelo

In [None]:
# Import das bibliotecas.
from dataclasses import dataclass, field
from typing import Dict, Optional
from typing import List

@dataclass
class ModeloArgumentosMedida:
    max_seq_len: Optional[int] = field(
        default=None,
        metadata={"help": "max seq len"},
    )    
    pretrained_model_name_or_path: str = field(
        default="neuralmind/bert-base-portuguese-cased",
        metadata={"help": "nome do modelo pré-treinado do BERT."},
    )
    modelo_spacy: str = field(
        default="pt_core_news_lg",
        metadata={"help": "nome do modelo do spaCy."},
    )
    versao_modelo_spacy: str = field(
        default="-3.2.0",
        metadata={"help": "versão do nome do modelo no spaCy."},
    )
    sentenciar_documento: bool = field(
        default=True,
        metadata={"help": "Dividir o documento em sentenças(frases)."},
    )
    do_lower_case: bool = field(
        default=False,
        metadata={"help": "define se o texto do modelo deve ser todo em minúsculo."},
    )    
    output_attentions: bool = field(
        default=False,
        metadata={"help": "habilita se o modelo retorna os pesos de atenção."},
    )
    output_hidden_states: bool = field(
        default=False,
        metadata={"help": "habilita gerar as camadas ocultas do modelo."},
    )
    usar_mcl_ajustado : bool = field(
        default=False,
        metadata={"help": "habilita o carragamento de mcl ajustado."},
    )

Biblioteca de limpeza de tela


In [None]:
# Import das bibliotecas.
from IPython.display import clear_output

## 1.3 Tratamento de logs

In [None]:
# Import das bibliotecas.
import logging # Biblioteca de logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s")

logger = logging.getLogger()
logger.setLevel(logging.INFO)

## 1.4 Identificando o ambiente Colab

In [None]:
# Import das bibliotecas.
import sys # Biblioteca para acessar módulos do sistema

# Se estiver executando no Google Colaboratory
# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## 1.5 Colaboratory

Usando Colab GPU para Treinamento


Uma GPU pode ser adicionada acessando o menu e selecionando:

`Edit -> Notebook Settings -> Hardware accelerator -> (GPU)`

Em seguida, execute a célula a seguir para confirmar que a GPU foi detectada.

In [None]:
# Import das bibliotecas.
import tensorflow as tf

# Recupera o nome do dispositido da GPU.
device_name = tf.test.gpu_device_name()

# O nome do dispositivo deve ser parecido com o seguinte:
if device_name == "/device:GPU:0":
    logging.info("Encontrei GPU em: {}".format(device_name))
else:
    logging.info("Dispositivo GPU não encontrado")
    #raise SystemError("Dispositivo GPU não encontrado")

2022-02-15 19:22:56,086 : INFO : Dispositivo GPU não encontrado


Nome da GPU

Para que a torch use a GPU, precisamos identificar e especificar a GPU como o dispositivo. Posteriormente, em nosso ciclo de treinamento, carregaremos dados no dispositivo.

Vale a pena observar qual GPU você recebeu. A GPU Tesla P100 é muito mais rápido que as outras GPUs, abaixo uma lista ordenada:
- 1o Tesla P100
- 2o Tesla T4
- 3o Tesla P4 (Não tem memória para execução 4 x 8, somente 2 x 4)
- 4o Tesla K80 (Não tem memória para execução 4 x 8, somente 2 x 4)

In [None]:
# Import das bibliotecas.
import torch

def getDeviceGPU():
    """
      Retorna um dispositivo de GPU se disponível ou CPU.
    
      Retorno:
        `device` - Um device de GPU ou CPU.       
    """
        
    # Se existe GPU disponível.
    if torch.cuda.is_available():
        
        # Diz ao PyTorch para usar GPU.    
        device = torch.device("cuda")
        
        logging.info("Existem {} GPU(s) disponíveis.".format(torch.cuda.device_count()))
        logging.info("Iremos usar a GPU: {}.".format(torch.cuda.get_device_name(0)))

    # Se não.
    else:        
        logging.info("Sem GPU disponível, usando CPU.")
        device = torch.device("cpu")
        
    return device

In [None]:
# Recupera o device com GPU ou CPU
device = getDeviceGPU()

2022-02-15 19:22:57,853 : INFO : Sem GPU disponível, usando CPU.


Memória

Memória disponível no ambiente

In [None]:
# Import das bibliotecas.
from psutil import virtual_memory

ram_gb = virtual_memory().total / 1e9
logging.info("Seu ambiente de execução tem {: .1f} gigabytes de RAM disponível\n".format(ram_gb))

if ram_gb < 20:
  logging.info("Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> \"Alterar tipo de tempo de execução\"")
  logging.info("e selecione High-RAM. Então, execute novamente está célula")
else:
  logging.info("Você está usando um ambiente de execução de memória RAM alta!")

2022-02-15 19:22:57,868 : INFO : Seu ambiente de execução tem  13.6 gigabytes de RAM disponível

2022-02-15 19:22:57,871 : INFO : Para habilitar um tempo de execução de RAM alta, selecione menu o ambiente de execução> "Alterar tipo de tempo de execução"
2022-02-15 19:22:57,873 : INFO : e selecione High-RAM. Então, execute novamente está célula


## 1.6 Monta uma pasta no google drive para carregar os arquivos de dados.

In [None]:
# Import das bibliotecas.
from google.colab import drive

# Monta o drive na pasta especificada
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 1.7 Instalação do wandb

Instalação

In [None]:
!pip install --upgrade wandb

[0m

## 1.8 Instalação do spaCy

https://spacy.io/

Modelos do spaCy para português:
https://spacy.io/models/pt

In [None]:
# Instala o spacy
!pip install -U pip setuptools wheel

[0m

In [None]:
# Instala uma versão específica
!pip install -U spacy==3.2.0

[0m

# 2 Parametrização

## Gerais

In [None]:
# Definição dos parâmetros a serem avaliados

## Específicos

Parâmetros do modelo

In [None]:
# Definição dos parâmetros do Modelo.
model_args = ModeloArgumentosMedida(     
    max_seq_len = 512,
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-large-portuguese-cased/bert-large-portuguese-cased_pytorch_checkpoint.zip",
    #pretrained_model_name_or_path = "https://neuralmind-ai.s3.us-east-2.amazonaws.com/nlp/bert-base-portuguese-cased/bert-base-portuguese-cased_pytorch_checkpoint.zip",
    pretrained_model_name_or_path = "neuralmind/bert-large-portuguese-cased",
    #pretrained_model_name_or_path = "neuralmind/bert-base-portuguese-cased",    
    #pretrained_model_name_or_path = "bert-base-multilingual-cased",
    #pretrained_model_name_or_path = "bert-base-multilingual-uncased",
    modelo_spacy = "pt_core_news_lg",
    #modelo_spacy = "pt_core_news_md",
    #modelo_spacy = "pt_core_news_sm",
    versao_modelo_spacy = "3.2.0",
    sentenciar_documento = False,
    do_lower_case = False, # default True  
    output_attentions = False, # default False
    output_hidden_states = True, # default False, se True retorna todas as camadas do modelo para as operações de soma e concatenação
    usar_mcl_ajustado = False, # Especifica se deve ser carregado um MCL ajustado ou pré-treinado. Necessário especificar o tipo do modelo em pretrained_model_name_or_path. 
)

## Nome do diretório dos arquivos de dados

In [None]:
# Diretório do cohebert
DIRETORIO_COHEBERT = "FAQUAD"

## Define o caminho para os arquivos de dados

In [None]:
# Diretório local para os arquivos pré-processados
DIRETORIO_LOCAL = "/content/" + DIRETORIO_COHEBERT + "/"

# Diretório no google drive com os arquivos pré-processados
DIRETORIO_DRIVE = "/content/drive/MyDrive/Colab Notebooks/Data/" + DIRETORIO_COHEBERT + "/"

# 3 spaCy

## 3.1 Download arquivo modelo

https://spacy.io/models/pt

### Função download modelo spaCy

In [None]:
def downloadSpacy(model_args):
    """
      Realiza o download do arquivo do modelo para o diretório corrente.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
        
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Nome arquivo compactado
    NOME_ARQUIVO_MODELO_COMPACTADO = ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    # Url do arquivo
    URL_ARQUIVO_MODELO_COMPACTADO = "https://github.com/explosion/spacy-models/releases/download/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + NOME_ARQUIVO_MODELO_COMPACTADO

    # Realiza o download do arquivo do modelo
    logging.info("Download do arquivo do modelo do spaCy.")
    downloadArquivo(URL_ARQUIVO_MODELO_COMPACTADO, DIRETORIO_COHEBERT + "/" + NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.2 Descompacta o arquivo do modelo

### Função descompacta modelo spaCy

In [None]:
# Import das bibliotecas.
import tarfile # Biblioteca de descompactação

def descompactaSpacy(model_args):
    """
      Descompacta o arquivo do modelo.
    
      Parâmetros:
        `model_args` - Objeto com os argumentos do modelo.       
    """
    
    # Verifica se existe o diretório base do cohebert e retorna o nome do diretório
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
    
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    
    # Nome do arquivo a ser descompactado
    NOME_ARQUIVO_MODELO_COMPACTADO = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + ".tar.gz"
    
    logging.info("Descompactando o arquivo do modelo do spaCy.")
    arquivo_tar = tarfile.open(NOME_ARQUIVO_MODELO_COMPACTADO, "r:gz")    
    arquivo_tar.extractall(DIRETORIO_COHEBERT)    
    arquivo_tar.close()
    
    # Apaga o arquivo compactado
    if os.path.isfile(NOME_ARQUIVO_MODELO_COMPACTADO):        
        os.remove(NOME_ARQUIVO_MODELO_COMPACTADO)

## 3.3 Carrega o modelo

### Função carrega modelo spaCy

In [None]:
# Import das bibliotecas.
import spacy # Biblioteca do spaCy

def carregaSpacy(model_args):
    """
    Realiza o carregamento do Spacy.
    
    Parâmetros:
      `model_args` - Objeto com os argumentos do modelo.           
    """
    
    # Verifica se existe o diretório base
    DIRETORIO_COHEBERT = verificaDiretorioCoheBERT()
                  
    # Nome arquivo spacy
    ARQUIVO_MODELO_SPACY = model_args.modelo_spacy
    # Versão spaCy
    VERSAO_SPACY = "-" + model_args.versao_modelo_spacy
    # Caminho raoz do modelo do spaCy
    DIRETORIO_MODELO_SPACY =  DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY

    # Verifica se o diretório existe
    if os.path.exists(DIRETORIO_MODELO_SPACY) == False:
        # Realiza o download do arquivo modelo do spaCy
        downloadSpacy(model_args)
        # Descompacta o spaCy
        descompactaSpacy(model_args)

    # Diretório completo do spaCy
    DIRETORIO_MODELO_SPACY = DIRETORIO_COHEBERT + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/" + ARQUIVO_MODELO_SPACY + "/" + ARQUIVO_MODELO_SPACY + VERSAO_SPACY + "/"

    # Carrega o spaCy. Necessário somente "tagger" para encontrar os substantivos
    nlp = spacy.load(DIRETORIO_MODELO_SPACY)
    logging.info("spaCy carregado.")

    # Retorna o spacy carregado
    return nlp 

### Carrega o modelo spaCy


In [None]:
# Carrega o modelo spaCy
nlp = carregaSpacy(model_args)

2022-02-15 19:23:29,849 : INFO : spaCy carregado.


## 3.4 Funções auxiliares spaCy

### getStopwords

Recupera as stopwords do spaCy

In [None]:
def getStopwords(nlp):
    """
      Recupera as stop words do nlp(Spacy).
    
      Parâmetros:
        `nlp` - Um modelo spaCy carregado.           
    """
    
    spacy_stopwords = nlp.Defaults.stop_words

    return spacy_stopwords 

Lista dos stopwords

In [None]:
logging.info("Quantidade de stopwords: {}.".format(len(getStopwords(nlp))))

print(getStopwords(nlp))

2022-02-15 19:23:29,921 : INFO : Quantidade de stopwords: 416.


{'deverá', 'ela', 'tanto', 'cujo', 'número', 'números', 'oitava', 'fui', 'breve', 'era', 'sabe', 'dizer', 'saber', 'foram', 'depois', 'vocês', 'só', 'até', 'povo', 'nem', 'este', 'conhecido', 'nove', 'coisa', 'nos', 'tarde', 'zero', 'fim', 'tu', 'mas', 'posição', 'já', 'se', 'meses', 'dezoito', 'na', 'cuja', 'diante', 'catorze', 'está', 'demais', 'estava', 'seu', 'fazem', 'sua', 'porque', 'algumas', 'fomos', 'terceira', 'grandes', 'dizem', 'dois', 'cento', 'grande', 'lhe', 'vosso', 'quinze', 'nós', 'qualquer', 'portanto', 'acerca', 'estiveste', 'nossa', 'tentar', 'questão', 'vários', 'outras', 'área', 'vossos', 'usar', 'quarta', 'dos', 'seria', 'sétimo', 'dessa', 'quinto', 'próximo', 'tão', 'apontar', 'têm', 'novos', 'alguns', 'ontem', 'minha', 'uma', 'embora', 'esteve', 'inclusive', 'sois', 'exemplo', 'teus', 'oitavo', 'desde', 'sistema', 'poder', 'seus', 'outros', 'outra', 'estivestes', 'quer', 'dá', 'apenas', 'três', 'estas', 'sem', 'adeus', 'esse', 'dezasseis', 'pois', 'esta', 'con

### getVerbos
Localiza os verbos da sentença

In [None]:
# Import das bibliotecas.
import spacy   
from spacy.util import filter_spans
from spacy.matcher import Matcher

# (verbo normal como auxilar ou auxilar) + vários verbos auxiliares +verbo principal ou verbo auxiliar
gramaticav1 =  [
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                                  
                {"POS": "VERB", "OP": "?", "DEP": {"IN": ["ROOT","aux","xcomp","aux:pass"]}},  #verbo normal como auxiliar
                {"POS": "AUX", "OP": "*", "DEP": {"IN": ["aux","xcomp","aux:pass"]}},  #verbo auxiliar   
                {"POS": "VERB", "OP": "+"}, #verbo principal
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop","aux","xcomp","aux:pass"]}},  #verbo auxiliar
               ] 

# verbo auxiliar + verbo normal como auxiliar + conjunção com preposição + verbo
gramaticav2 =  [               
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["aux","aux:pass"]}},  #verbo auxiliar                   
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["ROOT"]}},  #verbo principal       
                {"POS": "SCONJ", "OP": "+", "DEP": {"IN": ["mark"]}}, #conjunção com preposição
                {"POS": "VERB", "OP": "+", "DEP": {"IN": ["xcomp"]}}, #verbo normal como complementar
               ] 

#Somente verbos auxiliares
gramaticav3 =  [
                {"POS": "AUX", "OP": "?"},  #Verbos auxiliar 
                {"POS": "AUX", "OP": "?", "DEP": {"IN": ["cop"]}},  #Verbos auxiliar de ligação (AUX+(cop))
                {"POS": "ADJ", "OP": "+", "DEP": {"IN": ["ROOT"]}}, 
                {"POS": "AUX", "OP": "?"}  #Verbos auxiliar 
               ] 

matcherv = Matcher(nlp.vocab)
         
matcherv.add("frase verbal", [gramaticav1])
matcherv.add("frase verbal", [gramaticav2])
matcherv.add("frase verbal", [gramaticav3])

#Retorna a Frase Verbal
def getVerbos(periodo):    
  #Processa o período
  doc1 = nlp(periodo.text)
  
  # Chama o mather para encontrar o padrão
  matches = matcherv(doc1)

  padrao = [doc1[start:end] for _, start, end in matches]

  #elimina as repetições e sobreposições
  #return filter_spans(padrao)
  lista1 = filter_spans(padrao)

  # Converte os itens em string
  lista2 = []
  for x in lista1:
      lista2.append(str(x))
  
  return lista2

### getDicPOSQtde

Conta as POS Tagging de uma sentença

In [None]:
def getDicPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades
  novo_dic = dict()
  
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

In [None]:
def getDicTodasPOSQtde(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Retorna inteiros que mapeiam para classes gramaticais
  conta_dicionarios = doc.count_by(spacy.attrs.IDS["POS"])

  # Dicionário com as tags e quantidades    
  novo_dic = {"PRON":0, "VERB":0, "PUNCT":0, "DET":0, "NOUN":0, "AUX":0, "CCONJ":0, "ADP":0, "PROPN":0, "ADJ":0, "ADV":0, "NUM":0, "SCONJ":0, "SYM":0, "SPACE":0, "INTJ":0, "X": 0}
    
  for pos, qtde in conta_dicionarios.items():
    classe_gramatical = doc.vocab[pos].text
    novo_dic[classe_gramatical] = qtde

  return novo_dic

### getSomaDic

Soma os valores de dicionários com as mesmas chaves.

In [None]:
# Import das bibliotecas.
from collections import Counter
from functools import reduce

def atualizaValor(a,b):
    a.update(b)
    return a

def getSomaDic(lista):
    
  # Soma os dicionários da lista
  novo_dic = reduce(atualizaValor, (Counter(dict(x)) for x in lista))
 
  return novo_dic

### getTokensSentenca

Retorna a lista de tokens da sentenca.

In [None]:
def getTokensSentenca(sentenca):

    # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.text)

  return lista

### getPOSTokensSentenca

Retorna a lista das POS-Tagging dos tokens da sentenca.

In [None]:
def getPOSTokensSentenca(sentenca):

  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista = []

  # Percorre a sentença adicionando os tokens
  for token in doc:    
    lista.append(token.pos_)

  return lista

### getListaTokensPOSSentenca

Retorna duas listas uma com os tokens e a outra com a POS-Tagging dos tokens da sentenca.

In [None]:
def getListaTokensPOSSentenca(sentenca):
  # Verifica se o sentenca não foi processado pelo spaCy  
  if type(sentenca) is not spacy.tokens.doc.Doc:
      # Realiza o parsing no spacy
      doc = nlp(sentenca)
  else:
      doc = sentenca

  # Lista dos tokens
  lista_tokens = []
  lista_pos = []

  # Percorre a sentença adicionando os tokens e as POS
  for token in doc:    
    lista_tokens.append(token.text)
    lista_pos.append(token.pos_)
    
  return lista_tokens, lista_pos

### Tadução das tags

Tags de palavras universal

https://universaldependencies.org/u/pos/

Detalhes das tags em português:
http://www.dbd.puc-rio.br/pergamum/tesesabertas/1412298_2016_completo.pdf

In [None]:
#dicionário que contêm pos tag universal e suas explicações
palavra_universal_dict = {
  "X"    : "Outro",
  "VERB" : "Verbo ",
  "SYM"  : "Símbolo",
  "CONJ" : "Conjunção",
  "SCONJ": "Conjunção subordinativa",
  "PUNCT": "Pontuação",
  "PROPN": "Nome próprio",
  "PRON" : "Pronome substativo",
  "PART" : "Partícula, morfemas livres",
  "NUM"  : "Numeral",
  "NOUN" : "Substantivo",
  "INTJ" : "Interjeição",
  "DET"  : "Determinante, Artigo e pronomes adjetivos",
  "CCONJ": "Conjunção coordenativa",
  "AUX"  : "Verbo auxiliar",
  "ADV"  : "Advérbio",
  "ADP"  : "Preposição",
  "ADJ"  : "Adjetivo"
}
  
#Explica a POS
def getPOSPalavraUniversalTraduzido(palavra):
  if palavra in palavra_universal_dict.keys():
      traduzido = palavra_universal_dict[palavra]
  else:
      traduzido = "NA" 
  return traduzido

# 4 Pré-processamento do arquivo de dados


## 4.1 Cria o diretório para receber os arquivos de dados

In [None]:
# Importando as bibliotecas.
import os

# Cria o diretório para receber os arquivos Originais e Permutados
# Diretório a ser criado
dirbase = DIRETORIO_LOCAL[:-1]

if not os.path.exists(dirbase):  
    # Cria o diretório
    os.makedirs(dirbase)    
    logging.info("Diretório criado: {}".format(dirbase))
else:    
    logging.info("Diretório já existe: {}".format(dirbase))

2022-02-15 19:23:30,254 : INFO : Diretório já existe: /content/FAQUAD


## 4.2 Recupera o faquad do Github

https://github.com/liafacom/faquad

In [None]:
!git clone https://github.com/liafacom/faquad.git

fatal: destination path 'faquad' already exists and is not an empty directory.


## 4.3 Carrega os dados no formato bruto

In [None]:
# Import das bibliotecas.
import json
from os.path import realpath

# Leitura do arquivo
with open(realpath("faquad/data/dataset.json")) as file:
    datasets = json.loads(file.read())

print(datasets)

{'data': [{'title': 'ANALISE_DE_SISTEMAS', 'paragraphs': [{'context': 'A Informática ou Tecnologia da Informação é um componente indispensável nas organizações, na medida em que as soluções tecnológicas automatizam processos e são fonte de vantagens competitivas através da análise de cenários, apoio ao processo decisório e definição e implementação de novas estratégias organizacionais. Assim, cresce a preocupação com a coleta, armazenamento, processamento e transmissão da informação, justamente porque a disponibilidade da informação certa é requisito fundamental para a melhoria contínua da qualidade e competitividade organizacionais, o que implica considerar a crescente relevância dos sistemas de informação baseados em computador. Um sistema de informação pode ser definido tecnicamente como “um conjunto de componentes inter-relacionados que coleta (ou recupera), processa, armazena e distribui informações destinadas a apoiar a tomada de decisões, a coordenação e o controle de uma organi

## 4.4 Organiza os dados brutos

In [None]:
perguntas = []

for data in datasets["data"]:
  for paragraph in data["paragraphs"]:
    
    contexto = paragraph["context"]
    
    for qas in paragraph["qas"]:
        idPergunta = qas["id"]
        pergunta = qas["question"]
        
        buffer_respostas = []
        for resposta in qas["answers"]:
          buffer_respostas.append(resposta["text"])
      
        perguntas.append([idPergunta, pergunta])            

In [None]:
print(len(perguntas))

900


Connverte em um dataframe
Atributos do arquivo **FAQUAD**:
0. "id"
1. "documento"



In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df = pd.DataFrame(perguntas, columns = ["id","documento"])

#Mostra o número de documentos carregados
print("%d linhas carregadas do arquivo" % (len(df)))

# Mostra 10 linhas aleatórias dos dados
df.sample(10)

900 linhas carregadas do arquivo


Unnamed: 0,id,documento
315,76c1def369d1419a9c21fd6ab56c7370,Por quantos meses a gestante poderá ser ajudad...
533,a84b815e987d44d1b3944b3cd01e4d85,O candidato deve ter um vinculo efetivo com qu...
193,1d746320923348268c07ffb59dff6a5f,Qual as tarefas do processador?
338,0eae90cf569546bfa0c97ceb60bad6bc,Quando a FAPDF foi implementada?
569,3a8929f89eaa40be8ff04c233a72bcd2,Quais são os níveis educacionais?
368,fc0673526dda4b5fac9fbccebb818fa9,Quando foi implantado o curso de Ciência da Co...
527,29f13da0db884441a2e7dc9e34f62d4d,Qual era o número de mestrados acadêmicos no B...
0,4918ff59e83343b88c1fd3a204f55a3b,Como pode ser definido um sistema de informação?
100,1100cf4cf2b54d88bea2eac0e93df77e,Em que tem impactado os avanços recentes na ci...
617,c308a5365bea44458a70619f4b131df0,O que deve ser respeitado na inscrição das dis...


Reduz o tamanho dos dados de entrada para teste.

In [None]:
#Reduzindo o tamanho do dataframe
#df = df[:100]

## 4.5 Formatandos os documentos originais

### 4.5.1 Pré-processamento

- Eliminar pontuações repetidas (???,!!!);
- Eliminar de espaços em branco repetidos;
- Remover documentos com mais de 10 sentenças, pois geram muitas permutações e acabam com a memória;
- Remover documentos que não possuem verbos(regular e auxiliar) ou substantivos.


In [None]:
# Import das bibliotecas.
import re
# Biblioteca para barra de progresso
from tqdm.notebook import tqdm as tqdm_notebook

# Dados documento tratados
documentos_tratados = []

# Acumula o total de sentenças
conta_barra_n = 0
total_sentencas = 0
conta_interrogacoes = 0
conta_sem_interrogacoes = 0
conta_espacos = 0
conta_documento_2sentencas = 0
conta_documentos_10sentencas = 0
conta_sem_classes_minimo = 0

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df.iterrows(), desc=f"Dados", unit=f"registro", total=len(df))

# Percorre os registros dos dados bruto
for (i, linha) in dados_bar:
  
  # Recupera o id documento
  id_documento = linha.values[0]

  # Recupera o documento
  documento = str(linha.values[1])

  # Substitui \n por espaço em branco no documento
  conta_caracter_barra_n = documento.count("\n")
  if conta_caracter_barra_n > 0:
    # Transforma \n em espaços em branco 
    documento = documento.replace("\n"," ")
    conta_barra_n = conta_barra_n + 1  

  # Transforma em string e remove os espaços do início e do fim
  documento = str(documento).strip()

  # Conta sentenças com duas ou mais interrogação
  conta_caracter_interrogacoes = documento.count("?")
  if conta_caracter_interrogacoes > 1:
    # Transforma 2 ou mais interrogações consecutivas em 1
    documento = re.sub("\?+", "?", documento)
    conta_interrogacoes = conta_interrogacoes + 1
  
  # Conta sentenças sem interrogação
  if conta_caracter_interrogacoes == 0:
      conta_sem_interrogacoes = conta_sem_interrogacoes + 1

  conta_caracter_espacos = documento.count("  ")
  if conta_caracter_espacos > 0:
    # Transforma 2 ou mais espaços em brancos consecutivas em 1    
    documento = re.sub("\s+", " ", documento)
    conta_espacos = conta_espacos + 1

  # Remove caracteres estranhos
  documento = documento.replace("","")    

  # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 

  # Conta o número de sentenças do documento
  conta_sentencas = len(list(doc.sents))
  if conta_sentencas > 1:
    conta_documento_2sentencas = conta_documento_2sentencas + 1
  
  # Conta os documentos com mais de 10 sentenças
  if conta_sentencas > 10:
    conta_documentos_10sentencas = conta_documentos_10sentencas + 1
    print("Texto com mais de 10 sentenças:",documento)

  # Conta o total de sentenças do documento
  total_sentencas = total_sentencas + conta_sentencas
   
  # Verifica se a sentença possui no mínimo um verbo(regular ou auxiliar) ou substantivo
  classe_pos_minimo = ["VERB", "NOUN", "AUX"]
  pos_minimo = False
  # Recupera a lista de tokens e pos do documento
  listaTokens, listaPos = getListaTokensPOSSentenca(doc)
  for i, pos in enumerate(listaPos):
      if pos in classe_pos_minimo:
        pos_minimo = True

  if pos_minimo == False:
    conta_sem_classes_minimo = conta_sem_classes_minimo + 1

  # Adiciona textos somente com menos de 10 sentenças e possui no mínimo um verbo ou um substantivo
  if conta_sentencas < 10 and pos_minimo == True:
    # Adiciona a linha tratada com o id do documento, o documento a lista
    documentos_tratados.append([id_documento, documento])

Dados:   0%|          | 0/900 [00:00<?, ?registro/s]

In [None]:
print("Total de documentos com \\n                        :", conta_barra_n)
print("Total de documentos com 2 ou mais interrogações   :", conta_interrogacoes)
print("Total de documentos sem interrogações             :", conta_sem_interrogacoes)
print("Total de documentos com 2 ou mais espaços         :", conta_espacos)
print("Total de documentos com 2 ou mais sentenças       :", conta_documento_2sentencas)
print("Total de documentos com mais de 10 sentenças      :", conta_documentos_10sentencas)
print("Total de documentos sem verbo ou substantivo      :", conta_sem_classes_minimo)
print("Total de sentenças nos dados tratados             :", total_sentencas)
print("Total de perguntas tratados                       :", len(documentos_tratados))

Total de documentos com 2 ou mais interrogações   : 0
Total de documentos sem interrogações             : 1
Total de documentos com 2 ou mais espaços         : 0
Total de documentos com 2 ou mais sentenças       : 10
Total de documentos com mais de 10 sentenças      : 0
Total de documentos sem verbo ou substantivo      : 0
Total de sentenças nos dados tratados             : 910
Total de perguntas tratados                       : 900


In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df_documentos_tratados = pd.DataFrame(documentos_tratados, columns = ["id","documento"])

#Mostra o número de documentos carregados
print("%d linhas carregadas do arquivo" % (len(df_documentos_tratados)))

# Mostra 10 linhas aleatórias dos dados
df_documentos_tratados.sample(10)

900 linhas carregadas do arquivo


Unnamed: 0,id,documento
87,1e34dcd126c74b61b70df158288cf73e,O que os cientistas da computação estudam?
716,129a155d098d4a2f9a66d06ea95138fa,O que a difusão das novas tecnologias de infor...
515,d4c1625406744464879a6e1c63192c0b,Do que os matemáticos precisavam para descobri...
274,da54f6172fae445fb8d7566eca8a6f9d,O que os modelos utilizados pela engenharia de...
829,f417bfe6a66c4e358e9730d4e72f5b7d,Quando começou o ensino superior no Brasil?
780,95a4f3a33f0748bc977f461a399d118c,Por quem se dá a administração central da UFMS?
564,bd1eed09be974557ad39a40f126818eb,O que é necessário para que um indivíduo se qu...
733,a2b51f36c83a48f4a993bf6a397bbc1c,Onde os esquemas podem ser incluídos?
108,13c20d4e1a8a4ae9a556e6986524cefa,Com o que estão relacionados as inovações e as...
485,4f734ee48776436a891803da73e5decd,Qual o interesse do investigador nas pesquisas...


Todas as perguntas são formadas por uma única sentença. O Spacy realiza a divisão incorretamente dos perguntas devido a caracteres e letras em maiúsculo.

In [None]:
# Import das bibliotecas.
import re
# Biblioteca para barra de progresso
from tqdm.notebook import tqdm as tqdm_notebook

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df_documentos_tratados.iterrows(), desc=f"Dados", unit=f"registro", total=len(df_documentos_tratados))

# Percorre os registros dos dados bruto
for (i, linha) in dados_bar:

  # Recupera o documento
  documento = linha.values[1]

   # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 

  sentencas = []    
  # Percorre as sentenças do documento
  for sentenca in doc.sents:                  
      # Adiciona a sentença tratada na lista      
      sentencas.append(str(sentenca))

  conta_sentencas = len(list(doc.sents))
  if conta_sentencas > 1:
    conta_documento_2sentencas = conta_documento_2sentencas + 1
    print(conta_sentencas, " sentenças:", documento)
    print("          Lista das sentenças:", sentencas)

Dados:   0%|          | 0/900 [00:00<?, ?registro/s]

2  sentenças: De qual área o estudo de sistemas computacionais comerciais faz parte?
          Lista das sentenças: ['De qual área o estudo de sistemas computacionais comerciais', 'faz parte?']
2  sentenças: Quem é considerado o autor da frase ”Ciência da Computação tem tanto a ver com o computador como a astronomia com o telescópio […]"?
          Lista das sentenças: ['Quem é considerado o autor da frase ”', 'Ciência da Computação tem tanto a ver com o computador como a astronomia com o telescópio […]"?']
2  sentenças: O que Claude Shannon desenvolveu no artigo A Mathematical Theory of Communication?
          Lista das sentenças: ['O que Claude Shannon desenvolveu no artigo', 'A Mathematical Theory of Communication?']
2  sentenças: A quem é credita a frase "Ciência é para a Ciência da Computação assim como a hidrodinâmica é para a construção de encanamentos"?
          Lista das sentenças: ['A quem é credita a frase "', 'Ciência é para a Ciência da Computação assim como a hidrodinâm

### 4.5.2 Sentenciação do documento

In [None]:
# Import das bibliotecas.
import os # Biblioteca para acessar o sistema de arquivos
from tqdm.notebook import tqdm as tqdm_notebook # Biblioteca para barra de progresso

print("Processando",len(df_documentos_tratados),"documentos tratados")

# Sentenças por documento
lista_documentos_originais = []
total_sentencas_documento = 0
total_documentos_sentenca_uma_palavra = 0
total_documentos_ao_menos_uma_sentenca_uma_palavra = 0

# Documentos excluídos
documentos_excluidos = []

# Barra de progresso dos dados
dados_bar = tqdm_notebook(df_documentos_tratados.iterrows(), desc=f"Dados", unit=f"registro", total=len(df_documentos_tratados))

# Percorre os registros dos documento
for i, linha_documento in dados_bar:
 
  # Recupera o documento
  documento = str(linha.values[1])  

  # Aplica sentenciação do spacy no documento
  doc = nlp(documento) 
  
  # Sequência das sentenças no documento
  sequencia = 1
  totalPalavras = 0
  sentencaArquivo = ""
  sentencas = []
  total_sentencas = 0
  sentencas_com_uma_palavra = 0
  sentencas_com_mais_de_uma_palavra = 0
  
  # Percorre as sentenças do documento
  for sentenca in doc.sents:     
       
      # Conta as sentenças do documento
      total_sentencas = total_sentencas + 1
      total_sentencas_documento = total_sentencas_documento + 1
      
      # Transforma em string e remove os espaços do início e do fim
      sentenca1 = str(sentenca).strip()
      
      # Adiciona a sentença tratada na lista      
      sentencas.append(str(sentenca1))
                  
      # Incrementa a sequência da sentença no documento
      sequencia = sequencia + 1
      
      # Percorre a sentença procurando os tokens da sentença
      sentence_tokens = [token.text for token in sentenca]
      
      # Quantidade de palavras por sentença
      qtdePalavra = len(sentence_tokens)
      
      # Verifica se a sentença tem 1 palavra para excluir o documento
      if qtdePalavra == 1:
        sentencas_com_uma_palavra = sentencas_com_uma_palavra + 1
      else:
        sentencas_com_mais_de_uma_palavra = sentencas_com_mais_de_uma_palavra + 1

      # Acumula a quantidade de palavras da sentença
      totalPalavras = totalPalavras + qtdePalavra

  # Verifica se o documento tem mais de 1 palavra
  if totalPalavras > 1:      

    # Se todas as sentencas possui mais de uma palavra  
    if sentencas_com_mais_de_uma_palavra == len(sentencas):      
      if model_args.sentenciar_documento == True:
        # Adiciona o documento na lista com a sentenciação
        lista_documentos_originais.append([linha_documento[0], sentencas, str(linha_documento[1])])
      else:        
        # Adiciona o documento na lista sem a sentenciação
        lista_documentos_originais.append([linha_documento[0], [str(linha_documento[1])], str(linha_documento[1])])
    else:
      # Se existe pelo menos uma sentença com uma palavra e outras sentencas com mais palavras e não é necessário sentenciar
      if sentencas_com_uma_palavra > 0 and sentencas_com_uma_palavra < len(sentencas):
          if model_args.sentenciar_documento == False:    
            # Adiciona o documento na lista sem a sentenciação
            lista_documentos_originais.append([linha_documento[0], [str(linha_documento[1])], str(linha_documento[1])])
          else:        
            print("Documento não adicionado pois possui uma sentença com uma palavra e é necessário sentenciar.")        
            print(" linha_documento:",linha_documento)
            documentos_excluidos.append(linha_documento)
            total_documentos_ao_menos_uma_sentenca_uma_palavra = total_documentos_ao_menos_uma_sentenca_uma_palavra + 1
      else:
          # Se todas as sentenças possuem 1 palavra
          if sentencas_com_uma_palavra == len(sentencas):    
              print("Documento não adicionado pois todas as sentenças possui uma palavra.")        
              print(" linha_documento:",linha_documento)
              documentos_excluidos.append(linha_documento)
              total_documentos_sentenca_uma_palavra = total_documentos_sentenca_uma_palavra + 1
  else:
      print("Documento não adicionado pois possui somente uma palavra.")
      print(" linha_documento:",linha_documento)
      documentos_excluidos.append(linha_documento)

Processando 900 documentos tratados


Dados:   0%|          | 0/900 [00:00<?, ?registro/s]

In [None]:
print("Total de documentos processados                                                :", len(lista_documentos_originais))
print("Total de documentos com sentenças com uma palavra                              :", total_documentos_sentenca_uma_palavra)
print("Total de documentos com pelo menos uma sentença com uma palavra(sem sentenciar):", total_documentos_ao_menos_uma_sentenca_uma_palavra)
print("Total de documentos excluídos                                                  :", len(documentos_excluidos))
print("Total sentenças nos documentos usando spaCy                                    :", total_sentencas_documento)

Total de documentos processados                                                : 900
Total de documentos com sentenças com uma palavra                              :  0
Total de documentos com pelo menos uma sentença com uma palavra(sem sentenciar):  0
Total de documentos excluídos                                                  :  0
Total sentenças nos documentos usando spaCy                                    : 910


### 4.5.3 Especifica os nomes dos arquivos de dados originais



In [None]:
# Nome do arquivo
NOME_ARQUIVO_ORIGINAL = "original.csv"
NOME_ARQUIVO_ORIGINAL_COMPACTADO = "original.zip"

### 4.5.4 Cria o arquivo dos documentos originais

In [None]:
# Import das bibliotecas.
import pandas as pd

# Cria o dataframe da lista
df_lista_documentos_originais = pd.DataFrame(lista_documentos_originais, columns = ["id","sentencas","documento"])

# Salva o arquivo original
df_lista_documentos_originais.to_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", index=False)

In [None]:
print(len(df_lista_documentos_originais))

900


In [None]:
df_lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento
675,47d46519fe4241fcacde161a08cea75a,[Quais os possíveis tipos de disciplinas dispe...,Quais os possíveis tipos de disciplinas dispen...
801,2fa0aec8272e47b7b46d2e0e067c8875,[Quem tutela as universidades públicas?],Quem tutela as universidades públicas?
236,597fc7016b2d4ef4a6a5961260e490de,[Qual curso foi criado através da parceria ent...,Qual curso foi criado através da parceria entr...
201,d6bbaaa07cfe47d5b9eefba2d1efd40a,[O que são dispositivos de entrada e saída?],O que são dispositivos de entrada e saída?
426,04a544b4eb3244a980f74b5e9056fef7,[Quando a participação do coordenador de curso...,Quando a participação do coordenador de curso ...


### 4.4.5 Compacta e copia o arquivo original para uma pasta do GoogleDrive

Compacta os arquivos.

Usa o zip para compactar:
*   `-o` sobrescreve o arquivo se existir
*   `-j` Não cria nenhum diretório
*   `-q` Desliga as mensagens 


In [None]:
!zip -o -q -j "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL"

logging.info("Terminei a compactação.")

2022-02-15 19:24:20,422 : INFO : Terminei a compactação.


Copia o arquivo compactado para o GoogleDrive



In [None]:
# Se estiver executando no Google Colaboratory
if IN_COLAB:
    # Copia o arquivo original   
    !cp "$DIRETORIO_LOCAL$NOME_ARQUIVO_ORIGINAL_COMPACTADO" "$DIRETORIO_DRIVE"

    logging.info("Terminei a cópia.")

2022-02-15 19:24:21,417 : INFO : Terminei a cópia.


### 4.5.6 Carrega os dados

In [None]:
# Import das bibliotecas.
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df_lista_documentos_originais = pd.read_csv(DIRETORIO_LOCAL + NOME_ARQUIVO_ORIGINAL, sep=";", encoding="UTF-8")

In [None]:
df_lista_documentos_originais.sample(5)

Unnamed: 0,id,sentencas,documento
498,51a17996ba964b46b41cf261d4e866d4,['Onde o candidato do POSCOMP realiza a prova?'],Onde o candidato do POSCOMP realiza a prova?
373,516994f2ae61475eb07e75dcbb2a188d,['Com qual intuito foi criado o curso de Análi...,Com qual intuito foi criado o curso de Análise...
246,e5b1526e21bb43c889bdcc2eee62c247,['O que é MIT?'],O que é MIT?
204,39b55469ac19414db4eaf98c9df2fdce,['Como os dispositivos da placa-mãe são conect...,Como os dispositivos da placa-mãe são conectados?
434,4f5e0fca2de74f499a98731c7af28c95,['Qual a condição para incluir disciplinas dur...,Qual a condição para incluir disciplinas duran...


# 5 Finalização

## 5.1 Tempo final de processamento



In [None]:
# Pega o tempo atual menos o tempo do início do processamento.
final_processamento = time.time()
tempo_total_processamento = formataTempo(final_processamento - inicio_processamento)

print("")
print("  Tempo processamento:  {:} (h:mm:ss)".format(tempo_total_processamento))


  Tempo processamento:  0:01:29 (h:mm:ss)
