### Geração de corpora consolidados, com nível de acesso público

Os corpora são compostos por diversas fontes de dados, com formatos heterogeneos dentro do domínio. 
Este scripts, portanto, consolidam conjuntos de corpora em um arquivo único, para geração de um modelo.
Para cada arquivo consolidado (contendo um conjunto de corpora), será posteriormente gerado um modelo

In [1]:
from collections import Counter
import os
from pathlib import Path
import datetime
from os import listdir
from os.path import isfile, join, isdir
import shutil
import logging

In [None]:
logging.basicConfig(format='%(asctime)s %(message)s', datefmt='%m/%d/%Y %I:%M:%S %p: ', level=logging.WARN)

In [None]:
%run ../_Util.ipynb

In [None]:
pastaArquivosCorpora = join('..', '..', 'resources', 'corpora', '3- Textos Preprocessados')
pastaArquivosCorporaSaida = join('..', '..', 'resources', 'Corpora', '3- Textos Preprocessados', '_Consolidados')

# Elementos Parametrizaveis
imprimeEstatisticas = True
imprimeEstatisticasVocabulario = True
exportaArquivoPalavrasRaras = False

In [None]:
def preProcessaArquivoConsolidado(nomeCorpusSaida, arquivosDeCorpusEntrada):
    momentoInicial = datetime.datetime.now()
    
    arquivoCorpusSaida = join(pastaArquivosCorporaSaida, nomeCorpusSaida)
    #arquivoSaidaPalavrasRaras = join(pastaArquivosCorporaSaida, nomeCorpusSaida+".PalavrasRaras.txt")

    logging.info("Unificando arquivos")
    mergeConteudoArquivos(arquivosDeCorpusEntrada, arquivoCorpusSaida)
    print("\n* Arquivo de saida gravado em "+arquivoCorpusSaida)

    #logging.info("Gravando arquivo de saida")
    #gravaArquivo(arquivoCorpusSaida, textoCorpus)
        
    textoCorpus = ''
        
    if imprimeEstatisticas:
        print("\n* Estatísticas do corpus final consolidado:")
        textoCorpus = leTextoDeArquivo(arquivoCorpusSaida)
        imprime_info_corpus(textoCorpus, geraEstatisticasVocabulario = imprimeEstatisticasVocabulario)
    
    momentoFinal = datetime.datetime.now()
    print("\nPreprocessamento: tempo total decorrido: ", momentoFinal - momentoInicial)  
   
    return textoCorpus

In [None]:
def mergeConteudoArquivos(listaArquivos, arquivoSaida):
    with open(arquivoSaida,'wb') as out_file:
        for f in listaArquivos:
            with open(join(pastaArquivosCorpora, f),'rb') as input_file:
                shutil.copyfileobj(input_file, out_file)
                out_file.write(b"\n")

In [None]:
def mergeConteudoArquivos_OLD(arquivos):
    conteudoArquivosProcessados = []
    for arquivo in arquivos:
        pathArquivo = join(pastaArquivosCorpora, arquivo)
        texto = leTextoDeArquivo(pathArquivo)
        conteudoArquivosProcessados.append(texto)
        
    textoCorpus = '\n'.join([arquivo for arquivo in conteudoArquivosProcessados])
    
    #if imprimeEstatisticas:
    #    print("* Estatísticas do corpus na entrada:")
    #    imprime_info_corpus(textoCorpus)
    
    return textoCorpus

In [None]:
def geraRelatorioPalavrasRaras(texto, arquivoSaidaPalavrasRaras, frequenciaMinimaPalavra):
    word_counts = Counter(texto.split())
    palavras_raras = [w for w in word_counts if word_counts[w] <= frequenciaMinimaPalavra]
    print('Vocabulário total: ', "{:,}".format(len(word_counts.most_common() )))
    print('Palavras raras: ', "{:,}".format(len(palavras_raras)))
    
    listaPalavrasRaras = "\n".join([w for w in palavras_raras])
    gravaArquivo(arquivoSaidaPalavrasRaras, listaPalavrasRaras)    
    return palavras_raras

In [None]:
def eliminaPalavrasRarasESentencasCurtas(texto, arquivoSaidaPalavrasRaras, frequenciaMinimaPalavra = 1):
    inicioPalavrasRaras = datetime.datetime.now()
    
    # apenas grava o arquivo com as palavras raras. As ocorrencias nao estao sendo eliminadas, por restricoes de processamento
    # isso sera feito diretamente pela api do gensim, durante o treinamento dos modelos
    palavras_raras = geraRelatorioPalavrasRaras(texto, arquivoSaidaPalavrasRaras, frequenciaMinimaPalavra)
    
    sentences = texto.split('\n')
    
    #print('Substituindo palavras raras no texto')    
    #sentences = [processSentence(sentence, palavras_raras) for sentence in sentences]
    
    # unificando caso a sentença contenha ao menos 3 palavras
    tamanho_minimo_sentecas = 3
    texto = "\n".join( [sentence for sentence in sentences if len(sentence.split()) >= tamanho_minimo_sentecas])  

    print("Tempo de processamento para eliminar sentenças curtas: ", datetime.datetime.now() - inicioPalavrasRaras)  
    
    return texto    

In [None]:
def processSentence(sentence, palavras_raras):
    return " ".join([palavra for palavra in sentence.split() if palavra not in palavras_raras])