### Importando módulos

In [1]:
import glob, os, scipy, nltk
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from nltk.tokenize import word_tokenize,sent_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.stem import PorterStemmer
from nltk.tokenize import WordPunctTokenizer
from nltk.corpus import stopwords
from string import punctuation
from collections import defaultdict
from heapq import nlargest
from sklearn.feature_extraction.text import CountVectorizer


### Funções utilizadas no processamento 

In [2]:
#Criar um array das palavras "expressão de busca" 
def getSearchWords(dataframe,fieldtext):
    
    #Instanciando o objeto retirar palavras repetidas
    txt2matriObj = CountVectorizer()
    removestopwordsFull = []

    for rows in dataframe[fieldtext]:
        a = ''
        for row in rows:a += row+' '
        removestopwordsFull.append(a)
        
    txt2matri = txt2matriObj.fit_transform(removestopwordsFull)


    #Retornando as palavras sem repeticao
    return txt2matriObj.get_feature_names()

#Criar um dataframe a partir de dados em formato .txt
def preProcessingCorpus(folder,searchWords):

    #Criando o arquivo
    files = glob.glob(os.path.join(folder,'*.txt'))
    
    #Criando o nova dataframe
    df = pd.DataFrame()
    count = 0
    
    it = iter(searchWords) 
    zeros = [0]*len(searchWords)
    obj = dict(zip(it,zeros))
    
    for i in obj.keys():obj[i] = [0]
    
    #Percorrendo todos os arquivo
    for file in files:      
    
        #Coletando informacoes do contidas no arquivo e nome do arquivo com docid
        data = open(file,'r',encoding='utf-8')
        docid = str(os.path.basename(file)[0:-4])
        year = str(docid.split('-')[2])
    
        #Inserindo valores no dataframe      
        datas = pd.concat([pd.DataFrame({'id':[count],'docid':[docid],'text':[data.read()]}),pd.DataFrame(obj)],axis=1)
        
        df = df.append(datas)
        datas = None
    
        #Fechando o arquivo
        data.close()
        count += 1
    
    return df

#Processamento NLP (retirar os espaços entre as palavras, sufixos, stopwords)
def processCorpus(dataframe,fieldtext):
    
    #Retirando espacos e colando as palavras minuscula
    wpt = WordPunctTokenizer()
    dataframe[fieldtext] = (dataframe[fieldtext].str.lower()).apply(wpt.tokenize) 
    
    #Retirando os sufixos das palavras
    stm = PorterStemmer()
    texto_final_matrix = list()
    for texto in dataframe[fieldtext]:    
        texto_final = [stm.stem(txt) for txt in texto]
        texto_final_matrix.append(texto_final)
    dataframe[fieldtext] = texto_final_matrix

    #Retirando as stopwords e as pontuacoes
    #Coletando as stopword em Português
    stopw = stopwords.words('portuguese') + list(punctuation)
        
    #Retirando as stopwords
    palavras_sem_stopwords = []
    for word_final in dataframe[fieldtext]:
        palavras_sem_stopwords.append([word for word in word_final if word not in stopw])

    dataframe[fieldtext] = palavras_sem_stopwords
     
    #Retornando o resultado da função    
    return dataframe

#Quantificar as palavras do texto
def getCountWordsDocuments(dataframe,fieldtext,searchWords,FilterZero):
    
    #Frequencia das palavras
    rows,cols = dataframe.shape
    
    #Percorrer todo o dataframe
    for row in range(rows):    
        
        #Criando os objeto das palavras chaves
        itetacao = iter(searchWords) 
        zeros = [0]*len(searchWords)
        objs = dict(zip(itetacao,zeros))
        for i in objs.keys():objs[i] = [0]
        
        #Set variavel dos textos de cada linha do dataframes
        rowWord = dataframe.loc[dataframe['id'] == row,fieldtext]
        words = [words for words in rowWord[0]]
        
        #Percorrer cada palavra do texto e quantifica as palavras chaves
        for word in words:
            if word in objs.keys():
                objs[word] = [objs[word][0] + 1]
            
        #Atualizando o dataframe
        if FilterZero:
            value = max(objs.values())
            if value == 0:
                dataframe.drop(dataframe['id'] == row)
            else:
                dataframe.loc[dataframe['id'] == row,list(objs.keys())] = pd.DataFrame(objs)
        else:    
            dataframe.loc[dataframe['id'] == row,list(objs.keys())] = pd.DataFrame(objs)
    
    return dataframe
   

### Preparando as Expressões de busca

In [3]:
df = pd.read_csv(r'C:/Users/bernard-so/Documents/git/searchWords.csv',sep=';')
searchWords = getSearchWords(processCorpus(df,'text'),'text')


### Processamento dos dados

In [4]:
folder = 'C:/Users/bernard-so/Documents/git/p/1992'
data = preProcessingCorpus(folder,searchWords)
Newdf = processCorpus(data,'text')
Newdf = getCountWordsDocuments(Newdf,'text',searchWords,1)


### Os 5 principais processos que tiveram a palavra 'trabalhista' com maior frequência

In [15]:

Newdf.sort_values(['trabalhista'],ascending=0).head(3)

Unnamed: 0,id,docid,text,177,247,263,270,275,283,50,...,tcu,tempo,todo,trabalhista,técnica,unitário,visita,visto,vistoria,vínculo
0,1429,AC-528-1992-2,"[tribun, conta, união, dado, materiai, decisão...",0,0,0,0,0,0,0,...,1,0,1,11,1,0,0,0,0,0
0,1467,AC-541-1992-P,"[tribun, conta, união, dado, materiai, decisão...",0,0,0,0,0,0,0,...,0,1,0,8,0,0,0,0,0,0
0,1502,AC-557-1992-P,"[tribun, conta, união, dado, materiai, decisão...",0,0,0,0,0,0,0,...,0,28,8,7,1,0,0,0,0,0
0,1610,AC-622-1992-P,"[tribun, conta, união, dado, materiai, decisão...",0,0,1,0,0,0,3,...,1,0,5,6,2,3,0,0,2,0
0,1679,AC-83-1992-2,"[tribun, conta, união, dado, materiai, decisão...",0,0,0,0,0,0,0,...,0,0,0,5,0,0,0,0,0,0
