# Processamento do Texto

Esse notebook as funções para fazer o pré-processamento dos textos do diários com foco em extrair uma representação textual dos textos, extração dos termos mais frequentes e análise de similaridade dos textos. 

## Imports Necessários

In [41]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import sys, os


In [42]:
# Código para poder usar os módulos implementados nesse repositório no notebook 
path_module = os.path.abspath('../modules/')
if path_module not in sys.path:
    sys.path.append(path_module)

In [43]:
# Imports para o projeto
from sklearn.feature_extraction.text import TfidfVectorizer
from preprocess.pre_process_text import PreProcessText
from preprocess.plot_embeddings import PlotEmbeddings
from utils.process_gazette import ProcessGazette

## Processamento do Texto

O código a seguir mostra um pequeno exemplo de como podemos trabalhar com os métodos de pré-processamento.

In [44]:
# Carrega o modelo de linguagem do Spacy
pp = PreProcessText("pt_core_news_lg")

In [45]:
tokens = pp.process_text("O prefeito autorizou, na tarde de ontem, a abertura de concurso público. As informações devem sair no diário oficial até quarta-feira.")

In [46]:
tokens

['prefeito',
 'autorizar',
 'abertura',
 'concurso',
 'publico',
 'informacao',
 'diario',
 'oficial',
 'quarta-feira']

## Processamento do Diário Teste

In [47]:
import os
from utils.process_gazette import ProcessGazette  

# Diretório onde os Diários Oficiais estão armazenados
gazette_directory = "./gazettes/"

# Inicialize a classe de processamento
pg = ProcessGazette(BASE_DIR=gazette_directory)

# Listar todos os arquivos no diretório
files = os.listdir(gazette_directory)

# Lista para armazenar todos os textos completos dos Diários Oficiais
all_texts = []

for file in files:
    if file.endswith(".txt"):  
        with open(os.path.join(gazette_directory, file), 'r', encoding='utf-8') as f:
            text = f.read()
            # all_texts.append(text)
            all_texts.append(pp.process_text(text))

In [48]:
all_texts

[['SALVADOR',
  'SABADO',
  'SEGUNDA-FEIRA',
  'SETEMBRO',
  'OUTUBRO',
  'EXECUTIVO',
  'DECRETOS',
  'FINANCEIROS',
  'DECRETOS',
  'SIMPLES',
  'PROCURADORIA',
  'MUNICIPIO',
  'SECRETARIA',
  'MUNICIPAL',
  'FAZENDA',
  'MUNICIPAL',
  'TRIBUTOS',
  'SECRETARIA',
  'MUNICIPAL',
  'GESTAO',
  'DIRETORIA',
  'PREVIDENCIA',
  'SECRETARIA',
  'MUNICIPAL',
  'EDUCACAO',
  'SECRETARIA',
  'MUNICIPAL',
  'SECRETARIA',
  'MUNICIPAL',
  'COMUNICACAO',
  'SECRETARIA',
  'MUNICIPAL',
  'PROMOCAO',
  'SOCIAL',
  'COMBATE',
  'POBREZA',
  'ESPORTES',
  'MUNICIPAL',
  'ASSISTENCIA',
  'SOCIAL',
  'SALVADOR',
  'SECRETARIA',
  'MUNICIPAL',
  'DESENVOLVIMENTO',
  'URBANO',
  'SECRETARIA',
  'MUNICIPAL',
  'CULTURA',
  'TURISMO',
  'SECULT',
  'FUNDACAO',
  'GREGORIO',
  'MATTOS',
  'SECRETARIA',
  'MUNICIPAL',
  'MOBILIDADE',
  'ADMINISTRATIVA',
  'RECURSOS',
  'INFRACOES',
  'SECRETARIA',
  'MUNICIPAL',
  'PUBLICA',
  'GUARDA',
  'MUNICIPAL',
  'SECRETARIA',
  'MUNICIPAL',
  'INOVACAO',
  'TECNOLO

In [49]:
preprocessed_texts = []

for text in all_texts:
    
    preprocessed_texts.append(text)


In [60]:
preprocessed_texts

[['SALVADOR',
  'SABADO',
  'SEGUNDA-FEIRA',
  'SETEMBRO',
  'OUTUBRO',
  'EXECUTIVO',
  'DECRETOS',
  'FINANCEIROS',
  'DECRETOS',
  'SIMPLES',
  'PROCURADORIA',
  'MUNICIPIO',
  'SECRETARIA',
  'MUNICIPAL',
  'FAZENDA',
  'MUNICIPAL',
  'TRIBUTOS',
  'SECRETARIA',
  'MUNICIPAL',
  'GESTAO',
  'DIRETORIA',
  'PREVIDENCIA',
  'SECRETARIA',
  'MUNICIPAL',
  'EDUCACAO',
  'SECRETARIA',
  'MUNICIPAL',
  'SECRETARIA',
  'MUNICIPAL',
  'COMUNICACAO',
  'SECRETARIA',
  'MUNICIPAL',
  'PROMOCAO',
  'SOCIAL',
  'COMBATE',
  'POBREZA',
  'ESPORTES',
  'MUNICIPAL',
  'ASSISTENCIA',
  'SOCIAL',
  'SALVADOR',
  'SECRETARIA',
  'MUNICIPAL',
  'DESENVOLVIMENTO',
  'URBANO',
  'SECRETARIA',
  'MUNICIPAL',
  'CULTURA',
  'TURISMO',
  'SECULT',
  'FUNDACAO',
  'GREGORIO',
  'MATTOS',
  'SECRETARIA',
  'MUNICIPAL',
  'MOBILIDADE',
  'ADMINISTRATIVA',
  'RECURSOS',
  'INFRACOES',
  'SECRETARIA',
  'MUNICIPAL',
  'PUBLICA',
  'GUARDA',
  'MUNICIPAL',
  'SECRETARIA',
  'MUNICIPAL',
  'INOVACAO',
  'TECNOLO

## Trabalhando com os Embeddings

In [51]:
pe = PlotEmbeddings("pt_core_news_lg")

In [52]:
# pe.plot_embeddings(preprocessed_text)

In [53]:
# texto_teste1 = ' '.join(tokens_teste)

In [54]:
# vetorizador = TfidfVectorizer()
# print(texto_teste1)

In [55]:
# vetor_tfidf = vetorizador.fit_transform([texto_teste1])

In [56]:
# indices_palavras_frequentes1 = vetor_tfidf.toarray().argsort()[0][-5:][::-1]
# palavras_frequentes1 = [vetorizador.get_feature_names()[i] for i in indices_palavras_frequentes1]

In [57]:
# print(palavras_frequentes1)

In [72]:
texto = ' '.join(preprocessed_texts)

TypeError: sequence item 0: expected str instance, list found

In [66]:
vetorizador = TfidfVectorizer()

In [67]:
vetor_tfidf = vetorizador.fit_transform(preprocessed_texts)

AttributeError: 'list' object has no attribute 'lower'

In [None]:
#ordeno os indices do vetor tfidf e pego os 10 maiores, 0 seria a unica linha que tenho, 50 mais relevantes, -1 para inverter a ordem
indices_palavras_frequentes = vetor_tfidf.toarray().argsort()[0][-70:][::-1]
palavras_frequentes = [vetorizador.get_feature_names()[i] for i in indices_palavras_frequentes]

In [None]:
print(indices_palavras_frequentes)

In [None]:
print(palavras_frequentes)

In [None]:
pe.plot_embeddings(palavras_frequentes)