# Processamento do Texto

Esse notebook as funções para fazer o pré-processamento dos textos do diários com foco em extrair uma representação textual dos textos, extração dos termos mais frequentes e análise de similaridade dos textos. 

## Imports Necessários

In [1]:
!pip install spacy
!pip install unidecode
!python -m spacy download pt_core_news_lg


Collecting pt-core-news-lg==3.5.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_lg-3.5.0/pt_core_news_lg-3.5.0-py3-none-any.whl (568.2 MB)
     -------------------------------------- 568.2/568.2 MB 4.8 MB/s eta 0:00:00
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')


In [2]:

# Código para poder usar os módulos implementados nesse repositório no notebook 
import sys, os
path_module = os.path.abspath('../modules/')
if path_module not in sys.path:
    sys.path.append(path_module)

# import preprocess.pre_process_text as pp    

In [3]:
# Imports para o projeto
from sklearn.feature_extraction.text import TfidfVectorizer
from preprocess.pre_process_text import PreProcessText

## Processamento do Texto

In [4]:
pp = PreProcessText("pt_core_news_lg")

In [5]:
tokens_teste = pp.process_text("Hoje visitei a velha estação de trem. A estação estava coberta de abandono. Porque, hoje, as pessoas parecem não dar bola para construções velhas como essa da estação de trem. Muitas pessoas só querem saber de coisas futuras. Dão bola só para coisas novas.")

In [6]:
texto_teste1 = ' '.join(tokens_teste)

In [7]:
vetorizador = TfidfVectorizer()
print(texto_teste1)

hoje visitar velho estacao trem estacao coberto abandono hoje pessoa parecer bola construcao velho estacao trem muito pessoa coisa futuro bola coisa


In [8]:
vetor_tfidf = vetorizador.fit_transform([texto_teste1])

In [9]:
indices_palavras_frequentes1 = vetor_tfidf.toarray().argsort()[0][-5:][::-1]
palavras_frequentes1 = [vetorizador.get_feature_names()[i] for i in indices_palavras_frequentes1]



In [10]:
print(palavras_frequentes1)

['estacao', 'velho', 'trem', 'pessoa', 'hoje']


## Processamento do Diário Teste

In [11]:
with open("gazettes/2927408_20230704_0.txt") as file_teste:
    texto_teste = file_teste.read().replace("\n", "")

In [12]:
tokens_ = pp.process_text(texto_teste)
print(tokens_)

['salvador', 'bahia', 'terca-feira', 'julho', 'xxxvi', 'oexecutivo', 'financeiros', 'simples', 'governo', 'segov', 'municipal', 'fazenda', 'sefaz', 'municipal', 'tributos', 'municipal', 'gestao', 'semge', 'previdencia', 'dprev', 'gestor', 'organizacoes', 'sociais', 'cogeos', 'municipal', 'educacao', 'smed', 'municipal', 'politicas', 'mulheres', 'infancia', 'juventude', 'spmj', 'municipal', 'desenvolvimento', 'urbano', 'sedur', 'municipal', 'mobilidade', 'semob', 'municipal', 'ordem', 'publica', 'semop', 'civil', 'municipal', 'municipal', 'cultura', 'turismo', 'secult', 'gregorio', 'mattos', 'infraestrutura', 'obras', 'publicas', 'seinfra', 'obras', 'publicas', 'salvador', 'sucop', 'municipal', 'gestao', 'semge', 'municipal', 'educacao', 'smed', 'municipal', 'saude', 'municipal', 'promocao', 'social', 'combate', 'pobreza', 'esportes', 'lazer', 'municipal', 'mobilidade', 'semob', 'transito', 'salvador', 'transalvador', 'municipal', 'ordem', 'publica', 'semop', 'municipal', 'sustentabilid

In [13]:
texto = ' '.join(tokens_)
vetorizador = TfidfVectorizer()

In [14]:
print(texto)

salvador bahia terca-feira julho xxxvi oexecutivo financeiros simples governo segov municipal fazenda sefaz municipal tributos municipal gestao semge previdencia dprev gestor organizacoes sociais cogeos municipal educacao smed municipal politicas mulheres infancia juventude spmj municipal desenvolvimento urbano sedur municipal mobilidade semob municipal ordem publica semop civil municipal municipal cultura turismo secult gregorio mattos infraestrutura obras publicas seinfra obras publicas salvador sucop municipal gestao semge municipal educacao smed municipal saude municipal promocao social combate pobreza esportes lazer municipal mobilidade semob transito salvador transalvador municipal ordem publica semop municipal sustentabilidade resiliencia bem-estar protecao animal secis civil salvador codesal infraestrutura obras publicas seinfra obras publicas salvador sucop governo segov municipal promocao social combate pobreza esportes lazer municipal fazenda sefaz municipal gestao semge mun

In [15]:
vetor_tfidf = vetorizador.fit_transform([texto])

In [16]:
#ordeno os indices do vetor tfidf e pego os 10 maiores, 0 seria a unica linha que tenho, 10 mais relevantes, -1 para inverter a ordem
indices_palavras_frequentes = vetor_tfidf.toarray().argsort()[0][-10:][::-1]
palavras_frequentes = [vetorizador.get_feature_names()[i] for i in indices_palavras_frequentes]

In [17]:
print(palavras_frequentes)

['municipal', 'salvador', 'julho', 'julgamento', 'artigo', 'santos', 'autos', 'inciso', 'processo', 'sedur']
