In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import sys, os


In [2]:
# Código para poder usar os módulos implementados nesse repositório no notebook 
path_module = os.path.abspath('../modules/')
if path_module not in sys.path:
    sys.path.append(path_module)

In [3]:
%pip install bertopic

Note: you may need to restart the kernel to use updated packages.


In [4]:
%pip install wordcloud

Note: you may need to restart the kernel to use updated packages.


In [5]:
# Imports para o projeto
from sklearn.feature_extraction.text import TfidfVectorizer
from preprocess.pre_process_text import PreProcessText
from preprocess.plot_embeddings import PlotEmbeddings
from utils.process_gazette import ProcessGazette

In [6]:
from nlp.extract_topics import ExtractTopics

In [7]:
pp = PreProcessText("pt_core_news_lg")

In [8]:
pe = PlotEmbeddings("pt_core_news_lg")

In [9]:
import os
from utils.process_gazette import ProcessGazette
from bertopic import BERTopic

# Diretório onde os Diários Oficiais estão armazenados
gazette_directory = "./gazettes/"

# Inicialize a classe de processamento
pg = ProcessGazette(BASE_DIR=gazette_directory)

files = os.listdir(gazette_directory)

diarios = {}

for file in files:
    if file.endswith(".txt"):  
        diarios[file] = {}
        # Usamos a função break_pages para dividir o texto em páginas. O pré-processamento é aplicado em cada página. Fazemos a extracção de tópicos para todas as páginas do diário. 
        # Armazenamos as palavras pré-processadas e os tópicos associados a cada página.

        pages, short_name = pg.break_pages(file, pattern='ANO [X|V|I]', save_file=True)
            
        for page_id, page in enumerate(pages.values()):
            preprocessed_text = pp.process_text(page)
            diarios[file][page_id] = {"words": preprocessed_text}

In [10]:
# Inicializei o Bertopic
bert_model = BERTopic(language='portuguese', min_topic_size=2)

# Extracao de topicos para cada pagina de cada diario
for diario, pages in diarios.items():
    all_texts = [page["words"] for page in pages.values()]
    topics, _ = bert_model.fit_transform(all_texts)
    diarios[diario]["topics"] = topics

In [11]:
for diario, pages in diarios.items():
    print(f"Diário: {diario}")
    print(f"Número de Páginas: {len(pages)}")
    print(f"Páginas Processadas: {list(pages.keys())}")
    print(f"Tópicos Associados: {diarios[diario]['topics']}")


Diário: 2927408_20230920_7.txt
Número de Páginas: 33
Páginas Processadas: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 'topics']
Tópicos Associados: [1, 0, 2, 2, 2, 2, -1, -1, 0, 0, 0, 3, 1, -1, 1, 3, 1, 3, 4, -1, -1, 4, 1, 1, -1, 0, 0, 0, 0, 1, 1, 0]
Diário: 2927408_20230922_5.txt
Número de Páginas: 53
Páginas Processadas: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 'topics']
Tópicos Associados: [2, 0, 0, 0, 0, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
Diário: 2927408_20230926_3.txt
Número de Páginas: 34
Páginas Processadas: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 'topics']
Tópicos

In [12]:
for diario, data in diarios.items():
    print(f"Diário: {diario}")
    print(f"Tópicos: {data['topics']}")
    for page_id, page_data in data.items():
        if page_id != 'topics':
            print(f"Página {page_id} - Palavras: {page_data['words']}")


Diário: 2927408_20230920_7.txt
Tópicos: [1, 0, 2, 2, 2, 2, -1, -1, 0, 0, 0, 3, 1, -1, 1, 3, 1, 3, 4, -1, -1, 4, 1, 1, -1, 0, 0, 0, 0, 1, 1, 0]
Página 0 - Palavras: salvador quarta-feira setembro
Página 1 - Palavras: executivo decretos financeiros decretos numerados decretos simples secretaria municipal gestão secretaria municipal educação secretaria municipal secretaria municipal políticas mulheres infância juventude municipal juventude comjuv secretaria municipal desenvolvimento urbano secretaria municipal cultura turismo secult secretaria municipal mobilidade superintendência trânsito salvador transalvador secretaria municipal inovação tecnologia comitê municipal tecnologia informação comunicação secretaria municipal sustentabilidade resiliência bem-estar proteção animal licitações secretaria municipal fazenda companhia desenvolvimento mobilização salvador secretaria municipal gestão secretaria municipal secretaria municipal desenvolvimento urbano secretaria municipal manutenção cida