# Análise dos Tópicos 

Esse notebook possui os códigos para a análise dos tópicos extraídos dos diários oficiais. 

## Imports Necessários

In [1]:
# Código para poder usar os módulos implementados nesse repositório no notebook 
import sys, os
path_module = os.path.abspath('../modules/')
if path_module not in sys.path:
    sys.path.append(path_module)

In [2]:
# imports do projeto

from utils.process_gazette import ProcessGazette
from preprocess.pre_process_text import PreProcessText
from nlp.extract_topics import ExtractTopics

## Extração e análise dos tópicos do Diário Teste

### Ao iterar por todas gazetas em busca dos termos: Aquisições Diretas, Contratações Emergenciais e Dispensas de Licitação, temos como resultado a seguinte lista.

In [3]:
pp = ProcessGazette(BASE_DIR="gazettes/")
txt_files = [f for f in os.listdir("gazettes/") if f.endswith('.txt')]
all_pages = []
all_pages_name = []
for txt_file in txt_files:
    pages = pp.break_pages(txt_file, "ANO [X|V|I]+ ", save_file=True)
    all_pages.append(pages)
    all_pages_name.append(txt_file)

In [4]:
revistas_filtradas = {}
topics_ = {}
ppt = PreProcessText("pt_core_news_lg")

for gazette in range(len(all_pages)):
    revistas_filtradas[gazette] = {}

    for page, text in all_pages[gazette].items():
        topics_[page] = {'text': text, 'topics': []}
        tokens_ = ppt.process_text(topics_[page]['text'])
        for token in tokens_:
            if len(tokens_) > 5 and page and token in ['aquisicao', 'contratacao', 'emergencial', 'dispensa', 'licitacao']:
                topics_[page]['tokens'] = tokens_
                revistas_filtradas[gazette][page] = topics_[page]
                break

In [5]:
for i in range(0,11):
    print(f"{all_pages_name[i]}: {list(revistas_filtradas[i].keys())}")

2927408_20200306_3.txt: [1, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 21, 23]
2927408_20200316_7.txt: []
2927408_20200318_0.txt: [1, 33, 34, 35, 36, 42, 43, 44, 46, 47, 48, 72, 73, 74, 75]
2927408_20200320_2.txt: [1, 2, 3]
2927408_20200324_1.txt: []
2927408_20200408_9.txt: [1, 4, 5, 6, 7, 8, 11, 12]
2927408_20200414_6.txt: [1, 7, 8, 9, 12, 13, 14, 18]
2927408_20200418_5.txt: [1, 4, 5, 6, 7, 8, 9, 10]
2927408_20200423_4.txt: [1, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53]
2927408_20200429_8.txt: [1, 7, 17, 18, 19, 20, 22, 24]
2927408_20230704_0.txt: [1, 28, 29, 32, 33, 34]


### Extraindo de uma unica gazeta

In [6]:
pp = ProcessGazette(BASE_DIR="gazettes/")
all_pages = pp.break_pages("2927408_20200318_0.txt","ANO [X|V|I]+ ")

In [7]:
topics_ = {}
ppt = PreProcessText("pt_core_news_lg")

for page, text in all_pages.items():
    extractor = ExtractTopics(model = 'default')#to gpt install openai
    topics_[page] = {'text': text, 'topics': []}
    tokens_ = ppt.process_text(topics_[page]['text'])   
    try:
        if len(tokens_) > 5 and page:
            topics_[page]['tokens'] = tokens_
            topics_[page]['topics'], topics_[page]['topics_info'] = extractor.extract_topics(topics_[page]['tokens'])
            topics_[page]['similarity'] = extractor.find_topics('Licitação')
    except Exception as e:
        print(page)
        print(tokens_)
        print(topics_[page]['text'])
        print(topics_[page]['tokens'])
        print(f"Error: {e}")

  from .autonotebook import tqdm as notebook_tqdm


In [12]:
print(topics_[33]['similarity'])
print(topics_[33]['topics'][2])
topics_[33]['topics_info']

[1, 2, -1]
[('servico', 0.2772588722239781), ('licitante', 0.24930313888744798), ('conveniencia', 0.17120529307970167), ('agencia', 0.11090354888959125), ('companhia', 0.11090354888959125), ('setorial', 0.11090354888959125), ('recurso', 0.11090354888959125), ('recebimento', 0.11090354888959125), ('portatel', 0.11090354888959125), ('oportunidade', 0.11090354888959125)]


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,51,-1_presidente_empresa_comercio_necessidade,"[presidente, empresa, comercio, necessidade, c...","[presidente, presidente, presidente]"
1,0,30,0_gestao_abaixo_prestacao_tornar,"[gestao, abaixo, prestacao, tornar, oficial, f...","[gestao, gestao, gestao]"
2,1,26,1_registro_atender_interessado_especializar,"[registro, atender, interessado, especializar,...","[atender, atender, atender]"
3,2,25,2_servico_licitante_conveniencia_agencia,"[servico, licitante, conveniencia, agencia, co...","[servico, servico, servico]"
4,3,24,3_licitacao_solucao_portaria_locacao,"[licitacao, solucao, portaria, locacao, licita...","[licitacao, licitacao, licitacao]"
5,4,24,4_elaboracao_amauri_eireli_prorrogacao,"[elaboracao, amauri, eireli, prorrogacao, oper...","[Amauri, Amauri, elaboracao]"
6,5,19,5_municipal_central__,"[municipal, central, , , , , , , , ]","[municipal, municipal, Municipal]"
7,6,19,6_resultado_decisao_acordo_quarta,"[resultado, decisao, acordo, quarta, feira, di...","[resultado, resultado, resultado]"
8,7,15,7_divulgar_conhecimento_artigo_edital,"[divulgar, conhecimento, artigo, edital, infor...","[divulgar, divulgar, divulgar]"
9,8,14,8_eletronico_internet_tecnologia_tecnologico,"[eletronico, internet, tecnologia, tecnologico...","[eletronico, eletronico, eletronico]"


### Extraindo de multiplas gazetas

In [3]:
pp = ProcessGazette(BASE_DIR="gazettes/")
txt_files = [f for f in os.listdir("gazettes/") if f.endswith('.txt')]
all_pages = []
for txt_file in txt_files:
    pages = pp.break_pages(txt_file, "ANO [X|V|I]+ ", save_file=True)
    all_pages.append(pages)

In [4]:
revistas_filtradas = {
    0: [1, 8, 9, 11, 12, 13, 14, 15, 16, 17, 18, 19, 21, 23],
    2: [1, 33, 34, 35, 36, 42, 43, 44, 46, 47, 48, 72, 73, 74, 75],
    3: [1, 2, 3],
    5: [1, 4, 5, 6, 7, 8, 11, 12],
    6: [1, 7, 8, 9, 12, 13, 14, 18],
    7: [1, 4, 5, 6, 7, 8, 9, 10],
    8: [1, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53],
    9: [1, 7, 17, 18, 19, 20, 22, 24],
    10: [1, 28, 29, 32, 33, 34]
}

In [5]:
all_topics = {}
topics_ = {}
ppt = PreProcessText("pt_core_news_lg")
for gazette in revistas_filtradas.keys():
    all_topics[gazette] = {}
    for page, text in all_pages[gazette].items():
        if page in revistas_filtradas[gazette]:
            extractor = ExtractTopics(model = 'default')
            topics_[page] = {'text': text, 'topics': []}
            tokens_ = ppt.process_text(topics_[page]['text'])
            try:
                if len(tokens_) > 5 and page:
                    topics_[page]['tokens'] = tokens_
                    topics_[page]['topics'], topics_[page]['topics_info'] = extractor.extract_topics(topics_[page]['tokens'])
                    topics_[page]['similarity'] = extractor.find_topics('Licitação')
                    all_topics[gazette][page] = topics_[page]
            except Exception as e:
                print(page)
                print(tokens_)
                print(topics_[page]['text'])
                print(topics_[page]['tokens'])
                print(f"Error: {e}")


  from .autonotebook import tqdm as notebook_tqdm


In [6]:
gazeta = 2
pg = 33
print(all_topics[gazeta][pg]['similarity'])
all_topics[gazeta][pg]['topics_info']

[2, 1, 5]


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,40,-1_especificar_presidente_central_comercio,"[especificar, presidente, central, comercio, p...","[presidente, especificar, Central]"
1,0,39,0_servico_licitante_empresa_necessidade,"[servico, licitante, empresa, necessidade, sup...","[servico, servico, servico]"
2,1,34,1_gestao_abaixo_prestacao_futuro,"[gestao, abaixo, prestacao, futuro, tornar, of...","[gestao, gestao, gestao]"
3,2,28,2_registro_atender_interessado_especializar,"[registro, atender, interessado, especializar,...","[registro, atender, atender]"
4,3,24,3_licitacao_solucao_portaria_locacao,"[licitacao, solucao, portaria, locacao, licita...","[licitacao, licitacao, licitacao]"
5,4,18,4_resultado_decisao_acordo_disputa,"[resultado, decisao, acordo, disputa, , , , , , ]","[resultado, resultado, resultado]"
6,5,17,5_divulgar_edital_especificacao_conhecimento,"[divulgar, edital, especificacao, conhecimento...","[divulgar, divulgar, divulgar]"
7,6,15,6_eletronico_internet_infraestrutura_tecnologico,"[eletronico, internet, infraestrutura, tecnolo...","[eletronico, eletronico, eletronico]"
8,7,14,7_municipal___,"[municipal, , , , , , , , , ]","[municipal, Municipal, municipal]"
9,8,13,8_guimaraes_contratacao_redacao_manutencao,"[guimaraes, contratacao, redacao, manutencao, ...","[contratacao, Guimaraes, contratacao]"
