**Nome:** Miguel Santos de Araujo do Nascimento

# Imports

In [None]:
# Remover acentuação de palavras
!pip install unidecode

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk import pos_tag

nltk.download('stopwords')
nltk.download('punkt')
nltk.download('punkt_tab')

import logging

import xml.etree.ElementTree as ET

from enum import Enum

from unidecode import unidecode # Remover acentuação de palavras

import pandas as pd

# Baixando arquivos de dados

In [None]:
!wget https://github.com/miguelsantosan/BMT_2025.2_Trabalho_1/raw/main/CysticFibrosis2.zip

In [None]:
!unzip -o CysticFibrosis2.zip -d CysticFibrosis2

# Configurações

In [None]:
# @title Logging e pré processamento

stop_en = stopwords.words('english')

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)

file_handler = logging.FileHandler('Trab1.log')
file_handler.setLevel(logging.INFO)

formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
formatter.default_msec_format = '%s.%03d' # Mostrar milissegundos com ponto invés de vírgula
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

In [None]:
# @title Enum LEIA e ESCREVA

"""
Pra poder passar pras funções
Assim não fico passando magic numbers
"""
# LEIA = 1
# ESCREVA = 2

class cfgEnum(Enum):
  LEIA = 1
  ESCREVA = 2
  CONSULTAS = 3
  ESPERADOS = 4
  RESULTADOS = 5

In [None]:
# @title Arquivos .dtd

PROCESSADOR_CONSULTAS_FORMATO = r'CysticFibrosis2/data/cfc2-query.dtd'
GLI_FORMATO = r'CysticFibrosis2/data/cfc2.dtd'

## Criando arquivos .CFG

In [None]:
# @title PC.CFG

CONFIG_PC_CONTENT = """LEIA=CysticFibrosis2/data/cfquery.xml
CONSULTAS=consultas.csv
ESPERADOS=esperados.csv
"""

CONFIG_PC_NAME = "PC.CFG"

with open(CONFIG_PC_NAME, "w") as f:
    f.write(CONFIG_PC_CONTENT)

print(f"'{CONFIG_PC_NAME}' created successfully.")

In [None]:
# @title GLI.CFG

CONFIG_GLI_CONTENT = """LEIA=CysticFibrosis2/data/cf74.xml
LEIA=CysticFibrosis2/data/cf75.xml
LEIA=CysticFibrosis2/data/cf76.xml
LEIA=CysticFibrosis2/data/cf77.xml
LEIA=CysticFibrosis2/data/cf78.xml
LEIA=CysticFibrosis2/data/cf79.xml
ESCREVA=lista_invertida.csv
"""

CONFIG_GLI_NAME = "GLI.CFG"

with open(CONFIG_GLI_NAME, "w") as f:
    f.write(CONFIG_GLI_CONTENT)

print(f"'{CONFIG_GLI_NAME}' created successfully.")

In [None]:
# @title INDEX.CFG

CONFIG_INDEX_CONTENT = """LEIA=lista_invertida.csv
ESCREVA=matriz_tfidf.csv
"""

CONFIG_INDEX_NAME = "INDEX.CFG"

with open(CONFIG_INDEX_NAME, "w") as f:
    f.write(CONFIG_INDEX_CONTENT)

print(f"'{CONFIG_INDEX_NAME}' created successfully.")

In [None]:
# @title BUSCA.CFG

CONFIG_BUSCA_CONTENT = """MODELO=matriz_tfidf.csv
CONSULTAS=consultas.csv
RESULTADOS=resultados.csv
"""

CONFIG_BUSCA_NAME = "BUSCA.CFG"

with open(CONFIG_BUSCA_NAME, "w") as f:
    f.write(CONFIG_BUSCA_CONTENT)

print(f"'{CONFIG_BUSCA_NAME}' created successfully.")

In [None]:
# @title (DELETAR) Teste
# logger.debug("This is a debug message.")
# logger.info("This is an info message.")
# logger.warning("This is a warning message.")
# logger.error("This is an error message.")
# logger.critical("This is a critical message.")

# Funções

In [None]:
# @title Logging - calcular tempo

import time

def CalculaTempoMedio(duracoes):
  tempo_medio = sum(duracoes)/len(duracoes)
  return tempo_medio

In [None]:
# @title Pegando arquivos de uma pasta

import glob
import os

def RetornaNomeArquivoDoPath(file_path):
  """
  Retorna apenas o nome do arquivo a partir do path
  """
  # Faz split no path, vira uma lista, pega o último elemento
  file_name = file_path.split('/')[-1]
  return file_name

def RetornaArquivosNoDiretorio_old(dir_path, show_files=False):
  """
  Essa função precisa do path completo da pasta,
  então vou usar a outra que percorre as subpastas
  """
  file_paths = glob.glob(dir_path + '/*')

  if show_files:
    print(f'Peguei os arquivos da pasta {dir_path}')
    for file_path in file_paths:
      print(file_path)

  return file_paths

def RetornaArquivosNoDiretorio(dir_path, file_type=None, ignore_list=None, show_files=False):
  """
  Retorna os arquivos de dir_path, percorrendo as subpastas
  file_type == None --> todos os arquivos
  file_type != None --> apenas arquivos .file_type
  ignore_list != None --> ignoro os arquivos na lista
  """
  file_paths = []
  #ignore_list = ['cfquery.xml']

  if file_type == None:
    logger.info(f'Buscando todos os arquivos da pasta {dir_path} para armazenar em memória')
  else:
    logger.info(f'Buscando todos os arquivos .{file_type} da pasta {dir_path} para armazenar em memória')

  for root, _, files in os.walk(dir_path):
      for file in files:
        # Se tiver arquivos para ignorar, verifica se o arquivo atual está em ignore_list
        if ignore_list != None:
          file_path = os.path.join(root, file)
          file_name = RetornaNomeArquivoDoPath(file_path)
          if file_name in ignore_list:
            continue

        if file_type == None: # Todos os arquivos
          file_paths.append(os.path.join(root, file))
        else: # Apenas arquivos de um tipo específico
          if (file_type != None) and (file.endswith(f'.{file_type}')):
              file_paths.append(os.path.join(root, file))

  if file_type == None:
    logger.info(f'Todos os arquivos da pasta {dir_path} armazenados em memória com sucesso')
  else:
    logger.info(f'Arquivos .{file_type} da pasta {dir_path} armazenados em memória com sucesso')

  if show_files:
    #print(f'Peguei todos os arquivos .{file_type} da pasta {dir_path}')
    for file_path in file_paths:
      print(file_path)

  return file_paths

In [None]:
# @title Pré-processamento do texto recuperado
from unidecode import unidecode
import string

def TrocaNewlinePorEspaco(texto):
  """
  Substitui caracteres de nova linha (\n) por espaços em uma string
  """
  if isinstance(texto, str):
    return texto.replace('\n', ' ')
  else:
    logger.error('Não foi passada uma string para a função TrocaNewlinePorEspaco()')
    return texto

def RemoveAspas(texto):
  """
  Remove aspas (simples e duplas) de uma string
  """
  if isinstance(texto, str):
    texto = texto.replace("'", "")
    texto = texto.replace("\"", "")
    return texto
  else:
    logger.error('Não foi passada uma string para a função RemoveAspas()')
    return texto

def RemovePontuacao(texto):
  """
  Remove pontuação de uma string
  """
  if isinstance(texto, str):
    #texto = texto.translate(str.maketrans('', '', '.,;!?()[]{}<>=´`~^')) # Remove todos esses caracteres, melhor que ter vários replace
    texto = texto.translate(str.maketrans('', '', string.punctuation)) # string.punctuation == '!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~'
    return texto
  else:
    logger.error('Não foi passada uma string para a função RemoveAspas()')
    return texto

def RemoveAcentuacao(texto):
  if isinstance(texto, str):
    return unidecode(texto)
  else:
    logger.error('Não foi passada uma string para a função RemoveAcentuacao()')
    return texto

def RemoveStopWords(texto):
  """
  Remove as stop words de uma string
  """
  if isinstance(texto, str):
    tokens = word_tokenize(texto)
    tokens_filtrados = [p for p in tokens if p.lower() not in stop_en]
    return ' '.join(tokens_filtrados)
  else:
    logger.error('Não foi passada uma string para a função RemoveStopWords()')
    return texto

def RemoveEspacosEmExcesso(texto, nome_modulo, nome_funcao):
  """
  Remove espaços em excesso de uma string, substituindo 2 ou mais espaços seguidos por apenas 1
  """
  if isinstance(texto, str):
    return ' '.join(texto.split())
  else:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Não foi passada uma string para a função RemoveEspacosEmExcesso()')
    return texto

def PreProcessamentoDeTextoRecuperado(texto, remove_stopwords=False):
  texto = TrocaNewlinePorEspaco(texto)
  texto = RemoveAspas(texto)
  texto = RemovePontuacao(texto)
  texto = RemoveAcentuacao(texto)
  if remove_stopwords:
    texto = RemoveStopWords(texto)
  return texto

In [None]:
# @title (DELETAR) Testando pré-processamento de texto
t = "STÈÉL ~ÎRÔN METÃL 'asa\/\/\/d\n\n[{(()}}{]be... bebe ;;....,,,.;be be be is i am 'asda'fgrttaaa\"\""
print(t)
#t=t.replace("'", "")
#t=t.replace("\"", "")
t = PreProcessamentoDeTextoRecuperado(t)
print(t)
print(type(t))
print(len(t))

t = "Cléber François Úl`[´]`làáíìúùòóèé-asbb"
t = RemovePontuacao(t)
t = unidecode(t)
t

In [None]:
# @title (DELETAR) Testando correção de texto

test_text1 = """The significance of Pseudomonas aeruginosa infection in the
respiratory tract of 9 cystic fibrosis patients have been studied
by means of immunoelectrophoretical analysis of patients' sera for
the number of precipitins against Pseudomonas aeruginosa and the
concentrations of 16 serum proteins.  In addition, the clinical and
radiographical status of the lungs have been evaluated using 2
scoring systems.  Precipitins against Pseudomonas aeruginosa were
demonstrated in all sera, the maximum number in one serum was 22.
The concentrations of 12 of the serum proteins were significantly
changed compared with matched control persons.  Notably IgG and IgA
were elevated and the "acute phase proteins" were changed, the
latter suggesting active tissue damage.  The concentrations of 3 of
the acute phase proteins, notably haptoglobin, were correlated to
the number of precipitins suggesting that the respiratory tract
infection in patients with many precipitins is accompanied by more
tissue damage than the infection in patients with few precipitins.
The results indicate no protective value of the many precipitins on
the tissue of the respiratory tract."""

test_text2 = """Dr. Economou-Mavrou and his colleagues appear to have misunderstood
my previous note concerning skin wrinkling in cystic fibrosis.  The
range of normality varies in different climatic conditions, and in
Aukland wrinkling does not appear in cool tap-water (18-22 C) under
3 minutes in normals.  Skin wrinkling on immersion appears to be
age-related, but is difficult to detect reliably in the newborn.
Prior washing of the hands, or immersion in sea-water (even the day
before), accelerates skin wrinkling, as does warm weather.  I would
suggest that "normality" needs redefining in Athens if 6 of 17
"normals" were "abnormal"."""

test_text1 = PreProcessamentoDeTextoRecuperado(test_text1)
test_text2 = PreProcessamentoDeTextoRecuperado(test_text2)

test_tokens1 = word_tokenize(test_text1)
test_tokens2 = word_tokenize(test_text2)

print(test_tokens1)
print(test_tokens2)

# Armazenando arquivos

In [None]:
# @title Arquivos que não serão adicionados à base

ignore_list = ['cfquery.xml']

In [None]:
dir_path = 'CysticFibrosis2/'
file_paths_CysticFibrosis2 = RetornaArquivosNoDiretorio(dir_path,  'xml', ignore_list, show_files=True)

# Processador de consultas

In [None]:
# @title Funções para processar consultas

#%%writefile processador_de_consultas.py

import logging, time, inspect
import xml.etree.ElementTree as ET

def RetornaNomeModulo_ProcessadorDeConsultas():
  """
  Se quiser mudar o nome que aparece no logger, só alterar a string retornada nessa função
  """
  return 'Processador de Consultas'

def LeArquivo_PC_CFG(flag, config_file='PC.CFG'):
  """
  Lê o arquivo PC.CFG
  flag == cfgEnum.LEIA --> Pego o arquivo XML que vai ser lido
  flag == cfgEnum.CONSULTAS --> Pega o nome do CSV com as consultas
  flag == cfgEnum.ESPERADOS --> Pega o nome do CSV com os documentos esperados
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  filename = None
  file_paths = []

  if flag not in [cfgEnum.LEIA, cfgEnum.CONSULTAS, cfgEnum.ESPERADOS]:
      logger.error(f'{nome_modulo} ({nome_funcao}) - Flag inválida: \'{flag}\'. Use flag \'cfgEnum.LEIA\' ou \'cfgEnum.CONSULTAS\' ou \'cfgEnum.ESPERADOS\'')
      return

  try:
    with open(config_file, 'r') as f:
      for line in f:
        line = line.strip()
        if (flag == cfgEnum.LEIA) and (line.startswith('LEIA=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o arquivo XML com as consultas')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Arquivo XML com as consultas recuperado com sucesso')
        elif (flag == cfgEnum.CONSULTAS) and (line.startswith('CONSULTAS=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com as consultas')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com as consultas recuperado com sucesso')
        elif (flag == cfgEnum.ESPERADOS) and (line.startswith('ESPERADOS=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com os documentos esperados')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com os documentos esperados recuperado com sucesso')

      return filename

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Arquivo {config_file} não encontrado.')
    return
  except Exception as e:
    logger.error(f"{nome_modulo} ({nome_funcao}) - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

def DefineRelevanciaDeDocumentoEmConsulta(item_score):
  """
  Determina a relevância com base em uma string de 4 caracteres.
  Uso Item score para determinar se um documento vai para a lista de esperados ou não

  Se mais da metade votarem que não é relevante, não considero relevante
  Se a pontuação total for <= 3 e pelo menos 2 votarem como não relevante, não considero relevante
  Caso contrário, considero relevante
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  pontuacao_total = sum(int(voto) for voto in item_score)
  zeros_count = item_score.count('0')

  if zeros_count >= 3: # Se mais da metade votarem que não é relevante, não considero relevante
    return False
  elif pontuacao_total <= 3 and zeros_count >= 2: # Se a pontuação total for <= 3 e pelo menos 2 votarem como não relevante, não considero relevante
    return False
  else:
    return True

def ContaVotos(item_score):
  """
  Conta o número de votos de um documento em uma consulta
  Como diz o enunciado: "Considerar qualquer coisa diferente de zero como um voto"
  """
  zeros_count = item_score.count('0')
  votos = len(item_score) - zeros_count

  return votos

def PegaConsultasDoArquivoXML(file_path):
  """
  Pega as consultas do arquivo XML
  Retorna uma lista com as consultas e uma lista de triplas (QueryNumber, DocNumber, DocVotes)
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  file_name = RetornaNomeArquivoDoPath(file_path)
  consultas_dict = {}
  consultas_documentos_esperados = []

  duracoes_consultas = []
  if not isinstance(file_path, str):
    logger.error(f'{nome_modulo} ({nome_funcao}) - o endereço do arquivo passado não é uma string')

  try:
    time_arquivo_xml_init = time.time()
    logger.info(f'{nome_modulo} ({nome_funcao}) - Pegando consultas do arquivo {file_name}')
    tree = ET.parse(file_path)
    root = tree.getroot()
    query_elements = root.findall('.//QUERY') # Pego todos os elementos QUERY do XML
    logger.info(f'{nome_modulo} ({nome_funcao}) - Foram encontradas {len(query_elements)} consultas no arquivo {file_name}')
    for q in query_elements: # Processo as consultas
      #print('query========') # Debug
      time_consulta_init = time.time()

      queryNumber = q.find('QueryNumber').text
      queryText = q.find('QueryText').text
      queryText = PreProcessamentoDeTextoRecuperado(queryText)
      queryText = queryText.upper()
      queryText = RemoveEspacosEmExcesso(queryText, nome_modulo, nome_funcao)

      time_consulta_final = time.time()
      duracao_consulta = time_consulta_final - time_consulta_init
      duracoes_consultas.append(duracao_consulta)

      consultas_dict[queryNumber] = queryText
      #consultas_dict.append((queryNumber, queryText))

      # Agora vou olhar as pontuações para construir as consultas esperadas
      records_element = q.find('.//Records')
      resultados = records_element.findall('Item')
      for r in resultados:
        score = r.attrib['score'] # String de pontuação
        doc_id = r.text # ID do documento
        votos = ContaVotos(score) # DocVotes: número de votos

        #print(f'{score} | {doc_id}') # Debug

        is_relevante = DefineRelevanciaDeDocumentoEmConsulta(score)
        if is_relevante:
          consultas_documentos_esperados.append((int(queryNumber), doc_id, votos))

    #print(consultas_documentos_esperados) # Debug

    logger.info(f'{nome_modulo} ({nome_funcao}) - {len(consultas_dict)} consultas do arquivo {file_name} recuperadas com sucesso')

    #PrintConsultas(consultas_dict) # Debug

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - arquivo {file_path} não encontrado')

  time_arquivo_xml_final = time.time()
  duracao_arquivo_xml = time_arquivo_xml_final - time_arquivo_xml_init
  logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo de processamento para pegar as consultas do arquivo {file_name}: {duracao_arquivo_xml*1000:.3f} milissegundos')

  tempo_medio_consultas = CalculaTempoMedio(duracoes_consultas)
  logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de uma consulta: {tempo_medio_consultas*1000:.3f} milissegundos')

  return consultas_dict, consultas_documentos_esperados

def SalvaConsultasEmCSV(consultas_dict, config_file='PC.CFG', separator=';'):
  """
  Salva as consultas em um arquivo CSV
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  file_path = LeArquivo_PC_CFG(cfgEnum.CONSULTAS)

  try:
    with open(file_path, 'w', newline='') as csvfile:
      for key, values in consultas_dict.items():
        csvfile.write(f"{key}{separator}{values}\n")
    logger.info(f'{nome_modulo} ({nome_funcao}) - Consultas salvas em {file_path} com sucesso')
  except IOError as e:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao salvar as consultas em {file_path}: {e}')

import csv

def SalvaDocumentosEsperadosEmCSV(consultas_documentos_esperados, config_file='PC.CFG', separator=';'):
  """
  Salva os documentos esperados das consultas em um arquivo CSV
  O CSV tem cabeçalhos (QueryNumber, DocNumber, DocVotes)
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  file_name = LeArquivo_PC_CFG(cfgEnum.ESPERADOS)

  try:
    tempo_init = time.time()
    with open(file_name, 'w', newline='', encoding='utf-8') as f:
      writer = csv.writer(f, delimiter=separator)
      writer.writerow(['QueryNumber', 'DocNumber', 'DocVotes'])
      writer.writerows(consultas_documentos_esperados)

    tempo_final = time.time()
    duracao = tempo_final - tempo_init
    duracao_ms = duracao * 1000
    logger.info(f'{nome_modulo} ({nome_funcao}) - Documentos esperados das consultas salvos em {file_name} com sucesso em {duracao_ms:3f} milissegundos')
  except Exception as e:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao salvar os documentos esperados das consultas em {file_name}: {e}')

# Função para debug
# Comecei usando lista de tuplas, essa era a função pra printar
def PrintConsultas_old(consultas):
  for i in range(len(consultas)):
    print(" ",consultas[i][0]," & ",str(consultas[i][1]), " \\\\")

# Função para debug
def PrintConsultas(consultas):
  chaves = [i for i in consultas.keys() ]
  chaves.sort()

  for i in chaves:
    print(" ",i," & ",str(consultas[i]), " \\\\")

def Modulo_ProcessadorDeConsultas():
  """
  Executa todas as funções para processar as consultas
  """
  nome_modulo = RetornaNomeModulo_ProcessadorDeConsultas()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  logger.info(f'{nome_modulo} ({nome_funcao}) - Iniciando processador de consultas')

  file_path = LeArquivo_PC_CFG(cfgEnum.LEIA)
  consultas_dict, consultas_documentos_esperados = PegaConsultasDoArquivoXML(file_path)
  SalvaConsultasEmCSV(consultas_dict)
  SalvaDocumentosEsperadosEmCSV(consultas_documentos_esperados)

  return consultas_dict, consultas_documentos_esperados

In [None]:
# @title Processando consultas

consultas_dict, consultas_documentos_esperados = Modulo_ProcessadorDeConsultas()

In [None]:
# @title (DEBUG) Imprime as consultas
#PrintConsultas(consultas_dict)

# Gerador lista invertida

In [None]:
# @title Funções para gerar a lista

#%%writefile gerador_lista_invertida.py
import logging, time, inspect
import xml.etree.ElementTree as ET

def RetornaNomeModulo_GeradorListaInvertida():
  """
  Se quiser mudar o nome que aparece no logger, só alterar a string retornada nessa função
  """
  return 'Gerador Lista Invertida'

def GeraListaInvertida(base):
  """
  base é uma lista de tuplas, onde o primeiro elemento é o ID do documento e o segundo é o texto do documento
  Percorre todos os textos e gera a lista invertida
  Funciona com lista de texto, assim posso ter doc: [doc, [doc_texto1, doc_texto2, ...]] e contam para o mesmo documento
  Retorna a lista invertida
  """
  nome_modulo = RetornaNomeModulo_GeradorListaInvertida()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  lista_invertida = {}

  logger.info(f'{nome_modulo} ({nome_funcao}) - Gerando lista invertida')

  duracoes = []
  for doc_tupla in base:
    duracoes = []
    tempo_init = time.time()
    doc_id = int(doc_tupla[0]) # ESTOU CONVERTENDO PARA INT PORQUE O ENUNCIADO E O ARQUIVO cfquery.xml MOSTRA OS RECORDS COMO INT
    doc_info = doc_tupla[1]

    # Se for string única, transforma em lista de 1 elemento
    if isinstance(doc_info, str):
        doc_info = [doc_info]

    for info in doc_info:
      fraselc = str.upper(info).split()
      for palavra in fraselc:
        docs = lista_invertida.get(palavra, [])
        docs.append(doc_id)
        lista_invertida[palavra]=docs

    tempo_final = time.time()
    duracao = tempo_final - tempo_init
    duracoes.append(duracao)

  tempo_medio = CalculaTempoMedio(duracoes)
  tempo_medio_ms = tempo_medio * 1000

  logger.info(f'{nome_modulo} ({nome_funcao}) - Lista invertida gerada com sucesso')
  #logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um documento para gerar a lista: {tempo_medio:.5f} segundos')
  logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um documento para gerar a lista: {tempo_medio_ms:.3f} milissegundos')

  return lista_invertida

def LeArquivo_GLI_CFG(flag, config_file='GLI.CFG'):
  """
  Lê o arquivo GLI.CFG
  flag == cfgEnum.LEIA --> Pego os arquivos XML que vão ser lidos
  flag == cfgEnum.ESCREVA --> Pega o nome do CSV com a lista invertida
  """
  nome_modulo = RetornaNomeModulo_GeradorListaInvertida()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  filename = None
  file_paths = []

  try:
    with open(config_file, 'r') as f:
      match flag:
        case cfgEnum.LEIA:
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar os arquivos XML para ler')
          for line in f:
            line = line.strip()
            if line.startswith('LEIA='):
              path = line.split('=', 1)[1]
              file_paths.append(path)
          logger.info(f'{nome_modulo} ({nome_funcao}) - Arquivos XML para ler recuperados com sucesso')

          return file_paths

        case cfgEnum.ESCREVA:
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com a lista invertida')
          for line in f:
            line = line.strip()
            if line.startswith('ESCREVA='):
              filename = line.split('=', 1)[1]
              logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com a lista invertida recuperado com sucesso')

              return filename

        case _:
          logger.error(f'{nome_modulo} ({nome_funcao}) - Flag inválida: \'{flag}\'. Use flag \'cfgEnum.LEIA\' ou \'cfgEnum.ESCREVA\'')
          return

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Arquivo {config_file} não encontrado.')
    return
  except Exception as e:
    logger.error(f"{nome_modulo} ({nome_funcao}) - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

def SalvaListainvertidaEmCSV(lista_invertida_dict, config_file='GLI.CFG', separator=';'):
  """
  Lê GLI.CFG e pega o nome do CSV para salvar a lista invertida
  """
  nome_modulo = RetornaNomeModulo_GeradorListaInvertida()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  filename = LeArquivo_GLI_CFG(cfgEnum.ESCREVA) # Pega o nome do CSV

  try:
    with open(filename, 'w', newline='') as csvfile:
      for key, values in lista_invertida_dict.items():
        # Pega a lista dos documentos
        values_str = '[' + ','.join(map(str, values)) + ']'
        csvfile.write(f"{key}{separator}{values_str}\n")
    logger.info(f'{nome_modulo} ({nome_funcao}) - Lista invertida salva em {filename} com sucesso')
  except IOError as e:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao salvar a lista invertida em {filename}: {e}')

# Função para debug
def PrintListaInvertida(lista_invertida):
  chaves = [i for i in lista_invertida.keys() ]
  chaves.sort()

  for i in chaves:
    print(" ",i," & ",str(lista_invertida[i]), " \\\\")

def PegaDocumentosDosArquivosXML(file_paths):
  """
  Recebe uma lista de caminhos para arquivos XML ou um arquivo único
  Pega todos os elementos RECORD e pega o RECORDNUM de cada um deles
  Se tiver ABSTRACT, adiciona a tupla (RECORDNUM, ABSTRACT) à lista de records_data
  Se não tiver ABSTRACT, mas tiver EXTRACT, adiciona a tupla (RECORDNUM, EXTRACT) à lista de records_data
  Se não tiver ABSTRACT nem EXTRACT, desconsidera o documento

  Retorna a lista com as tuplas
  """
  nome_modulo = RetornaNomeModulo_GeradorListaInvertida()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  records_data = []
  records_total = 0 # Número total de documentos nos arquivos XML

  # Posso passar uma lista ou um arquivo único
  # Se for um arquivo único, converte em lista de 1 elemento
  if isinstance(file_paths, str):
    file_paths = [file_paths]

  duracoes_por_arquivo_xml = []
  duracoes_por_record = []
  for file_path in file_paths:
    tempo_arquivo_xml_init = time.time()
    duracoes_por_record = []
    records_armazenados = 0 # Records que possuem ABSTRACT ou EXTRACT
    try:
      tree = ET.parse(file_path)
      root = tree.getroot()
      record_elements = root.findall('.//RECORD') # Pego todos os elementos RECORD do arquivo
      records_total += len(record_elements)
      file_name = RetornaNomeArquivoDoPath(file_path)

      logger.info(f'{nome_modulo} ({nome_funcao}) - {file_name} possui {len(record_elements)} documentos')

      if not record_elements:
        logger.error(f'Arquivo {file_path} não possui RECORD')
        continue

      for record in record_elements:
        tempo_record_init = time.time()

        record_num_element = record.find('RECORDNUM')
        abstract_element = record.find('ABSTRACT')
        extract_element = record.find('EXTRACT')

        record_num = record_num_element.text if record_num_element is not None else None
        abstract = abstract_element.text if abstract_element is not None else None
        extract = extract_element.text if extract_element is not None else None

        if record_num is None: # Se por acaso não tiver RECORDNUM
          logger.warning(f'{nome_modulo} ({nome_funcao}) - Erro ao pegar o RECORDNUM de um dos documentos no arquivo {file_name}')
        elif abstract is not None: # Tem ABSTRACT
          abstract = PreProcessamentoDeTextoRecuperado(abstract)
          records_data.append((record_num, abstract))
          records_armazenados += 1
        elif extract is not None: # Não tem ABSTRACT, mas tem EXTRACT
          logger.warning(f'{nome_modulo} ({nome_funcao}) - Documento com RECORDNUM = {record_num} não possui ABSTRACT, vou usar o EXTRACT')
          extract = PreProcessamentoDeTextoRecuperado(extract)
          records_data.append((record_num, extract))
          records_armazenados += 1
        else: # Não tem ABSTRACT nem EXTRACT, desconsidero o documento
          logger.error(f'{nome_modulo} ({nome_funcao}) - Documento com RECORDNUM = {record_num} ({file_name}) não possui ABSTRACT nem EXTRACT, vou desconsiderar')

        tempo_record_final = time.time()
        duracao_record = tempo_record_final - tempo_record_init
        duracoes_por_record.append(duracao_record)

      tempo_medio_records_ms = CalculaTempoMedio(duracoes_por_record) * 1000
      logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um RECORD do arquivo {file_name} para gerar a lista: {tempo_medio_records_ms:.3f} milissegundos')

    except FileNotFoundError:
      logger.error(f'{nome_modulo} ({nome_funcao}) - arquivo {file_path} não encontrado')
    except ET.ParseError as e:
      logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao fazer parsing no arquivo XML {file_path}: {e}')
    except Exception as e:
      logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao processar o arquivo {file_path}: {e}')

    tempo_arquivo_xml_final = time.time()
    duracao_arquivo_xml = tempo_arquivo_xml_final - tempo_arquivo_xml_init
    duracoes_por_arquivo_xml.append(duracao_arquivo_xml)

    logger.info(f'{nome_modulo} ({nome_funcao}) - Arquivo {file_name} processado com sucesso. Foram armazenados {records_armazenados}/{len(record_elements)} documentos')

  logger.info(f'{nome_modulo} ({nome_funcao}) - Foram processados {len(file_paths)} arquivos XML e armazenados {len(records_data)}/{records_total} documentos')

  tempo_medio_arquivo_xml = CalculaTempoMedio(duracoes_por_arquivo_xml)
  tempo_medio_arquivo_xml_ms = tempo_medio_arquivo_xml * 1000
  #logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um arquivo XML para recuperar o texto: {tempo_medio_arquivo_xml:.3f} segundos')
  logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um arquivo XML para recuperar o texto: {tempo_medio_arquivo_xml_ms:.3f} milissegundos')

  return records_data

def Modulo_GeradorListaInvertida():
  """
  Executa todos os passos para gerar a lista invertida e salvar em um arquivo CSV

  Retorna a lista invertida
  """
  nome_modulo = RetornaNomeModulo_GeradorListaInvertida()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  logger.info(f'{nome_modulo} ({nome_funcao}) - Iniciando gerador de lista invertida')

  arquivos_para_lista_invertida = LeArquivo_GLI_CFG(cfgEnum.LEIA)
  documentos = PegaDocumentosDosArquivosXML(arquivos_para_lista_invertida)
  lista_invertida = GeraListaInvertida(documentos)
  SalvaListainvertidaEmCSV(lista_invertida)

  return lista_invertida

In [None]:
# @title Lendo arquivos e gerando lista invertida

# arquivos_para_lista_invertida = LeArquivo_GLI_CFG(cfgEnum.LEIA)
# documentos = PegaDocumentosDosArquivosXML(arquivos_para_lista_invertida)
# lista_invertida = GeraListaInvertida(documentos)
# #SalvaListainvertidaEmCSV(lista_invertida)

lista_invertida = Modulo_GeradorListaInvertida()

In [None]:
# @title (DEBUG) - Imprime a lista invertida
#PrintListaInvertida(lista_invertida)

In [None]:
# @title (DELETAR) Testando a lista invertida
# # o método split só admite um separador , então removemos as vírgulas
# base1 = [
#     ("PN001", "Maria comprou um quilo de banana prata e banana ouro no mercado"),
#     ("PN002", "Um quilo de prata vale muito dinheiro"),
#     ("PN003", "Maria tem dinheiro para comprar um quilo de banana mas não de prata"),
#     ("TF074", ["Quem casa quer casa com quem casou e quem não casou não tem casa"]),
#     ("PN001", "WWWWWWWWWWWWWWWW banana quilo"),
#     ("XS015", ["fumaça preta fumaça laranja", "suco de laranja",
#                "suco de goiaba", "bolo de laranja", "torta de laranja"])
#     ]

# #import gerador_lista_invertida
# #import importlib
# #importlib.reload(gerador_lista_invertida)

# l = GeraListaInvertida(base1)
# SalvaListainvertidaEmCSV(l)
# #PrintListaInvertida(l)

In [None]:
# @title Lendo os arquivos para gerar a lista

# Indexador

In [None]:
# @title Funções Indexador

#%%writefile indexador.py

import logging, time, inspect
import xml.etree.ElementTree as ET

def RetornaNomeModulo_Indexador():
  """
  Se quiser mudar o nome que aparece no logger, só alterar a string retornada nessa função
  """
  return 'Indexador'

def LeArquivo_INDEX_CFG(flag, config_file='INDEX.CFG'):
  """
  Lê o arquivo INDEX.CFG
  flag == cfgEnum.LEIA --> Pega o nome do CSV com a lista invertida
  flag == cfgEnum.ESCREVA --> Pega o nome do CSV com a matriz TF-IDF
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  filename = None
  file_paths = []

  if flag not in [cfgEnum.LEIA, cfgEnum.ESCREVA]:
      logger.error(f'{nome_modulo} ({nome_funcao}) - Flag inválida: \'{flag}\'. Use flag \'cfgEnum.LEIA\' ou \'cfgEnum.ESCREVA\' ')
      return

  try:
    with open(config_file, 'r') as f:
      for line in f:
        line = line.strip()
        if (flag == cfgEnum.LEIA) and (line.startswith('LEIA=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o arquivo CSV com a lista invertida')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Arquivo CSV com a lista invertida encontrado com sucesso')
        elif (flag == cfgEnum.ESCREVA) and (line.startswith('ESCREVA=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com o modelo vetorial')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com o modelo vetorial encontrado com sucesso')

      return filename

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Arquivo {config_file} não encontrado.')
    return
  except Exception as e:
    logger.error(f"{nome_modulo} ({nome_funcao}) - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

import string

def ValidaTermoParaIndexar(palavra):
  """
  Valida se uma palavra pode ser indexada
  Condições para indexação:
    1) Apenas palavras de 2 letras ou mais
    2) Apenas palavras com apenas letras
    3) Todas as letras convertidas para os caracteres ASCII de A até Z, ou seja, só letras maiúsculas e nenhum outro símbolo
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  if not isinstance(palavra, str):
    logger.error(f'{nome_modulo} ({nome_funcao}) - Termo \'{palavra}\' não é uma string')
    return False

  # 1) Apenas palavras de 2 letras ou mais
  if len(palavra) < 2:
    #logger.info(f'{nome_modulo} ({nome_funcao}) - Termo \'{palavra}\' tem menos de 2 letras')
    return False

  # 2) Apenas palavras com apenas letras
  if not palavra.isalpha():
    #logger.info(f'{nome_modulo} ({nome_funcao}) - Termo \'{palavra}\' tem caracteres que não são letras, não será indexado')
    return False

  # 3) Todas as letras convertidas para os caracteres ASCII de A até Z, ou seja, só letras maiúsculas e nenhum outro símbolo
  """
  Já fiz pré-processamento do texto com a função PreProcessamentoDeTextoRecuperado quando gerei a lista invertida, então não preciso fazer isso aqui
  A função RemoveAcentuacao já limpa as letras para ficarem apenas de A-Z
  E quando a lista invertida é criada já passo as palavras para uppercase
  """

  return True

import csv
import math
from collections import defaultdict

def LeListaInvertidaCalculaTFIDF(lista_invertida_csv):
  """
  Lê a lista invertida do arquivo CSV passado e calcula TF-IDF

  Retorna um dicionário com a lista invertida e o TF-IDF de cada termo em cada documento
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  lista_invertida = {}

  duracoes_tfidf_termo = []

  # Leio a lista invertida do CSV passado
  try:
    with open(lista_invertida_csv, newline='', encoding='utf-8') as f:
        reader = csv.reader(f, delimiter=';')
        for row in reader:
            termo = row[0]
            docs = eval(row[1])  # Pega a lista de documentos e.g. [1,2,2,...]
            #docs = [str(doc) for doc in docs]  # Caso doc_id esteja guardado como string invés de int
            lista_invertida[termo] = docs
    logger.info(f'{nome_modulo} ({nome_funcao}) - Lista invertida lida com sucesso')

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Arquivo {config_file} não encontrado')
    return
  except Exception as e:
    logger.error(f"{nome_modulo} ({nome_funcao}) - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

  # Vou pegar N (número total de documentos)
  todos_docs = set()
  for doc_ids in lista_invertida.values():
      todos_docs.update(set(doc_ids))
  N = len(todos_docs)

  # Calculando TF-IDF
  logger.info(f'{nome_modulo} ({nome_funcao}) - Vou calcular TF-IDF')

  matriz_tfidf = defaultdict(dict)  # matriz_tfidf[termo][doc_id] = tfidf

  max_tf = 0 # Para normalizar o tf
  for termo, doc_ids in lista_invertida.items():
    if not ValidaTermoParaIndexar(termo): # Se não atende as 3 condições, não indexa
      continue
    tempo_li_init = time.time()

    # set(doc_ids) vai pegar os ids únicos
    df = len(set(doc_ids)) # df = document frequency, número de documentos em que um termo aparece
    idf = math.log(N / df) if df > 0 else 0
    tf_por_doc = defaultdict(int)

    for doc_id in doc_ids:
      tf_por_doc[doc_id] += 1
      if tf_por_doc[doc_id] > max_tf:
        max_tf = tf_por_doc[doc_id]
        # Debug
        #print(f'DEBUG - Achei um novo tf máximo: {max_tf}')

    for doc_id, tf in tf_por_doc.items():
      tempo_termo_docid_init = time.time()

      # ATENÇÂO
      # Quando normaliza o tf, fica entre 0 e 1, então o log vai dar negativo
      # Se eu usar math.log(tf_normalizado), vou ter TF-IDF negativo
      # Então não uso log, uso apenas o tf normalizado
      tf_normalizado = tf / max_tf
      tf_valor = 1 + tf_normalizado #math.log(tf_normalizado)

      #tf_valor = 1 + math.log(tf) # Descomente essa linha para não usar tf normalizado

      matriz_tfidf[termo][doc_id] = tf_valor * idf
      tempo_termo_docid_final = time.time()
      duracao_termo_docid = tempo_termo_docid_final - tempo_termo_docid_init
      duracoes_tfidf_termo.append(duracao_termo_docid)
  logger.info(f'{nome_modulo} ({nome_funcao}) - TF-IDF calculado com sucesso')

  tempo_medio_tfidf = CalculaTempoMedio(duracoes_tfidf_termo)
  tempo_medio_tfidf_ms = tempo_medio_tfidf * 1000
  logger.info(f'{nome_modulo} ({nome_funcao}) - Tempo médio de processamento de um termo para calcular o TF-IDF: {tempo_medio_tfidf_ms:.5f} milissegundos')

  return matriz_tfidf

def RetornaTFIDFDeTermoDocumento(matriz_tfidf, termo, doc_id):
  """
  Retorna o TF-IDF de um termo em um documento
  """
  return matriz_tfidf[termo][doc_id]

def SalvaMatrizTFIDFEmCSV(matriz_tfidf, config_file='INDEX.CFG', separator=';'):
  """
  Salva a matriz_tfidf em um CSV com a seguinte estrutura:
  TERMO;doc_id1;doc_id2;...
  termo1;valor1;valor2;...
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name
  file_name = LeArquivo_INDEX_CFG(cfgEnum.ESCREVA)

  logger.info(f'{nome_modulo} ({nome_funcao}) - Salvando a matriz TF-IDF em {file_name}')
  try:
    # Pego todos os doc_ids em ordem crescente pra gerar o cabeçalho
    todos_docs = sorted({doc_id for tf_dict in matriz_tfidf.values() for doc_id in tf_dict})

    with open(file_name, 'w', newline='', encoding='utf-8') as f:
      tempo_init = time.time()
      writer = csv.writer(f, delimiter=separator)

      header = ['TERMO'] + todos_docs
      writer.writerow(header)

      # Linhas da matriz
      for termo, tf_dict in sorted(matriz_tfidf.items()):
        linha = [termo]
        for doc_id in todos_docs:
          valor = tf_dict.get(doc_id, 0.0)
          linha.append(round(valor, 6))  # limitar casas decimais se desejar
        writer.writerow(linha)

    tempo_final = time.time()
    duracao = tempo_final - tempo_init
    duracao_ms = duracao * 1000
    logger.info(f'{nome_modulo} ({nome_funcao}) - Matriz TF-IDF salva em {file_name} com sucesso em {duracao:.3f} segundos')

  except Exception as e:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Erro ao salvar matriz_tfidf em {file_name}: {e}')

def PrintTFIDFTermo(matriz_tfidf, termo):
  """
  Lê a lista invertida do arquivo CSV passado e calcula TF-IDF

  Retorna um dicionário com a lista invertida e o TF-IDF de cada termo em cada documento
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  print(f'O termo {termo} aparece em {len(matriz_tfidf[termo])} documentos')
  for doc_id in matriz_tfidf[termo]:
    tfidf = RetornaTFIDFDeTermoDocumento(matriz_tfidf, termo, doc_id)
    print(f'{doc_id:4} | TF-IDF = {tfidf}')

def AlteraTFIDFDict(matriz_tfidf, termo, doc_id, novo_valor):
  """
  Altera o td-idf de um termo em um documento manualmente
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  logger.info(f'{nome_modulo} ({nome_funcao}) - Alterando manualmente o TF-IDF de \'{termo}\' no documento {doc_id} para {novo_valor}')
  if termo not in matriz_tfidf:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Termo \'{termo}\' não encontrado no dicionário')
    return
  if doc_id not in matriz_tfidf[termo]:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Documento {doc_id} não encontrado no dicionário para o termo \'{termo}\'')
    return
  logger.info(f'{nome_modulo} ({nome_funcao}) - TF-IDF alterado pelo usuário com sucesso')
  matriz_tfidf[termo][doc_id] = novo_valor

def Modulo_Indexador():
  """
  Executa todos os passos para indexar os documentos
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger

  lista_invertida_csv = LeArquivo_INDEX_CFG(cfgEnum.LEIA)
  matriz_tfidf = LeListaInvertidaCalculaTFIDF(lista_invertida_csv)
  SalvaMatrizTFIDFEmCSV(matriz_tfidf)

  return matriz_tfidf

In [None]:
matriz_tfidf = Modulo_Indexador()

## Verificando alguns valores

In [None]:
RetornaTFIDFDeTermoDocumento(matriz_tfidf, 'THE', 1)

In [None]:
# @title TF-IDF de uma palavra que não está nos documentos
PrintTFIDFTermo(matriz_tfidf, 'ICARUS')

In [None]:
# @title TF-IDF da palavra 'DEATH'

PrintTFIDFTermo(matriz_tfidf, 'DEATH')

In [None]:
# @title TF-IDF da palavra 'THE'

PrintTFIDFTermo(matriz_tfidf, 'THE')

# Buscador

In [None]:
# @title Funções buscador

#%%writefile buscador.py
import logging, time, inspect
import xml.etree.ElementTree as ET

def RetornaNomeModulo_Buscador():
  """
  Se quiser mudar o nome que aparece no logger, só alterar a string retornada nessa função
  """
  return 'Buscador'

def LeArquivo_BUSCA_CFG(flag, config_file='BUSCA.CFG'):
  """
  Lê o arquivo BUSCA.CFG
  flag == cfgEnum.MODELO --> Pega o nome do CSV com a matriz TF-IDF
  flag == cfgEnum.CONSULTAS --> Pega o nome do CSV com as consultas
  flag == cfgEnum.RESULTADOS --> Pega o nome do CSV com os resultados
  """
  nome_modulo = RetornaNomeModulo_Indexador()
  nome_funcao = inspect.currentframe().f_code.co_name # Retorna o nome da função pra passar no logger
  filename = None
  file_paths = []

  if flag not in [cfgEnum.MODELO, cfgEnum.CONSULTAS, cfgEnum.RESULTADOS]:
      logger.error(f'{nome_modulo} ({nome_funcao}) - Flag inválida: \'{flag}\'. Use flag \'cfgEnum.MODELO\' ou \'cfgEnum.CONSULTAS\' ou \'cfgEnum.RESULTADOS\'')
      return

  try:
    with open(config_file, 'r') as f:
      for line in f:
        line = line.strip()
        if (flag == cfgEnum.MODELO) and (line.startswith('MODELO=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o arquivo CSV com o modelo vetorial')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Arquivo CSV com o modelo vetorial encontrado com sucesso')
        elif (flag == cfgEnum.CONSULTAS) and (line.startswith('CONSULTAS=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com as consultas')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com as consultas encontrado com sucesso')
        elif (flag == cfgEnum.ESPERADOS) and (line.startswith('RESULTADOS=')):
          logger.info(f'{nome_modulo} ({nome_funcao}) - Lendo arquivo {config_file} para pegar o nome do CSV com os resultados')
          filename = line.split('=', 1)[1]
          logger.info(f'{nome_modulo} ({nome_funcao}) - Nome do CSV com os resultados encontrado com sucesso')

      return filename

  except FileNotFoundError:
    logger.error(f'{nome_modulo} ({nome_funcao}) - Arquivo {config_file} não encontrado.')
    return
  except Exception as e:
    logger.error(f"{nome_modulo} ({nome_funcao}) - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

  pass

def Modulo_Buscador():
  """
  Executa todos os passos para buscar os documentos
  """
  nome_modulo = RetornaNomeModulo_Buscador()
  nome_funcao = inspect.currentframe().f_code.co

# Verificando os arquivos CSV gerados usando dataframes

In [None]:
# @title Dataframe das consultas

consultas_csv = LeArquivo_PC_CFG(cfgEnum.CONSULTAS)
consultas_df = pd.read_csv(consultas_csv, sep=';', names=['QueryNumber','QueryText'])
display(consultas_df)

In [None]:
# @title Dataframe dos documentos esperados

esperados_csv_path = LeArquivo_PC_CFG(cfgEnum.ESPERADOS)
esperados_df = pd.read_csv(esperados_csv_path, sep=';')#, names=['QueryNumber','DocNumber','DocVotes'])
display(esperados_df)

In [None]:
# @title Dataframe da lista invertida

li_csv_path = LeArquivo_GLI_CFG(cfgEnum.ESCREVA)
li_df = pd.read_csv(li_csv_path, sep=';', names=['PALAVRA','DOCUMENTOS'])
display(li_df)

In [None]:
# @title Dataframe da matriz TF-IDF

tfidf_csv_path = LeArquivo_INDEX_CFG(cfgEnum.ESCREVA)
tfidf_df = pd.read_csv(tfidf_csv_path, sep=';')#, names=['PALAVRA','DOCUMENTOS'])
display(tfidf_df)