**Nome:** Miguel Santos de Araujo do Nascimento

# Imports

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk import pos_tag

nltk.download('stopwords')
nltk.download('punkt')

import logging

import xml.etree.ElementTree as ET

from enum import Enum

# Baixando arquivos de dados

In [None]:
!wget https://github.com/miguelsantosan/BMT_2025.2_Trabalho_1/raw/main/CysticFibrosis2.zip

In [None]:
!unzip -o CysticFibrosis2.zip -d CysticFibrosis2

# Configurações

In [None]:
# @title Logging e pré processamento

stop_en = stopwords.words('english')

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)
logger.setLevel(logging.INFO)

file_handler = logging.FileHandler('Trab1.log')
file_handler.setLevel(logging.INFO)

formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
formatter.default_msec_format = '%s.%03d' # Mostrar milissegundos com ponto invés de vírgula
file_handler.setFormatter(formatter)
logger.addHandler(file_handler)

In [None]:
# @title Enum LEIA e ESCREVA

"""
Pra poder passar pras funções
"""
# LEIA = 1
# ESCREVA = 2

class cfgEnum(Enum):
  LEIA = 1
  ESCREVA = 2

In [None]:
# @title Arquivos .dtd

PROCESSADOR_CONSULTAS_FORMATO = r'CysticFibrosis2/data/cfc2-query.dtd'
GLI_FORMATO = r'CysticFibrosis2/data/cfc2.dtd'

## Criando arquivos .CFG

In [None]:
# @title PC.CFG

CONFIG_PC_CONTENT = """LEIA=CysticFibrosis2/data/cfquery.xml
CONSULTAS=consultas.csv
ESPERADOS=esperados.csv
"""

CONFIG_PC_NAME = "PC.CFG"

with open(CONFIG_PC_NAME, "w") as f:
    f.write(CONFIG_PC_CONTENT)

print(f"'{CONFIG_PC_NAME}' created successfully.")

In [None]:
# @title GLI.CFG

CONFIG_GLI_CONTENT = """LEIA=CysticFibrosis2/data/cf74.xml
LEIA=CysticFibrosis2/data/cf75.xml
LEIA=CysticFibrosis2/data/cf76.xml
LEIA=CysticFibrosis2/data/cf77.xml
LEIA=CysticFibrosis2/data/cf78.xml
LEIA=CysticFibrosis2/data/cf79.xml
ESCREVA=lista_invertida.csv
"""

CONFIG_GLI_NAME = "GLI.CFG"

with open(CONFIG_GLI_NAME, "w") as f:
    f.write(CONFIG_GLI_CONTENT)

print(f"'{CONFIG_GLI_NAME}' created successfully.")

In [None]:
# @title INDEX.CFG

CONFIG_INDEX_CONTENT = """LEIA=invertida.csv
ESCREVA=modelo.csv
"""

CONFIG_INDEX_NAME = "INDEX.CFG"

with open(CONFIG_INDEX_NAME, "w") as f:
    f.write(CONFIG_INDEX_CONTENT)

print(f"'{CONFIG_INDEX_NAME}' created successfully.")

In [None]:
# @title BUSCA.CFG

CONFIG_BUSCA_CONTENT = """MODELO=modelo.csv
CONSULTAS=consultas.csv
RESULTADOS=resultado.csv
"""

CONFIG_BUSCA_NAME = "BUSCA.CFG"

with open(CONFIG_BUSCA_NAME, "w") as f:
    f.write(CONFIG_BUSCA_CONTENT)

print(f"'{CONFIG_BUSCA_NAME}' created successfully.")

In [None]:
# @title (DELETAR) Teste
# logger.debug("This is a debug message.")
# logger.info("This is an info message.")
# logger.warning("This is a warning message.")
# logger.error("This is an error message.")
# logger.critical("This is a critical message.")

# Funções

In [None]:
# @title Pegando arquivos de uma pasta

import glob
import os

def RetornaNomeArquivoDoPath(file_path):
  """
  Retorna apenas o nome do arquivo a partir do path
  """
  # Faz split no path, vira uma lista, pega o último elemento
  file_name = file_path.split('/')[-1]
  return file_name

def RetornaArquivosNoDiretorio_old(dir_path, show_files=False):
  """
  Essa função precisa do path completo da pasta,
  então vou usar a outra que percorre as subpastas
  """
  file_paths = glob.glob(dir_path + '/*')

  if show_files:
    print(f'Peguei os arquivos da pasta {dir_path}')
    for file_path in file_paths:
      print(file_path)

  return file_paths

def RetornaArquivosNoDiretorio(dir_path, file_type=None, ignore_list=None, show_files=False):
  """
  Retorna os arquivos de dir_path, percorrendo as subpastas
  file_type == None --> todos os arquivos
  file_type != None --> apenas arquivos .file_type
  ignore_list != None --> ignoro os arquivos na lista
  """
  file_paths = []
  #ignore_list = ['cfquery.xml']

  if file_type == None:
    logger.info(f'Buscando todos os arquivos da pasta {dir_path} para armazenar em memória')
  else:
    logger.info(f'Buscando todos os arquivos .{file_type} da pasta {dir_path} para armazenar em memória')

  for root, _, files in os.walk(dir_path):
      for file in files:
        # Se tiver arquivos para ignorar, verifica se o arquivo atual está em ignore_list
        if ignore_list != None:
          file_path = os.path.join(root, file)
          file_name = RetornaNomeArquivoDoPath(file_path)
          if file_name in ignore_list:
            continue

        if file_type == None: # Todos os arquivos
          file_paths.append(os.path.join(root, file))
        else: # Apenas arquivos de um tipo específico
          if (file_type != None) and (file.endswith(f'.{file_type}')):
              file_paths.append(os.path.join(root, file))

  if file_type == None:
    logger.info(f'Todos os arquivos da pasta {dir_path} armazenados em memória com sucesso')
  else:
    logger.info(f'Arquivos .{file_type} da pasta {dir_path} armazenados em memória com sucesso')

  if show_files:
    #print(f'Peguei todos os arquivos .{file_type} da pasta {dir_path}')
    for file_path in file_paths:
      print(file_path)

  return file_paths

# Armazenando arquivos

In [None]:
# @title Arquivos que não serão adicionados à base

ignore_list = ['cfquery.xml']

In [None]:
dir_path = 'CysticFibrosis2/'
file_paths_CysticFibrosis2 = RetornaArquivosNoDiretorio(dir_path,  'xml', ignore_list, show_files=True)

# Processador de consultas

In [None]:
#%%writefile processador_de_consultas.py

# Gerador lista invertida

In [None]:
# @title Funções para gerar a lista

#%%writefile gerador_lista_invertida.py
import logging
import xml.etree.ElementTree as ET

def GeraListaInvertida(base):
  """
  base é uma lista de tuplas, onde o primeiro elemento é o ID do documento e o segundo é o texto do documento
  Percorre todos os textos e gera a lista invertida
  Funciona com lista de texto, assim posso ter doc: [doc, [doc_texto1, doc_texto2, ...]] e contam para o mesmo documento
  Retorna a lista invertida
  """
  lista_invertida = {}

  logger.info('Gerador Lista Invertida - Gerando lista invertida')
  for doc_tupla in base:
    doc_id = doc_tupla[0]
    doc_info = doc_tupla[1]

    # Se for string única, transforma em lista de 1 elemento
    if isinstance(doc_info, str):
        doc_info = [doc_info]

    for info in doc_info:
      fraselc = str.lower(info).split()
      for palavra in fraselc:
        docs = lista_invertida.get(palavra, [])
        docs.append(doc_id) # Append the document ID
        lista_invertida[palavra]=docs

  logger.info('Gerador Lista Invertida - Lista invertida gerada com sucesso')

  return lista_invertida

def LeArquivo_GLI_CFG(flag, config_file='GLI.CFG'):
  filename = None
  file_paths = [] # Initialize file_paths list
  try:
    with open(config_file, 'r') as f:
      match flag:
        case cfgEnum.LEIA:
          for line in f:
            line = line.strip()
            if line.startswith('LEIA='):
              path = line.split('=', 1)[1]
              file_paths.append(path)
          return file_paths
        case cfgEnum.ESCREVA:
          for line in f:
            line = line.strip()
            if line.startswith('ESCREVA='):
              filename = line.split('=', 1)[1]
              return filename
        case _:
          logger.error(f'Gerador Lista Invertida - Flag inválida: \'{flag}\'. Use flag \'cfgEnum.LEIA\' ou \'cfgEnum.ESCREVA\'')
          return
  except FileNotFoundError:
    logger.error(f'Gerador Lista Invertida - Arquivo {config_file} não encontrado.')
    return
  except Exception as e:
    logger.error(f"Gerador Lista Invertida - Erro ao ler arquivo de configuração '{config_file}': {e}")
    return

def SalvaListainvertidaEmCsv(lista_invertida_dict, config_file='GLI.CFG', separator=';'):
  """
  Lê GLI.CFG e pega o nome do csv para salvar a lista invertida
  """

  filename = LeArquivo_GLI_CFG(cfgEnum.ESCREVA)

  try:
    with open(filename, 'w', newline='') as csvfile:
      for key, values in lista_invertida_dict.items():
        # Pega a lista dos documentos
        values_str = '[' + ','.join(map(str, values)) + ']'
        csvfile.write(f"{key}{separator}{values_str}\n")
    logger.info(f'Gerador Lista Invertida - Lista invertida salva em {filename} com sucesso')
  except IOError as e:
    logger.error(f'Gerador Lista Invertida - Erro ao salvar a lista invertida em {filename}: {e}')

# Função para debug
def PrintListaInvertida(lista_invertida):
  chaves = [i for i in lista_invertida.keys() ]
  chaves.sort()

  for i in chaves:
    print(" ",i," & ",str(lista_invertida[i]), " \\\\")

def PegaDocumentosDosArquivosXML(file_paths):
    """
    Recebe uma lista de caminhos para arquivos XML ou um arquivo único
    Pega todos os elementos RECORD e pega o RECORDNUM de cada um deles
    Se tiver ABSTRACT, adiciona a tupla (RECORDNUM, ABSTRACT) à lista de records_data
    Se não tiver ABSTRACT, mas tiver EXTRACT, adiciona a tupla (RECORDNUM, EXTRACT) à lista de records_data
    Se não tiver ABSTRACT nem EXTRACT, desconsidera o documento

    Retorna a lista com as tuplas
    """
    records_data = []

    # Posso passar uma lista ou um arquivo único
    # Se for um arquivo único, converte em lista de 1 elemento
    if isinstance(file_paths, str):
      file_paths = [file_paths]

    for file_path in file_paths:
      try:
          tree = ET.parse(file_path)
          root = tree.getroot()
          record_elements = root.findall('.//RECORD') # Pego todos os elementos RECORD do arquivo
          file_name = RetornaNomeArquivoDoPath(file_path)
          logger.info(f'Gerador lista invertida - {file_name} possui {len(record_elements)} documentos')

          if not record_elements:
              logger.error(f'Arquivo {file_path} não possui RECORD')
              continue

          for record in record_elements:
              record_num_element = record.find('RECORDNUM')
              abstract_element = record.find('ABSTRACT')
              extract_element = record.find('EXTRACT')

              record_num = record_num_element.text if record_num_element is not None else None
              abstract = abstract_element.text if abstract_element is not None else None
              extract = extract_element.text if extract_element is not None else None

              if record_num is None: # Se por acaso não tiver RECORDNUM
                logger.warning(f'Gerador lista invertida - Erro ao pegar o RECORDNUM de um dos documentos no arquivo {file_name}')
              elif abstract is not None: # Tem ABSTRACT
                records_data.append((record_num, abstract))
              elif extract is not None: # Não tem ABSTRACT, mas tem EXTRACT
                logger.warning(f'Gerador lista invertida - Documento com RECORDNUM = {record_num} não possui ABSTRACT, vou usar o EXTRACT')
                records_data.append((record_num, extract))
              else: # Não tem ABSTRACT nem EXTRACT, desconsidero o documento
                logger.error(f'Gerador lista invertida - Documento com RECORDNUM = {record_num} ({file_name}) não possui ABSTRACT nem EXTRACT, vou desconsiderar')

      except FileNotFoundError:
          logger.error(f'Gerador lista invertida - arquivo {file_path} não encontrado')
      except ET.ParseError as e:
          logger.error(f'Gerador lista invertida - Erro ao fazer parsing no arquivo XML {file_path}: {e}')
      except Exception as e:
          logger.error(f'Gerador lista invertida - Erro ao processar o arquivo {file_path}: {e}')

    return records_data

In [None]:
# @title Lendo arquivos e gerando lista invertida

arquivos = LeArquivo_GLI_CFG(cfgEnum.LEIA)
documentos = PegaDocumentosDosArquivosXML(arquivos)
l = GeraListaInvertida(documentos)
#SalvaListainvertidaEmCsv(l)

In [None]:
SalvaListainvertidaEmCsv(l)

In [None]:
# @title (DELETAR) Testando a lista invertida
# # o método split só admite um separador , então removemos as vírgulas
# base1 = [
#     ("PN001", "Maria comprou um quilo de banana prata e banana ouro no mercado"),
#     ("PN002", "Um quilo de prata vale muito dinheiro"),
#     ("PN003", "Maria tem dinheiro para comprar um quilo de banana mas não de prata"),
#     ("TF074", ["Quem casa quer casa com quem casou e quem não casou não tem casa"]),
#     ("PN001", "WWWWWWWWWWWWWWWW banana quilo"),
#     ("XS015", ["fumaça preta fumaça laranja", "suco de laranja",
#                "suco de goiaba", "bolo de laranja", "torta de laranja"])
#     ]

# #import gerador_lista_invertida
# #import importlib
# #importlib.reload(gerador_lista_invertida)

# l = GeraListaInvertida(base1)
# SalvaListainvertidaEmCsv(l)
# #PrintListaInvertida(l)

In [None]:
# @title Lendo os arquivos para gerar a lista

# Indexador

In [None]:
#%%writefile indexador.py

# Buscador

In [None]:
#%%writefile buscador.py