In [None]:
import nltk

In [1]:
import csv
import re
import xml.etree.ElementTree as ET

# lê o arquivo de configuração
with open("PC.CFG", "r") as f:
    for line in f:
        if line.startswith("LEIA="):
            xml_file = line.strip()[5:]
        elif line.startswith("CONSULTAS="):
            consultas_file = line.strip()[10:]
        elif line.startswith("ESPERADOS="):
            esperados_file = line.strip()[10:]

# lê o arquivo XML com as consultas
tree = ET.parse(xml_file)
root = tree.getroot()

# cria a lista de cabeçalhos para o arquivo de consultas
consultas_headers = ["QueryNumber", "QueryText"]

# cria a lista de cabeçalhos para o arquivo de esperados
esperados_headers = ["QueryNumber", "DocNumber", "DocVotes"]

# processa as consultas e gera os arquivos de saída
with open(consultas_file, "w", newline="", encoding="utf-8") as f1, open(esperados_file, "w", newline="", encoding="utf-8") as f2:
    writer1 = csv.writer(f1, delimiter=";")
    writer2 = csv.writer(f2, delimiter=";")
    writer1.writerow(consultas_headers)
    writer2.writerow(esperados_headers)
    for query in root.iter("Query"):
        query_number = query.attrib["number"]
        query_text = query.find("QueryText").text
        query_text = query_text.upper() # transforma o texto em maiúsculas
        query_text = re.sub(r'[^\w\s]', '', query_text) # remove caracteres especiais
        writer1.writerow([query_number, query_text])
        esperados_rows = []
        for record in query.iter("Records"):
            for item in record.iter("Item"):
                doc_number = item.attrib["document_number"]
                doc_votes = int(item.attrib["score"] != "0")
                esperados_rows.append([query_number, doc_number, doc_votes])
        writer2.writerows(esperados_rows)


FileNotFoundError: [Errno 2] No such file or directory: 'PC.CFG'

In [None]:
import xml.etree.ElementTree as ET
import re

# Função para processar o texto removendo acentos e caracteres especiais
def process_text(text):
    text = text.lower()
    text = re.sub('[^a-z0-9 \\\]', '', text)
    text = re.sub(' +', ' ', text)
    return text.strip()

# Leitura do arquivo de configuração
config_file = open('GLI.CFG', 'r')
read_files = []
write_file = ''

for line in config_file:
    if line.startswith('LEIA='):
        read_files.append(line.strip()[5:])
    elif line.startswith('ESCREVA='):
        write_file = line.strip()[8:]

config_file.close()

# Dicionário para armazenar as listas invertidas
inverted_lists = {}

# Leitura dos arquivos XML
for file in read_files:
    tree = ET.parse(file)
    root = tree.getroot()

    for record in root.iter('RECORD'):
        # Leitura dos campos RECORDNUM e ABSTRACT/EXTRACT
        doc_id = record.find('RECORDNUM').text
        abstract = record.find('ABSTRACT')
        extract = record.find('EXTRACT')
        text = ''

        if abstract is not None:
            text = abstract.text
        elif extract is not None:
            text = extract.text

        # Processamento do texto e criação da lista de palavras
        words = process_text(text).split()

        # Criação das listas invertidas
        for word in words:
            if word not in inverted_lists:
                inverted_lists[word] = []

            inverted_lists[word].append(doc_id)

# Escrita do arquivo de saída
output_file = open(write_file, 'w')

for word, docs in inverted_lists.items():
    output_file.write(word.upper() + ' ; ' + str(docs) + '\n')

output_file.close()


In [None]:
import math

def criar_modelo_vetorial(arquivo_entrada, arquivo_saida):
    # Abrir o arquivo de configuração
    with open('INDEX.CFG', 'r') as arquivo_configuracao:
        linhas_configuracao = arquivo_configuracao.readlines()
        nome_arquivo_entrada = linhas_configuracao[0].split('=')[1].strip()
        nome_arquivo_saida = linhas_configuracao[1].split('=')[1].strip()

    # Verificar se os arquivos de entrada e saída estão corretos
    if nome_arquivo_entrada != arquivo_entrada or nome_arquivo_saida != arquivo_saida:
        print('Erro: nome de arquivo incorreto no arquivo de configuração')
        return

    # Abrir o arquivo de entrada com as listas invertidas
    with open(arquivo_entrada, 'r') as arquivo_listas_invertidas:
        # Criar um dicionário para armazenar a frequência dos termos em cada documento
        frequencia_termos = {}
        # Criar um conjunto para armazenar todos os termos distintos
        termos_distintos = set()

        # Ler cada linha do arquivo com as listas invertidas
        for linha in arquivo_listas_invertidas:
            # Separar a palavra do restante da linha
            palavra, ids_documentos = linha.split(';')
            # Remover espaços e caracteres especiais da palavra
            palavra = ''.join(c for c in palavra if c.isalpha()).upper()
            # Separar os IDs dos documentos em uma lista
            ids_documentos = [int(id.strip()) for id in ids_documentos.strip()[1:-1].split(',')]

            # Atualizar a lista de termos distintos
            termos_distintos.add(palavra)

            # Atualizar a frequência da palavra em cada documento
            for id_documento in ids_documentos:
                if id_documento not in frequencia_termos:
                    frequencia_termos[id_documento] = {}
                frequencia_termos[id_documento][palavra] = frequencia_termos[id_documento].get(palavra, 0) + 1

        # Calcular o idf para cada termo
        n_documentos = len(frequencia_termos)
        idf = {}
        for termo in termos_distintos:
            n_documentos_termo = sum(1 for freq in frequencia_termos.values() if termo in freq)
            idf[termo] = math.log(n_documentos / n_documentos_termo)

        # Calcular o peso de cada termo em cada documento
        pesos_termos = {}
        for id_documento, freq_termos in frequencia_termos.items():
            norma = 0
            for termo, freq in freq_termos.items():
                peso = freq * idf[termo]
                pesos_termos[(id_documento, termo)] = peso
                norma += peso ** 2
            norma = math.sqrt(norma)
            for termo in freq_termos:
                pesos_termos[(id_documento, termo)] /= norma

        # Salvar os pesos em um arquivo
        with open(arquivo_saida, 'w') as arquivo_modelo_vetorial:
            for (id_documento, termo), peso in pesos_termos.items():
                arquivo_modelo_vetorial.write(f'{termo};{id_documento};{peso}\n')


In [None]:
import csv

def busca(modelo_file, consultas_file, resultados_file):
    # Carrega o modelo vetorial a partir do arquivo
    modelo = {}
    with open(modelo_file, 'r') as f:
        reader = csv.reader(f, delimiter=';')
        for row in reader:
            termo = row[0]
            docs = eval(row[1])
            modelo[termo] = docs

    # Processa cada consulta e escreve os resultados no arquivo de resultados
    with open(consultas_file, 'r') as f_consultas, open(resultados_file, 'w', newline='') as f_resultados:
        reader = csv.reader(f_consultas, delimiter=';')
        writer = csv.writer(f_resultados, delimiter=';')
        for row in reader:
            consulta_id = row[0]
            consulta = row[1].split()
            resultados = []

            for doc_id in modelo[consulta[0]]:
                score = 0
                for termo in consulta:
                    if termo in modelo and doc_id in modelo[termo]:
                        score += modelo[termo][doc_id]
                resultados.append((score, doc_id))

            resultados_ordenados = sorted(resultados, reverse=True)
            resultados_final = [(i+1, doc_id, score) for i, (score, doc_id) in enumerate(resultados_ordenados)]

            writer.writerow([consulta_id, resultados_final])
