# Librerias

In [26]:
# Librerias para el procesamiento de lenguaje natural

from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
import nltk

# Librerias para el procesamiento de archivos xml
import xml.etree.ElementTree as ET

# Librerias de uso general
from collections import defaultdict
import os
import re

# Librerias para tipado de funciones
from typing import List

# Configuración de palabras de parada
nltk.download("stopwords")
stop_words = set(stopwords.words("english"))

# Configuración de stemmer
stemmer = SnowballStemmer("english")

[nltk_data] Downloading package stopwords to /home/nico/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Proceso de preprocesamiento

In [27]:
def preprocess(text: str) -> List[str]:
    # Normalización del texto
    text = text.lower()
    # Tokenización simple a nivel de palabra
    tokens = re.findall(r"\w+", text)
    # Quitar stopwords y aplicar stemming
    processed = [stemmer.stem(token) for token in tokens if token not in stop_words]
    # Retornar texto preprocesado
    return processed

In [28]:
print(preprocess("The cats are running quickly in the gardens"))

['cat', 'run', 'quick', 'garden']


# Ingesta de documentos

In [29]:
# Ruta en la que se encuentran los documentos a procesar
path_docs = "../data/docs-raw-texts"

def load_documents(path_docs: str):
	# Diccionario para almacenar los documentos por id
	docs = {}
	# Se revisan únicamente los archivos relevantes
	for file_name in os.listdir(path_docs):
		if not file_name.endswith(".naf"):
			continue
		# Construccion del arbol de atributos del documento
		tree = ET.parse(os.path.join(path_docs, file_name))
		root = tree.getroot()
		# Id recuperado desde el atributo pupblicId
		doc_id = root.find("nafHeader/public").attrib["publicId"]
		# Titulo desde el atributo title
		title = root.find("nafHeader/fileDesc").attrib.get("title", "")
		# Contenido desde <raw>
		raw_element = root.find("raw")
		content = raw_element.text if raw_element is not None else ""
		# concatenar titulo + contenido para preprocesar
		tokens = preprocess(title +  " " + content)
		docs[doc_id] = tokens
	# Retornar los documentos cargados
	return docs

In [30]:
documents = load_documents(path_docs)

# Construcción de índice invertido

In [None]:
def build_inverted_index(docs):
    # construcción de la estructura de indice invertido
    inverted = defaultdict(set)
    # Iteración sobre los doumentos cargados
    for doc_id, tokens in docs.items():
        # Iteración sobre los tokens de los documentos
        for token in tokens:
            # Población del índice
            inverted[token].add(doc_id)
    # Se retorna el índice construido
    return inverted

In [None]:
# problema, el set no esta quedando ordenado
index = print(build_inverted_index(documents))
print(index)

defaultdict(<class 'set'>, {'watch': {'d219', 'd258', 'd195', 'd217', 'd197', 'd200', 'd277', 'd223', 'd165', 'd214', 'd139', 'd224', 'd076', 'd213', 'd209', 'd183', 'd299', 'd285', 'd010', 'd268', 'd068', 'd193', 'd168', 'd146', 'd162', 'd323', 'd069', 'd115', 'd052'}, 'daniel': {'d019', 'd048', 'd026', 'd035', 'd299'}, 'quar': {'d299'}, 'bracket': {'d224', 'd299'}, 'clock': {'d219', 'd068', 'd186', 'd196', 'd099', 'd299'}, 'display': {'d235', 'd126', 'd078', 'd028', 'd173', 'd076', 'd136', 'd301', 'd299', 'd318', 'd281', 'd128', 'd256', 'd254', 'd150', 'd170', 'd029', 'd085', 'd194', 'd323', 'd023', 'd107', 'd169', 'd052'}, 'walker': {'d254', 'd182', 'd175', 'd183', 'd299'}, 'art': {'d161', 'd116', 'd103', 'd195', 'd156', 'd311', 'd015', 'd109', 'd058', 'd017', 'd197', 'd325', 'd179', 'd012', 'd020', 'd016', 'd033', 'd231', 'd198', 'd018', 'd066', 'd173', 'd279', 'd276', 'd119', 'd255', 'd077', 'd291', 'd282', 'd027', 'd209', 'd136', 'd101', 'd159', 'd299', 'd237', 'd318', 'd293', 'd