# Laboratorio #1: Indexaci√≥n

En esta clase pr√°ctica aprenderemos c√≥mo funcionan los sistemas de b√∫squeda de informaci√≥n mediante la implementaci√≥n de un √≠ndice invertido. Un √≠ndice invertido es una estructura de datos fundamental que permite realizar b√∫squedas eficientes en grandes colecciones de documentos, similar a c√≥mo funciona un motor de b√∫squeda web.

Durante la pr√°ctica, construiremos paso a paso:
- Una estructura para representar documentos
- Un pipeline de preprocesamiento de texto
- Un √≠ndice invertido b√°sico con posting lists
- Funcionalidad de b√∫squeda

Este sistema nos permitir√° entender los conceptos fundamentales detr√°s de herramientas como Google, Elasticsearch, o cualquier motor de b√∫squeda moderno.

---

## Importaci√≥n de Librer√≠as

In [None]:
%pip install -U spacy numpy matplotlib
%pip install ir-datasets

import spacy
from spacy.cli import download
download("en_core_web_sm")


In [57]:
import re
import json
import pickle
import time
from collections import defaultdict, Counter
from typing import Dict, List, Tuple, Optional
from dataclasses import dataclass
import unicodedata
import matplotlib.pyplot as plt
import numpy as np
import math
import spacy

# Configuraci√≥n de visualizaciones
plt.style.use('default')
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

## Obtenci√≥n del dataset a utilizar

In [None]:
import ir_datasets

cranfield_dataset = ir_datasets.load("cranfield")

## Estructura de Documentos

Definimos la estructura b√°sica de un documento en nuestro sistema.

In [None]:
@dataclass
class Document:
    """
    Estructura b√°sica de un documento en el sistema DocuSearch
    
    Args:
        id: str. Identificador √∫nico del documento
        title: str. T√≠tulo del documento (opcional)
        content: str. Contenido principal del documento
        author: str. Autor del documento (opcional)
        date: str. Fecha de publicaci√≥n (opcional)
        category: str. Categor√≠a del documento (opcional)
        metadata: Dict. Metadatos adicionales (opcional)
    """
    id: str
    title: str = ""
    content: str
    author: str = ""
    date: str = ""
    category: str = ""
    metadata: Dict = None
    
    def __post_init__(self):
        if self.metadata is None:
            self.metadata = {}
    
    def get_full_text(self) -> str:
        """
        Retorna el texto completo del documento (t√≠tulo + contenido)
        
        Returns:
            str. Texto completo combinando t√≠tulo y contenido
        """
        return f"{self.title} {self.content}"
    
    def get_word_count(self) -> int:
        """
        Retorna el n√∫mero de palabras en el documento
        
        Returns:
            int. N√∫mero total de palabras
        """
        return len(self.get_full_text().split())
    
    def __str__(self):
        return f"Doc[{self.id}]: {self.title[:50]}{'...' if len(self.title) > 50 else ''}"

## Pipeline de Preprocesamiento

### ¬øQu√© es la tokenizaci√≥n y por qu√© la necesitamos?

La **tokenizaci√≥n** es el proceso de dividir un texto en unidades m√°s peque√±as llamadas "tokens" (generalmente palabras). Es un paso fundamental en el procesamiento de lenguaje natural porque:

1. **Normalizaci√≥n**: Convierte el texto a una forma est√°ndar (min√∫sculas, elimina puntuaci√≥n)
2. **Limpieza**: Remueve elementos innecesarios como stopwords ("el", "la", "de", etc.)
3. **Reducci√≥n**: Mediante lematizaci√≥n, reduce palabras a su forma base (ej: "corriendo" ‚Üí "correr")
4. **Eficiencia**: Permite crear √≠ndices m√°s compactos y b√∫squedas m√°s r√°pidas

Sin tokenizaci√≥n, no podr√≠amos comparar eficientemente el texto de b√∫squeda con los documentos indexados.

Implementamos las etapas de procesamiento de texto usando SpaCy: tokenizaci√≥n, lematizaci√≥n y filtrado b√°sico.

In [None]:
class SpacyDocumentProcessor:
    """
    Procesador de documentos usando SpaCy para tokenizaci√≥n y normalizaci√≥n
    
    Args:
        remove_stopwords: bool. Si True, elimina stopwords del texto
        min_word_length: int. Longitud m√≠nima de palabras a conservar
        use_lemma: bool. Si True, usa lematizaci√≥n
    """
    def __init__(self, 
                 remove_stopwords=True,
                 min_word_length=2,
                 use_lemma=True):
        
        self.nlp = spacy.load("en_core_web_sm")
        self.remove_stopwords = remove_stopwords
        self.min_word_length = min_word_length
        self.use_lemma = use_lemma

    def process_text(self, text: str):
        """
        Procesa un texto y retorna lista de t√©rminos normalizados
        
        Args:
            text: str. Texto a procesar
            
        Returns:
            list. Lista de t√©rminos procesados
        """
        doc = self.nlp(text)
        terms = []

        for token in doc:
            if token.is_punct or token.is_space:
                continue
            
            if self.remove_stopwords and token.is_stop:
                continue
            
            term = token.lemma_ if self.use_lemma else token.text
            term = term.lower()

            if len(term) >= self.min_word_length:
                terms.append(term)

        return terms

## √çndice Invertido Simple con Posting Lists

### EJERCICIOS DE LA CLASE

En esta secci√≥n implementar√°s las funciones principales del √≠ndice invertido:

**EJERCICIO 1**: Completar la funci√≥n `add_document()`

**EJERCICIO 2**: Completar la funci√≥n `build_index()`

Busca los comentarios `# COMPLETAR AQU√ç` para saber d√≥nde escribir el c√≥digo.

---

Implementamos la estructura b√°sica del √≠ndice invertido con posting lists.

In [None]:
class SimpleInvertedIndex:
    """
    Implementaci√≥n b√°sica de un √≠ndice invertido con posting lists
    
    La estructura es: {t√©rmino: {doc_id: frecuencia}}
    """
    
    def __init__(self):
        """
        Inicializa el √≠ndice invertido
        """
        self.index = defaultdict(dict)
        self.documents = {}           # doc_id -> Document object
        self.processor = SpacyDocumentProcessor()
        self.vocab_size = 0
        self.total_documents = 0
        
    
    # ============================================================================
    # EJERCICIO 1: COMPLETAR LA FUNCI√ìN add_document()
    # ============================================================================
    def add_document(self, document: Document) -> None:
        """
        A√±ade un documento al √≠ndice creando las posting lists
        
        Args:
            document: Document. Documento a indexar
        """
        # ---------------------- COMPLETAR AQU√ç ----------------------
        # Paso 1: Procesar el texto del documento usando self.processor.process_text()
        # Asignar el resultado a la variable 'terms'
        terms = None  # REEMPLAZAR: obtener t√©rminos del documento
        
        # Paso 2: Contar las frecuencias de cada t√©rmino
        # Usar Counter() para contar cu√°ntas veces aparece cada t√©rmino
        term_counts = None  # REEMPLAZAR: contar frecuencias
        
        # Paso 3: A√±adir t√©rminos al √≠ndice
        # Para cada t√©rmino y su frecuencia, agregar al √≠ndice invertido
        # self.index[term][document.id] = frecuencia
        for term, freq in ...:  # REEMPLAZAR: iterar sobre term_counts
            pass  # REEMPLAZAR: agregar al √≠ndice
        # ------------------------------------------------------------
        
        # Almacenar documento
        self.documents[document.id] = document
        
        # Actualizar estad√≠sticas
        self.vocab_size = len(self.index)
        self.total_documents = len(self.documents)
        
    
    # ============================================================================
    # EJERCICIO 2: COMPLETAR LA FUNCI√ìN build_index()
    # ============================================================================
    def build_index(self, documents: List[Document]) -> None:
        """
        Construye el √≠ndice desde una colecci√≥n de documentos
        
        Args:
            documents: List[Document]. Lista de documentos a indexar
        """
        print(f"Iniciando indexaci√≥n de {len(documents)} documentos...")
        start_time = time.time()
        
        for i, doc in enumerate(documents, 1):
            # ---------------------- COMPLETAR AQU√ç ----------------------
            # Llamar a add_document() para cada documento
            pass  # REEMPLAZAR: agregar documento al √≠ndice
            # ------------------------------------------------------------
            
            if i % 500 == 0:  # Progreso cada 500 documentos
                print(f"   Progreso: {i}/{len(documents)} documentos procesados")
        
        end_time = time.time()
        print(f"\nIndexaci√≥n completada en {end_time - start_time:.2f} segundos")
        print(f"   Documentos: {self.total_documents}")
        print(f"   Vocabulario: {self.vocab_size} t√©rminos √∫nicos")
    
    def search(self, query: str) -> List[Tuple[str, Document]]:
        """
        Realiza b√∫squeda simple en el √≠ndice usando posting lists
        
        Args:
            query: str. Consulta de b√∫squeda
            
        Returns:
            List[Tuple[str, Document]]. Lista de tuplas (doc_id, document) con resultados
        """
        # Procesar la consulta
        query_terms = self.processor.process_text(query)
        
        if not query_terms:
            print("La consulta no contiene t√©rminos v√°lidos despu√©s del procesamiento")
            return []
        
        print(f"Buscando t√©rminos: {query_terms}")
        
        # Encontrar documentos que contienen TODOS los t√©rminos (AND)
        result_docs = None
        
        for term in query_terms:
            if term in self.index:
                term_docs = set(self.index[term].keys())
                if result_docs is None:
                    result_docs = term_docs
                else:
                    result_docs &= term_docs
            else:
                print(f"   T√©rmino '{term}' no encontrado en el √≠ndice")
                return []  # Si alg√∫n t√©rmino no existe, no hay resultados
        
        if result_docs is None:
            return []
        
        # Convertir IDs a objetos Document
        results = [(doc_id, self.documents[doc_id]) for doc_id in result_docs]
        
        print(f"Encontrados {len(results)} documentos")
        return results
    
    def get_term_frequency(self, term: str) -> int:
        """
        Retorna el n√∫mero de documentos que contienen un t√©rmino
        
        Args:
            term: str. T√©rmino a buscar
            
        Returns:
            int. N√∫mero de documentos que contienen el t√©rmino
        """
        return len(self.index.get(term, set()))
    
    def get_document(self, doc_id: str) -> Optional[Document]:
        """
        Recupera un documento por su ID
        
        Args:
            doc_id: str. ID del documento
            
        Returns:
            Document. Objeto Document o None si no existe
        """
        return self.documents.get(doc_id)
    
    def get_vocabulary(self) -> List[str]:
        """
        Retorna lista de todos los t√©rminos en el vocabulario
        
        Returns:
            List[str]. Lista de t√©rminos √∫nicos
        """
        return list(self.index.keys())
    
    def get_statistics(self) -> Dict:
        """
        Retorna estad√≠sticas b√°sicas del √≠ndice
        
        Returns:
            Dict. Diccionario con estad√≠sticas del √≠ndice
        """
        # Calcular distribuci√≥n de frecuencias
        doc_frequencies = [len(doc_set) for doc_set in self.index.values()]
        
        return {
            'total_documents': self.total_documents,
            'vocabulary_size': self.vocab_size,
            'avg_terms_per_doc': np.mean([len(self.processor.process_text(doc.get_full_text())) 
                                         for doc in self.documents.values()]),
            'max_doc_frequency': max(doc_frequencies) if doc_frequencies else 0,
            'min_doc_frequency': min(doc_frequencies) if doc_frequencies else 0
        }
    

## Colecci√≥n de Documentos

Utilizamos el dataset Cranfield para probar nuestro sistema.

In [None]:
def create_documents(dataset) -> List[Document]:
    """
    Crea una colecci√≥n de documentos desde el dataset Cranfield
    
    Args:
        dataset: Dataset. Dataset de ir_datasets
    
    Returns:
        List[Document]. Lista de documentos de prueba
    """
    
    documents = []
    for doc in dataset.docs_iter():
        # Implementar
        pass
    
    return documents

# Crear colecci√≥n de documentos
sample_docs = create_documents(cranfield_dataset)
print(f"Colecci√≥n creada con {len(sample_docs)} documentos")
print("\nPrimeros 3 documentos:")
for i, doc in enumerate(sample_docs[:3]):
    print(f"{i+1}. {doc}")

üìö Colecci√≥n creada con 1400 documentos

Primeros 3 documentos:
1. Doc[1]: Doc. Title
2. Doc[2]: Doc. Title
3. Doc[3]: Doc. Title


## Construcci√≥n del √çndice

Creamos e indexamos nuestra colecci√≥n de documentos.

In [104]:
# Crear instancia del √≠ndice
docusearch = SimpleInvertedIndex()

# Construir √≠ndice
docusearch.build_index(sample_docs)

üöÄ Iniciando indexaci√≥n de 1400 documentos...
   Progreso: 500/1400 documentos procesados
   Progreso: 1000/1400 documentos procesados

üéâ Indexaci√≥n completada en 24.16 segundos
   Documentos: 1400
   Vocabulario: 10319 t√©rminos √∫nicos


## Pruebas de B√∫squeda

Realizamos b√∫squedas de prueba para validar el funcionamiento del sistema.

In [None]:
def show_search_results(results: List[Tuple[str, Document]], max_content_length: int = 100):
    """
    Muestra los resultados de b√∫squeda de forma legible
    
    Args:
        results: List[Tuple[str, Document]]. Lista de resultados de b√∫squeda
        max_content_length: int. Longitud m√°xima del contenido a mostrar
    """
    if not results:
        print("No se encontraron resultados")
        return
    
    print(f"\nRESULTADOS DE B√öSQUEDA ({len(results)} documentos)")
    print("=" * 60)
    
    for i, (doc_id, doc) in enumerate(results, 1):
        content_preview = doc.content[:max_content_length]
        if len(doc.content) > max_content_length:
            content_preview += "..."
        
        print(f"{i}. [{doc_id}] {doc.title}")
        print(f"   Autor: {doc.author} | Categor√≠a: {doc.category} | Fecha: {doc.date}")
        print(f"   Contenido: {content_preview}")
        print()

In [None]:
# Prueba 1: B√∫squeda de "University"
print("B√öSQUEDA 1: 'University'")
results1 = docusearch.search("university")
show_search_results(results1)

üîç B√öSQUEDA 1: 'inteligencia artificial'
üîç Buscando t√©rminos: ['university']
üìä Encontrados 7 documentos

‚úÖ RESULTADOS DE B√öSQUEDA (7 documentos)
1. [220] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: a general purpose analogue correlator for the analysis of
random noise signals .
a large proportion ...

2. [610] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: corner interference effects .
  the three-dimensional incompressible flow of fluid along the corner ...

3. [549] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: experimental study of the velocity and temperature
distribution in a high-velocity vortex-type flow ...

4. [344] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: some experimental techniques in mass transfer cooling .
  author introduces his survey by a brief re...

5. [1229] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: the effect of sweep angle 

In [None]:
# Prueba 2: B√∫squeda de "Insects"
print("B√öSQUEDA 2: 'Insects'")
results2 = docusearch.search("insects")
show_search_results(results2)

üîç B√öSQUEDA 2: 'tecnolog√≠a'
üîç Buscando t√©rminos: ['insects']
üìä Encontrados 1 documentos

‚úÖ RESULTADOS DE B√öSQUEDA (1 documentos)
1. [933] Doc. Title
   Autor:  | Categor√≠a: cranfield | Fecha: 
   Contenido: the characteristics of roughness from insects as observed
for two-dimensional, incompressible flow p...



In [None]:
# Prueba 3: B√∫squeda de "Health"
print("B√öSQUEDA 3: 'Health'")
results3 = docusearch.search("health")
show_search_results(results3)

üîç B√öSQUEDA 3: 'medicina salud'
üîç Buscando t√©rminos: ['health']
   T√©rmino 'health' no encontrado en el √≠ndice
‚ùå No se encontraron resultados


In [None]:
# Prueba 4: B√∫squeda sin resultados
print("B√öSQUEDA 4: 'Sports'")
results4 = docusearch.search("Sports")
show_search_results(results4)

üîç B√öSQUEDA 4: 't√©rmino inexistente'
üîç Buscando t√©rminos: ['sports']
   T√©rmino 'sports' no encontrado en el √≠ndice
‚ùå No se encontraron resultados


## EJERCICIO ADICIONAL: Implementaci√≥n de Skip Lists

### EJERCICIO AVANZADO PARA ESTUDIO INDEPENDIENTE

Como ejercicio adicional y para profundizar en estructuras de datos avanzadas para sistemas de b√∫squeda, se propone implementar **Skip Lists** para optimizar las operaciones de intersecci√≥n en las posting lists.

#### ¬øQu√© es una Skip List?

Una Skip List es una estructura de datos probabil√≠stica que permite realizar operaciones de b√∫squeda, inserci√≥n y eliminaci√≥n en tiempo O(log n) en promedio. En el contexto de √≠ndices invertidos, las skip lists pueden acelerar significativamente las operaciones de intersecci√≥n entre posting lists largas.

---

## EJERCICIOS PR√ÅCTICOS ADICIONALES

Los siguientes ejercicios te ayudar√°n a profundizar en conceptos clave de indexaci√≥n y recuperaci√≥n de informaci√≥n. Aplica todo lo que has aprendido sobre preprocesamiento de texto, posting lists y optimizaciones.

---

### EJERCICIO PR√ÅCTICO 1: An√°lisis de Stemming

**Situaci√≥n:** Est√°s desarrollando un motor de b√∫squeda en espa√±ol y has notado que el algoritmo de stemming que implementaste est√° agrupando algunas palabras que quiz√°s no deber√≠an estar juntas. 

Tu algoritmo reduce las siguientes parejas de palabras a la misma forma base:
- a. abandono/abandonamiento  
- b. absorci√≥n/absorbente
- c. mercadeo/mercados
- d. universidad/universo
- e. volumen/vol√∫menes

**Tu tarea:** 
1. **Analiza cada pareja** y determina cu√°les NO deber√≠an ser conflacionadas (agrupadas) por el stemmer.
2. **Justifica tu razonamiento** considerando:
   - ¬øTienen las palabras el mismo significado sem√°ntico?
   - ¬øUn usuario que busque una palabra estar√≠a interesado en resultados de la otra?
   - ¬øQu√© impacto tendr√≠a en la precisi√≥n vs recall del sistema?

**Reflexiona:** ¬øC√≥mo podr√≠a este comportamiento del stemmer afectar la experiencia del usuario final en las b√∫squedas?

---

### EJERCICIO PR√ÅCTICO 2: Optimizaci√≥n de Intersecci√≥n de Posting Lists

**Situaci√≥n:** Tu motor de b√∫squeda debe procesar una consulta de dos t√©rminos que requiere intersecci√≥n de posting lists. Has implementado tanto posting lists est√°ndar como posting lists con skip pointers.

**Datos del problema:**
- **T√©rmino A** tiene una posting list con 16 entradas:  
  `[4, 6, 10, 12, 14, 16, 18, 20, 22, 32, 47, 81, 120, 122, 157, 180]`
  
- **T√©rmino B** tiene una posting list con 1 entrada:  
  `[47]`

**Tu tarea:**
1. **Calcula las comparaciones** necesarias para intersectar estas listas usando:
   - a) Posting lists est√°ndar (sin skip pointers)
   - b) Posting lists con skip pointers (usando longitud de salto sugerida de ‚àöP, donde P es el tama√±o de la lista)

2. **Justifica tus c√°lculos** paso a paso.

3. **Analiza el resultado:** 
   - ¬øCu√°ndo son m√°s efectivos los skip pointers? 
   - ¬øQu√© pasa cuando una lista es muy peque√±a comparada con la otra?
   - ¬øEn qu√© escenarios los skip pointers no ofrecen ventajas?

**Bonus:** ¬øC√≥mo cambiar√≠an los c√°lculos si ambas listas tuvieran tama√±os similares y grandes?