# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [None]:
import os


def buscar_palabra_en_documentos(directorio, palabra_buscada):
    documentos_encontrados = []

    for archivo in os.listdir(directorio):
        if archivo.endswith(".txt"): 
            ruta_archivo = os.path.join(directorio, archivo)
            with open(ruta_archivo, 'r') as f:
                contenido = f.read()
                if palabra_buscada in contenido:
                    documentos_encontrados.append(archivo)

    # Mostramos los resultados
    if documentos_encontrados:
        print(f"La palabra '{palabra_buscada}' se encontró en los siguientes documentos:")
        for doc in documentos_encontrados:
            print(f"- {doc}")
    else:
        print(f"La palabra '{palabra_buscada}' no se encontró en ningún documento.")


directorio = r"C:\Users\ELI\Documents\RecInformación\ir25a-main\data"
palabra = "ecuador"
buscar_palabra_en_documentos(directorio, palabra)

La palabra 'ecuador' no se encontró en ningún documento.


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [20]:
import os
from collections import defaultdict

def construir_indice_invertido_con_frecuencia(directorio):
    indice_invertido = defaultdict(dict)

    for archivo in os.listdir(directorio):
        if archivo.endswith(".txt"): 
            ruta_archivo = os.path.join(directorio, archivo)
            with open(ruta_archivo, 'r') as f:
                contenido = f.read()
                palabras = contenido.split()
                for palabra in palabras:
                    if archivo not in indice_invertido[palabra]:
                        indice_invertido[palabra][archivo] = 0
                    indice_invertido[palabra][archivo] += 1

    return indice_invertido

def buscar_en_indice_con_frecuencia(indice_invertido, palabra_buscada):
    documentos = indice_invertido.get(palabra_buscada, {})

    if documentos:
        print(f"La palabra '{palabra_buscada}' se encontró en los siguientes documentos:")
        for doc, frecuencia in documentos.items():
            print(f"- {doc}: {frecuencia} veces")
    else:
        print(f"La palabra '{palabra_buscada}' no se encontró en ningún documento.")


directorio = r"C:\Users\ELI\Documents\RecInformación\ir25a-main\data"
indice = construir_indice_invertido_con_frecuencia(directorio)

print("Índice invertido construido con frecuencia de palabras.")
palabra = "cotopaxi"
buscar_en_indice_con_frecuencia(indice, palabra)

Índice invertido construido con frecuencia de palabras.
La palabra 'cotopaxi' no se encontró en ningún documento.


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [27]:
import os
import time
from collections import defaultdict

# Búsqueda lineal
def buscar_lineal(archivo, palabra):
    encontrados = 0
    with open(archivo, 'r', encoding='utf-8') as f:
        contenido = f.read()
        encontrados = contenido.count(palabra.lower())
    return encontrados

# Construcción del índice invertido
def construir_indice(archivo):
    indice = defaultdict(int)
    with open(archivo, 'r', encoding='utf-8') as f:
        contenido = f.read()
        for palabra in contenido.split():
            indice[palabra] += 1
    return indice

# Búsqueda con índice invertido
def buscar_con_indice(indice, palabra):
    return indice.get(palabra, 0)

# Evaluación de tiempos
def evaluar_tiempos(archivos, palabras):
    for archivo in archivos:
        print(f"\nEvaluando archivo: {archivo}")
        
        # Construcción del índice
        inicio = time.time()
        indice = construir_indice(archivo)
        tiempo_indice = time.time() - inicio

        print(f"Índice construido en {tiempo_indice:.4f} segundos.\n")
        print(f"{'Palabra':<15}{'Lineal (s)':<15}{'Índice (s)':<15}{'Ocurrencias':<15}")
        print("-" * 60)

        for palabra in palabras:
            # Tiempo de búsqueda lineal
            inicio = time.time()
            ocurrencias_lineal = buscar_lineal(archivo, palabra)
            tiempo_lineal = time.time() - inicio

            # Tiempo de búsqueda con índice
            inicio = time.time()
            ocurrencias_indice = buscar_con_indice(indice, palabra)
            tiempo_indice_busqueda = time.time() - inicio

            print(f"{palabra:<15}{tiempo_lineal:<15.6f}{tiempo_indice_busqueda:<15.6f}{ocurrencias_lineal:<15}")

# Archivos y palabras a buscar
archivos = [
    r"C:\Users\ELI\Documents\RecInformación\ir25a-main\data\01_corpus_turismo_500.txt",
    r"C:\Users\ELI\Documents\RecInformación\ir25a-main\data\01_corpus_turismo.txt"
]
palabras = ["quito", "montañita", "feriado", "playas", "aventura", "galápagos"]

# Ejecutar evaluación
evaluar_tiempos(archivos, palabras)


Evaluando archivo: C:\Users\ELI\Documents\RecInformación\ir25a-main\data\01_corpus_turismo_500.txt
Índice construido en 0.0046 segundos.

Palabra        Lineal (s)     Índice (s)     Ocurrencias    
------------------------------------------------------------
quito          0.000759       0.000005       0              
montañita      0.000644       0.000003       0              
feriado        0.000520       0.000002       172            
playas         0.000503       0.000002       47             
aventura       0.000576       0.000003       32             
galápagos      0.000515       0.000002       0              

Evaluando archivo: C:\Users\ELI\Documents\RecInformación\ir25a-main\data\01_corpus_turismo.txt
Índice construido en 0.0007 segundos.

Palabra        Lineal (s)     Índice (s)     Ocurrencias    
------------------------------------------------------------
quito          0.000494       0.000003       0              
montañita      0.000392       0.000002       0         

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [None]:
import os
import time
from collections import defaultdict

# Construcción del índice invertido (ignora mayúsculas/minúsculas)
def construir_indice(directorio):
    indice = defaultdict(set)
    for archivo in os.listdir(directorio):
        if archivo.endswith(".txt"):
            with open(os.path.join(directorio, archivo), 'r', encoding='utf-8') as f:
                contenido = f.read().lower()  # Convertir a minúsculas
                for palabra in set(contenido.split()):
                    indice[palabra].add(archivo)
    return indice

# Búsqueda de múltiples términos en el índice invertido
def buscar_multiples_terminos(indice, terminos):
    terminos = [termino.lower() for termino in terminos]  # Convertir términos a minúsculas
    documentos = [indice.get(termino, set()) for termino in terminos]
    documentos_comunes = set.intersection(*documentos) if documentos else set()
    return documentos_comunes

# Evaluación de tiempos y cálculo del speedup
def evaluar_speedup(directorio, terminos):
    # Construcción del índice invertido
    inicio_indice = time.time()
    indice = construir_indice(directorio)
    tiempo_construccion = time.time() - inicio_indice

    print(f"Índice construido en {tiempo_construccion:.4f} segundos.\n")

    # Búsqueda lineal
    inicio_lineal = time.time()
    documentos_lineales = set()
    for archivo in os.listdir(directorio):
        if archivo.endswith(".txt"):
            with open(os.path.join(directorio, archivo), 'r', encoding='utf-8') as f:
                contenido = f.read().lower()
                if all(termino in contenido for termino in terminos):
                    documentos_lineales.add(archivo)
    tiempo_lineal = time.time() - inicio_lineal

    # Búsqueda con índice invertido
    inicio_indice_busqueda = time.time()
    documentos_indice = buscar_multiples_terminos(indice, terminos)
    tiempo_indice_busqueda = time.time() - inicio_indice_busqueda

    speedup = tiempo_lineal / tiempo_indice_busqueda if tiempo_indice_busqueda > 0 else float('inf')

    print('Palabras a buscar:', terminos)
    print(f"{'Método':<20}{'Tiempo (s)':<15}{'Documentos encontrados'}")
    print("-" * 50)
    print(f"{'Búsqueda lineal':<20}{tiempo_lineal:<15.6f}{documentos_lineales}")
    print(f"{'Búsqueda con índice':<20}{tiempo_indice_busqueda:<15.6f}{documentos_indice}")
    print(f"\nSpeedup: {speedup:.2f}x")

directorio = r"C:\Users\ELI\Documents\RecInformación\ir25a-main\data"
terminos = ["playa", "turismo"]

evaluar_speedup(directorio, terminos)

Índice construido en 0.0066 segundos.

Palabras a buscar: ['playa', 'turismo']
Método              Tiempo (s)     Documentos encontrados
--------------------------------------------------
Búsqueda lineal     0.003300       {'01_corpus_turismo.txt', '01_corpus_turismo_500.txt'}
Búsqueda con índice 0.000028       set()

Speedup: 116.30x
