# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [3]:
import os

search_word = "Quito"
DATASET_PATH = "../data"

def find(query: str) -> list:
    results=[]
    files = [f for f in os.listdir(DATASET_PATH)]
    
    for corpus in files:
        corpus_path = os.path.join(DATASET_PATH, corpus)
        
        with open(corpus_path, 'r', encoding='utf-8') as corpus:
            for doc in corpus:  
                if search_word in doc.split():
                    results.append(doc.strip())


    return results

results = find(search_word)
        
if not results:
    print(f"No matches found for '{search_word}'.")

else:
    print(results)

['La ciudad de Quito cuenta con un centro histórico declarado Patrimonio de la Humanidad por la UNESCO.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Un lugar sorprendente para visitar.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para rafting.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para senderismo.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.', 'Quito tiene un centro histórico Patrimonio de la Humanidad', 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.', 'Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.', 'Quito tiene un centro histórico

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_