# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [9]:
nombre_archivo = "01_corpus_turismo.txt"
palabra_buscar = "Ecuador"
def find(palabra_buscar):
    try:
        # Abrir y leer el archivo línea por línea
        with open(nombre_archivo, "r", encoding="utf-8") as archivo:
            lineas = archivo.readlines()

        # Lista para almacenar los resultados
        resultados = []
        conteo_total = 0

        # Buscar la palabra definida en cada línea y acumular resultados
        for numero_linea, linea in enumerate(lineas, start=1):
            apariciones_linea = linea.lower().count(palabra_buscar.lower())
            if apariciones_linea > 0:
                resultados.append({
                    "documento": numero_linea,
                    "apariciones": apariciones_linea
                })
                conteo_total += apariciones_linea

        # Imprimir los resultados en la terminal
        if resultados:
            print(f"La palabra '{palabra_buscar}' se encontró un total de {conteo_total} veces en el archivo.")
            print("Detalles de las apariciones:")
            for resultado in resultados:
                print(f"- Documento {resultado['documento']} (Apariciones: {resultado['apariciones']})")
        else:
            print(f"La palabra '{palabra_buscar}' no se encontró en el documento.")

        

    except FileNotFoundError:
        print(f"El archivo '{nombre_archivo}' no fue encontrado.")

## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [15]:
with open('01_corpus_turismo.txt', 'r', encoding='utf-8') as archivo:
    # Lee todas las líneas del archivo
    lineas = archivo.readlines()

# Usamos un conjunto (set) para almacenar las palabras sin duplicados
diccionario = set()

# Recorre cada línea del archivo
for linea in lineas:
    # Divide la línea en palabras usando el espacio como separador
    palabras_linea = linea.split()
    # Agrega las palabras de la línea al conjunto
    diccionario.update(palabras_linea)


# Nombre del archivo donde buscar
nombre_archivo = "01_corpus_turismo.txt"

# Iterar sobre cada palabra en el diccionario y usar find
for word in diccionario:
    resultado = find(word)
    if resultado:
        print(f"\nResultados para la palabra '{word}':")
        print(resultado["resultados"])
        print(f"Conteo total: {resultado['conteo_total']}")

La palabra 'cráter.' se encontró un total de 1 veces en el archivo.
Detalles de las apariciones:
- Documento 11 (Apariciones: 1)
La palabra 'la' se encontró un total de 22 veces en el archivo.
Detalles de las apariciones:
- Documento 1 (Apariciones: 1)
- Documento 2 (Apariciones: 2)
- Documento 3 (Apariciones: 4)
- Documento 5 (Apariciones: 2)
- Documento 8 (Apariciones: 1)
- Documento 9 (Apariciones: 2)
- Documento 10 (Apariciones: 2)
- Documento 11 (Apariciones: 2)
- Documento 12 (Apariciones: 1)
- Documento 13 (Apariciones: 1)
- Documento 14 (Apariciones: 2)
- Documento 15 (Apariciones: 2)
La palabra 'como' se encontró un total de 3 veces en el archivo.
Detalles de las apariciones:
- Documento 4 (Apariciones: 1)
- Documento 5 (Apariciones: 1)
- Documento 15 (Apariciones: 1)
La palabra 'centro' se encontró un total de 1 veces en el archivo.
Detalles de las apariciones:
- Documento 3 (Apariciones: 1)
La palabra 'con' se encontró un total de 8 veces en el archivo.
Detalles de las apari

## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_