Nombre: Wilson Inga 

# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [None]:
def resultados(documento, query):
 
    print(f"Buscando '{query}' en el documento '{documento}'\n")
    resultados = []
    # Abrir el archivo en modo lectura
    with open(documento, 'r', encoding='utf-8') as file:
        for indice, linea in enumerate(file, 1): 
            if query in linea:
                resultados.append(indice)
                print(f"Encontrada en la linea {indice}: {linea.strip()}")
    # Cerrar el archivo
    if resultados:
        print(f"\nTotal de ocurrencias: {len(resultados)}")
    else:
        print(f"La palabra '{query}' no se encontró en el archivo.")
    # Devolver la lista de resultados
    return resultados

# Definir la dirección del archivo y la palabra a buscar
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
query = 'feriado'
busquedaPalabra = resultados(direccion, query)

Buscando 'feriado' en el documento 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'

Encontrada en la línea 12: En el feriado, muchos ecuatorianos visitan la Amazonía para conocer comunidades indígenas y cascadas.
Encontrada en la línea 14: Los turistas disfrutan en el feriado de las fiestas locales y de la gastronomía típica de cada región.
Encontrada en la línea 16: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales.

Total de ocurrencias: 3
Líneas: 12, 14, 16


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [42]:
from collections import defaultdict

def indiceInvertido(archivo):
 # Crear un índice invertido a partir del archivo de texto
    print(f"Creando índice invertido para el archivo '{archivo}'...\n")
    indice = defaultdict(list)
    
    with open(archivo, 'r', encoding='utf-8') as f:
        for num_linea, linea in enumerate(f, 1):
            palabras = set(palabra.strip('.,!?"()') for palabra in linea.split())
            for palabra in palabras:
                if palabra:
                    indice[palabra].append(num_linea)
    return indice

def busquedaPalabra(indice, palabras_a_buscar):

    if not indice:
        print("No se puede realizar la búsqueda: índice no disponible")
        return

    for palabra in palabras_a_buscar:
        lineas = indice.get(palabra, [])
        if lineas:
            print(f"'{palabra}' aparece en las siguientes líneas: {', '.join(map(str, lineas))}")
        else:
            print(f"'{palabra}' no encontrada en el archivo")


archivo = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
palabras_a_buscar = ['turismo']

indice = indiceInvertido(archivo)
busquedaPalabra(indice, palabras_a_buscar)

Creando índice invertido para el archivo 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'...

'turismo' aparece en las siguientes líneas: 1


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_