Nombre: Wilson Inga 

# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [44]:
def resultados(documento, query):
 
    print(f"Buscando '{query}' en el documento '{documento}'\n")
    resultados = []
    # Abrir el archivo en modo lectura
    with open(documento, 'r', encoding='utf-8') as file:
        for indice, linea in enumerate(file, 1): 
            if query in linea:
                resultados.append(indice)
                print(f"Encontrada en la linea {indice}: {linea.strip()}")
    # Cerrar el archivo
    if resultados:
        print(f"\nTotal de ocurrencias: {len(resultados)}")
    else:
        print(f"La palabra '{query}' no se encontró en el archivo.")
    # Devolver la lista de resultados
    return resultados

# Definir la dirección del archivo y la palabra a buscar
direccion = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
query = 'feriado'
busquedaPalabra = resultados(direccion, query)

Buscando 'feriado' en el documento 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'

Encontrada en la linea 12: En el feriado, muchos ecuatorianos visitan la Amazonía para conocer comunidades indígenas y cascadas.
Encontrada en la linea 14: Los turistas disfrutan en el feriado de las fiestas locales y de la gastronomía típica de cada región.
Encontrada en la linea 16: Montañita se llena de surfistas y viajeros jóvenes durante los feriados nacionales.

Total de ocurrencias: 3


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [45]:
from collections import defaultdict

def indiceInvertido(archivo):
 # Crear un indice invertido a partir del archivo de texto
    print(f"Creando índice invertido para el archivo '{archivo}'...\n")
    indice = defaultdict(list)
    
    with open(archivo, 'r', encoding='utf-8') as f:
        for num_linea, linea in enumerate(f, 1):
            palabras = set(palabra.strip('.,!?"()') for palabra in linea.split())
            for palabra in palabras:
                if palabra:
                    indice[palabra].append(num_linea)
    return indice

def busquedaPalabra(indice, palabras_a_buscar):

    if not indice:
        print("No se puede realizar la búsqueda: índice no disponible")
        return

    for palabra in palabras_a_buscar:
        lineas = indice.get(palabra, [])
        if lineas:
            print(f"'{palabra}' aparece en las siguientes líneas: {', '.join(map(str, lineas))}")
        else:
            print(f"'{palabra}' no encontrada en el archivo")


archivo = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo_500.txt'
palabras_a_buscar = ['turismo']

indice = indiceInvertido(archivo)
busquedaPalabra(indice, palabras_a_buscar)

Creando índice invertido para el archivo 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo_500.txt'...

'turismo' aparece en las siguientes líneas: 5, 22, 30, 37, 41, 45, 76, 109, 110, 122, 127, 130, 156, 163, 168, 200, 225, 231, 246, 254, 258, 280, 307, 319, 324, 333, 352, 371, 379, 383, 386, 442, 459, 486, 491, 492


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [49]:
import time
from collections import defaultdict

# Función para búsqueda lineal
def busqueda_lineal(archivo, palabras):
    resultados = {}
    with open(archivo, 'r', encoding='utf-8') as file:
        lineas = file.readlines()
        for palabra in palabras:
            encontrados = []
            for indice, linea in enumerate(lineas, 1):
                if palabra in linea:
                    encontrados.append(indice)
            resultados[palabra] = encontrados
    return resultados

# Función para crear índice invertido
def crear_indice_invertido(archivo):
    indice = defaultdict(list)
    with open(archivo, 'r', encoding='utf-8') as f:
        for num_linea, linea in enumerate(f, 1):
            palabras = set(palabra.strip('.,!?"()') for palabra in linea.split())
            for palabra in palabras:
                if palabra:
                    indice[palabra].append(num_linea)
    return indice

# Función para búsqueda usando índice invertido
def busqueda_con_indice(indice, palabras):
    resultados = {}
    for palabra in palabras:
        resultados[palabra] = indice.get(palabra, [])
    return resultados

# Función para medir tiempos
def medir_tiempos(archivo, palabras):
    # Búsqueda lineal
    inicio_lineal = time.time()
    resultados_lineal = busqueda_lineal(archivo, palabras)
    fin_lineal = time.time()
    tiempo_lineal = fin_lineal - inicio_lineal

    # Búsqueda con índice invertido
    inicio_indice = time.time()
    indice = crear_indice_invertido(archivo)
    resultados_indice = busqueda_con_indice(indice, palabras)
    fin_indice = time.time()
    tiempo_indice = fin_indice - inicio_indice

    # Mostrar resultados
    print(f"\nResultados para archivo '{archivo}':\n")
    print("Búsqueda lineal:")
    for palabra, lineas in resultados_lineal.items():
        print(f"{palabra}: {len(lineas)} ocurrencias")

    print("\nBúsqueda con índice invertido:")
    for palabra, lineas in resultados_indice.items():
        print(f"{palabra}: {len(lineas)} ocurrencias")

    # Tabla comparativa de tiempos
    print("\nTiempos de ejecución:")
    print(f"{'Método':<25}{'Tiempo (segundos)':>20}")
    print(f"{'-'*45}")
    print(f"{'Búsqueda lineal':<25}{tiempo_lineal:>20.6f}")
    print(f"{'Búsqueda con índice':<25}{tiempo_indice:>20.6f}")

# Datos
palabras_a_buscar = ['quito', 'montañita', 'feriado', 'playas', 'aventura', 'galápagos']

# Corpus pequeño y grande
archivo_pequeno = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt'
archivo_grande = 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo_500.txt'

# Medir tiempos para corpus pequeño
print("\n--- CORPUS PEQUEÑO (16 documentos) ---")
medir_tiempos(archivo_pequeno, palabras_a_buscar)

# Medir tiempos para corpus grande
print("\n--- CORPUS GRANDE (500 documentos) ---")
medir_tiempos(archivo_grande, palabras_a_buscar)



--- CORPUS PEQUEÑO (16 documentos) ---

Resultados para archivo 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo.txt':

Búsqueda lineal:
quito: 0 ocurrencias
montañita: 0 ocurrencias
feriado: 3 ocurrencias
playas: 3 ocurrencias
aventura: 1 ocurrencias
galápagos: 0 ocurrencias

Búsqueda con índice invertido:
quito: 0 ocurrencias
montañita: 0 ocurrencias
feriado: 2 ocurrencias
playas: 3 ocurrencias
aventura: 1 ocurrencias
galápagos: 0 ocurrencias

Tiempos de ejecución:
Método                      Tiempo (segundos)
---------------------------------------------
Búsqueda lineal                      0.001985
Búsqueda con índice                  0.000000

--- CORPUS GRANDE (500 documentos) ---

Resultados para archivo 'c:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo_500.txt':

Búsqueda lineal:
quito: 0 ocurrencias
montañita: 0 ocurrencias
feriado: 160 ocurrencias
playas: 47 ocurrencias
aventura: 32 ocurrencias
galápagos: 0 ocurrencias

Búsqueda con índ

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [1]:
import time
from collections import defaultdict

DOCUMENTOS = ["C:/Users/wil_s/Documentos/GitHub/2025A/ir25a/data/01_corpus_turismo_500.txt"]
PALABRAS = ["Guayas", "guayaquil", "informe"]

def busqueda_lineal(documentos, palabra):
    resultados = []
    palabra = palabra.lower()
    for doc in documentos:
        with open(doc, 'r', encoding='utf-8') as f:
            if palabra in f.read().lower():
                resultados.append(doc)
    return resultados

def construir_indice(documentos):
    indice = defaultdict(list)
    for doc in documentos:
        with open(doc, 'r', encoding='utf-8') as f:
            contenido = f.read().lower()
            for palabra in set(contenido.split()):
                indice[palabra].append(doc)
    return indice

def comparar_metodos():
    print("\nComparación de métodos de búsqueda:\n")

    # Construimos índice
    inicio_indice = time.perf_counter()
    indice = construir_indice(DOCUMENTOS)

    # Cabecera
    print("{:<12} | {:<15} | {:<15} | {:<10}".format("Palabra", "Búsqueda Lineal", "Índice Invertido", "Speedup"))
    print("-" * 62)

    for palabra in PALABRAS:
        # Búsqueda lineal
        inicio = time.perf_counter()
        _ = busqueda_lineal(DOCUMENTOS, palabra)
        tiempo_lineal = time.perf_counter() - inicio

        # Búsqueda con índice
        inicio = time.perf_counter()
        _ = indice.get(palabra.lower(), [])
        tiempo_indice = time.perf_counter() - inicio

        speedup = tiempo_lineal / tiempo_indice if tiempo_indice > 0 else float('inf')

        print("{:<12} | {:<15.6f} | {:<15.6f} | {:<10.1f}".format(
            palabra, tiempo_lineal, tiempo_indice, speedup
        ))

comparar_metodos()




Comparación de métodos de búsqueda:

Palabra      | Búsqueda Lineal | Índice Invertido | Speedup   
--------------------------------------------------------------
Guayas       | 0.000767        | 0.000003        | 232.5     
guayaquil    | 0.000600        | 0.000003        | 222.0     
informe      | 0.000562        | 0.000002        | 267.5     
