**NOMBRE: Andrés Fernando Jiménez**

# Ejercicio 1: Introducción a Recuperación de Información

## Objetivo de la práctica
- Entender el problema de **buscar información** en colecciones de texto.
- Comprender por qué se necesita un **índice invertido** en recuperación de información.
- Programar una primera solución manual y luego optimizarla con un índice.
- Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.

## Parte 1: Búsqueda lineal en documentos

### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
   - Lea todos los documentos.
   - Busque una palabra ingresada por el usuario.
   - Muestre en qué documentos aparece la palabra.

In [2]:
import os

corpus_lineal = '/kaggle/input/corpus-turismo-txt/01_corpus_turismo.txt'

with open(corpus_lineal, 'r', encoding='utf-8') as f:
    documento = f.readlines()

def buscar_palabras(documento, palabra):
    encontrado = False
    for i, linea in enumerate(documento, start=1):
        if palabra in linea:
            print(f"La palabra '{palabra}' se encontró en el documento {i}.")
            encontrado = True
    if not encontrado:
        print(f"La palabra '{palabra}' no se encontró en el documento.")

if __name__ == "__main__":
    palabra_usuario = input("Ingresa la palabra que deseas buscar: ").strip()
    buscar_palabras(documento, palabra_usuario)


Ingresa la palabra que deseas buscar:  quito


La palabra 'quito' no se encontró en el documento.


## Parte 2: Construcción de un índice invertido

### Actividad
1. Escribe un programa que:
   - Recorra todos los documentos.
   - Construya un **índice invertido**, es decir, un diccionario donde:
     - Cada palabra clave apunta a una lista de documentos donde aparece.

2. Escribe una nueva función de búsqueda que:
   - Consulte directamente el índice para encontrar los documentos relevantes.
   - Sea mucho más rápida que la búsqueda lineal.

In [3]:
import os
import re

corpus_indice = '/kaggle/input/corpus-500/01_corpus_turismo_500.txt'

with open(corpus_indice, 'r', encoding='utf-8') as f:
    documento = f.readlines()

indice_invertido = {}

for i, linea in enumerate(documento, start=1):
    palabras = re.findall(r'\b\w+\b', linea)
    for palabra in set(palabras):
        if palabra not in indice_invertido:
            indice_invertido[palabra] = []
        indice_invertido[palabra].append(i)

def buscar_palabra(palabra):
    palabra = palabra.strip()
    if palabra in indice_invertido:
        lineas = indice_invertido[palabra]
        for linea in lineas:
            print(f"La palabra '{palabra}' se encontró en la línea {linea}.")
    else:
        print(f"La palabra '{palabra}' no se encontró en el documento.")

if __name__ == "__main__":
    palabra_usuario = input("Ingresa la palabra que deseas buscar: ")
    buscar_palabra(palabra_usuario)


Ingresa la palabra que deseas buscar:  ecuador


La palabra 'ecuador' no se encontró en el documento.


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad

1. Realiza la búsqueda de varias palabras usando:
      -  Corpus pequeño: 16 documentos (turismo en Ecuador).
      -  Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
      -  Para búsqueda lineal.
      -  Para búsqueda usando índice invertido.
      -  Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
- quito
- montañita
- feriado
- playas
- aventura
- galápagos

In [24]:
import os
import re
import time

corpus_lineal = '/kaggle/input/corpus-turismo-txt/01_corpus_turismo.txt'

with open(corpus_lineal, 'r', encoding='utf-8') as f:
    documento_lineal = f.readlines()

corpus_indice = '/kaggle/input/corpus-500/01_corpus_turismo_500.txt'

with open(corpus_indice, 'r', encoding='utf-8') as f:
    documento_indice = f.readlines()

indice_invertido = {}

for i, linea in enumerate(documento_indice, start=1):
    palabras = re.findall(r'\b\w+\b', linea)
    for palabra in set(palabras):
        if palabra not in indice_invertido:
            indice_invertido[palabra] = []
        indice_invertido[palabra].append(i)

def buscar_palabras(documento, palabra):
    encontrado = False
    for i, linea in enumerate(documento, start=1):
        if palabra in linea:
            print(f"La palabra '{palabra}' se encontró en el documento {i}.")
            encontrado = True
    if not encontrado:
        print(f"La palabra '{palabra}' no se encontró en el documento.")

def buscar_palabra(indice_invertido, palabra):
    palabra = palabra.strip()
    if palabra in indice_invertido:
        lineas = indice_invertido[palabra]
        for linea in lineas:
            print(f"La palabra '{palabra}' se encontró en la línea {linea}.")
    else:
        print(f"La palabra '{palabra}' no se encontró en el documento.")

def medir_tiempo(func, *args):
    inicio = time.time()
    func(*args)
    fin = time.time()
    return fin - inicio 

if __name__ == "__main__":
    palabra_usuario = input("Ingresa la palabra que deseas buscar: ").strip()

    print("Busqueda Lineal")
    medir_tiempo(buscar_palabras, documento_lineal, palabra_usuario)

    print("Búsqueda con Índice Invertido")
    medir_tiempo(buscar_palabra, indice_invertido, palabra_usuario)


Ingresa la palabra que deseas buscar:  Quito


Busqueda Lineal
La palabra 'Quito' se encontró en el documento 3.
Búsqueda con Índice Invertido
La palabra 'Quito' se encontró en la línea 4.
La palabra 'Quito' se encontró en la línea 16.
La palabra 'Quito' se encontró en la línea 17.
La palabra 'Quito' se encontró en la línea 39.
La palabra 'Quito' se encontró en la línea 43.
La palabra 'Quito' se encontró en la línea 73.
La palabra 'Quito' se encontró en la línea 75.
La palabra 'Quito' se encontró en la línea 89.
La palabra 'Quito' se encontró en la línea 104.
La palabra 'Quito' se encontró en la línea 136.
La palabra 'Quito' se encontró en la línea 201.
La palabra 'Quito' se encontró en la línea 213.
La palabra 'Quito' se encontró en la línea 238.
La palabra 'Quito' se encontró en la línea 260.
La palabra 'Quito' se encontró en la línea 291.
La palabra 'Quito' se encontró en la línea 325.
La palabra 'Quito' se encontró en la línea 355.
La palabra 'Quito' se encontró en la línea 391.
La palabra 'Quito' se encontró en la línea 469.
L

In [22]:
if __name__ == "__main__":
    palabra_usuario = input("Ingresa la palabra que deseas buscar: ").strip()

    print("Busqueda Lineal")
    tiempo_lineal = medir_tiempo(buscar_palabras, documento_lineal, palabra_usuario)

    print("Búsqueda con Índice Invertido")
    tiempo_indice = medir_tiempo(buscar_palabra, indice_invertido, palabra_usuario)

    # Tabla comparativa
    print("\n--- Comparativa de Tiempos de Ejecución ---")
    print(f"{'Método':<35}{'Tiempo (segundos)':>20}")
    print("-" * 55)
    print(f"{'Búsqueda Lineal':<35}{tiempo_lineal:.6f}")
    print(f"{'Búsqueda por Índice Invertido':<35}{tiempo_indice:.6f}")

Ingresa la palabra que deseas buscar:  Quito


Busqueda Lineal
La palabra 'Quito' se encontró en el documento 3.
Búsqueda con Índice Invertido
La palabra 'Quito' se encontró en la línea 4.
La palabra 'Quito' se encontró en la línea 16.
La palabra 'Quito' se encontró en la línea 17.
La palabra 'Quito' se encontró en la línea 39.
La palabra 'Quito' se encontró en la línea 43.
La palabra 'Quito' se encontró en la línea 73.
La palabra 'Quito' se encontró en la línea 75.
La palabra 'Quito' se encontró en la línea 89.
La palabra 'Quito' se encontró en la línea 104.
La palabra 'Quito' se encontró en la línea 136.
La palabra 'Quito' se encontró en la línea 201.
La palabra 'Quito' se encontró en la línea 213.
La palabra 'Quito' se encontró en la línea 238.
La palabra 'Quito' se encontró en la línea 260.
La palabra 'Quito' se encontró en la línea 291.
La palabra 'Quito' se encontró en la línea 325.
La palabra 'Quito' se encontró en la línea 355.
La palabra 'Quito' se encontró en la línea 391.
La palabra 'Quito' se encontró en la línea 469.
L

## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [26]:
import os
import re
import time

corpus_indice = '/kaggle/input/corpus-500/01_corpus_turismo_500.txt'

with open(corpus_indice, 'r', encoding='utf-8') as f:
    documento = f.readlines()

indice_invertido = {}

for i, linea in enumerate(documento, start=1):
    palabras = re.findall(r'\b\w+\b', linea.lower())
    for palabra in set(palabras):
        if palabra not in indice_invertido:
            indice_invertido[palabra] = []
        indice_invertido[palabra].append(i)

def buscar_palabras_indice(palabras):
    palabras = [p.strip().lower() for p in palabras]
    documentos_encontrados = None
    for palabra in palabras:
        if palabra in indice_invertido:
            lineas = set(indice_invertido[palabra])
            if documentos_encontrados is None:
                documentos_encontrados = lineas
            else:
                documentos_encontrados &= lineas
        else:
            documentos_encontrados = set()
            break
    if documentos_encontrados:
        for linea in sorted(documentos_encontrados):
            print(f"Las palabras '{' '.join(palabras)}' se encontraron en el documento {linea}.")
    else:
        print(f"Las palabras '{' '.join(palabras)}' no se encontraron juntas en ningun documento.")

def buscar_palabras_lineal(documento, palabras):
    palabras = [p.strip().lower() for p in palabras]
    encontrado = False
    for i, linea in enumerate(documento, start=1):
        linea_baja = linea.lower()
        if all(palabra in linea_baja for palabra in palabras):
            print(f"Las palabras '{' '.join(palabras)}' se encontraron en el documento{i}.")
            encontrado = True
    if not encontrado:
        print(f"Las palabras '{' '.join(palabras)}' no se encontraron juntas en ningun documento.")

def medir_tiempo(func, *args):
    inicio = time.time()
    func(*args)
    fin = time.time()
    return fin - inicio

if __name__ == "__main__":
    entrada = input("Ingresa las palabras que deseas buscar: ").strip()
    palabras_usuario = entrada.split()

    print("--- Búsqueda Lineal ---")
    tiempo_lineal = medir_tiempo(buscar_palabras_lineal, documento, palabras_usuario)

    print("--- Búsqueda con Índice Invertido ---")
    tiempo_indice = medir_tiempo(buscar_palabras_indice, palabras_usuario)

    if tiempo_indice > 0:
        speedup = tiempo_lineal / tiempo_indice
    else:
        speedup = float('inf')

    print("\n--- Comparativa de Tiempos ---")
    print(f"{'Método':<35}{'Tiempo (segundos)':>20}")
    print("-" * 55)
    print(f"{'Búsqueda Lineal':<35}{tiempo_lineal:>20.6f}")
    print(f"{'Búsqueda por Índice Invertido':<35}{tiempo_indice:>20.6f}")

    print("--- Speedup ---")
    print(f"El índice invertido es aproximadamente {speedup:.2f} veces más rápido que la búsqueda lineal.")


Ingresa las palabras que deseas buscar:  playa quito


--- Búsqueda Lineal ---
Las palabras 'playa quito' no se encontraron juntas en ningun documento.
--- Búsqueda con Índice Invertido ---
Las palabras 'playa quito' no se encontraron juntas en ningun documento.

--- Comparativa de Tiempos ---
Método                                Tiempo (segundos)
-------------------------------------------------------
Búsqueda Lineal                                0.000898
Búsqueda por Índice Invertido                  0.000013
--- Speedup ---
El índice invertido es aproximadamente 68.47 veces más rápido que la búsqueda lineal.
