## Ejercicio 1: Introducción a Recuperación de Información
### Objetivo de la práctica
* Entender el problema de buscar información en colecciones de texto.
* Comprender por qué se necesita un índice invertido en recuperación de información.
* Programar una primera solución manual y luego optimizarla con un índice.
* Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.
##Parte 1: Búsqueda lineal en documentos
### Actividad
Se te proporcionará un conjunto de documentos de texto.
Escribe una función que:
* Lea todos los documentos.
* Busque una palabra ingresada por el usuario.
* Muestre en qué documentos aparece la palabra.


In [6]:
def buscar_palabra_en_corpus(archivo, palabra_buscar, mostrar_lineas=False):

    with open(archivo, 'r') as file:
            lineas = file.readlines()
    resultados = []

    print(f"\nBuscando la palabra '{palabra_buscar}' en {archivo}...\n")

    for num_linea, linea in enumerate(lineas, 1):
        if palabra_buscar in linea:
            resultados.append(num_linea)
            print(f"Encontrada en línea {num_linea}")

    if not resultados:
        print(f"La palabra '{palabra_buscar}' no se encontró en el corpus")
    else:
        print(f"\nTotal de ocurrencias: {len(resultados)}")

    print("\nBúsqueda completada.")
    return resultados


ARCHIVO = '01_corpus_turismo_500.txt'
QUERY = 'Ecuador'
resultados = buscar_palabra_en_corpus(ARCHIVO, QUERY, mostrar_lineas=True)


Buscando la palabra 'Ecuador' en 01_corpus_turismo_500.txt...

Encontrada en línea 5
Encontrada en línea 22
Encontrada en línea 30
Encontrada en línea 37
Encontrada en línea 41
Encontrada en línea 45
Encontrada en línea 76
Encontrada en línea 109
Encontrada en línea 110
Encontrada en línea 122
Encontrada en línea 127
Encontrada en línea 130
Encontrada en línea 156
Encontrada en línea 163
Encontrada en línea 168
Encontrada en línea 200
Encontrada en línea 225
Encontrada en línea 231
Encontrada en línea 246
Encontrada en línea 254
Encontrada en línea 258
Encontrada en línea 280
Encontrada en línea 307
Encontrada en línea 319
Encontrada en línea 324
Encontrada en línea 333
Encontrada en línea 352
Encontrada en línea 371
Encontrada en línea 379
Encontrada en línea 383
Encontrada en línea 386
Encontrada en línea 442
Encontrada en línea 459
Encontrada en línea 486
Encontrada en línea 491
Encontrada en línea 492

Total de ocurrencias: 36

Búsqueda completada.


##Parte 2: Construcción de un índice invertido
###Actividad
1. Escribe un programa que:

 *   Recorra todos los documentos.
 * Construya un índice invertido, es decir, un diccionario donde:

    * Cada palabra clave apunta a una lista de documentos donde aparece.
2. Escribe una nueva función de búsqueda que:

 * Consulte directamente el índice para encontrar los documentos relevantes.
 * Sea mucho más rápida que la búsqueda lineal.

In [7]:
from collections import defaultdict

def crear_indice_invertido(archivo):

    indice = defaultdict(list)

    with open(archivo, 'r', encoding='utf-8') as f:
          for num_linea, linea in enumerate(f, 1):
              palabras_unicas = set(linea.split())
              for palabra in palabras_unicas:
                    indice[palabra].append(num_linea)
    return indice


def buscar_palabras(indice, palabras_a_buscar):

    if not indice:
        print("No se puede realizar la búsqueda: índice no disponible")
        return

    print("\nResultados de búsqueda:")
    for palabra in palabras_a_buscar:
        lineas = indice.get(palabra, [])

        if lineas:
            print(f"\n'{palabra}' encontrada en {len(lineas)} línea(s):")
            print(f"Líneas: {', '.join(map(str, lineas))}")
        else:
            print(f"\n'{palabra}' no encontrada en el documento")


ARCHIVO = '01_corpus_turismo_500.txt'
QUERY = ['Ecuador']
indice = crear_indice_invertido(ARCHIVO)
buscar_palabras(indice, QUERY)


Resultados de búsqueda:

'Ecuador' encontrada en 36 línea(s):
Líneas: 5, 22, 30, 37, 41, 45, 76, 109, 110, 122, 127, 130, 156, 163, 168, 200, 225, 231, 246, 254, 258, 280, 307, 319, 324, 333, 352, 371, 379, 383, 386, 442, 459, 486, 491, 492


## Parte 3: Evaluación de tiempos de búsqueda
### Actividad
1. Realiza la búsqueda de varias palabras usando:
 * Corpus pequeño: 16 documentos (turismo en Ecuador).
 * Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
 * Para búsqueda lineal.
 * Para búsqueda usando índice invertido.
 * Grafica o presenta los resultados en una tabla comparativa.

### Ejemplo de palabras para buscar
* quito
* montañita
* feriado
* playas
* aventura
* galápagos

### - Corpus turismo

In [16]:
import time
from collections import defaultdict
from tabulate import tabulate

DOCUMENTOS = ["01_corpus_turismo.txt"]
PALABRAS = ["Quito", "Montañita", "Feriado", "Playas", "Aventura", "Galápagos"]

def busqueda_lineal(documentos, palabra):
    resultados = []

    for doc in documentos:
        with open(doc, 'r') as f:
            if palabra in f.read():
                resultados.append(doc)

    return resultados

def construir_indice(documentos):
    indice = defaultdict(list)
    for doc in documentos:
        with open(doc, 'r') as f:
            contenido = f.read()
            for palabra in set(contenido.split()):
                   indice[palabra].append(doc)

    return indice

def comparar_metodos():
    resultados = []

    # Bucle para leer cada palabra
    for palabra in PALABRAS:
        # Búsqueda lineal
        inicio_lineal = time.time()
        _ = busqueda_lineal(DOCUMENTOS, palabra)
        tiempo_lineal = time.time() - inicio_lineal

        # Búsqueda con índice por cada palabra
        inicio_indice = time.time()
        indice = construir_indice(DOCUMENTOS)
        _ = indice.get(palabra, [])
        tiempo_indice = time.time() - inicio_indice

        resultados.append([
            palabra,
            f"{tiempo_lineal:.6f} s",
            f"{tiempo_indice:.6f} s"
        ])

    # Tabla
    headers = ["Palabra", "Búsqueda Lineal", "Índice Invertido"]
    print("\n" + tabulate(resultados, headers=headers, tablefmt="grid"))

comparar_metodos()


+-----------+-------------------+--------------------+
| Palabra   | Búsqueda Lineal   | Índice Invertido   |
| Quito     | 0.000176 s        | 0.001780 s         |
+-----------+-------------------+--------------------+
| Montañita | 0.000082 s        | 0.000190 s         |
+-----------+-------------------+--------------------+
| Feriado   | 0.000057 s        | 0.000165 s         |
+-----------+-------------------+--------------------+
| Playas    | 0.000068 s        | 0.000184 s         |
+-----------+-------------------+--------------------+
| Aventura  | 0.000050 s        | 0.000226 s         |
+-----------+-------------------+--------------------+
| Galápagos | 0.000075 s        | 0.000418 s         |
+-----------+-------------------+--------------------+


### - Corpus turismo de 500 palabras

In [17]:
import time
from collections import defaultdict
from tabulate import tabulate

DOCUMENTOS = ["01_corpus_turismo_500.txt"]
PALABRAS = ["Quito", "Montañita", "Feriado", "Playas", "Aventura", "Galápagos"]

def busqueda_lineal(documentos, palabra):
    resultados = []

    for doc in documentos:
        with open(doc, 'r') as f:
            if palabra in f.read():
                resultados.append(doc)

    return resultados

def construir_indice(documentos):
    indice = defaultdict(list)

    for doc in documentos:
        with open(doc, 'r') as f:
            contenido = f.read()
            for palabra in set(contenido.split()):
                indice[palabra].append(doc)

    return indice

def comparar_metodos():
    resultados = []

    # Bucle para leer cada palabra

    for palabra in PALABRAS:
        # Búsqueda lineal
        inicio_lineal = time.time()
        _ = busqueda_lineal(DOCUMENTOS, palabra)
        tiempo_lineal = time.time() - inicio_lineal

        # Búsqueda con índice por cada palabra
        inicio_indice = time.time()
        indice = construir_indice(DOCUMENTOS)
        _ = indice.get(palabra, [])
        tiempo_indice = time.time() - inicio_indice

        resultados.append([
            palabra,
            f"{tiempo_lineal:.6f} s",
            f"{tiempo_indice:.6f} s"
        ])

    # Tabla
    headers = ["Palabra", "Búsqueda Lineal", "Índice Invertido"]
    print("\n" + tabulate(resultados, headers=headers, tablefmt="grid"))

comparar_metodos()


+-----------+-------------------+--------------------+
| Palabra   | Búsqueda Lineal   | Índice Invertido   |
| Quito     | 0.000525 s        | 0.001468 s         |
+-----------+-------------------+--------------------+
| Montañita | 0.000165 s        | 0.001084 s         |
+-----------+-------------------+--------------------+
| Feriado   | 0.000135 s        | 0.001254 s         |
+-----------+-------------------+--------------------+
| Playas    | 0.000157 s        | 0.000803 s         |
+-----------+-------------------+--------------------+
| Aventura  | 0.000139 s        | 0.000789 s         |
+-----------+-------------------+--------------------+
| Galápagos | 0.000077 s        | 0.000801 s         |
+-----------+-------------------+--------------------+


## Parte 4:
### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el speedup

In [10]:
import time
from collections import defaultdict
from tabulate import tabulate

DOCUMENTOS = ["01_corpus_turismo_500.txt"]
PALABRAS = ["CUENCA", "otavalo", "nacional", "Turistas"]

def busqueda_lineal(documentos, palabra):
    resultados = []
    palabra = palabra.lower() # Transformacion a minusculas (*)
    for doc in documentos:
        with open(doc, 'r') as f:
            if palabra in f.read().lower():
                resultados.append(doc)

    return resultados

def construir_indice(documentos):
    indice = defaultdict(list)
    for doc in documentos:
        with open(doc, 'r') as f:
            contenido = f.read().lower() # *
            for palabra in set(contenido.split()):
                indice[palabra].append(doc)

    return indice

def comparar_metodos():

    # Construimos índice
    inicio_indice = time.time()
    indice = construir_indice(DOCUMENTOS)
    tiempo_construccion = time.time() - inicio_indice

    resultados = []

    for palabra in PALABRAS:
        # Medir búsqueda lineal
        inicio = time.time()
        _ = busqueda_lineal(DOCUMENTOS, palabra)
        tiempo_lineal = time.time() - inicio

        # Medir búsqueda con índice
        inicio = time.time()
        resultados_indice = indice.get(palabra.lower(), [])
        tiempo_indice = time.time() - inicio

        resultados.append([
            palabra,
            f"{tiempo_lineal:.6f} s",
            f"{tiempo_indice:.6f} s",
            f"{tiempo_lineal/tiempo_indice:.1f}x" if tiempo_indice > 0 else "N/A" # Caculo de Speedup
        ])

  # Tabla
    headers = ["Palabra", "Búsqueda Lineal", "Índice Invertido", "Speedup"]
    print("\n" + tabulate(resultados, headers=headers, tablefmt="grid"))

comparar_metodos()


+-----------+-------------------+--------------------+-----------+
| Palabra   | Búsqueda Lineal   | Índice Invertido   | Speedup   |
| CUENCA    | 0.001298 s        | 0.000002 s         | 544.6x    |
+-----------+-------------------+--------------------+-----------+
| otavalo   | 0.000973 s        | 0.000007 s         | 140.7x    |
+-----------+-------------------+--------------------+-----------+
| nacional  | 0.001038 s        | 0.000005 s         | 189.2x    |
+-----------+-------------------+--------------------+-----------+
| Turistas  | 0.000770 s        | 0.000004 s         | 189.9x    |
+-----------+-------------------+--------------------+-----------+


###### Anthony Reinoso
