Ejercicio 1: Introducción a Recuperación de Información

Objetivo de la práctica
Entender el problema de buscar información en colecciones de texto.
Comprender por qué se necesita un índice invertido en recuperación de información.
Programar una primera solución manual y luego optimizarla con un índice.
Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.


Parte 1: Búsqueda lineal en documentos
Actividad
Se te proporcionará un conjunto de documentos de texto.
Escribe una función que:
Lea todos los documentos.
Busque una palabra ingresada por el usuario.
Muestre en qué documentos aparece la palabra.

In [10]:
def buscar_en_documentos(corpus, query):
    with open(corpus, 'r') as archivo:
        for numero_linea, linea in enumerate(archivo, start=1):
            if query in linea:
                print(f"Indice {numero_linea}")

corpus = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea 01\01_corpus_turismo_500.txt'
query = 'Quito'
buscar_en_documentos(corpus, query)


Indice 4
Indice 16
Indice 17
Indice 39
Indice 43
Indice 73
Indice 75
Indice 89
Indice 104
Indice 136
Indice 201
Indice 213
Indice 238
Indice 260
Indice 291
Indice 325
Indice 355
Indice 391
Indice 469
Indice 487


Parte 2: Construcción de un índice invertido
Actividad
Escribe un programa que:

Recorra todos los documentos.
Construya un índice invertido, es decir, un diccionario donde:
Cada palabra clave apunta a una lista de documentos donde aparece.
Escribe una nueva función de búsqueda que:

Consulte directamente el índice para encontrar los documentos relevantes.
Sea mucho más rápida que la búsqueda lineal.

In [14]:
def construir_indice_invertido(corpus):
    indice_invertido = {}
    with open(corpus, 'r', encoding='utf-8') as archivo:
        for numero_linea, linea in enumerate(archivo, start=1):
            palabras = linea.strip().split()
            for palabra in palabras:
                palabra = palabra.lower()
                if palabra not in indice_invertido:
                    indice_invertido[palabra] = []
                indice_invertido[palabra].append(numero_linea)
    return indice_invertido


def buscar_en_indice(indice_invertido, query):
    query = query.lower()
    if query in indice_invertido:
        print(f"La palabra '{query}' aparece en los documentos: {indice_invertido[query]}")


corpus = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea 01\01_corpus_turismo_500.txt'
indice_invertido = construir_indice_invertido(corpus)
query = "Ecuador"
buscar_en_indice(indice_invertido, query)


La palabra 'ecuador' aparece en los documentos: [5, 22, 30, 37, 41, 45, 76, 109, 110, 122, 127, 130, 156, 163, 168, 200, 225, 231, 246, 254, 258, 280, 307, 319, 324, 333, 352, 371, 379, 383, 386, 442, 459, 486, 491, 492]


Parte 3: Evaluación de tiempos de búsqueda
Actividad
Realiza la búsqueda de varias palabras usando:
Corpus pequeño: 16 documentos (turismo en Ecuador).
Corpus grande: 500 documentos (versión ampliada).
Mide el tiempo de ejecución:
Para búsqueda lineal.
Para búsqueda usando índice invertido.
Grafica o presenta los resultados en una tabla comparativa.

In [19]:
import time
import matplotlib.pyplot as plt

# Funcion parte 1
def buscar_lineal(corpus, query):
    resultados = []
    with open(corpus, 'r', encoding='utf-8') as archivo:
        for numero_linea, linea in enumerate(archivo, start=1):
            if query.lower() in linea.lower():
                resultados.append(numero_linea)
    return resultados

#Funcion parte 2
def construir_indice_invertido(corpus):
    indice_invertido = {}
    with open(corpus, 'r', encoding='utf-8') as archivo:
        for numero_linea, linea in enumerate(archivo, start=1):
            palabras = linea.strip().split()
            for palabra in palabras:
                palabra = palabra.lower()
                if palabra not in indice_invertido:
                    indice_invertido[palabra] = []
                indice_invertido[palabra].append(numero_linea)
    return indice_invertido


def buscar_en_indice(indice_invertido, query):
    query = query.lower()
    if query in indice_invertido:
        return indice_invertido[query]
    return []

# Función para medir el tiempo de búsqueda
def medir_tiempos(corpus, palabras, indice_invertido):
    tiempos_lineales = []
    tiempos_indice = []

    #Tiempo funcion parte 1
    for palabra in palabras:
        start_time = time.time()
        buscar_lineal(corpus, palabra)
        tiempos_lineales.append(time.time() - start_time)

    #Tiempo funcion parte 2
    for palabra in palabras:
        start_time = time.time()
        buscar_en_indice(indice_invertido, palabra)
        tiempos_indice.append(time.time() - start_time)

    return tiempos_lineales, tiempos_indice

#Parte de probar querys
corpus = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea 01\01_corpus_turismo_500.txt'
indice_invertido = construir_indice_invertido(corpus)

palabras_a_buscar = ["quito", "montañita", "feriado", "playas", "aventura", "galápagos"]

tiempos_lineales, tiempos_indice = medir_tiempos(corpus, palabras_a_buscar, indice_invertido)

for palabra, tiempo_lineal, tiempo_indice in zip(palabras_a_buscar, tiempos_lineales, tiempos_indice):
    print(f"{palabra.capitalize()} - Búsqueda lineal: {tiempo_lineal:.6f} segundos | Búsqueda con índice invertido: {tiempo_indice:.6f} segundos")


Quito - Búsqueda lineal: 0.002044 segundos | Búsqueda con índice invertido: 0.000000 segundos
Montañita - Búsqueda lineal: 0.001013 segundos | Búsqueda con índice invertido: 0.000000 segundos
Feriado - Búsqueda lineal: 0.000997 segundos | Búsqueda con índice invertido: 0.000000 segundos
Playas - Búsqueda lineal: 0.001000 segundos | Búsqueda con índice invertido: 0.000000 segundos
Aventura - Búsqueda lineal: 0.000999 segundos | Búsqueda con índice invertido: 0.000000 segundos
Galápagos - Búsqueda lineal: 0.001002 segundos | Búsqueda con índice invertido: 0.000000 segundos


Parte 4:
Actividad
Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
Calcula el speedup

In [22]:
import time

def construir_indice_invertido(corpus):
    indice_invertido = {}
    with open(corpus, 'r', encoding='utf-8') as archivo:
        for numero_linea, linea in enumerate(archivo, start=1):
            palabras = linea.strip().lower().split()  # Convertir todo a minúscula
            for palabra in palabras:
                if palabra not in indice_invertido:
                    indice_invertido[palabra] = []
                indice_invertido[palabra].append(numero_linea)
    return indice_invertido

def buscar_en_indice(indice_invertido, queries):
    resultados = set()
    for query in queries:
        query = query.lower()
        if query in indice_invertido:
            resultados.update(indice_invertido[query])
    return resultados

# Corpus y consultas
corpus = r'D:\Universidad\8 - Octavo\Recuperacion de la informacion\Tareas\Tarea 01\01_corpus_turismo_500.txt'
queries = ['quito', 'montañita', 'feriado', 'playas', 'aventura', 'galápagos']

# Construir el índice invertido
inicio_construccion = time.time()
indice_invertido = construir_indice_invertido(corpus)
fin_construccion = time.time()
tiempo_construccion = fin_construccion - inicio_construccion

# Buscar términos en el índice invertido
inicio_busqueda = time.time()
resultado_indice = buscar_en_indice(indice_invertido, queries)
fin_busqueda = time.time()
tiempo_busqueda = fin_busqueda - inicio_busqueda

# Mostrar resultados
print(f"Resultados de búsqueda: {resultado_indice}")
print(f"Tiempo de construcción del índice: {tiempo_construccion:.6f} segundos")
print(f"Tiempo de búsqueda en índice invertido: {tiempo_busqueda:.6f} segundos")


Resultados de búsqueda: {4, 12, 16, 17, 20, 23, 24, 25, 28, 31, 36, 38, 39, 42, 43, 47, 51, 54, 62, 67, 69, 73, 75, 77, 79, 81, 83, 84, 85, 87, 88, 89, 90, 91, 94, 96, 97, 99, 100, 103, 104, 107, 120, 124, 125, 126, 128, 135, 136, 139, 146, 151, 164, 170, 173, 178, 185, 198, 201, 202, 205, 209, 211, 213, 219, 227, 229, 233, 235, 236, 238, 239, 243, 244, 249, 255, 260, 266, 268, 273, 276, 277, 278, 284, 288, 291, 295, 298, 299, 300, 304, 306, 308, 311, 312, 314, 316, 318, 321, 322, 323, 325, 327, 328, 330, 332, 337, 338, 339, 350, 355, 359, 370, 377, 381, 384, 387, 389, 390, 391, 392, 394, 396, 399, 403, 405, 406, 408, 409, 413, 417, 419, 422, 423, 430, 439, 443, 450, 451, 458, 461, 464, 466, 467, 469, 476, 478, 480, 481, 483, 484, 485, 487, 490, 493, 494, 498, 499, 500}
Tiempo de construcción del índice: 0.002997 segundos
Tiempo de búsqueda en índice invertido: 0.000000 segundos
