#### **Materia:** Recuperación de la Información
#### **Nombre:** Byron Carpio
#### **Grupo:** GR1CC


# Ejercicio 1: Introducción a Recuperación de Información
## Objetivo de la práctica
* Entender el problema de buscar información en colecciones de texto.
* Comprender por qué se necesita un índice invertido en recuperación de información.
* Programar una primera solución manual y luego optimizarla con un índice.
* Evaluar la mejora en tiempos de búsqueda cuando usamos estructuras adecuadas.
### Parte 1: Búsqueda lineal en documentos
#### Actividad
1. Se te proporcionará un conjunto de documentos de texto.
2. Escribe una función que:
    * Lea todos los documentos.
    * Busque una palabra ingresada por el usuario.
    * Muestre en qué documentos aparece la palabra.

In [3]:
# Importa módulos para rutas de archivos
import os

buscar_palabra = "Quito"
dataset = "/kaggle/input/dataset/"
results = []
    
files = [i for i in os.listdir(dataset)]

for corpus in files:
    corpus_path = os.path.join(dataset, corpus)
    
    with open(corpus_path, 'r', encoding='utf-8') as corpus:
        for doc in corpus:
            if buscar_palabra in doc.split():
                results.append(doc.strip())
        
if not results:
    print("No hay Resultados")

else:
    # Imprime con saltos de línea
    print('\n'.join(results))

Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad Un lugar sorprendente para visitar.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para rafting.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para senderismo.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.
Quito tiene un centro histórico Patrimonio de la Humanidad Un lugar sorprendente para visitar.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el 

### Parte 2: Construcción de un índice invertido
#### Actividad
1. Escribe un programa que:

    * Recorra todos los documentos.
    * Construya un índice invertido, es decir, un diccionario donde:
        * Cada palabra clave apunta a una lista de documentos donde aparece.
2. Escribe una nueva función de búsqueda que:

    * Consulte directamente el índice para encontrar los documentos relevantes.
    * Sea mucho más rápida que la búsqueda lineal.

In [4]:
import os

buscar_palabra = "Quito"
dataset = "/kaggle/input/dataset/"
indice_invertido = {}

files = [i for i in os.listdir(dataset)]

for corpus in files:
    corpus_path = os.path.join(dataset, corpus)
    
    with open(corpus_path, 'r', encoding='utf-8') as doc:
        for i, line in enumerate(doc, start=1):
            palabras = line.split()
            for palabra in palabras:
                if palabra not in indice_invertido:
                    indice_invertido[palabra] = [(corpus,i)]
                else:
                    indice_invertido[palabra].append((corpus,i))
                    
if buscar_palabra in indice_invertido:
    print(f"La palabra {buscar_palabra}:")
    for archivo, linea in indice_invertido[buscar_palabra]:
        print(f"Esta en la linea {linea}, del archivo {archivo}")
else:
    print("No hay Resultados")

La palabra Quito:
Esta en la linea 4, del archivo 01_corpus_turismo_500.txt
Esta en la linea 16, del archivo 01_corpus_turismo_500.txt
Esta en la linea 17, del archivo 01_corpus_turismo_500.txt
Esta en la linea 39, del archivo 01_corpus_turismo_500.txt
Esta en la linea 43, del archivo 01_corpus_turismo_500.txt
Esta en la linea 73, del archivo 01_corpus_turismo_500.txt
Esta en la linea 75, del archivo 01_corpus_turismo_500.txt
Esta en la linea 89, del archivo 01_corpus_turismo_500.txt
Esta en la linea 104, del archivo 01_corpus_turismo_500.txt
Esta en la linea 136, del archivo 01_corpus_turismo_500.txt
Esta en la linea 201, del archivo 01_corpus_turismo_500.txt
Esta en la linea 213, del archivo 01_corpus_turismo_500.txt
Esta en la linea 238, del archivo 01_corpus_turismo_500.txt
Esta en la linea 260, del archivo 01_corpus_turismo_500.txt
Esta en la linea 291, del archivo 01_corpus_turismo_500.txt
Esta en la linea 325, del archivo 01_corpus_turismo_500.txt
Esta en la linea 355, del archi

### Parte 3: Evaluación de tiempos de búsqueda
#### Actividad
1. Realiza la búsqueda de varias palabras usando:
    * Corpus pequeño: 16 documentos (turismo en Ecuador).
    * Corpus grande: 500 documentos (versión ampliada).
2. Mide el tiempo de ejecución:
    * Para búsqueda lineal.
    * Para búsqueda usando índice invertido.
    * Gráfica o presenta los resultados en una tabla comparativa.
#### Ejemplo de palabras para buscar
* quito
* montañita
* feriado
* playas
* aventura
* galápagos

In [25]:
# Importamos librerias 
import os
import time

# Definimos variables globales
buscar_palabra = "Quito"
dataset = "/kaggle/input/dataset/"

########################################
##### Función para búsqueda lineal #####
########################################

def busqueda_lineal(buscar_palabra, dataset):
    inicio = time.time()
    resultados = []
    
    files = [i for i in os.listdir(dataset)]
    for corpus in files:
        corpus_path = os.path.join(dataset, corpus)
        with open(corpus_path, 'r', encoding='utf-8') as corpus_file:
            for doc in corpus_file:
                if buscar_palabra in doc.split():
                    resultados.append(doc.strip())
                    
    fin = time.time()
    tiempo_total = fin - inicio
    return resultados, tiempo_total
    
#########################################################
##### Función para la búsqueda con índice invertido #####
#########################################################

def busqueda_indice_invertido(buscar_palabra, dataset):
    inicio = time.time()
    indice_invertido = {}
    
    files = [i for i in os.listdir(dataset)]
    for corpus in files:
        corpus_path = os.path.join(dataset, corpus)
        with open(corpus_path, 'r', encoding='utf-8') as doc:
            for i, line in enumerate(doc, start=1):
                palabras = line.split()
                for palabra in palabras:
                    if palabra not in indice_invertido:
                        indice_invertido[palabra] = [(corpus, i)]
                    else:
                        indice_invertido[palabra].append((corpus, i))
                        
    fin = time.time()
    tiempo_total = fin - inicio
    
    # Buscar la palabra directamente
    resultados = indice_invertido.get(buscar_palabra, [])
    
    return resultados, tiempo_total

# Función para mostrar resultados
def mostrar_resultados_lineal(resultados):
    print("\n*** Resultados de Búsqueda Lineal ***")
    if not resultados:
        print("No hay Resultados")
    else:
        print('\n'.join(resultados))

def mostrar_resultados_indice(resultados, buscar_palabra):
    print("\n*** Resultados de Búsqueda con Índice Invertido ***")
    if not resultados:
        print("No hay Resultados")
    else:
        for archivo, linea in resultados:
            print(f"La palabra {buscar_palabra} está en el línea {linea} del archivo {archivo}")

# Función para comparar tiempos
def comparar_tiempos(Busqueda_Lineal, Busqueda_IndicesInvertidos):
    resultadosEjecucion = {**Busqueda_Lineal, **Busqueda_IndicesInvertidos}
    print("\n*** Resultados de los Tiempos de Ejecución ***")
    print(f"{'Tipo':<35} | {'Tiempo (s)':>12}")
    print("-" * 50)
    for metodo, tiempo in resultadosEjecucion.items():
        print(f"{metodo:<35} | {tiempo:>12.5f}")

# Ejecución de la búsqueda lineal
resultados_lineal, tiempo_lineal = busqueda_lineal(buscar_palabra, dataset)
Busqueda_Lineal = {'Busqueda Lineal': tiempo_lineal}
mostrar_resultados_lineal(resultados_lineal)

# Ejecución de la búsqueda índice invertido
resultados_invertido, tiempo_invertido = busqueda_indice_invertido(buscar_palabra, dataset)
Busqueda_IndicesInvertidos = {'Busqueda con Indice Invertidos': tiempo_invertido}
mostrar_resultados_indice(resultados_invertido, buscar_palabra)

# Comparar los tiempos de ejecución
comparar_tiempos(Busqueda_Lineal, Busqueda_IndicesInvertidos)



--- Resultados de Búsqueda Lineal ---
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para surf.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad Un lugar sorprendente para visitar.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para rafting.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para senderismo.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad Ideal para el próximo feriado.
Quito tiene un centro histórico Patrimonio de la Humanidad
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.
Quito tiene un centro histórico Patrimonio de la Humanidad Perfecto para canopy.
Quito tiene un centro histórico Patrimonio de la Humanidad Un lugar sorprendente para visitar.
Quito tiene un centro histórico Pa

### Parte 4:
#### Actividad
1. Modifica el índice para que ignore mayúsculas/minúsculas (por ejemplo, "Playa" y "playa" deben considerarse iguales).
2. Permite consultas de múltiples términos (ejemplo: buscar documentos que contengan "playa" y "turismo").
3. Calcula el _speedup_

In [51]:
import os
import time
from tabulate import tabulate

# Definimos variables globales
buscar_palabras_original = ["Quito", "montañita", "Feriado", "playas", "aventura", "Galápagos","Francia"]
# Transformamos a minúsculas para la busqueda
buscar_palabras = [p.lower() for p in buscar_palabras_original]  
dataset = "/kaggle/input/dataset/"

########################################
##### Función para búsqueda lineal #####
########################################

def busqueda_lineal(buscar_palabras, dataset):
    inicio = time.time()
    resultados = []
    palabras_encontradas = {palabra: {"estado": False, "archivo": "No encontrado"} for palabra in buscar_palabras}
    
    files = [i for i in os.listdir(dataset)]
    for corpus in files:
        corpus_path = os.path.join(dataset, corpus)
        with open(corpus_path, 'r', encoding='utf-8') as corpus_file:
            for doc in corpus_file:
                doc_lower = doc.lower()
                doc_split = doc_lower.split()
                
                if all(palabra in doc_split for palabra in buscar_palabras):
                    resultados.append(doc.strip())
                
                for palabra in buscar_palabras:
                    if palabra in doc_split and not palabras_encontradas[palabra]["estado"]:
                        palabras_encontradas[palabra]["estado"] = True
                        palabras_encontradas[palabra]["archivo"] = corpus
                        
    fin = time.time()
    tiempo_total = fin - inicio
    return resultados, palabras_encontradas, tiempo_total

#########################################################
##### Función para la búsqueda con índice invertido #####
#########################################################

def busqueda_indice_invertido(buscar_palabras, dataset):
    inicio = time.time()
    indice_invertido = {}
    
    files = [i for i in os.listdir(dataset)]
    for corpus in files:
        corpus_path = os.path.join(dataset, corpus)
        with open(corpus_path, 'r', encoding='utf-8') as doc:
            for i, line in enumerate(doc, start=1):
                palabras = line.lower().split()
                for palabra in palabras:
                    if palabra not in indice_invertido:
                        indice_invertido[palabra] = [(corpus, i)]
                    else:
                        indice_invertido[palabra].append((corpus, i))
                        
    fin = time.time()
    tiempo_total = fin - inicio
    
    resultados = set()
    palabras_encontradas = {palabra: {"estado": False, "archivo": "No encontrado"} for palabra in buscar_palabras}
    
    for palabra in buscar_palabras:
        if palabra in indice_invertido:
            palabras_encontradas[palabra]["estado"] = True
            # Tomamos el primer archivo donde aparece
            archivo, _ = indice_invertido[palabra][0]
            palabras_encontradas[palabra]["archivo"] = archivo
            resultados.update(indice_invertido.get(palabra, []))
    
    return list(resultados), palabras_encontradas, tiempo_total

#########################################################
#### Función para mostrar los resultados en la tabla ####
#########################################################

def mostrar_tabla_resultados(buscar_palabras_original, buscar_palabras, palabras_lineal, tiempo_lineal, palabras_invertido, tiempo_invertido):
    tabla = []
    
    for palabra_original, palabra in zip(buscar_palabras_original, buscar_palabras):
        estado = "Encontrada" if palabras_lineal[palabra]["estado"] else "No encontrada"
        archivo = palabras_lineal[palabra]["archivo"]
        tabla.append(["Busqueda Lineal", palabra_original, estado, archivo, f"{tiempo_lineal:.5f} s"])
    
    for palabra_original, palabra in zip(buscar_palabras_original, buscar_palabras):
        estado = "Encontrada" if palabras_invertido[palabra]["estado"] else "No encontrada"
        archivo = palabras_invertido[palabra]["archivo"]
        tabla.append(["Busqueda Indice Invertido", palabra_original, estado, archivo, f"{tiempo_busqueda:.5f} s"])
    
    print("\n--- Tabla de Resultados ---")
    print(tabulate(tabla, headers=["Método de Búsqueda", "Palabra", "Estado", "Archivo encontrado", "Tiempo de Búsqueda"], tablefmt="pretty"))

#########################################################
# Función para comparar tiempos
#########################################################

def comparar_tiempos(Busqueda_Lineal, Busqueda_IndicesInvertidos):
    speedup = Busqueda_Lineal['Busqueda Lineal'] / Busqueda_IndicesInvertidos['Busqueda con Indice Invertidos']
    print(f"\nSpeedup: {speedup:.2f}x")

########################################
######## Ejecutar las búsquedas ######## 
########################################

resultados_lineal, palabras_encontradas_lineal, tiempo_lineal = busqueda_lineal(buscar_palabras, dataset)
resultados_invertido, palabras_encontradas_invertido, tiempo_busqueda = busqueda_indice_invertido(buscar_palabras, dataset)

#############################################
######## Tiempos para la comparación ########
#############################################

Busqueda_Lineal = {'Busqueda Lineal': tiempo_lineal}
Busqueda_IndicesInvertidos = {'Busqueda con Indice Invertidos': tiempo_busqueda}

#######################################
##### Mostrar tabla de resultados #####
#######################################

mostrar_tabla_resultados(buscar_palabras_original, buscar_palabras, palabras_encontradas_lineal, tiempo_lineal, palabras_encontradas_invertido, tiempo_busqueda)

##########################################
##### Mostrar comparación de tiempos #####
##########################################

comparar_tiempos(Busqueda_Lineal, Busqueda_IndicesInvertidos)



--- Tabla de Resultados ---
+---------------------------+-----------+---------------+---------------------------+--------------------+
|    Método de Búsqueda     |  Palabra  |    Estado     |    Archivo encontrado     | Tiempo de Búsqueda |
+---------------------------+-----------+---------------+---------------------------+--------------------+
|      Busqueda Lineal      |   Quito   |  Encontrada   | 01_corpus_turismo_500.txt |     0.02056 s      |
|      Busqueda Lineal      | montañita |  Encontrada   | 01_corpus_turismo_500.txt |     0.02056 s      |
|      Busqueda Lineal      |  Feriado  |  Encontrada   |   01_corpus_turismo.txt   |     0.02056 s      |
|      Busqueda Lineal      |  playas   |  Encontrada   | 01_corpus_turismo_500.txt |     0.02056 s      |
|      Busqueda Lineal      | aventura  |  Encontrada   | 01_corpus_turismo_500.txt |     0.02056 s      |
|      Busqueda Lineal      | Galápagos |  Encontrada   | 01_corpus_turismo_500.txt |     0.02056 s      |
|      B