<a href="https://colab.research.google.com/github/JohanSH7/Estructuras-de-Datos-Examen-Final/blob/main/Punto_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **METODO DE ORDENAMIENTO OPTIMO PARA LA DATA, ANTES DE REALIZAR CONSULTAS EN UN SISTEMA SISTEMA DE CLASIFICACION DE RESULTADOS DE BUSQUEDA EN UN MOTOR DE BUSQUEDA**

Supongamos que deseamos ordenar páginas web por relevancia o fecha de publicación. El método de ordenamiento recomendado dependerá de varios factores, como el tamaño de los datos, la eficiencia del algoritmo y la naturaleza de las consultas realizadas. Los tipos de ordenamiento existentes se clasifican en:
1. Ordenamiento por inserción
2. Ordenamiento por intercambio
3. Ordenamiento por selección
4. Ordenamiento por mezcla
5. Ordenamiento por distribución
6. Ordenamiento por externo por mezcla multi-via

Consideraciones:

***Ordenamiento por inserción:***

* Recomendado para conjuntos de datos pequeños o casi ordenados.
* Puede ser eficiente si las páginas web suelen tener una clasificación preexistente y se actualizan con poca frecuencia.

***Ordenamiento por intercambio:***

* Similar al ordenamiento por inserción, es adecuado para conjuntos de datos pequeños.
* No es tan eficiente en conjuntos de datos grandes debido a su complejidad de O(n^2).

***Ordenamiento por selección:***

* Puede ser útil para conjuntos de datos pequeños o parcialmente ordenados.
* No es eficiente para conjuntos de datos grandes debido a su complejidad de O(n^2).

***Ordenamiento por mezcla:***

* Eficiente para conjuntos de datos grandes y adecuado para datos enlazados.
* Puede ser una buena opción si la clasificación es dinámica y cambia con frecuencia.

***Ordenamiento por distribución:***

* Puede ser eficiente para conjuntos de datos grandes con claves numéricas o alfanuméricas.
* Útil si se pueden definir claves significativas para las páginas web.

***Ordenamiento por externo por mezcla multi-vía:***

* Ideal para conjuntos de datos extremadamente grandes que no caben en la memoria principal.
* Puede ser útil si se trabaja con grandes cantidades de datos históricos y se necesita una clasificación estable.

## **Supongamos que tenemos 200 datos aleatorios de relevancia de las paginas web**

La medición de la relevancia en las páginas web es un aspecto fundamental en los motores de búsqueda y en la optimización de motores de búsqueda (SEO). Los motores de búsqueda utilizan algoritmos complejos para determinar la relevancia de una página web en relación con las consultas de búsqueda de los usuarios.

Cuando queremos medir la popularidad de una web podemos recurrir al análisis de varios índices. Algunos índices reflejan el número o el valor de los enlaces de las páginas web, otros dan información sobre la posición del dominio en el ranking mundial de las páginas más visitadas, etc.

La Autoridad de Página (Page Authority o PA) es una métrica de relevancia desarrollada por Moz para estimar la capacidad de una página web específica para clasificarse en los resultados de búsqueda. La métrica se calcula teniendo en cuenta varios factores, principalmente enfocados en la calidad y cantidad de los enlaces entrantes que apuntan a esa página.

La Autoridad de Página se mide en una escala de 0 a 100. Cuanto más alto sea el valor de PA, mayor será la autoridad percibida de esa página. En la práctica, generalmente se presenta como un número decimal en sus informes. Esto permite una mayor precisión en la evaluación de la autoridad de una página. Aunque los informes pueden mostrar un valor decimal, es común redondear al número entero más cercano para simplificar la interpretación. Por ejemplo, una página podría tener un PA de 42.8, pero se mostrará comúnmente como 43 para facilitar la comprensión.

In [42]:
import random

# Simular 200 datos de Autoridad de Página (PA) en el rango de 0 a 100
simulated_data = [random.randint(0, 100) for _ in range(200)]

# Imprimir los primeros 10 datos como ejemplo
print("Ejemplo de los primeros 10 datos simulados:")
print(simulated_data[:10])

Ejemplo de los primeros 10 datos simulados:
[57, 57, 48, 39, 65, 45, 96, 78, 85, 51]


Fecha de publicación.

In [43]:
import random
from datetime import datetime, timedelta

# Simular 200 fechas de publicación en un rango específico (por ejemplo, últimos 365 días)
start_date = datetime.now() - timedelta(days=365)
end_date = datetime.now()
simulated_dates = [start_date + timedelta(days=random.randint(0, 365)) for _ in range(200)]

# Imprimir los primeros 10 datos como ejemplo
print("Ejemplo de las primeras 10 fechas simuladas:")
print(simulated_dates[:10])

Ejemplo de las primeras 10 fechas simuladas:
[datetime.datetime(2023, 5, 26, 3, 43, 46, 721074), datetime.datetime(2023, 5, 7, 3, 43, 46, 721074), datetime.datetime(2023, 5, 8, 3, 43, 46, 721074), datetime.datetime(2023, 5, 4, 3, 43, 46, 721074), datetime.datetime(2023, 3, 4, 3, 43, 46, 721074), datetime.datetime(2023, 4, 25, 3, 43, 46, 721074), datetime.datetime(2023, 1, 24, 3, 43, 46, 721074), datetime.datetime(2023, 5, 23, 3, 43, 46, 721074), datetime.datetime(2023, 10, 29, 3, 43, 46, 721074), datetime.datetime(2023, 11, 12, 3, 43, 46, 721074)]


## **Metodos de ordenamiento**

In [39]:
def insertion_sort(data, key):
    for i in range(1, len(data)):
        current = data[i]
        j = i - 1
        while j >= 0 and data[j][key] > current[key]:
            data[j + 1] = data[j]
            j -= 1
        data[j + 1] = current
    return data

def bubble_sort(data, key):
    n = len(data)
    for i in range(n):
        for j in range(0, n-i-1):
            if data[j][key] > data[j+1][key]:
                data[j], data[j+1] = data[j+1], data[j]
    return data

def selection_sort(data, key):
    for i in range(len(data)):
        min_idx = i
        for j in range(i+1, len(data)):
            if data[j][key] < data[min_idx][key]:
                min_idx = j
        data[i], data[min_idx] = data[min_idx], data[i]
    return data

def counting_sort(data, key=0):
    max_val = max(data, key=lambda x: x[key])[key]
    min_val = min(data, key=lambda x: x[key])[key]

    count = [0] * (max_val - min_val + 1)

    for item in data:
        count[item[key] - min_val] += 1

    for i in range(1, len(count)):
        count[i] += count[i - 1]

    output = [0] * len(data)

    i = len(data) - 1
    while i >= 0:
        index = data[i][key] - min_val
        output[count[index] - 1] = data[i]
        count[index] -= 1
        i -= 1

    return output

def merge_sort(data, key):
    if len(data) <= 1:
        return data

    middle = len(data) // 2
    left = merge_sort(data[:middle], key)
    right = merge_sort(data[middle:], key)

    return merge(left, right, key)

def merge(left, right, key):
    result = []
    i = j = 0

    while i < len(left) and j < len(right):
        if left[i][key] < right[j][key]:
            result.append(left[i])
            i += 1
        elif left[i][key] > right[j][key]:
            result.append(right[j])
            j += 1
        else:  # Desempate por fecha de publicación
            if left[i][0] <= right[j][0]:
                result.append(left[i])
                i += 1
            else:
                result.append(right[j])
                j += 1

    result.extend(left[i:])
    result.extend(right[j:])
    return result

Combinamos la fecha de publicacion y la relevancia de cada pagina en una tupla para aplicar el metodo de ordenamiento por relevancia y en casos de tener la misma relevancia, se ordene por fecha de publicacion.

**Nota:** Las entradas tienen un formato similar al siguiente: una fecha de publicación del 6 de abril de 2023, a las 2:44:38.210238, con una Autoridad de Página (Relevancia) de 15. De manera similar, cada entrada en la lista tiene una fecha de publicación única y un valor asociado de Autoridad de Página.

In [44]:
import time
# Combinar datos y fechas
data_to_sort = list(zip(simulated_dates, simulated_data))

# Copiar datos para tener conjuntos de datos independientes para cada método de ordenamiento
data_copy1 = data_to_sort.copy()
data_copy2 = data_to_sort.copy()
data_copy3 = data_to_sort.copy()
data_copy4 = data_to_sort.copy()
data_copy5 = data_to_sort.copy()

# Medir tiempo de ejecución para Merge Sort
start_time = time.time()
sorted_data1 = merge_sort(data_copy1, key=1)
end_time = time.time()
print(f"Merge Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Insertion Sort
start_time = time.time()
sorted_data2 = insertion_sort(data_copy2, key=1)
end_time = time.time()
print(f"Insertion Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Bubble Sort
start_time = time.time()
sorted_data3 = bubble_sort(data_copy3, key=1)
end_time = time.time()
print(f"Bubble Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Selection Sort
start_time = time.time()
sorted_data4 = selection_sort(data_copy4, key=1)
end_time = time.time()
print(f"Selection Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Counting Sort (o el algoritmo que decidas usar)
start_time = time.time()
sorted_data5 = counting_sort(data_copy5, key=1)
end_time = time.time()
print(f"Counting Sort - Tiempo de ejecución: {end_time - start_time} segundos")

Merge Sort - Tiempo de ejecución: 0.0009558200836181641 segundos
Insertion Sort - Tiempo de ejecución: 0.0035636425018310547 segundos
Bubble Sort - Tiempo de ejecución: 0.009823083877563477 segundos
Selection Sort - Tiempo de ejecución: 0.0050220489501953125 segundos
Counting Sort - Tiempo de ejecución: 0.0004038810729980469 segundos


# **CONCLUSION**

Los resultados sugieren que el algoritmo Counting Sort es el más eficiente en términos de tiempo de ejecución para 200 datos. Sin embargo, la eficiencia de los algoritmos puede depender del tamaño y la naturaleza específica de los datos. En motores de búsqueda, a menudo se utilizan algoritmos que pueden manejar grandes conjuntos de datos y adaptarse bien a datos en constante cambio por lo que el algoritmo Counting Sort no podria hacer la mejor opción y tampoco podriamos descartar el algoritmo de MergeSort ya que proporciona un equilibrio entre estabilidad, eficiencia y adaptabilidad, lo que lo convierte en una opción sólida para la clasificación de resultados de búsqueda en un motor de búsqueda.

Tambien se pudo notar que no se hizo la implementacion del ordenamiento externo por mezcla-multivia, ya que en el contexto de motores de búsqueda y clasificación de resultados, podría ser una opción si trabajamos con conjuntos de datos verdaderamente masivos que no se ajustan cómodamente en la memoria principal. Sin embargo, es importante tener en cuenta que implementar y gestionar un ordenamiento externo introduce complejidades adicionales en términos de E/S (entrada/salida) y acceso a disco, lo cual puede afectar el rendimiento general.

PRUEBA PARA UN CONJUNTO DE DATOS MAS GRANDE:

In [46]:
import random
from datetime import datetime, timedelta

# Simular 200 datos de Autoridad de Página (PA) en el rango de 0 a 100
simulated_data2 = [random.randint(0, 100) for _ in range(10000)]
# Simular 200 fechas de publicación en un rango específico (por ejemplo, últimos 365 días)
start_date = datetime.now() - timedelta(days=365)
end_date = datetime.now()
simulated_dates2 = [start_date + timedelta(days=random.randint(0, 365)) for _ in range(10000)]

import time
# Combinar datos y fechas
data_to_sort2 = list(zip(simulated_dates2, simulated_data2))

# Copiar datos para tener conjuntos de datos independientes para cada método de ordenamiento
data_copy2_1 = data_to_sort2.copy()
data_copy2_2 = data_to_sort2.copy()
data_copy2_3 = data_to_sort2.copy()
data_copy2_4 = data_to_sort2.copy()
data_copy2_5 = data_to_sort2.copy()

# Medir tiempo de ejecución para Merge Sort
start_time = time.time()
sorted_data1 = merge_sort(data_copy2_1, key=1)
end_time = time.time()
print(f"Merge Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Insertion Sort
start_time = time.time()
sorted_data2 = insertion_sort(data_copy2_2, key=1)
end_time = time.time()
print(f"Insertion Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Bubble Sort
start_time = time.time()
sorted_data3 = bubble_sort(data_copy2_3, key=1)
end_time = time.time()
print(f"Bubble Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Selection Sort
start_time = time.time()
sorted_data4 = selection_sort(data_copy2_4, key=1)
end_time = time.time()
print(f"Selection Sort - Tiempo de ejecución: {end_time - start_time} segundos")

# Medir tiempo de ejecución para Counting Sort (o el algoritmo que decidas usar)
start_time = time.time()
sorted_data5 = counting_sort(data_copy2_5, key=1)
end_time = time.time()
print(f"Counting Sort - Tiempo de ejecución: {end_time - start_time} segundos")


Merge Sort - Tiempo de ejecución: 0.06674027442932129 segundos
Insertion Sort - Tiempo de ejecución: 5.4349684715271 segundos
Bubble Sort - Tiempo de ejecución: 13.567477464675903 segundos
Selection Sort - Tiempo de ejecución: 8.271729707717896 segundos
Counting Sort - Tiempo de ejecución: 0.007067441940307617 segundos


Ahora es claro que el agoritmo MergeSort es el indicado para este tipo de tareas