# Unidad 4 - Actividad 1
# Materia: **Análisis de Algoritmos y Estructuras para Datos Masivos**
# Alumno: **Luis Fernando Izquierdo Berdugo**
# Fecha: **4 de Septiembre de 2024**

### Objetivo 
Esta actividad se enfoca en la implementación y explicación de cuatro algoritmos de ordenamiento fundamentales: bubble-sort, insertion-sort, merge-sort y quick-sort. Se requiere que cada algoritmo sea programado y detalladamente explicado en términos de su funcionamiento y lógica.

### Implemente y explique los siguientes algoritmos:
- Bubble-Sort
- Insertion-Sort
- Merge-Sort
- Quick-Sort

Cada explicación debe abordar cómo funciona el algoritmo y cuáles son sus características principales.

### Experimentación con Datos Perturbados
Utilice los archivos `unsorted-list-p=*.json`, basados en el archivo `listas-posteo-100.json` alterado en proporciones de $p=0.01,0.03,0.1,0.3$. Siga el procedimiento en el notebook `perturbar-listas.ipynb` para la perturbación. Puede usar sus propias listas de posteo perturbadas, siempre que sean comparables en tamaño.

### Análisis de Resultados:

- Realice experimentos ordenando las listas con cada algoritmo y para cada valor de p.
- **Grafique el número de comparaciones necesarias por algoritmo**: Elabore un solo gráfico que compare el número de comparaciones realizadas por cada algoritmo. Analice los resultados en relación a la teoría, explicando si los resultados coinciden o discrepan de lo esperado y por qué.
- **Grafique el tiempo en segundos requerido por algoritmo**: Prepare un solo gráfico que muestre el tiempo necesario para ordenar las listas por cada algoritmo. Realice un análisis detallado de estos tiempos, discutiendo si concuerdan o difieren de las expectativas teóricas y las posibles razones de estas diferencias.
- **Presentación de Resultados**: Los resultados deben ser presentados en una tabla agregada para facilitar la comparación y el análisis.

**Nota 1**: Recuerde copiar o cargar cada lista para evitar ordenar conjuntos completamente ordenados.

**Nota 2**: Repita varias veces las operaciones de ordenamiento, esto es muy importante sobre para la estabilidad de los tiempos en segundos (vea Nota 1).

**Nota 3**: En las implementaciones podrá usar cualquier comparación que le convenga, i.e., $<$, $\le$, $cmp$ -> {-1, 0, 1}, etc.

**Nota 4**: Tome en cuenta que varios lenguajes de programación (Python y Julia) hacen copias de los arreglos cuando se usa slicing, i.e., `arr[i:j]` creará un nuevo arreglo y eso implica costos adicionales innecesarios:

- Para Python: use índices o arreglos de numpy. Adicionalmente, asegurese que los arreglos contienen datos nativos y no sean objetos.

## Inciso 1 - Implementación de los algoritmos de ordenamiento

## Bubble Sort

El algoritmo de ordenamiento conocido como "Bubble Sort" se basa en el ordenamiento de pares de  elementos adyacentes en una lista. Revisa los pares y, si están en el orden incorrecto, les intercambia de lugar, lo cual se repite hasta que la lista está correctamente ordenada.

A pesar de que este algoritmo es el más sencillo de implementar, es ineficiente para listas de un tamaño mayor, teniendo una complejidad temporal de **$O(n^2)$**.

En la función para el bubble sort, se tomará de entrada la lista que se desea ordenar y se guardará en una variable la longitud de la misma.

Se hará un recorrido por todos los elementos de un arreglo y se declarará falso una variable que indica si se cambió de lugar el elemento a analizar.

Dentro de este recorrido, por el arreglo de nuevo, esta vez siendo de 0 a la longitud de la lista, menos el valor i, menos 1. Esto debido a que el último elemento del valor i ya está en su lugar.
Si el valor encontrado es mayor que el siguiente elemento, se cambia de lugar. En caso de que no se cambien de lugar, se rompe el loop más interno y se pasa al siguiente elemento de la lista, ya que el valor actual ya está en su lugar.

In [52]:
import copy
def bubbleSort(lista):
  ordenamiento = copy.deepcopy(lista)
  n = len(ordenamiento)
  comparaciones = 0

  # Se recorren todos los elementos de la lista
  for i in range(n):
    swapped = False

    # El último elemento de i ya están en su lugar
    for j in range(0, n-i-1):

      # Se cambia si el elemento j es más grande que el siguiente elemento
      comparaciones += 1
      if ordenamiento[j] > ordenamiento[j+1] :
        ordenamiento[j], ordenamiento[j+1] = ordenamiento[j+1], ordenamiento[j]
        swapped = True

    # Si no hubo cambio, se rompe el loop interno
    if swapped == False:
      break
    
  return ordenamiento, comparaciones

In [53]:
lista = [1,2,15,6,9,4,7,5,8,12,63,87,56,73]
bs, bsc = bubbleSort(lista)
print("Lista desordenada:", lista)
print("Lista ordenada:", bs)
print("Comparaciones:", bsc)

Lista desordenada: [1, 2, 15, 6, 9, 4, 7, 5, 8, 12, 63, 87, 56, 73]
Lista ordenada: [1, 2, 4, 5, 6, 7, 8, 9, 12, 15, 56, 63, 73, 87]
Comparaciones: 55


## Insertion Sort

El algoritmo de inserción compara los elementos con el inmediato anterior e intercambia sus lugares si el anterior es mayor (o se repite hasta que alcance el principio de la lista o encuentre uno mayor).

Este algoritmo es simple de implementar y es eficiente para listas pequeñas o aquellas que estén casi ordenadas. Su complejidad temporal es cuadrática **$O(n^2$)**

La función toma como parámetro la lista a ordenar. Lo primero que esta función hará será recorrer la lista desde el segundo elemento hasta el final (longitud de la lista), ya que se considera que el primer elemento ya está ubicado correctamente.

Guarda en la variable `key`el valor actual que se insertará y compara el valor de `key` con los elementos a su izquierda, hasta que está en su posición correcta y lo inserta en la tabla.

In [54]:
def insertionSort(lista):
  ordenamiento = copy.deepcopy(lista)
  comparaciones = 0
  #Se recorre del segundo elemento de la lista hasta el final.
  for i in range(1, len(ordenamiento)):
    #Se guarda el valor actual a insertar
    key = ordenamiento[i]
    j = i-1
    #Se compara el valor de key con los elementos a su izquierda 
    # hasta que encuentre su posición correcta y lo inserta.
    while j >= 0 and key < ordenamiento[j]:
      ordenamiento[j+1] = ordenamiento[j]
      j -= 1
      comparaciones += 1
    ordenamiento[j+1] = key
  return ordenamiento, comparaciones

In [55]:
lista = [73,99,6,9,4,7,5,8,12,63,87,56]
isort, isc = insertionSort(lista.copy())
print("Lista desordenada:", lista)
print("Lista ordenada:", isort )
print("Comparaciones:", isc)

Lista desordenada: [73, 99, 6, 9, 4, 7, 5, 8, 12, 63, 87, 56]
Lista ordenada: [4, 5, 6, 7, 8, 9, 12, 56, 63, 73, 87, 99]
Comparaciones: 28


## Merge-sort

Como destacan varias bibliografías, el algoritmo merge-sort utiiza el método de "divide y conquista". En cada iteración ordena un arreglo `A[p:r]`, iniciando por el arreglo entero `A[1:n]` y volviéndolos arreglos cada vez más pequeños.

Se divide el arreglo `A[p:r]` para que se ordene en dos arreglos adyacentes, cada uno con la mitad del tamaño, quedando los arreglos `A[p:q]` y `A[q+1:r]`. De ahí, ambos lados se ordenarán haciendo dividiendose de manera recursiva como se vio anteriormente. Finalmente se combinaran los dos arreglos `A[p:q]` y `A[q+1:r]` en `A[p:r]`, lo cual será nuestra respuesta final.

Este algoritmo, a pesar de ser muy eficiente con complejidad temporal **$O(nlogn)$**, puede no ser muy eficiente por el espacio adicional que requiere al generar las nuevas listas cada que parte la lista principal a la mitad.

En el caso de este algoritmo de ordenamiento, se crearon dos funciones. La primera es como tal el algoritmo merge-sort, que toma de entrada una lista.

Lo primero que se evalúa es si la lista tiene un elemento o menos, en ese caso ya está ordenada y se devuelve la lista. Posteriormente se encuentra la mitad de la lista y se ivide en izquierda o derecha usando la misma función recursivamente. Finalmente se regresa la combinación de ambos lados por medio de la función `merge`.

La función `merge` compara los elementos de las dos listas y los agrega a una lista de resultado

In [56]:
def mergeSort(lista):
    ordenamiento = lista
    if len(ordenamiento) <= 1:
        return ordenamiento, 0

    medio = len(ordenamiento) // 2
    izquierda, compIzq = mergeSort(ordenamiento[:medio])
    derecha, compDer = mergeSort(ordenamiento[medio:])
    resultado, compRes = merge(izquierda, derecha)
    return resultado, compIzq + compDer + compRes

def merge(izquierda, derecha):
    resultado = []
    i = j = 0
    comparaciones = 0

    while i < len(izquierda) and j < len(derecha):
        comparaciones += 1
        if izquierda[i] <= derecha[j]:
            resultado.append(izquierda[i])
            i += 1
        else:
            resultado.append(derecha[j])
            j += 1

    # Agregar los elementos restantes (si los hay)
    resultado.extend(izquierda[i:])
    resultado.extend(derecha[j:])
    return resultado, comparaciones

In [57]:
lista = [73,99,6,9,4,7,5,8,12,63,87,56]
ms, msc = mergeSort(lista)
print("Lista desordenada:", lista.copy())
print("Lista ordenada:", ms)
print("Comparaciones:", msc)

Lista desordenada: [73, 99, 6, 9, 4, 7, 5, 8, 12, 63, 87, 56]
Lista ordenada: [4, 5, 6, 7, 8, 9, 12, 56, 63, 73, 87, 99]
Comparaciones: 29


## Quick Sort

Este algoritmo toma un elemento "pivote" y crea dos arreglos, aquellos menores al elemento pivote y los mayores a este elemento, también ordena recursivamente estos arreglos.

Este algoritmo es muy eficiente para listas grandes, teniendo una cumplejidad temporal de **$O(n log n)$**.

La función creada para el algoritmo quick-sort toma de entrada la lista y revisa si ya está ordenada (cuando tiene un elemento o menos), en caso contrario declara el primer elemento de la lista como pivote y crea las dos lista de menores y mayores.

Finalmente devuelve la lista como el arreglo de la función `quick_sort` para la lista de elementos menores al pivote, el pivote y la misma función para la lista de elementos mayores al pivote.

In [58]:
import random
def quickSort(arr):
    def partition(arr, low, high):
        # Elige un pivote aleatorio para mejorar el balance
        pivot = random.randint(low, high)
        arr[pivot], arr[high] = arr[high], arr[pivot]
        i = low - 1
        comparaciones = 0
        for j in range(low, high):
            comparaciones += 1
            if arr[j] <= arr[high]:
                i += 1
                arr[i], arr[j] = arr[j], arr[i]
        arr[i + 1], arr[high] = arr[high], arr[i + 1]
        return i + 1, comparaciones

    def quick_sort_helper(arr, low, high):
        if low < high:
            pi, comparaciones = partition(arr, low, high)
            izqComp = quick_sort_helper(arr, low, pi - 1)
            derComp = quick_sort_helper(arr, pi + 1, high)
            return comparaciones + izqComp + derComp    
        return 0

    comparaciones = quick_sort_helper(arr, 0, len(arr) - 1)
    return arr, comparaciones

In [59]:
lista = [73,99,6,9,4,7,5,8,12,63,87,56]
qs, qsc = quickSort(lista.copy())
print("Lista desordenada:", lista)
print("Lista ordenada:", qs)
print("Comparaciones:", qsc)

Lista desordenada: [73, 99, 6, 9, 4, 7, 5, 8, 12, 63, 87, 56]
Lista ordenada: [4, 5, 6, 7, 8, 9, 12, 56, 63, 73, 87, 99]
Comparaciones: 46


## Inciso 2 - Experimentación con Datos Perturbados

In [60]:
import json
import numpy as np


def openLists(route):
    val = {}
    with open(f'{route}') as file:
        for line in file:
            data = json.loads(line)
            key, values = data
            val[key] = np.array(values)
        return val
    
p01 = openLists('unidad04/unsorted-list-p=0.01.json')
p03 = openLists('unidad04/unsorted-list-p=0.03.json')
p10 = openLists('unidad04/unsorted-list-p=0.10.json')
p30 = openLists('unidad04/unsorted-list-p=0.30.json')


In [61]:
import time
def getTime(funcion_ordenamiento, lista):
  itTimes = []
  comparaciones = []
  for arreglo in lista.values():
    inicio = time.process_time()
    ordenada, comp = funcion_ordenamiento(arreglo)
    fin = time.process_time()
    comparaciones.append(comp)
    total = fin - inicio
    itTimes.append(total)
  promedio = sum(itTimes)/len(itTimes)
  return promedio, ordenada, comparaciones

In [62]:
print("Proporción p = 0.01")
tiempoB1, ordenada, cB1 = getTime(bubbleSort, p01)
print(f"Tiempo de ejecución promedio de Bubble Sort: {tiempoB1:.5f} segundos")
tiempoI1, ordenada, cI1 = getTime(insertionSort, p01)
print(f"Tiempo de ejecución promedio de Insertion Sort: {tiempoI1:.5f} segundos")
tiempoM1, ordenada, cM1 = getTime(mergeSort, copy.deepcopy(p01))
print(f"Tiempo de ejecución promedio de Merge Sort: {tiempoM1:.5f} segundos")
tiempoQ1, ordenada, cQ1 = getTime(quickSort, copy.deepcopy(p01))
print(f"Tiempo de ejecución promedio de Quick Sort: {tiempoQ1:.5f} segundos")

print(f"Comparaciones:\nBubble Sort: {cB1}\nInsertion Sort: {cI1}\nMerge Sort: {cM1}\nQuick Sort: {cQ1}")

Proporción p = 0.01
Tiempo de ejecución promedio de Bubble Sort: 0.00184 segundos
Tiempo de ejecución promedio de Insertion Sort: 0.00152 segundos
Tiempo de ejecución promedio de Merge Sort: 0.01318 segundos
Tiempo de ejecución promedio de Quick Sort: 0.02323 segundos
Comparaciones:
Bubble Sort: [123978, 42867, 44136, 13545, 8757, 11949, 7829, 7217, 6761, 6401, 6215, 6157, 5785, 4561, 4441, 3987, 3765, 3645, 2963, 2885, 2771, 4008, 2615, 3882, 2537, 2355, 2271, 2259, 2221, 2129, 2111, 2097, 2085, 2063, 2051, 2049, 2039, 1957, 1917, 1915, 1839, 1795, 1765, 1743, 1725, 1719, 1717, 1681, 1663, 1645, 1613, 1551, 1523, 1495, 1491, 1467, 1461, 1453, 1449, 1419, 1417, 1383, 1381, 1381, 1363, 1359, 1357, 1343, 1333, 1317, 1299, 1275, 1269, 1263, 1263, 1259, 1257, 1247, 1237, 1227, 1219, 1207, 1191, 1187, 1185, 1163, 1151, 1147, 1113, 1107, 1099, 1099, 1097, 1095, 1085, 1079, 1057, 1057, 1055, 1037]
Insertion Sort: [413, 214, 147, 67, 43, 39, 39, 36, 33, 32, 31, 30, 28, 22, 22, 19, 16, 18, 14, 

In [63]:
print("Proporción p = 0.03")
tiempoB2, ordenada, cB2 = getTime(bubbleSort, p03)
print(f"Tiempo de ejecución promedio de Bubble Sort: {tiempoB2:.5f} segundos")
tiempoI2, ordenada, cI2 = getTime(insertionSort, p03)
print(f"Tiempo de ejecución promedio de Insertion Sort: {tiempoI2:.5f} segundos")
tiempoM2, ordenada, cM2 = getTime(mergeSort, copy.deepcopy(p03))
print(f"Tiempo de ejecución promedio de Merge Sort: {tiempoM2:.5f} segundos")
tiempoQ2, ordenada, cQ2 = getTime(quickSort, copy.deepcopy(p03))
print(f"Tiempo de ejecución promedio de Quick Sort: {tiempoQ2:.5f} segundos")

print(f"Comparaciones:\nBubble Sort: {cB2}\nInsertion Sort: {cI2}\nMerge Sort: {cM2}\nQuick Sort: {cQ2}")

Proporción p = 0.03
Tiempo de ejecución promedio de Bubble Sort: 0.00208 segundos
Tiempo de ejecución promedio de Insertion Sort: 0.00111 segundos
Tiempo de ejecución promedio de Merge Sort: 0.01011 segundos
Tiempo de ejecución promedio de Quick Sort: 0.02167 segundos
Comparaciones:
Bubble Sort: [123978, 64299, 44136, 20316, 13134, 11949, 11742, 10824, 10140, 9600, 9321, 9234, 8676, 4561, 4441, 5979, 5646, 5466, 4443, 2885, 2771, 4008, 3921, 2589, 2537, 2355, 2271, 2259, 3330, 3192, 3165, 3144, 3126, 2063, 2051, 3072, 2039, 1957, 2874, 2871, 1839, 1795, 1765, 1743, 1725, 1719, 1717, 1681, 1663, 1645, 2418, 1551, 2283, 1495, 1491, 2199, 1461, 1453, 1449, 1419, 1417, 1383, 2070, 1381, 2043, 1359, 1357, 2013, 1998, 1317, 1299, 1275, 1269, 1263, 1263, 1259, 1257, 1247, 1237, 1227, 1827, 1207, 1191, 1187, 1776, 1163, 1151, 1719, 1113, 1107, 1099, 1099, 1097, 1095, 1626, 1079, 1057, 1057, 1055, 1037]
Insertion Sort: [1197, 625, 427, 197, 123, 115, 113, 102, 97, 92, 93, 86, 80, 68, 64, 59, 52

In [64]:
print("Proporción p = 0.10")
tiempoB3, ordenada, cB3 = getTime(bubbleSort, p10)
print(f"Tiempo de ejecución promedio de Bubble Sort: {tiempoB3:.5f} segundos")
tiempoI3, ordenada, cI3 = getTime(insertionSort, p10)
print(f"Tiempo de ejecución promedio de Insertion Sort: {tiempoI3:.5f} segundos")
tiempoM3, ordenada, cM3 = getTime(mergeSort, copy.deepcopy(p10))
print(f"Tiempo de ejecución promedio de Merge Sort: {tiempoM3:.5f} segundos")
tiempoQ3, ordenada, cQ3 = getTime(quickSort, copy.deepcopy(p10))
print(f"Tiempo de ejecución promedio de Quick Sort: {tiempoQ3:.5f} segundos")

print(f"Comparaciones:\nBubble Sort: {cB3}\nInsertion Sort: {cI3}\nMerge Sort: {cM2}\nQuick Sort: {cQ3}")

Proporción p = 0.10
Tiempo de ejecución promedio de Bubble Sort: 0.00281 segundos
Tiempo de ejecución promedio de Insertion Sort: 0.00145 segundos
Tiempo de ejecución promedio de Merge Sort: 0.01086 segundos
Tiempo de ejecución promedio de Quick Sort: 0.02400 segundos
Comparaciones:
Bubble Sort: [165302, 85730, 58846, 27086, 17510, 11949, 11742, 14430, 13518, 9600, 9321, 9234, 8676, 6840, 6660, 5979, 5646, 5466, 4443, 4326, 4155, 4008, 3921, 3882, 5070, 3531, 4538, 3387, 3330, 3192, 3165, 3144, 3126, 4122, 3075, 4094, 3057, 2934, 2874, 2871, 2757, 2691, 2646, 2613, 2586, 2577, 2574, 2520, 2493, 3286, 2418, 2325, 2283, 2241, 2235, 2199, 2190, 2178, 2172, 2127, 2124, 2073, 2070, 2070, 2043, 2037, 2034, 2013, 1998, 1974, 1947, 1911, 1902, 2522, 1893, 1887, 1884, 1869, 2470, 1839, 1827, 1809, 1785, 1779, 1776, 1743, 1725, 1719, 1668, 1659, 2194, 1647, 1097, 1641, 1626, 1617, 1584, 1584, 1581, 1554]
Insertion Sort: [3788, 1983, 1341, 627, 394, 364, 357, 329, 312, 286, 284, 282, 273, 214, 20

In [65]:
print("Proporción p = 0.30")
tiempoB4, ordenada,cB4 = getTime(bubbleSort, p30)
print(f"Tiempo de ejecución promedio de Bubble Sort: {tiempoB4:.5f} segundos")
tiempoI4, ordenada, cI4 = getTime(insertionSort, p30)
print(f"Tiempo de ejecución promedio de Insertion Sort: {tiempoI4:.5f} segundos")
tiempoM4, ordenada, cM4 = getTime(mergeSort, copy.deepcopy(p30))
print(f"Tiempo de ejecución promedio de Merge Sort: {tiempoM4:.5f} segundos")
tiempoQ4, ordenada, cQ4 = getTime(quickSort, copy.deepcopy(p30))
print(f"Tiempo de ejecución promedio de Quick Sort: {tiempoQ4:.5f} segundos")

print(f"Comparaciones:\nBubble Sort: {cB4}\nInsertion Sort: {cI4}\nMerge Sort: {cM4}\nQuick Sort: {cQ4}")

Proporción p = 0.30
Tiempo de ejecución promedio de Bubble Sort: 0.00460 segundos
Tiempo de ejecución promedio de Insertion Sort: 0.00180 segundos
Tiempo de ejecución promedio de Merge Sort: 0.01236 segundos
Tiempo de ejecución promedio de Quick Sort: 0.02471 segundos
Comparaciones:
Bubble Sort: [206625, 107160, 73555, 27086, 21885, 23889, 19565, 18035, 13518, 15995, 12426, 15385, 11566, 9118, 8878, 7970, 7526, 9105, 5922, 5766, 5538, 5342, 5226, 5174, 5070, 4706, 4538, 5640, 5545, 4254, 4218, 4190, 4166, 4122, 4098, 4094, 4074, 3910, 4785, 3826, 3674, 3586, 3526, 4350, 3446, 3434, 3430, 3358, 3322, 3286, 3222, 3870, 3042, 2986, 2978, 2930, 3645, 2902, 3615, 2834, 2830, 2073, 2758, 2758, 2722, 2037, 2710, 2013, 1998, 1974, 2594, 1911, 2534, 2522, 1893, 2514, 2510, 2490, 3085, 2450, 2434, 2410, 2378, 2370, 2366, 2322, 2298, 1719, 2222, 2210, 1647, 2194, 2190, 2186, 2166, 2154, 2110, 3159, 2106, 2070]
Insertion Sort: [9700, 5082, 3502, 1594, 1062, 941, 940, 851, 838, 750, 718, 742, 662, 