<a href="https://colab.research.google.com/github/RodolfoFigueroa/madi2022-1/blob/main/Unidad_2/6_Algoritmos_de_Ordenamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

En esta sesión veremos algunos algoritmos de ordenamiento. Se irán presentando implementaciones de dichos algoritmos, el alumno deberá analizarlos y determinar cosas como correctitud, es decir, si el algoritmo en efecto ordena los elementos de una lista dada, complejidades en tiempo y en espacio, así como identificar si es algún algoritmo visto previamente en clase.

A modo de nota, siempre supondremos que la lista de números que se nos está dando es no vacía.

In [150]:
import random 

Lista = [random.randint(1, 10) for i in range(10)] 

print(Lista)

[5, 8, 7, 9, 7, 3, 4, 8, 1, 6]


# Counting sort

In [49]:
def counting_sort(L):
    maxi = L[0]
    mini = L[0]
    for i in range (1, len(L)):
        if maxi < L[i]: 
            maxi = L[i]
        if mini > L[i]:
            mini = L[i]
            
    arr = [0]*(maxi - mini + 1)
    for i in range(0, len(L)):
        arr[L[i] - mini] += 1
        
    for i in range(0, len(arr)):
        for j in range(0, arr[i]):
            print(i + mini)

counting_sort(Lista)

1
2
2
2
4
4
5
8
8
8


El algoritmo anterior consiste en contar las ocurrencias de cada número, lo que nos permitirá saber el orden de los elementos de la lista, siempre y cuando los elementos de la lista sean enteros (o tengamos información suficiente sobre las diferencias de los elementos). ¿Cuáles son las complejidades de este algoritmo? Tanto en tiempo como en memoria se tiene que es $O(n+k)$, donde $k$ es la longitud del intervalo entre el mayor y el menor elemento de la lista. Dicha $k$ se puede reducir utilizando diccionarios y hashes, para evitar los números que no aparecen en la lista y están en el intervalo entre el menor y el mayor elemento de la lista.

# Bubble sort

In [50]:
def bubble_sort(L):
    L = L.copy()
    for i in range (len(L), 0, -1):
        for j in range(1, i):
            if(L[j] < L[j-1]):
                L[j-1], L[j] = L[j], L[j-1]
    return L

bubble_sort(Lista)

[1, 2, 2, 2, 4, 4, 5, 8, 8, 8]

Este es el algoritmo de ordenamiento llamado *Bubble sort*, que consiste en recorrer la lista suficientes veces, de modo que en cada recorrido de la lista, si entontramos dos números adyacentes tales que no estén ordenados, los invierte, es decir, los cambia de posición. ¿Cuáles son sus complejidades? En cuanto a memoria únicamente requerimos $O(1)$ de memoria auxiliar, mientras que en tiempo se toma $O(n^2)$, ya que podrían llegar a haber $i$ inversiones, para cada $i$ entre $1, n$.

# Merge sort

In [15]:
def merge_sort(L, copy=True):
    if(len(L) == 1):
        return
    
    if copy:
        L = L.copy()
    m = len(L)//2
    left = L[:m]
    right = L[m:]
    merge_sort(left, copy=False)
    merge_sort(right, copy=False)
    
    l = r = k = 0
    while l < len(left) and r < len(right):
        if left[l] < right[r]:
            L[k] = left[l]
            l += 1
        else:
            L[k] = right[r]
            r += 1
        k += 1
    while l < len(left):
        L[k] = left[l]
        k += 1
        l += 1
    while(r < len(right)):
        L[k] = right[r]
        k += 1
        r += 1
    return L

merge_sort(Lista)

[11, 13, 14, 14, 15, 16, 17, 18, 18, 19]

Este algoritmo es *merge sort*, el cual actúa bajo el principio de divide y vencerás, es decir, divide la lista inicial en dos, ordena cada sección de lalista por separado, y una vez que están ordenados, los unifica en una nueva lista, que dará como resultado el ordenamiento de nuestra lista inicial. ¿Cuáles son las complejidades de este algoritmo? Es $O(n log n)$ en tiempo, mientras que en espacio auxiliar es $O(n)$, pues se puede acotar el espacio que utiliza por $3n$.

# Insertion sort

In [22]:
def insertion_sort(L):
    L = L.copy()
    for i, l in enumerate(L):
        j = i - 1
        while j >= 0 and L[j] > l:
            L[j+1] = L[j]
            j -= 1
        L[j + 1] = l
    return L

insertion_sort(Lista)

[11, 13, 14, 14, 15, 16, 17, 18, 18, 19]

Este algoritmo de ordenamiento es llamado *insertion sort*, su nombre describe lo que se hace, en cada iteración del ciclo for lo que hacemos es crear una lista ordenada con los primeros $i$ elementos, insertando el nuevo elemento donde corresponda. ¿Cuáles son sus complejidades? Se tiene que su complejidad en tiempo es $O(n^2)$, pues iteramos sobre los $n$ elementos de la lista, y en cada una de estas iteraciones podríamos llegar a tener $i-1$ iteraciones dentro del `while`, lo que hace que sea cuadrático en tiempo. En espacio adicional únicamente almacenamos los iteradores y el valor del nuevo elemento de la lista, por lo que es $O(1)$.

# Radix sort

In [151]:
def _radix_aux(L, pos):
    count = [0] * 10
    for m in L:
        aux = m//pos
        count[(aux%10)] += 1
        
    for i in range(1, 10): # Recuperamos las posiciones que nos indica el counting sort
        count[i] += count[i-1]
        
    ordered = [0] * len(L)
    for m in reversed(L):
        aux = m//pos
        ordered[count[aux%10] - 1] = m
        count[aux%10] -= 1
        
    for i in range(len(L)):
        L[i] = ordered[i]

def radix_sort(L):
    L = L.copy()
    pos = 1
    while pos <= max(L):
        _radix_aux(L, pos)
        pos *= 10
    return L
    
radix_sort(Lista)

[1, 3, 4, 5, 6, 7, 7, 8, 8, 9]

In [25]:
def _radix_aux(L, pos):
    count = [0] * 10
    for m in L:
        aux = m//pos
        #print('aux', aux)
        count[(aux%10)] += 1
        #print('aux % 10:', (aux%10))
    
    print('count1:',count)
    # Recuperamos las posiciones que nos indica el counting sort
    # Obtenemos las posiciones que tendria el nuevo arreglo
    # es decir, si 1 significa tenemos una ocurrencia y apartmos una celda
    # si dice 2 signigica que tenemos 2 ocurrencia con el mismo digito y apartamos 2 celdas
    # ahora tenemos sumas 1 + 2 = 3 para saber que las siguiente ocurrencias deben estar colocadas
    # en la tercera celda, por lo tanto, vamos haciendo sumas acumlativas para conocer las posiciones
    for i in range(1, 10): 
        #print('i:', i)
        #print('count[i]:', count[i])
        #print('i-1:', i-1)
        #print('count[i-1]:', count[i-1])
        count[i] += count[i-1]
        #print(count)
    print('count2:',count)
    
    ordered = [0] * len(L)
    for m in reversed(L):
        aux = m//pos
        ordered[count[aux%10] - 1] = m
        count[aux%10] -= 1
    print('ordered: ', ordered)
    print('count3: ', count)
    print('--------')
    
def radix_sort(L):
    L = L.copy()
    pos = 1
    while pos <= max(L):
        print('pos',pos)
        _radix_aux(L, pos)
        pos *= 10
    return L
    
#L = [random.randint(1, 300) for _ in range(10)]
L = [8, 255, 243, 182, 28, 245, 119, 147, 236, 163]
print(L)
radix_sort(L)

[8, 255, 243, 182, 28, 245, 119, 147, 236, 163]
pos 1
count1: [0, 0, 1, 2, 0, 2, 1, 1, 2, 1]
count2: [0, 0, 1, 3, 3, 5, 6, 7, 9, 10]
ordered:  [182, 243, 163, 255, 245, 236, 147, 8, 28, 119]
count3:  [0, 0, 0, 1, 3, 3, 5, 6, 7, 9]
--------
pos 10
count1: [1, 1, 1, 1, 3, 1, 1, 0, 1, 0]
count2: [1, 2, 3, 4, 7, 8, 9, 9, 10, 10]
ordered:  [8, 119, 28, 236, 243, 245, 147, 255, 163, 182]
count3:  [0, 1, 2, 3, 4, 7, 8, 9, 9, 10]
--------
pos 100
count1: [2, 4, 4, 0, 0, 0, 0, 0, 0, 0]
count2: [2, 6, 10, 10, 10, 10, 10, 10, 10, 10]
ordered:  [8, 28, 182, 119, 147, 163, 255, 243, 245, 236]
count3:  [0, 2, 6, 10, 10, 10, 10, 10, 10, 10]
--------


[8, 255, 243, 182, 28, 245, 119, 147, 236, 163]

In [17]:
L = [8, 255, 243, 182, 28, 245, 119, 147, 236, 163]
ordered = [0] * len(L)
for m in reversed(L):
    print(m)

163
236
147
119
245
28
182
243
255
8


Notemos que nuestro algoritmo funciona únicamente para listas que tienen puros enteros positivos. Este algoritmo se llama *radix sort*, el cual consiste en ir ordenando los números según sus dígitos, del dígito que representa menor valor (el de las unidades) hasta el que representa el mayor valor. Este algoritmo también se puede adaptar a problemas como ordenar una lista de strings alfabéticamente. 

In [15]:
import random 

L = [random.randint(1, 10) for i in range(10)] 

print(L)

[9, 1, 5, 4, 10, 10, 1, 6, 9, 10]


**Ejercicios.**
1.   Implementa el algoritmo de ordenamiento *quicksort*.

Como dice el algortimo quicksort, tomamos un pivote y vamos particionando nuestra lista en listas más paqueñas para así ordenarlas, el orden será primero todas las listas del lado izquierdo y depues las listas del lado derecho recursivamente, al ordenarlas de esta forma nuestro problema principal de ordenar se reduce en ordenar pequeñas listas, por eso puede decir que su complejidad en promedio es $nlogn$, por el hecho de que particionamos nuestro problema y ordenamos.

In [13]:
def intercambiar(A, x, y):
    tmp = A[x]
    A[x] = A[y]
    A[y] = tmp

def particionar(A, p, r):
    #print(A)
    x = A[p]
    #print(x)
    i = p
    for j in range(p+1, r+1):
        if A[j] <= x:
            i += 1
            intercambiar(A, i, j)
    intercambiar(A, i, p)
    return i

def quicksort(A, p, r):
    if p < r:
        q = particionar(A, p, r)
        quicksort(A, p, q-1)
        quicksort(A, q+1, r)

In [16]:
print("Antes: ", L)
quicksort(L, 0, len(L)-1)
print("Despues", L)

Antes:  [9, 1, 5, 4, 10, 10, 1, 6, 9, 10]
Despues [1, 1, 4, 5, 6, 9, 9, 10, 10, 10]


2.   Utilizando radix sort, implementa un algoritmo que permita ordenar alfabéticamente una lista de strings. Puedes suponer que las strings no tienen espacios y contienen únicamente caracteres que son letras minúsculas.
Verifica tu algoritmo con las listas: `['aaaaa', 'zapatos', 'bien', 'zapatillas', 'datos', 'dddatos', 'das', 'ciencia', 'aaa', 'alas', 'problema', 'comando', 'oopera'], ['ddddescarga', 'usando', 'nuevo', 'nuevos', 'version', 'verifica', 'ooo', 'eeee', 'goool', 'golazooo', 'goolazo', 'compartir']`

In [53]:
l = 10
x = 'datos'
y = x.zfill(l)
y


'00000datos'

In [55]:
x = "-" * 5 + 'datos'
x

'-----datos'

Para el algortimos, tomamos la misma ideas usando la relacion de orden con el codigo ascii de las letras, asi creamos un arreglo de 26 celdas más una para considerar la cadena vacia que podria surgir cuando la cadena sea menor que la cadena de mayor longitud. Con eso en mente, primero normalizamos las cadenas para todas tengas la misma longitud de la cadena más grande, iteramos de izquierda a derecha para conseguir de forma analaga los ultimos digitos de nuestra cadena, hacemos una resta del codigo ascci de la letra con 97, para generar un rango de valores de 1 a 26 y comparamos que si la cadena vacia con un simbolo de cero, para indicar que debe considerarlo como el 0 de forma analaga con los números. Una vez obtendido este arreglo, que era parte fundamental, se sigue con el algoritmo que teniamos anteriormente, ya que nuestro arreglo esta conformado de enteros, ya no hay ninguna diferencia, despues desnormalizamos nuestras cadenas para que vuelvan a tener su misma longitud.

**Nota**. Un factor importantes a considerar, es que las cadenas con logitud menor tiene menor grado de comparacion que con cadenas de logitud mayor, es decir, si tenemos una cadena `'z'` y una cadena `'aaaaaa'`, se considerará la cadena `'z'` primero y despues `'aaaaaa'` en su relación de orden.

In [157]:
def _radix_aux(L, pos):
    count = [0] * 27        
    for word in L:        
        if word[pos] == '0':
            count[0] += 1
        else:
            indice = (ord(word[pos])+1) - 97        
            count[indice] +=1
    
    
    for i in range(1, 27):
        count[i] += count[i-1]
    
      
    ordered = [0] * len(L)        
    for word in reversed(L):
        if word[pos] == '0':
            indice = 0
        else:
            indice = (ord(word[pos])+1) - 97
        ordered[count[indice]-1] = word
        count[indice] -= 1 
        
    for i in range(len(L)):
        L[i] = ordered[i]                
    

def normalizar_cadenas(L, maxima_longitud):    
    for i, word in enumerate(L):
        if len(word) < maxima_longitud:
            L[i] = word.zfill(maxima_longitud)
    pass

def find_max_length(L):
    max_length = len(L[0])
    for word in L:        
        if len(word) > max_length:
            max_length = len(word)
    return max_length
        
def desnormalizar(L):
    for i, word in enumerate(L):
        L[i] = word.replace('0','')
    
def radix_sort(L):
    L = L.copy()            
    max_length = find_max_length(L)    
    pos = max_length-1
    normalizar_cadenas(L, max_length)            
    while pos >= 0:    
        _radix_aux(L, pos)
        pos -= 1
    desnormalizar(L)
    return L    

### Prueba 1

In [156]:
L = ['aaaaa', 'zapatos', 'bien', 'zapatillas', 'datos', 'dddatos', 'das', 'ciencia', 'aaa', 'alas', 'problema', 'comando', 'oopera']

print("Antes:\n", L)
L = radix_sort(L)
print("Despues:\n", L)

Antes:
 ['aaaaa', 'zapatos', 'bien', 'zapatillas', 'datos', 'dddatos', 'das', 'ciencia', 'aaa', 'alas', 'problema', 'comando', 'oopera']
Despues:
 ['aaa', 'das', 'alas', 'bien', 'aaaaa', 'datos', 'oopera', 'ciencia', 'comando', 'dddatos', 'zapatos', 'problema', 'zapatillas']


### Prueba 2

In [158]:
L = ['ddddescarga', 'usando', 'nuevo', 'nuevos', 'version', 'verifica', 'ooo', 'eeee', 'goool', 'golazooo', 'goolazo', 'compartir']
print("Antes:\n", L)
L = radix_sort(L)
print("Despues:\n", L)

Antes:
 ['ddddescarga', 'usando', 'nuevo', 'nuevos', 'version', 'verifica', 'ooo', 'eeee', 'goool', 'golazooo', 'goolazo', 'compartir']
Despues:
 ['ooo', 'eeee', 'goool', 'nuevo', 'nuevos', 'usando', 'goolazo', 'version', 'golazooo', 'verifica', 'compartir', 'ddddescarga']


3. Determina cuál es el mínimo número de comparaciones necsarias dada una lista $L$ de $n$ números para poder determinar si está ordenada o no. Describe un algoritmo con dicho mínimo y argumenta por qué con menos comparaciones no se puede.

El minimo número de comparaciones seria `n-1`, ya que se debe iterar a los elementos de la lista verificando la relación de orden.

El algortimo seria:

```
n = len(lista)
for i in (n-1):
    if lista[i+1] < lista[i]:
        regresar 'La lista no esta ordenada'    
    regresar 'Si esta ordenada'
```
No se puede con menos comparaciónes porque se debe de verificar a cada elemento de la lista.

