## Ordenación por inserción

Supongamos que se tiene un arreglo $a$, de tamaño $n$, y queremos reordenar los datos almacenados en su interior de modo que queden en orden ascendente.



El método de **Ordenación por Inserción** se basa en formar en el sector izquierdo del arreglo un subconjunto ordenado, en el cual se van insertando uno por uno los elementos restantes. Para la inicialización, comenzamos con un subconjunto ordenado de tamaño 0, y el proceso termina cuando el subconjunto ordenado llega a tener tamaño $n$. 

![insercion](./insertionSort.png?raw=1)


El invariante se puede visualizar como:

![insercion](https://github.com/ivansipiran/AED-Apuntes/blob/main/recursos/insercion.png?raw=1)

La variable $k$ indica el tamaño del subconjunto ordenado. Equivalentemente, $k$ es el subíndice del primer elemento todavía no ordenado, y que será el que se insertará en esta oportunidad.

In [1]:
# Ordenación Por Inserción
def ordena_insercion(a):
    n=len(a)
    for k in range(0,n):
        insertar(a,k)

Este algoritmo todavía no es ejecutable, porque falta definir la función `insertar`, que se encarga de tomar $a[k]$ e insertarlo entre los anteriores. La forma más simple de hacer esto es a través de intercambios sucesivos:

In [2]:
# Insertar a[k] entre los elementos anteriores preservando el orden ascendente (versión 1)
def insertar(a, k):
    j=k # señala la posición del elemento que está siendo insertado
    while j>0 and a[j]<a[j-1]:
        (a[j], a[j-1]) = (a[j-1], a[j])
        j-=1

Para poder probar este algoritmo, generemos un arreglo con números aleatorios y ordenémoslo:

In [4]:
import numpy as np
a = np.random.random(6)
print(a)
ordena_insercion(a)
print(a)

[0.56981923 0.10349083 0.14239958 0.72499607 0.91571617 0.28017694]
[0.10349083 0.14239958 0.28017694 0.56981923 0.72499607 0.91571617]


Si observamos el algoritmo de inserción, podemos ver que en los intercambios siempre uno de los dos elementos involucrados es el que se está insertando, el cual pasa por muchos lugares provisorios hasta llegar finalmente a su ubicación definitiva. Esto sugiere que podemos ahorrar trabajo si en lugar de hacer todos esos intercambios, sacamos primero el elemento a insertar hacia una variable auxiliar, luego vamos moviendo los restantes elementos hacia la derecha, y al final movemos directamente el nuevo elemento desde la variable auxiliar hasta su posición definitiva:

In [5]:
# Insertar a[k] entre los elementos anteriores preservando el orden ascendente (versión 2)
def insertar(a, k):
    b=a[k] # b almacena transitoriamente al elemento a[k]
    j=k # señala la posición del lugar "vacío"
    while j>0 and b<a[j-1]:
        a[j]=a[j-1]
        j-=1
    a[j]=b

In [6]:
a = np.random.random(6)
print(a)
ordena_insercion(a)
print(a)

[0.97790138 0.08235879 0.88089234 0.12327824 0.48331358 0.28521383]
[0.08235879 0.12327824 0.28521383 0.48331358 0.88089234 0.97790138]


Para analizar la eficiencia de este algoritmo, podemos considerar varios casos:
* Mejor caso: Si el arreglo ya viene ordenado, el ciclo de la función `insertar` termina de inmediato, así que esa función demora tiempo constante, y el proceso completo demora tiempo $O(n)$, lineal en $n$.
* Peor caso: Si el arreglo viene originalmente en orden decreciente, el ciclo de la función `insertar` hace el máximo de iteraciones ($k$), y la suma de todos esos costos da un total de $O(n^2)$, cuadrático en $n$.
* Caso promedio: Si el arreglo viene en orden aleatorio, el número promedio de iteraciones que hace el ciclo de la función `insertar` es aproximadamente $k/2$, y la suma de todos esos costos igual da un total de $O(n^2)$. Esto es, el costo promedio también es cuadrático.

## Ordenación por Selección

El método de **Ordenación por Selección** se basa en extraer el máximo elemento y moverlo hacia el extremo derecho del arreglo, y repetir este proceso entre los elementos restantes hasta que todos hayan sido extraídos. El invariante se puede visualizar como:

![ord-seleccion](https://github.com/ivansipiran/AED-Apuntes/blob/main/recursos/seleccion.png?raw=1)

La variable $k$ indica el tamaño del subconjunto que todavía falta por procesar. Equivalentemente, es el subíndice del primer elemento que ya pertenece al subconjunto ordenado.

In [7]:
# Ordenación por Selección
def ordena_seleccion(a):
    n=len(a)
    for k in range(n,1,-1): # Paramos cuando todavía queda 1 elemento "desordenado" (¿por qué está bien eso?)
        j=pos_maximo(a,k) # Encuentra posición del máximo entre a[0],...,a[k-1]
        (a[j],a[k-1])=(a[k-1],a[j])

In [8]:
# Encuentra posición del máximo entre a[0],...,a[k-1]
def pos_maximo(a, k):
    j=0 # j señala la posición del máximo
    for i in range(1,k):
        if a[i]>a[j]: # Encontramos un nuevo máximo
            j=i
    return j

Nuevamente, probamos nuestro algoritmo con un arreglo aleatorio:

In [9]:
a = np.random.random(6)
print(a)
ordena_seleccion(a)
print(a)

[0.39388225 0.33388217 0.41508892 0.90740364 0.54712661 0.09910381]
[0.09910381 0.33388217 0.39388225 0.41508892 0.54712661 0.90740364]


En este algoritmo, siempre se recorre todo el conjunto de tamaño $k$ para encontrar el máximo, de modo que la suma de todos estos costos de un total de $O(n^2)$, en todos los casos.

Más adelante veremos que hay maneras mucho más eficientes de calcular el máximo de un conjunto, una vez que se ha encontrado y extraído el máximo la primera vez.

Piensen por ejemplo en un típico torneo de tenis, en donde los jugadores se van eliminando por rondas, hasta que en la final queda solo un jugador invicto: el campeón. Si hay $n$ jugadores, ese proceso requiere exactamente $n-1$ partidos. **Pero** una vez que se ha jugado todo ese torneo, hagamos un experimento mental y pensemos que habría sucedido si el primer día el campeón no hubiera podido jugar por alguna causa. Para determinar quién habría resultado campeón en esas circunstancias (o sea, para encontrar al subcampeón), **no sería necesario repetir todo el torneo, sino solo volver a jugar los partidos en los que habría participado el campeón**. Ese número de partidos es mucho menor a $n$, y en realidad no es difícil ver que es logarítmico. Y eso puede repetirse para encontrar al tercero, al cuarto, etc., siempre con el mismo costo logarítmico.

Si sumamos todos esos costos, da un total de $O(n\log{n})$, en el peor caso.

Lo anterior es una "demostración de factibilidad" de que existen algoritmos de ordenación de costo $O(n\log{n})$, más eficientes que $O(n^2)$. Más adelante en el curso veremos algoritmos prácticos que alcanzan esta eficiencia.

## Ordenación de la Burbuja

Este algoritmo se basa en ir haciendo pasadas sucesivas de izquierda a derecha sobre el arreglo, y cada vez que encuentra dos elementos adyacentes fuera de orden, los intercambia. Así, el arreglo va quedando cada vez "más ordenado", hasta que finalmente esté totalmente ordenado.

Analizando el efecto de una pasada de izquierda a derecha, vemos que, aparte de los pequeños desórdenes que pueda ir arreglando por el camino, una vez que el algoritmo se encuentra con el máximo, los intercambios lo empiezan a trasladar paso a paso hacia la derecha, hasta que finalmente queda en el extremo derecho del arreglo. Eso significa que ya ha llegado a su posición definitiva, y no necesitamos volver a tocarlo. Por lo tanto, el algoritmo puede ignorar esos elementos al extremo derecho, los que por construcción están ordenados y son mayores que todos los de la izquierda. Esto lo podemos visualizar como:

![ord-seleccion](https://github.com/ivansipiran/AED-Apuntes/blob/main/recursos/seleccion.png?raw=1)

¡El mismo invariante que la Ordenación por Selección! Sin embargo, el algoritmo resultante es distinto.

In [10]:
# Ordenación de la Burbuja (versión 1)
def ordena_burbuja(a):
    n=len(a)
    k=n # número de elementos todavía desordenados
    while k>1:
        # Hacer una pasada sobre a[0],...,a[k-1]
        # intercambiando elementos adyacentes desordenados
        for j in range(0,k-1):
            if a[j]>a[j+1]:
                (a[j],a[j+1])=(a[j+1],a[j])
        # Disminuir k
        k-=1

In [11]:
a = np.random.random(6)
print(a)
ordena_burbuja(a)
print(a)

[0.78269946 0.62205028 0.9118423  0.0199005  0.48133425 0.70316531]
[0.0199005  0.48133425 0.62205028 0.70316531 0.78269946 0.9118423 ]


Este algoritmo demora siempre tiempo $O(n^2)$, ¡incluso si se le da para ordenar un arregla que ya viene ordenado!

No cuesta mucho introducir una variable booleana que señale si en una pasada no se ha hecho ningún intercambio, y usar esa variable para terminar el proceso cuando eso ocurre. Pero hay una manera mejor de modificar el algoritmo para aumentar su eficiencia.

Para esto, introducimos una variable $i$ que recuerda el punto donde se hizo el último intercambio (el cual habría sido entre $a[i-1]$ y $a[i]$. Si a partir de ese punto ya no se encontraron elementos fuera de orden, eso quiere decir que $a[i-1]<a[i]$ y luego a partir de ahí todos los elementos están ordenados, **hasta el final del arreglo**. Por lo tanto, el invariante se preserva si hacemos $k=i$.

¿Qué pasa si no hubo ningún intercambio? Para este caso, si le damos a la variable $i$ el valor inicial cero, al hacer $k=i$ tendríamos $k=0$ y el proceso terminaría automáticamente. El algoritmo resultante es el siguiente:

In [12]:
# Ordenación de la Burbuja (versión 2)
def ordena_burbuja(a):
    n=len(a)
    k=n # número de elementos todavía desordenados
    while k>1:
        # Hacer una pasada sobre a[0],...,a[k-1]
        # intercambiando elementos adyacentes desordenados
        i=0
        for j in range(0,k-1):
            if a[j]>a[j+1]:
                (a[j],a[j+1])=(a[j+1],a[j])
                i=j+1 # recordamos el lugar del último intercambio
        # Disminuir k
        k=i

In [13]:
a = np.random.random(6)
print(a)
ordena_burbuja(a)
print(a)

[0.83928455 0.59725306 0.15508639 0.20529806 0.41121986 0.82924012]
[0.15508639 0.20529806 0.41121986 0.59725306 0.82924012 0.83928455]


Este algoritmo aprovecha mejor el orden previo que puede trar el arreglo, y en particular ordena arreglos ordenados en tiempo lineal. Pero tanto su peor caso como su caso promedio siguen siendo cuadráticos.

## Recursividad

El poder escribir funciones que se llamen a sí mismas es una herramienta muy poderosa de programación. Veremos algunos ejemplos de aplicaciones de este concepto, y más adelante veremos cómo puede conducir al diseño de algoritmos muy eficientes.

## Ejemplo: Calcular $y=x^n$
Revisemos nuevamente este problema, pero ahora desde un punto de vista recursivo. Una potencia se puede definir recursivamente de la siguiente manera:

$$
x^n =
\begin{cases}x * x^{n-1} & \mbox{si }n>0 \\
1 & \mbox{si }n=0
\end{cases}
$$

lo cual se puede implementar directamente como una función recursiva:

In [None]:
def potencia(x,n):
    if n==0:
        return 1
    else:
        return x * potencia(x,n-1)

In [None]:
print(potencia(2,10))

1024


El algoritmo resultante demora tiempo $O(n)$, pero  puede mejorarse si el caso $n$ par lo tratamos aparte:

$$
x^n =
\begin{cases}
\left(x^2\right)^{n/2} & \mbox{si }n>0\mbox{, par} \\
x * x^{n-1} & \mbox{si }n>0\mbox{, impar} \\
1 & \mbox{si }n=0
\end{cases}
$$

y la función que lo implementa es:

In [None]:
def potencia(x,n):
    if n==0:
        return 1
    elif n%2==0:
        return potencia(x*x,n//2)
    else:
        return x * potencia(x,n-1)

In [None]:
print(potencia(2,10))

1024


El resultado es el algoritmo binario, que demora tiempo $O(\log{n})$, en versión recursiva.

## Recursividad vs. Iteración
Todo algoritmo iterativo puede escribirse recursivamente. En particular, cualquier ciclo de la forma
```python
while C:
    A
```
puede implementarse como
```python
def f():
    if C:
        A
        f()
f()
```
Por cierto, en la llamada recursiva se le debe entregar a la función el contexto en que habría operado en la siguiente iteración del ciclo.

Por ejemplo, si queremos imprimir uno por uno los elementos de un arreglo $a$, una forma iterativa de hacerlo sería:

In [None]:
def imprimir(a):
    k=0
    while k<len(a):
        print(a[k])
        k+=1

In [None]:
a=np.random.random(6)
imprimir(a)

0.12225215333811135
0.9666515621892792
0.7343725168219568
0.12940626022986446
0.8673473432897322
0.17030220494709525


En forma recursiva, esto queda como:

In [None]:
def imprimir(a):
    imprimir_recursivo(a,0)
    
def imprimir_recursivo(a,k): # imprimir desde a[k] en adelante
    if k<len(a):
        print(a[k])
        imprimir_recursivo(a,k+1)

In [None]:
a=np.random.random(6)
imprimir(a)

0.45816469538634885
0.1238539048720454
0.8452780478232685
0.8249535493615134
0.9090338598886296
0.09811688418783937


Este proceso es reversible: cuando una función recursiva lo último que hace es llamarse a sí misma, lo que se llama "recursividad a la cola" ("*tail recursion*"), eso se puede reemplazar por un `while`:

In [None]:
def imprimir(a):
    imprimir_recursivo(a,0)
    
def imprimir_recursivo(a,k): # imprimir desde a[k] en adelante, ahora NO recursivo
    while k<len(a): # reemplazó a "if k<len(a):"
        print(a[k])
        k+=1 # reemplazó a "imprimir_recursivo(a,k+1)"

In [None]:
a=np.random.random(6)
imprimir(a)

0.8070534435454794
0.5755788541681871
0.030521084623730044
0.08963944581140049
0.3373915600706874
0.3774477796256137


Pero ahora la función `imprimir_recursivo` es llamada desde un único lugar, con k=0, y por lo tanto, en ese lugar podemos sustituir la llamada por el código de la función, con lo que el resultado es:

In [None]:
def imprimir(a):
    # Esto reemplaza a "imprimir_recursivo(a,0)"
    k=0
    while k<len(a): # reemplazó a "if k<len(a):"
        print(a[k])
        k+=1 # reemplazó a "imprimir_recursivo(a,k+1)""

In [None]:
a=np.random.random(6)
imprimir(a)

0.5828598441122989
0.5271351769877851
0.9123074412733657
0.6678789866751913
0.6832783074153522
0.5897843645769776


¡Con lo cual hemos vuelto al punto de partida!

Sin embargo, esto solo funciona para eliminar la "recursividad a la cola". Si hay llamadas recursivas que **no** son lo último que ejecuta la función, no pueden eliminarse con esta receta, y como veremos más adelante, requerirá el uso de una estructura llamada una "pila" (*stack*).

El siguiente ejemplo ilustra un caso en que esto ocurre.

## Ejemplo: Torres de Hanoi

![Torres de Hanoi](https://github.com/ivansipiran/AED-Apuntes/blob/main/recursos/ColorHanoi.jpg?raw=1)

Este puzzle consiste en trasladar $n$ discos desde la estaca 1 a la estaca 3, respetando siempre las dos reglas siguientes:
* Solo se puede mover de a un disco a la vez, y
* Nunca puede haber un disco más grande sobre uno más chico
Esto se puede resolver recursivamente de la siguiente manera:

![Torres de Hanoi](https://github.com/ivansipiran/AED-Apuntes/blob/main/recursos/hanoi.gif?raw=1)

Para mover $n$ discos desde $a$ hasta $c$ (usando la estaca $b$ como auxiliar):
* Primero movemos (recursivamente) $n-1$ discos desde la estaca $a$ a la estaca $b$
* Una vez despejado el camino, movemos 1 disco desde $a$ hasta $c$
* Finalmente, movemos de nuevo (recursivamente) los $n-1$ discos, ahora desde $b$ hasta $c$ (usando $a$ como auxiliar)

El caso base es $n=0$, en cuyo caso no se hace nada.

In [None]:
def Hanoi(n, a, b, c): # Mover n discos desde "a" a "c", usando "b" como auxiliar
    if n>0:
        Hanoi(n-1, a, c, b)
        print(a, "-->", c) # Mueve 1 disco desde "a" hasta "c"
        Hanoi(n-1, b, a, c)

In [None]:
Hanoi(3, 1, 2, 3)

1 --> 3
1 --> 2
3 --> 2
1 --> 3
2 --> 1
2 --> 3
1 --> 3


Este algoritmo es muy claro y bastante intuitivo. Si aplicamos la regla de eliminación de "recursividad a la cola", lo que resulta es un algoritmo equivalente, pero mucho menos trivial de entender:

In [None]:
def Hanoi(n, a, b, c): # Mover n discos desde "a" a "c", usando "b" como auxiliar
    while n>0: # reemplaza a "if n>0:"
        Hanoi(n-1, a, c, b)
        print(a, "-->", c) # Mueve 1 disco desde "a" hasta "c"
        n-=1
        (a,b)=(b,a) # reemplaza a "Hanoi(n-1, b, a, c)"

In [None]:
Hanoi(3, 1, 2, 3)

1 --> 3
1 --> 2
3 --> 2
1 --> 3
2 --> 1
2 --> 3
1 --> 3
