<img src="img/viu_logo.png" width="200"><img src="img/python_logo.png" width="250"> *Mario Cervera*

# Algoritmos

## ¿Qué es un algoritmo?

* Un procedimiento bien definido que recibe un valor, o conjunto de valores, como *entrada* y produce un resultado como *salida*.
* Un conjunto de pasos que permiten resolver un *problema* definido en términos de una relación entrada-salida deseada.

### Ejemplo: El problema de la ordenación

* Uno de los problemas más ampliamente utilizado para estudiar análisis y diseño de algoritmos.

* Características:

  * *Entrada*: una secuencia de *n* números <a<sub>1</sub> , a<sub>2</sub> , ... , a<sub>n</sub>>.
        
  * *Salida*: permutación (reordenación) <a'<sub>1</sub> , a'<sub>2</sub> , ... , a'<sub>n</sub>> tal que a'<sub>1</sub> <= a'<sub>2</sub> <= a'<sub>n</sub>


* Algoritmos:

   * *Basados en comparaciones*: [Merge sort](https://es.wikipedia.org/wiki/Ordenamiento_por_mezcla), [Quick sort](https://es.wikipedia.org/wiki/Quicksort), [Heap sort](https://es.wikipedia.org/wiki/Heapsort).
  
  * *No basados en comparaciones*: [Counting sort](https://es.wikipedia.org/wiki/Ordenamiento_por_cuentas), [Radix sort](https://es.wikipedia.org/wiki/Ordenamiento_Radix).

In [None]:
# Ejemplo: Heap sort.

import heapq

def heapsort(lista):
    cola_prioridad = []
  
    for elemento in lista:
         heapq.heappush(cola_prioridad, elemento) 
        
    lista_ordenada = []
    while len(cola_prioridad) > 0:
        elemento_extraido_de_cola = heapq.heappop(cola_prioridad)
        lista_ordenada.append(elemento_extraido_de_cola)
        
    return lista_ordenada


print(heapsort([6,10,1,4,9,16,2,5]))

## Análisis de algoritmos

* Análisis de la eficiencia de los algoritmos a nivel teórico, pero que resulta una excelente herramienta a nivel práctico.
* Eficiencia: tiempo de ejecución, aunque también memoria consumida.
* Permite comparar algoritmos y ver cuál es mejor para un mismo problema.
* Nos interesa la eficiencia para entradas grandes.
    * Ordenar una lista de 10 elementos tiene un coste insignificante, incluso usando algoritmos ineficientes.
    * Ordenar una lista de 2<sup>32</sup> elementos es muy distinto. Si el algoritmo no es eficiente, el coste puede ser prohibitivo.

#### Notación O (Big O)

* Análisis *asintótico* de al eficiencia de algoritmos.
  * Análisis de como el tiempo de ejecución aumenta conforme va aumentando sin límites el tamaño de la entrada.
* Representación del tiempo de ejecución de un algoritmo como una función del tamaño de la entrada.

<img src="img/Algoritmos/O_Notation.png" width="650">*Imagen extraída de [2]*

* La notación O define una serie de funciones, u *órdenes de crecimiento*, que ignoran las constantes y los términos menos relevantes.
   * Ejemplo: la función *3n<sup>2</sup> + 4n - 1* sería *O(n<sup>2</sup>)* en notación O.
* Esto es porque se realiza un análisis asintótico, y el término más alto es el que realmente impacta en el tiempo de ejecución.

<img src="img/Algoritmos/OrdersOfGrowth.png" width="600">

* Estos órdenes de crecimiento representan límites superiores (*upper bounds*), normalmente sobre la función que representa el *peor caso*, ya que es la que más interesa.
   * Esto se conoce como **worst-case analysis**.

Ejemplos numéricos que ilustran los órdenes de crecimiento del tiempo de ejecución de los algoritmos:

<img src="img/Algoritmos/RunningTimes.png" width="900">*Tabla extraída de [2]*

Conclusiones relevantes:

* Para *n = 10* todos los algoritmos tuvieron aproximadamente el mismo coste.
* Los algoritmos *O(n!)* (factoriales) son completamente inservibles para tamaños relativamente pequeños (n > 20).
* Los algoritmos *O(2<sup>n</sup>)* (exponenciales) tienen un rango de operación mayor, pero también se vuelven inservibles relativamente pronto (n > 40).
* Los algoritmos *O(n<sup>2</sup>)* (cuadráticos) mantienen su utilidad hasta tamaños de aproximadamente n < 1.000.000.
* Los algoritmos *O(n)* (lineales) y *O(n log n)* mantienen su utilidad en el orden de billones de items.
* Los algoritmos *O(log n)* (logarítmicos) funcionan de manera prácticamente instantánea para cualquier tamaño de entrada imaginable. 

Estos datos muestran que, aunque se ignoren constantes y factores de orden inferior, estas categorías nos dan una idea excelente de cómo los algoritmos funcionan en la práctica.

#### ¿Cómo podemos saber a qué categoría pertenece nuestro algoritmo?

* De manera muy informal: contando los pasos que ejecuta el algoritmo.
* Si asumimos que nuestra máquina puede ejecutar una cantidad concreta de pasos por segundo, este cálculo se traduce de manera natural a *tiempo de ejecución*.

**Ejemplo: búsqueda lineal - O(n)**

In [1]:
def busqueda_lineal(lista, elemento_a_buscar):
    for i in range(len(lista)):
        if lista[i] == elemento_a_buscar:
            return i
    return -1

print(busqueda_lineal([5,1,3,9,2,8], 3))            

2


**Ejemplo: mostrar todos los pares - O(n<sup>2</sup>)**

In [None]:
def mostrar_pares(lista1, lista2):
    for elem1 in lista1:
        for elem2 in lista2:
            print(elem1, elem2)
            
mostrar_pares([1,2,3], [4,5,6])

## Referencias

[1] Cormen, T. H.; Leiserson, C. E.; Rivest, R. L.; Stein, C.: *Introduction to algorithms*. Third Edition. MIT press (2009)

[2] Skiena, S. S.: *The algorithm design manual.* Second edition. Springer (2008)

## Ejercicios

1. ¿Cuál sería la eficiencia del siguiente algoritmo en términos de la notación O (asumiendo que ambas listas tienen el mismo tamaño)?

In [None]:
def busqueda_lineal_en_2_listas(lista_1, lista_2, elemento_a_buscar):
    for elemento in lista_1:
        if elemento == elemento_a_buscar:
            return True
        
    for elemento in lista_2:
        if elemento == elemento_a_buscar:
            return True
        
    return False

2. ¿Cuál sería la eficiencia del siguiente algoritmo en términos de la notación O?

In [None]:
def mostrar_pares_repetidamente(lista):
    for elem1 in lista:
        for elem2 in lista:
            for i in range(50):
                print(f"Repetición {i}: par ({elem1}, {elem2})")

## Soluciones

1. El algoritmo realiza una iteración completa de *lista_1*. Una vez terminado todo el recorrido de *lista_1*, se lleva a cabo una iteración completa de *lista_2*. Si la longitud de las listas es *n*, esto da un total de *2n*. Es decir, el algoritmo tiene un coste lineal: **O(n)**.

2. El algoritmo recorre la lista de entrada en un primer bucle for. Para cada uno de los elementos de la lista, hay un segundo bucle for (anidado) que realiza otra iteración completa de la lista. Esto da un total de _n * n_ iteraciones o, lo que es lo mismo, *n²*. En cada una de estas *n²* iteraciones, se lleva a cabo un tercer bucle anidado que tiene 50 iteraciones. Es decir, el total del algoritmo sería *50n²*. Es decir, el algoritmo tiene un coste cuadrático: **O(n²)**.