# Ordenación y búsqueda

## 1. Búsqueda binaria

La búsqueda binaria es un algoritmo que encuentra la posición de un elemento en una lista ordenada. Las búsquedas binarias dividen repetidamente una lista en dos mitades. Entonces, una búsqueda compara si un valor es mayor o menor que el valor medio de la lista. 

Hay dos maneras de realizar una búsqueda binaria.

El primer enfoque que se puede utilizar es el método iterativo. En este enfoque, se repite un conjunto de sentencias para determinar la posición de un elemento en una lista. Utilizamos un bucle `while` para implementar este algoritmo.

El otro enfoque es el método recursivo. Aquí se escribe una función que se llama a sí misma una y otra vez hasta que se encuentra un elemento en una lista.

### Búqueda binaria iterativa

En la búsqueda binaria iterativa la idea es separar la lista en dos mitades y quedarse con la mitad que contiene el elemento. Esto es muy fácil de hacer pues al estar la lista ordenada, comparando el elemento que se quiere encontrar con el elemento de la mitad de la lista se determina  en que lado de la lista debemos continuar buscando. Iternado este proceso con la sublista que hemos elegido y así sucesivamente, obtenemos la posición del elemento buscado. 

Para implementar este algoritmo es conveniente siempre mantener la lista original e ir marcando en ella los límites de la sublista en la cual continuamos buscando. 

In [None]:
from random import randint
lista = [randint(1,10**4) for i in range(10**3)] # una lista de 1000 números aleatorios
lista.sort() # ordenamos la lista
print(lista[:100])

In [None]:
def busqueda_b_iter(lista: list, num : int) -> int:
    # pre: lista es una lista de enteros, num  es un entero
    # post: devuelve la posicion de num en la lista, si no esta devuelve -1
    res = -1 
    comienzo, final = 0, len(lista) - 1

    while comienzo <= final:
        medio = (comienzo + final) // 2
        if lista[medio] == num:
            res =  medio
        elif lista[medio] < num:
            comienzo = medio + 1
        else:
            final = medio - 1
    return res

In [None]:
busqueda_b_iter(lista, lista[335])

La forma más clara de ver como  funciona este algoritmo es con Python Tutor. 

### Búsqueda binaria recursiva

También podemos utilizar la recursión para realizar una búsqueda binaria.

In [11]:
def busqueda_b_recur(lista: list, num : int, comienzo, final: int) -> int:
    # pre: lista es una lista de enteros, num, comienzo, final  son enteros
    # post: devuelve la posicion de num en la lista entre las posiciones comienzo y final, si no esta allí devuelve -1
    res = -1
    if final >= comienzo:
        medio = (comienzo + final) // 2
        if lista[medio] == num:
            res = medio
        elif lista[medio] < num:
            res = busqueda_b_recur(lista, num, medio + 1, final)
        else:
            res = busqueda_b_recur(lista, num, comienzo, medio - 1)
    else:
        res = -1
    return res

In [13]:
busqueda_b_recur(lista, lista[335], 0, len(lista) - 1)

335

## 1. Ordenamiento por selección (selection sort)

Siempre tratamos de ordenar una lista de elementos comparables (`int` o `str`, por ejemplo) 

**Ordenamiento por selección.** En  este caso se tiene la primera parte de una lista (de `0` a `i-1`) y `lista[:i]` está ordenada.  Además todos los elementos de `lista[:i]` son `<=` que los del resto de la lista (`lista[i:]`). Se elige el mínimo del resto, es decir de `lista[i:]`, y se permuta por el primer elemento de esa sublista. Luego  la primera parte se agranda  a `lista[:i+1]`.   



## 2. Ordenamiento por inserción (insertion sort)

**Una idea sencilla para ordenar.** Supongamos que tenemos una fila con  `n` personas y las queremos acomodar por orden alfabético ascendente. 
- Entonces, a la primera persona y le damos el primer lugar (posición `0`). 
- Miramos la segunda persona comparamos su  apellido con la de posición `0` y la acomodamos donde corresponde. Así quedan asignados 2 lugares, por ejemplo: `Benitez`, `Pérez`. 
- Cuando miramos la tercera persona comparamos su  apellido con las que ya están y según esa comparación la acomodamos,  si  la persona es `Álvarez` la insertamos en el primer lugar, si es `González` la insertamos en el segundo lugar y si es `Sánchez`  en el tercer lugar.
- Hacemos algo análogo con todas las personas siguientes. 

**Ordenamiento por inserción.** En  este caso se tiene la primera parte de una lista (de `0` a `i-1`) y `lista[:i]` está ordenada.  Se toma el elemento `lista[i]` y se lo inserta en el lugar correspondiente. Más concretamente,
- Si `elemento = lista[i]`, nos fijamos recorriendo  la sublista `lista[:i]` en forma descendente cual es el primer índice `k` donde 
`lista[k] <= elemento`.
- Insertamos `elemento` en el lugar `k+1`. 
- Hacemos algo análogo para todos los índices.

Ahora bien, hay dos formas de insertar el elemento, digamos `elemento`, en el lugar correspondiente:
1. Vamos "swapeando" `elemento` con los elementos que son mayores (en orden descendente) hasta que llegamos a un elemento que es menor o igual a `elemento` y ahí nos detenemos (ver `insertion_sort_v1()`). 
2. Vamos "corriendo" los elementos más grandes que `elemento`, poniéndolos un lugar más arriba de donde están. El proceso se detiene cuando llegamos a un elemento menor o igual a `elemento`.  Luego ubicamos `elemento` en la posición que quedo "libre" (pues el elemento que estaba ahí fue corrido).   Esta última implementación es la preferida,  debido a que usa menos asignaciones  (ver `insertion_sort()`) 

In [None]:
from random import randint

lista_1 = [randint(1,20) for i in range(50)]
print(lista_1)

lista_2 = [randint(1,200) for i in range(20)]
print(lista_2)


In [None]:
def insertion_sort_v1(lista: list):
  # pre: lista es una list de elementos comparables (int o str, por ahora).
  # post: devuelve una lista con los elementos de lista ordenados en forma creciente. 
  #       El ordenamiento se hace insertando en el orden correcto. 
  for i in range(len(lista)):
    # inserta lista[i] en la sublista ordenada lista[:i] 
    elemento = lista[i]
    k = i - 1 
    while k >= 0 and lista[k] > elemento:
      lista[k + 1], lista[k]   = lista[k],  elemento
      k = k - 1
      # Ahora  lista[k] <= elemento = lista[k+1] < lista[k+2]
      # luego lista[:i+1] ordenada


def insertion_sort(lista: list):
  # pre: lista es una list de elementos comparables (int o str, por ahora).
  # post: devuelve una lista con los elementos de lista ordenados en forma creciente. 
  #       El ordenamiento se hace insertando en el orden correcto. 
  for i in range(len(lista)):
    # inserta lista[i] en la sublista ordenada lista[:i] 
    elemento = lista[i]
    k = i - 1 
    while k >= 0 and lista[k] > elemento:
      lista[k + 1] = lista[k]
      k = k - 1
    # Ahora lista[k] <= elemento y lista[k+1] = lista[k+2] > elemento
    # Inserto lista[i] en la posición k + 1
    lista[k + 1] = elemento
    # Ahora  lista[k] <= elemento = lista[k+1] < lista[k+2]
    # luego lista[:i+1] ordenada

insertion_sort_v1(lista_1)
print(lista_1)
insertion_sort_v1(lista_2)
print(lista_2)

## 3. Ordenación rápida (quick sort)

In [None]:
def intercalar(lista1, lista2 : list) -> list:
    # pre: lista1 y lista2 ordenadas
    res = []
    i, j = 0, 0        # i para recorrer la lista1 y j para recorrer la lista2
    while i < len(lista1) and j < len(lista2):
        if lista1[i] <= lista2[j]:
            res.append(lista1[i])
            i = i + 1
        else:
            res.append(lista2[j])
            j = j + 1
    while i < len(lista1):
        res.append(lista1[i])
        i = i + 1
    while j < len(lista2):
        res.append(lista2[j])
        j = j + 1
    return res

def ordenar(lista: list) -> list:
    n = len(lista)
    if n <= 1:
        res = lista
    else:
        mitad1 = lista[:n // 2]
        mitad2 = lista[n // 2:]
        mitad1_ordenada = ordenar(mitad1)
        mitad2_ordenada = ordenar(mitad2)
        res = intercalar(mitad1_ordenada, mitad2_ordenada)
    return res

ordenar([6,9,2,8, 2, -1, 3, 7, 21, -21, 34])

In [None]:
def ordenar2(lista: list) -> list:
    n = len(lista)
    if n <= 1:
        res = lista
    else:
        pivote = lista[0]
        res = ordenar2([e for e in lista[1:] if e <= pivote]) + [pivote] + ordenar2([e for e in lista[1:] if e > pivote])
    return res

ordenar2([6,9,2,8, 2, -1, 3, 7, 21, -21, 34])

In [None]:
def ordenar2(lista: list) -> list:
    n = len(lista)
    if n <= 1:
        res = lista
    else:
        pivote = lista[0]
        tercio1 = [e for e in lista[:] if e < pivote]
        tercio2 = [e for e in lista[:] if e == pivote]
        tercio3 = [e for e in lista[:] if e > pivote]
        res = ordenar2(tercio1) + [pivote] + ordenar2(tercio3)
    return res

ordenar2(palabras)

In [None]:
def ssort(lista: list):
    for i in range(len(lista)):
        ix_min = i
        for j in range(i+1,len(lista)):
            if lista[j] < lista[ix_min]:
                ix_min = j
        swap(lista, i, ix_min)

lista = [4, 2, 8, 5, 1, 7]
ssort(lista)
print(lista)

In [None]:
ssort(palabras)
print(palabras)

## 4. Ordenación rápida por concatenación de listas

En  la proxima celda de código vamos a programar quick sort de tal forma que devuelve otra lista (no modifica la lista a ordenar). Para hacer esta definición es necesario comprender el concepto de *concatenación de listas*. 

Si  tenemos 

```
lst_1 = [40, 11, 8, 17], lst_2 = [3, 10, 25]
```
la concatenacón de dos listas es hacer una lista con los elementos de la primera al comienzo y a continuación los elementos de la segunda.


```
lst_1 + lst_2 == [40, 11, 8, 17, 3, 10, 25]
```

Esto se generaliza fácilmente:
```
lst_1 = [a_0, a_1, ..., a_n], lst_2 = [b_0, b_1, ..., b_n]
```
entonces
```
lst_1 + lst_2 == [a_0, a_1, ..., a_n, b_0, b_1, ..., b_n]
```







Una primera aproximación a quick sort (la versión que devuelve otra lista) es la siguiente:

In [None]:
def qsort(lista: list) -> list:
  if lista == []:
    lista_ord = []
  else:
    lst_1 = []
    for x in lista[1:]:
      if x <= lista[0]:
        lst_1.append(x)
    # lst_1 = todos los elemtos de lista <= lista[0]
    lst_2 = []
    for x in lista[1:]:
      if x > lista[0]:
        lst_2.append(x)
    # lst_2 = todos los elementos de lista > lista[0]
    lista_ord = qsort(lst_1) + lista[0:1] + qsort(lst_2)
  return lista_ord

# Observación. lista[0:1] = [lista[0]] o [] si la lista es vacía. 

lista_2 = [randint(1,10**8) for i in range(10**5)]
# print(lista_2)
print(qsort(lista_2)[5000:5020])


Gracias a listas por comprensión de podemos obtener un código más compacto (y posiblemente más eficiente)

In [None]:

def qsort(lista: list) -> list:
  if lista == []:
    lista_ord = []
  else:
    lst_1 = [x for x in lista[1:] if x <= lista[0]] # lst_1 = todos los elemtos de lista <= lista[0]
    lst_2 = [x for x in lista[1:] if x > lista[0]]  # lst_2 = todos los elemtos de lista > lista[0]
    lista_ord = lista_ord = qsort(lst_1) + lista[0:1] + qsort(lst_2)
  return lista_ord


lista_2 = [randint(1,10**8) for i in range(10**5)]
# print(lista_2)
print(qsort(lista_2)[5000:5020])

O mejor aún:

In [None]:
def qsort(lista: list) -> list:
    if lista == []:
        lista_ord = []
    else:
        lista_ord = qsort([x for x in lista[1:] if x <= lista[0]]) + lista[0:1] + qsort([x for x in lista[1:] if x > lista[0]])
    return lista_ord

lista_2 = [randint(1,10**8) for i in range(10**5)]
# print(lista_2)
print(qsort(lista_2)[5000:5020])


Ahora definiremos los tres algoritmos de búsqueda (selección, inserción  y quick) y compararemos los tiempos de ejecución para ordenar listas (bastante) desordenadas,  es decir un caso genérico. 

In [None]:
def selection_sort(lista: list):
    for i in range(len(lista)):
        i_min = i
        for j in range(i + 1, len(lista)):
            if lista[j] < lista[i_min]:
                i_min = j
        lista[i], lista[i_min] = lista[i_min], lista[i]


def insertion_sort(lista: list):
  for i in range(len(lista)):
    elemento = lista[i]
    k = i - 1 
    while k >= 0 and lista[k] > elemento:
      lista[k + 1] = lista[k]
      k = k - 1
    lista[k + 1] = elemento


def quick_sort(lista: list) -> list:
  if lista == []:
    lista_ord = []
  else:
    lista_ord = qsort([x for x in lista[1:] if x < lista[0]]) + lista[0:1] + qsort([x for x in lista[1:] if x >= lista[0]])
  return lista_ord



In [None]:
# Hacemos listas aleatorias 
lista_1 = [randint(10**2,10**4) for i in range(10**4)]
# print(lista_1)


Para medir el tiempo de ejecución de los algoritmos importamos la biblioteca `time` usamos la función `time.time()` que nos devuelve el tiempo en segundos transcurridos desde epoch con una precisión de millonésimas de segundo.   

In [None]:
# Medir tiempo algoritmos
import time

print('Ordenando una lista de ',len(lista_1),' enteros')
x0 = time.time() # devuelve el tiempo en segundos desde epoch con una precision de millonésima de segundo
lista = lista_1[:] # copiamos lista_1  a lista (así lista_1 no se modifica)
selection_sort(lista)
print('Selección:',time.time() - x0) # 

x0 = time.time() # devuelve el tiempo en segundos desde epoch con una precision de millonésima de segundo
lista = lista_1[:]
insertion_sort(lista)
print('Inserción:', time.time() - x0) # 

x0 = time.time() # devuelve el tiempo en segundos desde epoch con una precision de millonésima de segundo
lista = lista_1[:]
quick_sort(lista)
print('QS:',time.time() - x0) # 


Variando el tamaño de la lista a ordenar se verá:
1. selección e inserción tardan más o menos lo mismo,
2. quick es mucho más rápido que selección e inserción. 
3. Aumentando el tamaño de la lista la diferencia entre quick y  selección e inserción es cada vez más pronunciada. 
4. Si la lista excede los 50.000 items selección e inserción tardarán varios años o no terminarán nunca. 

En  el caso de  quick sort es posible ordenar en tiempos razonables listas "grandes", por ejemplo,  de 1 millón de enteros.

In [None]:

lista_2 = [randint(10**7, 10**8) for i in range(10**6)]
x0 = time.time() # devuelve el tiempo en segundos desde epoch com una precision de millonésima de segundo
lista = lista_2[:]
quick_sort(lista)
print('\nOrdenando quick_sort una lista de ',len(lista_2),' enteros')
print('quick_sort:',time.time() - x0) # 
#lista = lista_2[:]
#qs2(lista)
#print('\nOrdenando qs2 una lista de ',len(lista_2),' enteros')
#print('qs2:',time.time() - x0) # 


## 5. Algortimos de ordenación en casos especiales

¿Qué ocurre si queremos ordenar una lista ordenada?

Probemos los algoritmos en la lista `[0,1,...,n]`




In [None]:
lista_1 = [i for i in range(10**4)]

print('Ordenando una lista de ',len(lista_1),' enteros ordenados')
x0 = time.time() 
lista = lista_1[:] # copiamos lista_1  a lista (así lista_1 no se modifica)
selection_sort(lista)
print('Selección:',time.time() - x0) # 

x0 = time.time() 
lista = lista_1[:]
insertion_sort(lista)
print('Inserción:', time.time() - x0) # 

x0 = time.time() # devuelve el tiempo en segundos desde epoch con una precision de millonésima de segundo
lista = lista_1[:]
# quick_sort(lista_1)
# print('QS:',time.time() - x0) # 


Habrán observado en el ejemplo anterior que selección tardó un tiempo parecido al que hubiera tardado con un arreglo desordenado. En  cambio inserción tardó muy poco (¿por qué?).

Finalmente, quick sort,  si lo descomentamos, nos da error, pues de la forma que está programado requiere niveles de profundidad en la recursión (tamaño de la pila) que no están permitidos  en Python. Con un arreglo ordenado,  ni siquiera quick sort puede terminar para 1000 elementos.

Eligiendo aleatoriamente el pivot se puede solucionar este problema.

In [None]:
def qsort_v2(lista: list) -> list:
  if lista == []:
    lista_ord = []
  else:
    k = randint(0, len(lista) - 1)
    lst_1 = [x for x in lista[:k] + lista[k+1:]  if x <= lista[k]] # lst_1 = todos los elemtos de lista <= lista[k]
    lst_2 = [x for x in lista[:k] + lista[k+1:]  if x > lista[k]]  # lst_2 = todos los elemtos de lista > lista[k]
    lista_ord = lista_ord = qsort_v2(lst_1) + lista[k:k+1] + qsort_v2(lst_2)
  return lista_ord

In [None]:
lista_1 = [i for i in range(10**5)]
x0 = time.time() 
qsort_v2(lista_1)
print('QS de lista ordenada:',time.time() - x0) # 

lista_1 = [randint(0,10**6) for i in range(10**5)]
x0 = time.time() 
qsort_v2(lista_1)
print('QS de lista no ordenada:',time.time() - x0) # 

In [None]:
def partition(lista, start, end):
    pivot = lista[start]
    low = start + 1
    final = end

    while low <= final:
        while low <= high and lista[high] >= pivot:
            high = high - 1
        while low <= high and lista[low] <= pivot:
            low = low + 1
        if low <= high:
            lista[low], lista[high] = lista[high], lista[low]

    lista[start], lista[high] = lista[high], lista[start]
    return high


def quick_sort(lista, start, end):
    if start >= end:
        return
    p = partition(lista, start, end)
    quick_sort(lista, start, p-1)
    quick_sort(lista, p+1, end)

In [None]:
lista_1 = [randint(0,10**6) for i in range(10**5)]
x0 = time.time() 
quick_sort(lista, 0, len(lista) - 1)
print('QS de lista no ordenada:',time.time() - x0) # 