## Búsqueda
 
La búsqueda de una forma u otra aparece en casi todos los contextos. Los programas toman datos; a menudo necesitarán buscar algo en ellos, por lo que es casi seguro que se utilizará un algoritmo de búsqueda. 

La búsqueda no solo es una operación frecuente en los programas, sino que, debido a que ocurre con frecuencia, la búsqueda puede ser la operación que consume más tiempo en una aplicación. Un buen algoritmo de búsqueda puede resultar en mejoras dramáticas en la velocidad.  Implica buscar un elemento en particular entre un grupo de elementos. Esta descripción general del problema abarca varias variaciones. Hace una gran diferencia si los ítems están ordenados de alguna manera relacionada con la búsqueda o vienen en orden aleatorio. 

Un escenario diferente ocurre cuando los elementos se nos dan uno por uno y tenemos que decidir si hemos encontrado el correcto justo cuando lo enfrentamos, sin la capacidad de repensar nuestra decisión. Si buscamos repetidamente en un conjunto de elementos, es importante saber si algunos elementos son más populares que otros para que terminemos buscándolos más a menudo. 

Examinaremos todas estas variaciones, pero ten en cuenta que hay más. Por ejemplo, solo presentaremos problemas de búsqueda exacta, pero hay muchas aplicaciones en las que necesitamos una **búsqueda aproximada**. 



### Listas

Por lo general, no tratamos con objetos físicos en las computadoras, sino con representaciones digitales de los mismos. Una forma común de representar grupos de datos en una computadora es en forma de **lista**. 

Una lista es una estructura de datos que contiene un grupo de cosas de tal manera que a partir de un elemento podemos encontrar el siguiente. Por lo general, podemos pensar que la lista contiene elementos enlazados (linked), donde un elemento apunta al siguiente, hasta el final, donde el último elemento no apunta a nada. 

En una lista enlazada, cada elemento contiene dos cosas: sus datos de carga útil (payload) y la ubicación de memoria del siguiente elemento de la lista. 

Un lugar en la memoria que contiene la ubicación de memoria de otro lugar en la memoria se llama **puntero**. Por lo tanto, en una lista enlazada, cada elemento contiene un puntero al siguiente elemento. 
El primer elemento de una lista se llama `head`. Los elementos de una lista también se denominan `nodos`. El último nodo no apunta a ningún lado; decimos que apunta a `null`: la nada en una computadora.

Una lista es una secuencia de elementos, pero no es necesario que la secuencia esté ordenada según algún criterio específico. Por ejemplo, la siguiente es una lista que contiene algunas letras del alfabeto: 

![](Imagenes/E1.png)

Si tenemos una lista desordenada, el algoritmo para encontrar un elemento es así: 

1. Ir al principio de la lista. 
2. Si el ítem es el que buscamos, informar que se encuentra y parar.
3. Ir al siguiente elemento de la lista.
4. Si estamos en null, informa que no se encontró el elemento de búsqueda y parar. De lo contrario, regrese al paso 2. 

Esto se denomina **búsqueda lineal o secuencial**. No tiene nada de especial; es una implementación directa de la idea de examinar cada cosa por separado hasta que encontremos la que queremos. En realidad, el algoritmo hace que la computadora salte de un puntero a otro hasta que alcance el elemento que estamos buscando o sea null. 

A continuación mostramos lo que sucede cuando buscamos E o X: 

![](Imagenes/E2.png)


Si buscamos entre $n$ ítems, lo mejor que nos puede pasar es acertar inmediatamente en el elemento que queremos, lo que ocurrirá si es el que encabeza la lista. Lo peor que puede pasar es que el ítem o elemento sea el último en la lista o no esté en la lista. Luego debemos pasar por los $n$ elementos. 

Por lo tanto, el rendimiento de la búsqueda secuencial es $O(n)$. 

No hay nada que podamos hacer para mejorar ese tiempo si los elementos aparecen en la lista en una secuencia aleatoria. 

### Caso práctico


In [None]:
// Busqueda lineal C++

#include <iostream>
using namespace std;

int search(int X[], int n, int clave) {

  // Pasando por el arreglo secuencialmente
  for (int i = 0; i < n; i++)
    if (X[i] == clave)
      return i;
  return -1;
}

int main() {
  int X[] = {2, 4, 0, 1, 9};
  int clave = 1;
  int n = sizeof(X) / sizeof(X[0]);

  int resultado = search(X, n, clave);

  (resultado == -1) ? cout << "Elemento no encontrado" : cout << "Elemento encontrado en el indice: " << resultado;
}

### El efecto Mateo y la búsqueda

Es posible que hayas notado que en un escritorio desordenado, algunas cosas llegan a la parte superior de la pila, mientras que otras parecen deslizarse hasta el fondo. Cuando finalmente se limpia el desorden, tu has tenido la grata experiencia de descubrir enterrados en lo más profundo un montón cosas que creías que estaban perdidas hace mucho tiempo. Es probable que la experiencia también les haya ocurrido a otros. Tendemos a colocar las cosas que usamos con frecuencia cerca y las cosas para las que tenemos poco uso se deslizan más y más fuera de nuestro alcance. 

Esto sugiere una estrategia de búsqueda general, en la que buscamos los mismos elementos repetidamente y algunos elementos son más populares que otros. Después de encontrar un elemento, lo movemos hacia adelante para que podamos encontrarlo más rápido la próxima vez que lo busquemos.

¿Qué tan aplicable sería tal estrategia? Depende de la frecuencia con la que observamos tales diferencias en popularidad. Resulta que pasan mucho. 

Conocemos el dicho “los ricos se vuelven más ricos y los pobres más pobres”. No se trata sólo de ricos y pobres. Lo mismo aparece ante una desconcertante variedad de aspectos en diferentes campos de actividad. El fenómeno tiene un nombre, el efecto Mateo, después del siguiente versículo del Evangelio de Mateo (25:29): 

```
Porque a todo el que tiene, se le dará, y tendrá en abundancia; pero al que no tiene, aun lo que tiene se le quitará.
``` 

El versículo habla de bienes materiales, así que pensemos en la riqueza por un minuto. Suponga que tiene un estadio grande, con capacidad para 80.000 personas. Puedes medir la altura promedio de las personas en el estadio. Su resultado puede ser alrededor de 1.70 metros. 
Imagina que sacas a alguien al azar del estadio y pones a la persona más alta del mundo. ¿Diferirá la altura promedio?

Incluso si la persona más alta mide 3 metros (nunca se ha registrado tal altura), la altura promedio permanece estancada en su valor anterior: la diferencia con el promedio anterior sería de menos de una décima de milímetro. 

Imagina ahora que en lugar de medir la altura promedio, mides la riqueza promedio. La riqueza promedio de sus 80,000 personas podría ser de $1 millón. Ahora vuelves a sustituir a alguien dentro por la persona más rica del mundo. Esa persona podría tener una riqueza de 100  mil millones. ¿Haría esto una diferencia? 
Sí, y una grande. El promedio aumentaría de 1 millón a 2,249,987.5  o más del doble. 

Somos conscientes de que la riqueza no se distribuye por igual en todo el mundo, pero es posible que no seamos conscientes de cuán desigual es la distribución. Es mucho más desigual que una distribución de medidas naturales como la altura. 

La misma diferencia en dotaciones ocurre en muchos otros escenarios. ¿Puedes dar más ejemplos?


Es posible que los ítems en los que estamos buscando muestren tales diferencias en popularidad. Luego, un algoritmo de búsqueda que aproveche la popularidad variable de los elementos de búsqueda puede funcionar de manera muy similar a colocar cada documento que encontremos en la parte superior de la pila: 

1. Busca el elemento utilizando una búsqueda secuencial. 
2. Si se encuentra el elemento, informa que se encuentra, se coloca al principio de la lista, en la cabecera y se para. 
3. De lo contrario, informa que no se encontró el elemento y para.

En la siguiente figura, encontramos  `E` en la lista y lo traemos al inicio: 

![](Imagenes/E3.png)


Una posible crítica de este algoritmo es que promoverá al inicio incluso un elemento que rara vez buscamos. Eso es cierto, pero si el ítem no es popular, se moverá gradualmente hacia el final de la lista a medida que buscamos otros elementos porque estos elementos se moverán al inicio. Sin embargo, podemos ocuparnos de la situación adoptando una estrategia menos extrema. 

En lugar de mover cada elemento que encontramos de golpe al inicio, podemos moverlo solo una posición hacia adelante. Esto se llama el **método de transposición**: 

1. Busca el elemento utilizando una búsqueda secuencial. 
2. Si encuentras el ítem, informe que se encuentra y cámbialo por el anterior (si no es el primero) y para. 
3. De lo contrario, informa que no se encontró el elemento y para. 

De esta manera, los ítems que son populares irán pasando gradualmente al inicio, y los menos populares se moverán hacia atrás, sin sobresaltos repentinos. 


![](Imagenes/E4.png)


Tanto el método de pasar al inicio, como el de transposición son ejemplos de una **búsqueda autoorganizada** ; el nombre viene porque la lista de elementos se organiza a medida que avanzamos en las búsquedas y refleja la popularidad de los elementos buscados. 

Dependiendo de cómo varíe la popularidad entre los elementos, los ahorros pueden ser significativos. Mientras que con una búsqueda secuencial podemos esperar un rendimiento de $O(n)$ , una búsqueda autoorganizada con el método de mover al inicio puede alcanzar un rendimiento de $O(n/ \log n)$. 

El método de transposición puede tener resultados aún mejores, pero requiere más tiempo para lograrlos. Esto se debe a que ambos métodos requieren un `período de calentamiento (warm-up)` en el que los ítems populares aparecerán y llegarán al inicio.



### Búsqueda binaria

Hemos considerado diferentes formas de buscar, correspondientes a diferentes escenarios. Un hilo común en todos estos fue que los ítems que examinamos no se nos dan en ningún orden específico.


La situación cambia por completo si los elementos se ordenan en primer lugar. 

Digamos que tenemos una pila de folders, cada uno de las cuales está identificado con un número. Los documentos en la pila se ordenan según su identificador, de menor a mayor número (no es necesario que los números sean consecutivos). Si tenemos tal pila y estamos buscando un documento con un identificador particular, no sería óptimo comenzar desde el primer documento y avanzar hasta el último hasta encontrar el que estamos buscando. 

Una estrategia mucho mejor es ir directamente al centro de la pila. Luego comparamos el identificador del documento en el medio con el número del documento que estamos buscando. Hay tres resultados posibles: 

1. Si tenemos suerte, es posible que hayamos aterrizado exactamente en el documento que queremos. Hemos terminado

 2. El identificador del documento que buscamos es mayor que el identificador del documento que tenemos en nuestras manos. Entonces sabemos con certeza que podemos descartar el documento en cuestión, así como todos los documentos anteriores. A medida que estén ordenados, todos tendrán identificadores más pequeños. Hemos subestimado el objetivo. 

3. Sucede lo contrario: el identificador del documento que buscamos es más pequeño que el identificador del documento que tenemos en nuestras manos. Entonces podemos descartar con seguridad el documento en cuestión, así como todos los documentos que vienen después. Hemos sobrepasado el objetivo. 

En cualquiera de los dos últimos resultados, ahora nos queda una pila que es como máximo la mitad de la original. Si comenzamos con un número impar de documentos, digamos $n$, dividir $n$ documentos por la mitad nos da dos partes, cada uno con $n/2$ elementos (descartando la parte fraccionaria en la división): 

![](Imagenes/E5.png)

Con un número impar de elementos, dividirlos nos dará dos partes, una con $n/2 -1$ elementos y otra con elementos $n/2$:

![](Imagenes/E6.png)


Todavía no hemos encontrado lo que buscábamos, pero estamos mucho mejor que antes; ahora tenemos muchos menos ítems para revisar. 

En la figura siguiente, se puede ver cómo evoluciona el proceso para 16 elementos, entre los que estamos buscando el elemento 135. Marcamos con gris los límites dentro de los cuales buscamos y el elemento central. 

![](Imagenes/E7.png)


El proceso también funcionará si estamos buscando algo que no existe. 

Puede verlo en la siguiente figura, donde estamos buscando entre los mismos elementos uno con la etiqueta 520.


![](Imagenes/E8.png)


El método que describimos se llama **búsqueda binaria** porque cada vez cortamos a la mitad el dominio de valores en el que buscamos. Llamamos `espacio de búsqueda` al dominio de valores donde realizamos la búsqueda. 

Usando este concepto, podemos representar la búsqueda binaria como un algoritmo que comprende estos pasos: 

1. Si el espacio de búsqueda está vacío, no tenemos dónde buscar, así que  se informa de la falla y paramos. De lo contrario, buscamos el elemento central del espacio de búsqueda. 

2. Si el elemento central es menor que el término de búsqueda, limita el espacio de búsqueda desde el elemento central en adelante y vuelve al paso 1. 

3. De lo contrario, si el elemento central es mayor que el término de búsqueda, limita el espacio de búsqueda hasta el elemento central y vuelve al paso 1. 

4. De lo contrario, el elemento central es igual al término de búsqueda; informa de éxito y paramos. 

De esta forma, dividimos por dos los elementos que tenemos que buscar. 

Este es un método de divide y vencerás. 

Da como resultado una división repetida, que nos da el logaritmo. La división repetida por dos nos da el logaritmo en base dos. En el peor de los casos, una búsqueda binaria seguirá dividiendo y dividiendo los elementos, hasta que ya no pueda dividir más. Para $n$ elementos, esto no puede ocurrir más de $\log n$ se deduce que la complejidad de una búsqueda binaria es $O(\log n)$.



### Divide y vencerás (Top-Down Design)


Es una de las herramientas más importantes en algoritmos, consiste en tomar un problema y dividirlo en subproblemas más pequeños, y luego esos subproblemas se pueden dividir en más subproblemas, y así sucesivamente. 

Esto es útil cuando el problema original es difícil de resolver o su resolución implica un alto costo computacional, pero los subproblemas en los que se divide pueden resolverse de una manera más fácil o con menor costo computacional, y la solución o esos subproblemas problemas se pueden utilizar para resolver el problema original.

No existe una regla que nos diga cuando un problema debe ser resuelto usando `divide y  vencerás`, se trata más bien de ser conscientes en que casos se pueden usar, ya que no todos los problemas se pueden dividir en subproblemas, y siempre teniendo en cuenta que los subproblemas deben ser menos costosos que el problema original, porque en ese caso sería mejor resolver el problema original en sí mismo en lugar de dividirlo en subproblemas más complejos.




### Caso práctico

La búsqueda binaria encuentra un elemento en un arreglo ordenada. La idea del algoritmo es mirar el elemento del medio y ver si es más pequeño o más grande que el elemento que estamos tratando de encontrar, si es más pequeño, entonces mantenga la mitad derecha del arreglo y repite el proceso, de lo contrario, mantenga la parte izquierda del arreglo y realiza lo mismo.

El algoritmo consiste en dividir el arreglo en dos mitades, hasta que quede un solo elemento, es decir que en la primera iteración hay $n$ elementos, en la siguiente $n/2$, luego $n/4$, y así sucesivamente, hasta $n/2k = 1$, donde $k$ es el número de veces que dividimos el arreglo.

Resolviendo para $k$ tenemos que $k = \log n$. Entonces, la complejidad de tiempo para la búsqueda binaria es $O(\log n)$. 


El código siguiente implementa una búsqueda binaria para encontrar una clave numérica en un array $X$ en el intervalo $[a, b]$.


**Complejidad del tiempo:** $O(\log n)$,

Entrada:

- x: Arreglo previamente ordenado.
- a: índice izquierdo
- b: índice derecho
- clave: El número a encontrar


Salida:

La posición donde se encontró el elemento `clave`. De lo contrario devuelve `-1`.


**Método iterativo**

In [None]:
#include <iostream>
using namespace std;

int binarySearch(int X[], int a, int b, int clave) {
  
    // Repita hasta que los punteros a y b se encuentren entre si.
  while (a <= b) {
    int c = a + (b - a) / 2;

    if (X[c] == clave)
      return c;

    if (X[c] < clave)
      a = c + 1;

    else
      b = c- 1;
  }

  return -1;
}

int main(void) {
  int X[] = {3, 4, 5, 6, 7, 8, 9};
  int clave = 4;
  int n = sizeof(X) / sizeof(X[0]);
  int resultado = binarySearch(X, 0, n - 1, clave);
  if (resultado == -1)
    printf("No encontrado");
  else
    printf("El elemento es encontrado en el indice %d", resultado);
}

**Método recursivo**

In [None]:
// Busqueda binaria en C++

#include <iostream>
using namespace std;

int binarySearch(int X[], int a, int b, int clave) {
  if (b >= a) {
    int c= a + (b - a) / 2;

    // Si lo encuentra en c, devuelve
    if (X[c] == clave)
      return c;

    // Busca en la mitad izquierda
    if (X[c] > clave)
      return binarySearch(X, a, c- 1,clave);

    // Busca en la mitad derecha
    return binarySearch(X, c + 1, b, clave);
  }

  return -1;
}

int main(void) {
  int X[] = {3, 4, 5, 6, 7, 8, 9};
  int clave = 4;
  int n = sizeof(X) / sizeof(X[0]);
  int resultado = binarySearch(X,0, n - 1, clave);
  if (resultado == -1)
    printf("No encontrado");
  else
    printf("Elemento es encontrado en el indice %d", resultado);
}

La eficiencia de una búsqueda binaria es asombrosa. Su eficiencia probablemente solo sea igualada por su notoriedad. Es un algoritmo intuitivo. Pero este sencillo método ha demostrado una y otra vez que es difícil hacerlo bien en un programa de computadora.

Una vez que lo sepas, la solución es sencilla. No calculas el medio como $(a + b)/2$ sino más bien $a + (b -a)/2$. El resultado es el mismo, pero no se produce desbordamiento. En retrospectiva, parece simple.


La búsqueda binaria requiere que los elementos estén ordenados. 

Entonces, para aprovechar sus beneficios, deberíamos poder ordenar elementos de manera eficiente.

### Búsqueda binaria frente a búsqueda lineal

Con arreglos ordenados de tamaño pequeño, el algoritmo de búsqueda binaria no tiene mucha ventaja sobre la búsqueda lineal. Pero veamos qué sucede con arreglos más grandes.

Con un arreglo que contiene 100 valores, este es el número máximo de pasos que tomaría cada tipo de búsqueda:

- Búsqueda lineal: 100 pasos

- Búsqueda binaria: 7 pasos

Con la búsqueda lineal, si el valor que estamos buscando está en la celda final o es mayor que el valor en la celda final, tenemos que inspeccionar todos y cada uno de los elementos. Para un arreglo de tamaño 100, esto tomaría 100 pasos. Sin embargo, cuando usamos la búsqueda binaria, cada suposición que hacemos elimina la mitad de las celdas posibles que tendríamos que buscar. 
En la primera suposición, eliminamos la friolera de 50 celdas. Miremos esto de otra manera, y veremos surgir un patrón. Con una arreglo de tamaño 3, la búsqueda binaria tomaría un máximo de dos pasos.

Si duplicamos el número de celdas en el arreglo (y agregamos una más para mantener el número impar por simplicidad), hay siete celdas. Para un arreglo de este tipo, el número máximo de pasos para encontrar algo mediante la búsqueda binaria es tres. Si lo duplicamos nuevamente (y agregamos uno) para que el arreglo ordenado contenga 15 elementos, el número máximo de pasos para la búsqueda binaria es cuatro.

El patrón que surge es que por cada vez que duplicamos el tamaño del arreglo ordenado, el número de pasos necesarios para la búsqueda binaria aumenta en uno. Esto tiene sentido, ya que cada búsqueda elimina la mitad de los elementos de la búsqueda. Este patrón es inusualmente eficiente: cada vez que duplicamos los datos, el algoritmo de búsqueda binaria agrega solo un paso más.

Compara esto con la búsqueda lineal. Si tuvieras 3 elementos, necesitarías hasta tres pasos. Para 7 elementos, necesitarías un máximo de siete pasos. Para 100 valores, necesitarías hasta 100 pasos. 
Con la búsqueda lineal, entonces, hay tantos pasos como elementos. Entonces, para la búsqueda lineal, cada vez que duplicamos el tamaño del arreglo, duplicamos el número de pasos de la búsqueda. Sin embargo, para la búsqueda binaria, cada vez que duplicamos el tamaño del arreglo, solo necesitamos agregar un paso más.

Veamos cómo se desarrolla esto para arreglos más grandes. 

Con un arreglo de 10 000 elementos, la búsqueda lineal puede tomar hasta 10 000 pasos, mientras que la búsqueda binaria toma hasta un máximo de solo 13 pasos. Para un arreglo de tamaño de un millón, la búsqueda lineal tomaría hasta un millón de pasos, mientras que la búsqueda binaria tomaría 20 pasos.


### Ejercicios


1. ¿Cuántos pasos se necesitarían para realizar una búsqueda lineal del número 8 en un arreglo ordenado, `[2, 4, 6, 8, 10, 12, 13]`?

2. ¿Cuántos pasos tomaría la búsqueda binaria para el ejemplo anterior?

3. ¿Cuál es el número máximo de pasos necesarios para realizar una búsqueda binaria en un array de tamaño 100 000?


In [None]:
// Tus Respuestas