# Busqueda Binaria (Binary Search)

<img src="pictures/smile2.jpg">


#### Busqueda binaria es una tecnica divide y venceras para solucionar problemas de busqueda de elementos, soluciones, minimos y maximos.

### Problema 1 (Easy):

#### Dado un array arr, ordenado, se requiere hacer una función para buscar un obtenido elemento x en arr, devolver la posición.

### Solución con brute force:

#### Se recorre todos los elementos en el array hasta encontrar el indicado.


```cpp
int find(const vector<int>& arr, const int& x){

	for(int i = 0; i < arr.size(); ++i)
		if(arr[i] == x) 
			return i;
	
	return -1; 
}
```

#### Complejidad: $O(n)$.

### Solución con binary search (binary search in the answer):

#### Como el array esta ordenado, podemos aprovechar esa propiedad, supongamos que x es el elemento de en medio, si este fuera el caso lo hemos conseguido, sino podría darse dos posibles situaciones disjuntas: el elemento del medio es mayor a x o es menor a x, si fuese el primer caso es imposible que la solución se encuentre despues del medio y si fuese el segundo caso es imposible que la solución se encuentre antes del medio. 

#### Ejemplo del algoritmo anteior (en clase).

```cpp
int find(const vector<int>& arr, const int& x){

	int l=0, r=(int)arr.size()-1; //rango [0, n-1], todo el array

	while(l <= r){	//mientras que haya un rango
		int mid = (l+r)/2; //calculamos la mitad (mitad por defecto)
	
		if(arr[mid] == x)
			return mid; 		//lo encontramos!

		//reducimos el rango segun lo encontrado.
		if(arr[mid] < x) l = mid + 1;
		else r = mid - 1;
	}

	return -1; //no está el elemento.
	
}

```

#### Complejidad: sea el rango [l, r] de tamaño n, luego de verificar el primer medio lo peor es que no se haya encontrado x y por tanto ahora el rango se reduce a la mitad, en terminos de tiempo de ejecucion tenemos: $$ T(n) = T(n/2) + O(1) $$, si hacemos  $n = 2^m$ tenemos $T(2^m) = T(2^{m-1}) + O(1)$, ahora si cambiamos la función por: $T(2^m) = H(m)$ tenemos $H(m) = H(m-1) + O(1)$ lo cual es $O(m)$, ahora si retornamos a las variables originales tenemos $T(n) = O(log(n))$. 

## Espacio de busqueda:

<img src="pictures/smile.jpg">

#### En el problema anterior se busca un elemento llamado x, lo que hace la busqueda binaria es reducir los limites donde seguramente se encuentra el elemento, estos limites limitan lo que llamamos espacio de busqueda, como apreciamos del problema anterior, el espacio de  busqueda en un inicio es todo elemento en el array, luego fijandonos en el punto medio y ya que el array esta ordenado podemos reducir el espacio de busqueda hasta que solo quede un elemento.

#### En el anterior problema el espacio de busqueda era una secuencia discreta, para ser mas exactos, los indices de un array de "n" elementos, pero nada impide que trabajemos con el conjunto de los enteros por ejemplo, en este caso no tendria un array a que acceder sino una funcion f(x) que me de alguna funcion monotona. Lo mas sorprendente es que  mi rango podria ser de $10^{18}$ enteros y aún así solo hacer $60$ iteraciones... Es más, mi problema podría trajar sobre los reales y aun así demoraría muy pocos pasos, veremos estos resultados más adelante en el capítulo.


### Problema 2 (Easy): 

#### Dado $n$, $(n \leq 10^{18})$ hallar $sqrt(n)$ asumiendo que n es cuadrado perfecto (esto se soluciona más adelante). 

## Solución:

#### Se procede como en el ejemplo anterior, pero esta vez mi rango es $[0, 10^6]$

```cpp
long long f(long long x){
	return x*x;
}

int floor_sqrt(long long n){

	int l = 0, r = 1e9;
	while(l <= r){
		int mid = (l+r)/2;
		if(f(mid) == n) return mid;

		if(f(mid) < n) l = mid + 1;
		else r = mid - 1;
	}
	
	return -1;
}
```

#### Complejidad: O(log(n)), (mucho, mucho mejor que O(sqrt(n)))

## Predicados y el verdadero poder de Binary Search:

<img src="pictures/dragon2.jpg">

#### Consideramos predicado a un elemento de juicio que afirma o niega algo.

### Como uso un predicado en busqueda binaría?

#### Consideremos un predicado _p_ sobre algún conjunto ordenado _S_ (_S_ es mi espacio de busqueda), este predicado botara "sí" o "no" para todo elemento en mi conjunto.

#### Binary search puede ser usado en nuestro problema si se cumple que para algun $x$, $p(x)$ es verdadero entonces, para todo $y > x$ en nuestro espacio de busqueda $p(y)$ tambien es verdadero. Esto nos define una función monótona de _S_ al conjunto \{$0$, $1$\}, como podemos apreciar, si $p(x)$ implica, $p(y)$ entonces not $p(y)$ implica not $p(x)$, lo cual quiere decir que el conjunto se separa en dos conjuntos continuos de elementos tal que el que contiene los elementos menores son $0$ y los otros $1$ al ser evaluados por el predicado. 

#### En este punto nuestro principal problema es: cual es el mayor valor tal que su predicado es 0, o cual es el menor valor tal que su predicado es $1$.

#### Nota: Podemos hacer el cambio de $0$ a $1$ y de $1$ a $0$ negando el predicado (ya que para algunos problemas suele ser más fácil una de las dos formas), y asi tendriamos que _S_ evaluado en el predicado negado toma solo valores de $1$ y luego solo valores de $0$ (lo contrario a no negarlo).

## Implementación:

<img src="pictures/viejo.jpg">

#### Hallando el último elemento con predicado verdadero.

```cpp
int upper_bound(int l, int r){
	while(l < r){
		int mid = l + (r-l+1)/2;
		if(p(mid)) l = mid;
		else hi = mid-1;
	}

	//si p(l) es falso todos los elementos tienen predicado falso
	return p(l) ? l : -1;
}
```
#### Hallando el primer elemento con predicado falso.

```cpp
int lower_bound(int l, int r){
	while(l < r){
		int mid = l + (r-l)/2;
		if(p(mid)) l = mid+1;
		else hi = mid;
	}

	//si p(l) es verdadero todos los elementos tienen predicado verdadero
	return p(l) ? -1 : l;
}
```

### Explicación de las implementaciones:

<img src="pictures/peko.jpg">

#### lo más significativo en los anteriores códigos es la expresión: 
#### "$int~mid~=~l~+~(r-l+1)/2;$" y "$int~mid~=~l~+~(r-l)/2;$", primero que nada uno halla el elemento central a la derecha del rango [$l$, $r$] y el otro el elemento central a la izquierda, por ejemplo: en el array [$1, 3, 4, 7$] la primera expresion bota el indice 2 que pertenece al 4 y la segunda el indice 1 que pertenece al 3, si el array fuera de tamaño impar, entonces las dos expresiones botan el mismo resultado.
#### la pregunta ahora seria: 
#### por qué $l~+~(r-l+1)/2$ y no $(r+l+1)/2$ que parecen lo mismo? la respuesta es sencilla, cuando trabajamos con indices negativos (recordemos que nuestro espacio de busqueda solo debe ser un conjunto ordenado) no se obtiene lo que se quiere, por ejemplo los indices  $[-3 -2 -1]$ y $l~=~-3$, $r~=~-1$ al aplicar $l~+~(r-l+1)/2$ nos da $-3~+~(-1+3+1)/2~=~-2$ pero, si hacemos $(r+l+1)/2$ nos da $(-1-3+1)/2~=~-1$ que claramente no es lo que queremos! Lo mismo ocurre para el otro caso.

#### por que "$l~=~mid$;", "$hi~=~mid-1;$"?, Esto se debe a que mantenemos la respuesta siempre en $l$, podemos ver en el primer codigo que si hay al menos un verdadero es claro que l al inicio es verdadero, luego si en el medio es verdadero el espacio de busqueda se reduce por lo menos en 1 (why?) y se sigue manteniendo la invariante, de la misma forma si no es verdadero se reduce por lo menos en 1 y se mantiene la invariante  tal que al final $l~=~r~=~posible$ respuesta. (vea que solo analizamos $l~<~r$ ya que si $l~=~r$ y hay respuesta es claro que l se mantuvo como respuesta). Lo mismo ocurre en el segundo código! (pausa para preguntas).

## Problema 3 (Easy-medium):

Dado $n$, $(n \leq 10^{18})$ hallar sqrt(n).

## Solución:

#### Para este problema nuestro predicado puede ser $x < sqrt(n)$ y queremos hallar el primero que falla. El problema ocurre que si nosotros ponemos el $while(l < r)$ _Representation of integer and reals"_ puede ocurrir un bucle infinito ya que si por ejemplo $l = mid + 1;$ (vemos que ese uno es ahora un numero muy grande y nuestra unidad ahora es digamos eps de la maquina) tendriamos $l = mid;$ para no perder respuestas, podria suceder que l y r se mantengan asi en un buble infinito, por tango (aunque se puede hacer while(r - l > eps)) es mejor hacer un for  con la maxima cantidad de iteraciones que pueden ocurrir, y como cΰalculo esto? bueno como nuestra unidad es eps entonces si yo busco en el intervalo [l, r] la cantidad de elementos es $(r-l)/eps$ y como nuestro algoritmo reduce a la mitad en cada iteración, tenemos $log2((r-l)/eps)$, ahora si el problema nos pide $10^{-8}$ de precisión, recomiendo hacer $eps = 10^{-8 - 2}$, asi al hacer $log2((r-l)/eps)$ tendremos $log2((r - l) * 10^{10}) ~ 34 + log2(r-l)$ lo cual nos da solo $34$ iteraciones mas que con el caso discreto! Para el problema $r-l = 10^9$ que son $30$ iteraciones más.

```cpp
bool p(long double x, long double n){
	return x*x < n;
}

long double sqrt(long long n){
	
	long double l = 0.0L, r = 1000000000.1L;
	for(int i = 0; i < 70; ++i){
		long double mid = l + (r-l)/2;
		if(p(mid, n)) l = mid;		
		else r = mid;
	}

	return l;
}

```

## Problema 4 (medium):

#### dado un array de n $(n \leq 10^5)$ elementos $(a_i \leq 10^9)$, debes separarlo en $k$ $(k \leq n)$ rangos continuos tal que la suma de los elementos en cada rango es la menor posible, imprima esa cantidad.

## Solución: 

#### Hacer este problema por fuerza bruta puede ser facil de codear pero la complejidad sería $O((suma~de~elemento~-~máximo~elemento~+~1)~x~n)$ que no es nada optimo... Sin embargo si lo pensamos con binary search, con el predicado: "es posible agrupar los elementos tal que la suma en cada conjunto es $ \geq x$" entonces se cumple que si $p(x)$ es verdadero, entonces $p(y)$ con $y > x$ tambien lo es, por tanto podriamos aplicar binary search!, ahora el problema es comprobar que se pueda hacer la distribución si sabemos cual es la máxima suma que puede haber... pues sí! lo unico que deberiamos hacer es poner en el primer rango la mayor cantidad de elementos que se pueda asi aligerando la carga para los siguientes, ya que si es solución es posible, denotemos $x$ esta solución, que además es el mínimo $1$ para nuestro predicado, entonces si elegimos un $y$ mayor entonces como cada rango ya se podía para $x$, entonces, llenando el primero con la mayor cantidad posible mantendra invariante el hecho que los siguientes rangos tengan suma $\leq x$ y así pasando por todos los rangos, entonces si $y$ era mayor o igual a $x$ al hacer este proceso debe quedar llenos $\leq k$ rangos. (preguntas en clase) 

```cpp
bool p(const vector<int>& a, int k, long long x){
	
	int need = 1;
	long long sum = 0;
	for(int v : a)
		if(sum + v <= x) sum += x;
		else{
			need += 1;
			/*
				si l no iniciaria en el maximo elemento tendriamos que comprobar aca que v 
				sea <= x si no ocurre eso automaticamente no se puede.
			*/
			sum = v;
		}

	return need <= k; //si se usan menos que k quiere decir que puedo reacomodarlo tal que sea k.
}

long long minX(const vector<int>& a, int k){
	long long l = *max_element(a.begin(), a.end()), r = 1e14; //l se inicia en el maximo problemas para no tener casos especiales
	while(l < r){
		long long mid = l + (r-l)/2;
		if(not p(mid)) l = mid + 1; //negamos el predicado para que sea 111110000 ya que asi podemos hallar el primer cero
		else r = mid;
	}

	return l;
}
```

#### Nota: hacer busqueda binaria sobre la respuesta suele ser muy útil, esto suele servir para problemas de mínimos o máximos que cumplen cierta propiedad en un conjunto ordenado, sea $f(x)$ esta propiedad que bota un valor para todo $x$, en problemas que necesite hallar $max(f(x))$ o $min(f(x))$, y comple que al aumentar $x$ por un valor $h$ positivo tal que $min(f(x)) \leq f(x+h)$ (paralelamente para $max$) entonces, una busqueda binaria es suficiente.

## Derivada discreta:

<img src="pictures/heroe.jpg">

#### La derivada discreta de una funcion entera $f(n)$ es definida como $D(f(n)) = f(n+1) - f(n)$.
#### Si tenemos una funcion unimodal tal que es creciente y luego decreciente o una función convexa entonces podemos hallar el mínimo o maximo con una busqueda binaria, solo es cuestion de saber que dirección toma la derivada discreta, si es positiva y estoy hallando máximo entonces no me importa ningun elemento entre $l$ y $mid$, en otro caso no me importa ningun elemento entre $mid+1$ y $r$:

```cpp
long double f(long long x){
	//...
}

long long df(long long x){
	return f(x+1) - f(x); 
}

bool p(long long x){
	return df(x) > 0;
}

long long Max(long long l, long long r){

	while(l < r){
		long long mid = l + (r-l)/2;
		if(p(mid)) l = mid+1;
		else hi = mid;
	}
	
	return l;
}

```

## Ternary Search: 

<img src="pictures/pekohero2.jpg">

#### Nuestro algoritmo es perfecto en el caso discreto, el problema surge cuando f no va desde los naturales, como vimos anteriormente este caso tenemos que controlarlo con un for, pero nuestro problema esta en evaluar la derivada... 
#### Generalmente no es tan simple como hacer $(f(x+eps) - f(x))/eps)$, para esto usamos una busqueda llamada busqueda ternaria, que nos brinda un poco mas de espacio entre elemento, para ello dividimos el intervalo en $3$ partes iguales, sean $m1 = l + (r-l)/3$ y $m2 = l + 2 * (r-l)/3$, si estamos hallando el maximo y se cumple que $f(m1) < f(m2)$ podemos descartar sin ningun problema el rango $[l, m1]$ si no el rango $[m2, r]$. (preguntas en clase). 

```cpp

long double f(long double x){
	//...
}

long double Max(long double l, long double r, int n_iter){
	
	for(int i = 0; i < n_iter; ++i){ //controlo con iteraciones (caso continuo)
		long double m1 = l + (r-l)/3;
		long double m2 = l + 2*(r-l)/3;

		if(f(m1) < f(m2)) l = m1;
		else r = m2;
	}

	return l;
}

```

#### Complejidad: $O(log(r-l) / log(1.5))$


## Preguntas?

<img src="pictures/dragonduda.jpg">


## Problemas de ejemplo:

<img src="pictures/heroeayuda.jpg">

[Aggressive cows O(nlogn)](http://www.spoj.com/problems/AGGRCOW/)

[Amusement Park](http://codeforces.com/problemset/problem/774/A)


## Referencia:

<img src="pictures/pekohero.gif">

[binary search - Geeks for Geeks](https://www.geeksforgeeks.org/binary-search/)

[binary search - Topcoder](https://www.topcoder.com/community/data-science/data-science-tutorials/binary-search/)

[Representation of integers and reals: 2](https://www.topcoder.com/community/data-science/data-science-tutorials/representation-of-integers-and-reals-section-2/)

[ternary search - Hackerearth](https://www.hackerearth.com/practice/algorithms/searching/ternary-search/tutorial/)

[ternary search - Topcoder](https://apps.topcoder.com/forums/?module=Thread&threadID=670169)

[ternary search - Topcoder 2](https://apps.topcoder.com/forums/?module=Thread&threadID=506787&mc=16)

[great ternary search - Codeforces](http://codeforces.com/blog/entry/11497)

[ternary search - wikipedia](https://en.wikipedia.org/wiki/Ternary_search)

[ternary search - E-maxx](https://e-maxx-eng.appspot.com/num_methods/ternary_search.html) 

## Lecturas:

<img src="pictures/ping-pong.png">

[maximum element - Geeks for Geeks](https://www.geeksforgeeks.org/find-the-maximum-element-in-an-array-which-is-first-increasing-and-then-decreasing/)

[count number of occurrences - Geeks for Geeks](https://www.geeksforgeeks.org/count-number-of-occurrences-or-frequency-in-a-sorted-array/)

[fixed point](https://www.geeksforgeeks.org/find-a-fixed-point-in-a-given-array/)

[peak element](https://www.geeksforgeeks.org/find-a-peak-in-a-given-array/)

[binary search - Hackerearth](https://www.hackerearth.com/practice/algorithms/searching/binary-search/tutorial/)

[binary stride](https://www.topcoder.com/blog/binary-stride-a-variant-on-binary-search/)


