# Algoritmo de búsqueda binaria

El propósito de este notebook es explicar el algoritmo de búsqueda binaria en detalle, mostrando cómo demostrar la **correctitud**, **terminación** y derivando el tiempo de ejecución. Este material complementa la clase que explica la idea principal detrás del algoritmo.

Dada una lista _ordenada_ (se asume orden ascendente) de $n$ elementos, queremos determinar si un elemento dado `elt` pertenece a la lista.

El algoritmo de búsqueda binaria reduce repetidamente el posible rango de ubicación del elemento comparando el elemento central en el rango de búsqueda con el elemento que buscamos. Se espera encontrar el elemento en cada paso, aprovechando el hecho de que la lista está ordenada.

**TAREA**: Revisa la clase sobre búsqueda binaria antes de continuar.

Queremos implementar una función `binarySearchHelper(lst, elt, left, right)` donde:
  - `lst` es una lista no vacía con al menos 2 o más elementos.
  - `elt` es el elemento cuyo índice estamos buscando.
  - `left` y `right` representan los "límites" en términos de índices de la lista.
    - Nota que los índices en Python comienzan en 0 y llegan hasta `len(lst) - 1`.
    - Usemos `n` para denotar la longitud de la lista.
    - Si  $0 \leq \text{`left`} \leq \text{`right`} \leq n - 1$, el rango de búsqueda es no vacío. De lo contrario, se asume que el rango de búsqueda está vacío.

La salida esperada es un número `index` o el valor `None` en Python:
  - Si se devuelve un número `index`, este debe ser un índice válido de la lista entre `left` y `right` Y debe cumplirse que `lst[index] == elt`.
  - En caso contrario, se devuelve `None` si y solo si la lista `lst` no contiene el elemento `elt`.

---

A continuación se muestra la implementación de `binarySearchHelper`.

In [None]:
def binarySearchHelper(lst, elt, left, right):
    n = len(lst)
    if (left > right):
        return None  # La región de búsqueda está vacía, no se puede encontrar el elemento `elt` en la lista.
    else:
        # Si `elt` existe en la lista, debe estar entre los índices `left` y `right`.
        mid = (left + right) // 2  # Nota: // es división entera.
        if lst[mid] == elt:
            return mid  # ¡BINGO! Hemos encontrado el elemento. Devolvemos su índice indicando que lo encontramos.
        elif lst[mid] < elt:
            # Buscamos en la parte derecha de la lista.
            return binarySearchHelper(lst, elt, mid + 1, right)
        else:  # lst[mid] > elt
            # Buscamos en la parte izquierda de la lista.
            return binarySearchHelper(lst, elt, left, mid - 1)


In [None]:
def binarySearch(lst, elt):
    n = len(lst)
    if (elt < lst[0] or elt > lst[n-1]):
        return None  # El elemento `elt` está fuera del rango de valores de la lista, no puede estar en la lista.
    else:  # Nota: solo llegamos aquí si `lst[0] <= elt <= lst[n-1]`.
        return binarySearchHelper(lst, elt, 0, n - 1)  # Iniciamos la búsqueda binaria con todo el rango de la lista.


In [None]:
print("Buscando el 9 en la lista [0,2,3,4,6,9,12]")
print(binarySearch([0,2,3,4,6,9,12], 9))

print("Buscando el 8 en la lista [1, 3, 4, 6, 8, 9, 10, 11, 12, 15]")
print(binarySearch([1, 3, 4, 6, 8, 9, 10, 11, 12, 15], 8))

print("Buscando el 5 en la lista [1, 3, 4, 6, 8, 9, 10, 11, 12, 15]")
print(binarySearch([1, 3, 4, 6, 8, 9, 10, 11, 12, 15], 5))

print("Buscando el 0 en la lista [0,2]")
print(binarySearch([0,2], 0))

print("Buscando el 1 en la lista [0,2]")
print(binarySearch([0,2], 1))

print("Buscando el 2 en la lista [0,2]")
print(binarySearch([0,2], 2))

print("Buscando el 1 en la lista [1]")
print(binarySearch([1], 1))

print("Buscando el 2 en la lista [1]")
print(binarySearch([1], 2))


## Implementando usando bucles

In [None]:
def binSearch(lst, elt):
    n = len(lst)
    if (elt < lst[0] or elt > lst[n-1]):
        return None  # El elemento `elt` está fuera del rango de valores de la lista, no puede estar en la lista.
    else:
        left = 0
        right = n - 1
        while (left <= right):
            # Lógica exacta al enfoque recursivo.
            mid = (left + right) // 2  # Nota: en Python 3 y versiones posteriores, // es división entera.
            if lst[mid] == elt:
                return mid  # ¡BINGO! Hemos encontrado el elemento. Devolvemos su índice.
            elif lst[mid] < elt:
                left = mid + 1  # Continuamos la búsqueda en la parte derecha de la lista.
            else:  # lst[mid] > elt
                right = mid - 1  # Continuamos la búsqueda en la parte izquierda de la lista.
        return None  # Si no encontramos el elemento, devolvemos `None`.


In [None]:
print("Buscando el 9 en la lista [0,2,3,4,6,9,12]")
print(binSearch([0,2,3,4,6,9,12], 9))

print("Buscando el 8 en la lista [1, 3, 4, 6, 8, 9, 10, 11, 12, 15]")
print(binSearch([1, 3, 4, 6, 8, 9, 10, 11, 12, 15], 8))

print("Buscando el 5 en la lista [1, 3, 4, 6, 8, 9, 10, 11, 12, 15]")
print(binSearch([1, 3, 4, 6, 8, 9, 10, 11, 12, 15], 5))

print("Buscando el 0 en la lista [0,2]")
print(binSearch([0,2], 0))

print("Buscando el 1 en la lista [0,2]")
print(binSearch([0,2], 1))

print("Buscando el 2 en la lista [0,2]")
print(binSearch([0,2], 2))


## ¿Por qué funciona la búsqueda binaria?

Proporcionaremos una prueba de que:
  - Si `elt` pertenece a `lst` en el índice `j`, entonces la búsqueda binaria devolverá `j`, O
  - Si `elt` no pertenece a `lst`, entonces la búsqueda binaria devolverá `None`.

También proporcionaremos una prueba de que la búsqueda siempre termina.

Para mayor conveniencia, razonaremos sobre la versión recursiva.

#### Afirmación 1: Para cualquier llamada a la función `binarySearchHelper(lst, elt, left, right)`, si `elt` pertenece a la lista en el índice `j`, entonces `left <= j <= right`.

**Prueba:** La prueba se realiza mediante **inducción** sobre las llamadas a la función `binarySearchHelper`.

---

**Caso base:** La primera llamada a `binarySearchHelper`, realizada desde la función `binarySearch`, satisface estas propiedades. Desde el inicio, tenemos `left = 0` y `right = n - 1`. La afirmación es trivialmente cierta: si `elt` pertenece a la lista, entonces su índice debe estar entre `0` y `n - 1`.

---

**Paso inductivo:** Si una llamada dada a `binarySearchHelper` satisface estas propiedades, entonces la llamada subsiguiente también debe cumplirlas.

Para probar esto, observemos con atención el cuerpo de la función en cuestión:

```python
mid = (left + right) // 2  # Nota: // es división entera
if lst[mid] == elt:
    return mid
elif lst[mid] < elt:  
    return binarySearchHelper(lst, elt, mid + 1, right)  ## LLAMADA 1
else:  # lst[mid] > elt
    return binarySearchHelper(lst, elt, left, mid - 1)  ## LLAMADA 2
```

Observa que hay dos llamadas recursivas a `binarySearchHelper`, etiquetadas como `LLAMADA 1` y `LLAMADA 2` en el cuerpo de la función:
  - Para **LLAMADA 1**, esta se realiza solo si `lst[mid] < elt`. Como `lst` está ordenada, si `elt` se encuentra en la lista, solo puede estar en el rango de índices `[mid + 1, right]`. Por lo tanto, la propiedad se mantiene para **LLAMADA 1**.
  - Para **LLAMADA 2**, esta se realiza solo si `lst[mid] > elt`. Por lo tanto, si `elt` se encuentra en la lista, solo puede estar en el rango de índices `[left, mid - 1]`. Por lo tanto, la propiedad se mantiene para **LLAMADA 2**.

**Definición:** el "tamaño" de la región de búsqueda en la búsqueda binaria se define como `(right - left + 1)`.

---

**Afirmación 2:** Para cualquier llamada a la función `binarySearchHelper(lst, elt, left, right)`, se cumple que: (a) terminamos encontrando `elt`, (b) concluimos que `elt` no existe en `lst`, o (c) hacemos una nueva llamada a `binarySearchHelper` con una región de búsqueda estrictamente más pequeña.

---

**Prueba:** La prueba de esta afirmación es directa a partir del código.

```python
mid = (left + right) // 2  # Nota: // es división entera
if lst[mid] == elt:
    return mid
elif lst[mid] < elt:  
    return binarySearchHelper(lst, elt, mid + 1, right)  ## LLAMADA 1
else:  # lst[mid] > elt
    return binarySearchHelper(lst, elt, left, mid - 1)  ## LLAMADA 2
```

---

Observa que para la **LLAMADA 1**, el nuevo tamaño de la región de búsqueda es `right - (mid + 1) + 1`, que es igual a `right - mid`. Nota que `mid >= left`, o en otras palabras, `mid > left - 1`. Por lo tanto, el nuevo tamaño de la región de búsqueda es `right - mid < right - (left - 1) = right - left + 1`. Así, la región de búsqueda de la nueva llamada es estrictamente más pequeña que la región de búsqueda de la llamada original.

---

Observa que para la **LLAMADA 2**, el nuevo tamaño de la región de búsqueda es `mid - left`. Nuevamente, dado que `mid <= right`, observamos que `mid < right + 1`. Por lo tanto, `mid - left < right + 1 - left`. Así, la región de búsqueda de la nueva llamada es estrictamente más pequeña que la región de búsqueda de la llamada original.

### Argumento general de correctitud

- Cada vez que se realiza una llamada a `binarySearchHelper(lst, elt, left, right)`, concluimos que si `elt` se encuentra en `lst`, entonces pertenece al rango `[left, right]`. Esto corresponde a la **afirmación 1**.
- Por lo tanto, si `left > right`, el rango de índices está vacío y podemos concluir que `elt` no puede pertenecer a la lista.
- Además, la región de búsqueda en cualquier llamada sucesiva es estrictamente más pequeña que la región de búsqueda anterior.
- Por lo tanto, eventualmente, debemos terminar ya sea encontrando `elt` o alcanzando la condición `left > right`.

#### Terminación

La afirmación 2 prueba directamente la terminación.

### Tiempo de ejecución en el peor caso

**Afirmación 3:** Consideremos una llamada a `binarySearchHelper(lst, elt, l, r)` y una llamada subsiguiente `binarySearchHelper(lst, elt, l1, r1)`. La nueva región de búsqueda `r1 - l1 + 1` es como máximo la mitad del tamaño de la región de búsqueda anterior `r - l + 1`. Formalmente:
$$ r1 - l1 + 1 \leq \frac{(r - l + 1)}{2} $$

---

**Prueba**

Consideremos el código de `binarySearchHelper(lst, elt, l, r)` (Nota que usamos `l`, `r` en lugar de `left` y `right`. De manera similar, usamos `m` en lugar de `mid`):
```python
m = (left + right) // 2  # Nota: // es división entera
if lst[m] == elt:
    return mid
elif lst[m] < elt:  
    return binarySearchHelper(lst, elt, m + 1, r)  ## LLAMADA 1
else:  # lst[mid] > elt
    return binarySearchHelper(lst, elt, l, m - 1)  ## LLAMADA 2
```

---

Cualquier llamada subsiguiente es una **LLAMADA 1** o **LLAMADA 2**.

  - Para **LLAMADA 1**, el tamaño de la nueva región de búsqueda es:
  $$ r - (m + 1) + 1 = r - m = r - \left\lfloor \frac{(l + r)}{2} \right\rfloor \leq r - \frac{(l + r - 1)}{2} \leq \frac{(r - l + 1)}{2} $$
  
  - Para **LLAMADA 2**, el tamaño de la nueva región de búsqueda es:
  $$ (m - 1) - l + 1 = m - l = \left\lfloor \frac{(l + r)}{2} \right\rfloor - l \leq \frac{(l + r)}{2} - l \leq \frac{(r - l)}{2} \leq \frac{(r - l + 1)}{2} $$


En ambos casos, llegamos a la relación de que la nueva región de búsqueda es menor o igual a la mitad del tamaño de la región de búsqueda anterior.

**Análisis de complejidad**

Así, el tamaño inicial de la región de búsqueda es $n$, que corresponde al tamaño de la lista. En cada llamada subsiguiente, la región de búsqueda se reduce a la mitad de la región de búsqueda anterior.

Por lo tanto, si realizamos $k$ iteraciones de `binarySearchHelper`, el tamaño de la región de búsqueda será como máximo $ \frac{n}{2^k}$.

Cuando el tamaño de la región de búsqueda es menor que $1$, debemos detenernos, ya que se alcanza la condición `left > right`.

En el peor caso, la búsqueda binaria puede ejecutarse durante `k` pasos siempre que $ \frac{n}{2^k} \geq 1 $.

En otras palabras, $2^k \leq n$, es decir, $k \leq \log_2(n)$.

Cada llamada recursiva implica un número constante de operaciones. Por lo tanto, concluimos que el tiempo de ejecución está acotado superiormente por $O(\log(n))$.

Un análisis similar muestra que, para cualquier $n$, podemos construir una lista de tamaño $n$ y un elemento faltante de manera que el algoritmo tome un tiempo proporcional a $\log_2(n)$ para ejecutarse. Esto nos permite concluir que el tiempo de ejecución debe ser $\Omega(\log(n))$ en el peor caso.

Combinando estos resultados, obtenemos que el tiempo de ejecución es $\Theta(\log(n))$.

### Ejercicios

1 . Escribe una función `binary_search` en Python que reciba como parámetros una lista ordenada y un número, y devuelva el índice del número si se encuentra en la lista o `None` en caso contrario. Implementa la versión iterativa y recursiva.

**Objetivo:** Comparar los tiempos de ejecución de ambas versiones.

2 . Dada una lista ordenada de números enteros con elementos duplicados, implementa una función `first_occurrence(lst, elt)` que devuelva el índice de la **primera aparición** de un número `elt`.

**Ejemplo:**  
Entrada: `lst = [1, 2, 2, 2, 3, 4, 5], elt = 2`  
Salida: `1` (índice de la primera aparición de `2`).

**Sugerencia:** Utiliza modificaciones en la condición `mid` para encontrar la primera aparición.

3 . Modifica el algoritmo anterior para que encuentre el índice de la **última aparición** de un elemento en la lista.

4 . Dado un arreglo ordenado rotado, escribe una función `find_min(lst)` que utilice búsqueda binaria para encontrar el elemento mínimo.

**Ejemplo:**  
Entrada: `lst = [4, 5, 6, 7, 0, 1, 2]`  
Salida: `0`.

**Desafío:** Implementa una solución con un tiempo de ejecución de $O(\log n)$.

5 . Dado un número entero `x`, implementa una función `integer_sqrt(x)` que encuentre la raíz cuadrada entera de `x` utilizando búsqueda binaria.

**Ejemplo:**  
Entrada: `x = 17`  
Salida: `4` (ya que $4^2 = 16 \leq 17$ y $5^2 = 25 > 17$).

#### Ejercicios opcionales relacionados a git

6 . Implementa una simulación del comando `git bisect` utilizando búsqueda binaria. 

- Dado un conjunto de commits en una lista `commits = ["good", "good", "good", "bad", "bad"]`, encuentra el primer commit "bad" donde comenzó a fallar el proyecto.
  
7 . Crea un script que utilice el comando `git log --grep <keyword>` para buscar commits relacionados con una palabra clave, y analiza cómo podrías usar un algoritmo eficiente para navegar por los resultados.

8 . Escribe un script en Python que simule el comportamiento de `git diff` entre dos versiones de archivos utilizando un algoritmo de búsqueda de **mínima edición** (como Levenshtein). **Desafío:** Agrega opciones de análisis de cambios como adiciones y eliminaciones en los archivos.

9 . Implementa una función que reciba una lista de commits y seleccione solo los commits correspondientes a ciertos cambios (simulación de `git cherry-pick`). Utiliza un enfoque de búsqueda para verificar si un commit pertenece a una rama específica.


10 . Implementa un script que simule `git blame` para rastrear qué líneas de código fueron modificadas por cada commit, utilizando un mapa de búsqueda para identificar contribuciones específicas.


In [None]:
### Tus respuestas