<a href="https://colab.research.google.com/github/Jmorgado125/ADA-Informes/blob/main/Select.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Select

##1. Descripcion del Problema
---


### Problema de la selección, que busca la obtencion del $i-ecimo$ elemento menor (o mayor), segun su aplicacion.




**Entrada**: Conjunto de $n$ números diferentes $A$  más un índice $i$.

**Salida**: Elemento $x\in A$, que es mayor a exactamente $i-1$ elementos de $A$.

El elemento $x$ se conoce como **estadístico de orden $i$-ésimo** para el conjunto $A$.

![image](https://imgur.com/xKrjMeg.png)

##2. Descripcion Algoritmo 
---

Algoritmo Select es un algoritmo para encontrar el k-ésimo menor número en una lista o arreglo; a este número se le llama estadístico de orden k. Este incluye los casos de encontrar el mínimo, máximo, y la mediana. La implementacion de un algoritmo de seleccion se puede implementar el **Randomized-select** o  **Select**, la diferencia entre estos algoritmos es su meteodo en la obtencion del pivote.



El algoritmo es similar a QuickSort, es decir ocupa la funcion *partition* para dividir el arreglo o lista en 2 mitades , sin embargo sólo nos quedamos con una de las particiones en cada selección: aquella que contenga el $i$-ésimo menor elemento.

In [9]:
#Implementacion Partition adaptado para entregar un pivote para el Algoritmo R-select
from random import shuffle


def partition(arr, lo, hi, pivot):
    p = arr[pivot]
    arr[hi - 1], arr[pivot] = arr[pivot], arr[hi - 1]
    i = lo - 1
    for j in range(lo, hi):
        if arr[j] <= p:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
    return i


**Explicacion:**

La funcion partition es incluida en el proceso del algoritmo de seleccion , ya que esta es utilizada para la busqueda del i-esimo elemento, esta realiza particiones del arreglo, alrededor de un pivote.

En este informe trabajaremos con el algoritmo **Randomized-selected** y **Select**, la diferencia entre estos, es la eleccion del pivote para la funcion partition, en el Randomized-selected la eleccion es aleatoria y en el Select se realiza una eleccion del pivote meticulosa, con el objetivo de encontrar un pivote mas cercana a la mediana del arreglo para obtener un mejor tiempo de ejecucion.

In [18]:
#Implementacion insertion Sort para la seleccion del pivote en Algoritmo Select

def insertion_Sort(arr):
    T=0
    # Primero se recorre el arreglo desde la pos 1 hasta n (largo).
    for i in range(1, len(arr)):
        
        valor = arr[i]      #Se le asigna una variable al valor a ordenar, para mayor entendimiento.
        k = i-1
        while k >= 0 and valor < arr[k] : #En este ciclo es comparado el valor con el subarreglo para encontrar su pos
              T += 1
              arr[k + 1] = arr[k]
              k -= 1
        arr[k + 1] = valor #Se le asigna pos al valor.
    
    return arr

**Explicacion:**

la funcion *insertion_sort* esta implementada para la eleccion del pivote en el algoritmo Select, este ordena los subarreglo de 5 elementos que se crean en el 
*pivot_selection* para encontrar la mediana de estos.



In [11]:
#Funcion encargada de encontrar un pivote lo mas cercando a la poscion A[n/2] (mediana).
def pivot_Selection(A, p, r, verbose = False):
    if p == r : 
        if verbose == True:
            print(f"\n    Mediana encontrada! {A[p]}!!\n")
        return A[p]                     # Caso base de la recursion

    m = []                                      # Arreglo de medianas

    if verbose == True:
        print(f"\n        A = [", end="")

    for i in range(p,r+1, 5):
        if i+4 <= r:
            if verbose == True:
                print(f"{A[i:i+5]}", end="")
            A[i:i+5] = insertion_Sort(A[i:i+5])  # Ordenar elementos
            m.append(A[i+2])                    # Agregar mediana
        else:
            if verbose == True:
                print(f"{A[i:r+1]}", end="")
            A[i:r+1] = insertion_Sort(A[i:r+1])
            a = i + (r-i)//2
            m.append(A[a])
            
    if verbose == True: 
        print("]")
        print(f"        Lista de medianas: {m}")
    return pivot_Selection(m, 0, len(m)-1, verbose = verbose)

**Explicacion:**

El algoritmo recibe como entrada un arreglo $A$ de $n$ elementos.
Se divide el arreglo $A$ en $[n/5]$ sub-conjuntos de $5$ elementos, a excepción del último que puede llegar a tener menos.
Se ordenan estos sub-conjuntos con *InsertionSort* con tal de extraer la mediana de cada uno, almacenando estos valores en un arreglo auxiliar $m$.
y por ultimo obtiene el pivote calculando la mediana del arreglo auxiliar de medianas $m$.

In [12]:
#Algoritmo Select

def select(arr, spos):
    lo=1
    hi=len(arr)
    assert lo <= spos < hi
    pivot_Selection(arr)
    while True:
        pos = partition(arr, lo, hi, lo)
        if pos == spos:
            return arr[pos]
        elif pos < spos:
            lo = pos + 1
        else:
            hi = pos


In [22]:
#Algoritmo Randomized Select




def Randomized_select(arr, spos):
    lo=1
    hi=len(arr)
    assert lo <= spos < hi
    shuffle(arr)  # shuffle entrega el pivote aletorio.
    while True:
        pos = partition(arr, lo, hi, lo)
        if pos == spos:
            return arr[pos]
        elif pos < spos:
            lo = pos + 1
        else:
            hi = pos

a=[1,2,41,123,32,12,3,45,8,4,7,0]

print("Arreglo Original =",a)
print("k = 3")
print("Elemento estadistico de orden k =",Randomized_select(a,3))
insertion_Sort(a)
print()
print("Comprobacion de que el elemento corresponde al 3 menor elemento del arreglo")
print("Arreglo ordenado =",a)

Arreglo Original = [1, 2, 41, 123, 32, 12, 3, 45, 8, 4, 7, 0]
k = 3
Elemento estadistico de orden k = 2

Comprobacion de que el elemento corresponde al 3 menor elemento del arreglo
Arreglo ordenado = [0, 1, 2, 3, 4, 7, 8, 12, 32, 41, 45, 123]


---
**EJEMPLO:**

Consideramos el arreglo  $a = [5,4,7,8,1,0,3,9]$

$K = 2$

Como primer paso, se busca un pivote a través de `pivotSelect`.

1. Agrupar elementos en grupos de 5 y el resto.

    $b = [[5,4,7,8,1], [0,3,9]]$

2. Ordenar con `Insertion_Sort`

    $b = [[1,4,5,7,8], [0,3,9]]$

3. Recolectar las medianas de los grupos

    $m = [5,3]$

Luego, se llama recursivamente `pivot_Selection` sobre las medianas. Al tener este conjunto solamente 2 elementos usaremos el menor de ellos, $3$.

Por lo tanto, nuestro pivote es $q = 3$. Se mueve el pivote al final del arreglo para proceder con la partición.

$a = [5,4,7,8,1,0,9,3]$

$a = [0,1,3,5,4,7,8,9]$

Como el índice resultante del pivote es $q = 3$ y tiene $2$ elementos menores a él, debemos seguir buscando.

Se aplica `Selection` en la mitad inferior del arreglo.


$a_1 = [0,1]$

Al obtener un nuevo pivote $q=1$ y su indice corresponde al buscado este corresponde al $i-ésimo$ elemento, puesto a que tiene $i-1$ elementos menores a él.

Retornando el valor $1$.<br><br>

---

##3. Correctitud
---

La correctitud del algoritmo es ta dada por **induccion**,en un caso base y general.

![image](https://imgur.com/bbqIZCv.png)


*Hipótesis:*
Select recibe un arreglo  $A$  de  n  elementos y un índice  i , retornando el valor del  i−é simo  menor elemento de  A . (o estadístico de orden  i )

**Caso base**

Para el caso base seleccionamos a un arreglo de un unico elemento $A[1]$, al poseer solo un elemento esa es la la posicion a retornar.

**Paso inductivo**

Se asume la correctitud de las particiones y que los elementos de A son unicos.

Para  n  elementos, La funcion partition divide el arreglo en tres a partir del pivote obtenido por pivot_selection. Estos tres conjuntos contienen los elementos menores al pivote, el pivote, y los mayores, respectivamente.

Se sabe que partition ubica el pivote en su posición correcta, por lo que si la posición del pivote coincide con el índice  i este es retornado como resultado.

Si el valor asociado al estadístico de orden  i  resulta ser menor que el pivote, se buscará recursivamente el  i−é simo  elemento menor en  A1(primera divison del arreglo con elementos menores al pivote), en caso contrario si resulta que el valor estadistico es mayor su busqueda sera recursivamente en el arreglo A2 (sub arreglo con valores mayor al pivote).

Ya que las llamadas recursivas a partition continuarán particionando y ubicando elementos de  A1  o  A2  según corresponda, cuando el tamaño de uno de estos sub arreglos a analizar sea  1  se habrá encontrado el valor estadistico.


##4. Analisis tiempo de Ejecucion
---


Primero se realiza un análisis de los pasos que hace el algoritmo para solucionar el problema.

1. Dividir el arreglo en grupos de 5 elementos y ordenar. Este paso toma $O(n)$.

2. Buscar recursivamente la mediana cuesta $T(\frac{n}{5})$, esto asumiendo que $n$ es un múltiplo de 5 *(todos los sub-grupos de 5 tienen 5 elementos)*.

3. Particionar el arreglo según la mediana de medianas cuesta $O(n)$.

4. Llamada recursiva en el arreglo de mayor tamaño para determinar el tiempo de ejecución en el peor caso. Esta cantidad se analiza de la siguiente manera:

    >Al menos la mitad de las medianas serán mayores o iguales a la mediana de medianas.
    >
    >Por esto, al menos la mitad de los grupos de n/5 elementos contribuirán con 3 elementos mayores a la media de medias, a excepción del último grupo que podría no tener 5.
    >
    > Llegase a tener el último grupo menos de 5 elementos y restando el grupo que contiene a la mediana de medianas, obtenemos un total de $ \frac{1}{2}\cdot (\frac{n}{5}\)-2$ grupos que aportan al menos $3$ elementos.
    >
    >Por lo tanto, el número de elementos más grandes que la mediana de mediansd es, al menos:
    >    * $3\cdot ( \frac{1}{2}\cdot (\frac{n}{5}\)-2)$
    >
    >Así, al menos $\frac{3n}{10}-6$ valores serán mayores que la mediana de medianas. De forma similar, al menos $\frac{3n}{10} - 6$ serán menores que la mediana.
    >
    >Considerando este el mejor caso para el cuál hacer la llamada recursiva, se puede decir que el peor caso es aquel en que siempre nos vayamos por el lado más largo de la partición, que puede llegar a tener hasta $\frac{7n}{10}+6$ elementos.

    Por lo que la llamada expresión que representa el peor caso será $T(\frac{7n}{10}+6)$

    Asumiendo que el algoritmo tendrá un tiempo de ejecución de $O(1)$ para valores de $n$ pequeños, terminamos con una ecuación de la siguiente forma:

$T(n) =\begin{cases}
  O(1)  & \text{Para n pequeños} \\
  T(\frac{n}{5}) + T(\frac{7n}{10}+6) + O(n) & \text{Para valores de n grandes}
\end{cases}$

*En el libro Introduction to Algorithms los valores que hacen variar el tiempo de ejecucion es para **n<140** $O(1)$,  y **n>140** $T(\frac{n}{5}) + T(\frac{7n}{10}+6) + O(n)$*

---
**Comprobacion tiempo de ejecucion**

Para probar que el tiempo de ejecución el lineal ocupamos el método de sustitución, demostrando que $T(n) \le cn$ para alguna constante $c \in {N}$ desde algún valor de $n$ hacia adelante.

Se sustituye $T(n)$ por $cn$ y $O(n)$ por $an$.

$T(n) \le c(\frac{n}{5}) + c(\frac{7n}{10} + 6) + an$

$cn \le \frac{cn}{5} + \frac{7cn}{10} + 6c + an$

$cn \le \frac{9cn}{10}+6c+an$

$\frac{cn}{10} -an\le 6c$

$n(c-10a) \le 60c$ 

$n \le \frac{60c}{c-10a}$, $n$ respecto a $c$ y $a$.

Tambien podemos obtener $c$ respecto a $n$ y $a$.

$c \le \frac{10an}{n-60}$

Si elejimos un valor de n grande igual a $n=95$ la desigualdad $c\le95a$ es correcta.

Por lo tanto, se comprueba que el tiempo de ejecución es lineal, $O(n)$

##5. Experimentacion
---