# Bucket Sort

## Importando bibliotecas

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from time import perf_counter
from matplotlib import pyplot as plt

N_BALDES = 100

LISTA_DE_TAMANHOS = [1000, 2000, 3000,
                     4000, 5000, 8000,
                     10_000]



## Algoritmo de ordenação

In [None]:
def _min_max(arr:np.ndarray) -> 'tuple[float, float]':
  '''
  Retorna o min e max de um array com um loop, apenas.
  '''
  min_arr, max_arr = arr[0], arr[0]
  for e in arr:
    if e < min_arr:
      min_arr = e
    if e > max_arr:
      max_arr = e

  return min_arr, max_arr

def bucket_sort(
    arr:np.ndarray,
    n_buckets : int = N_BALDES) -> None:
  '''
  Bucket Sort
  ---
  '''
  # Calculando variáveis
  n_buckets = min(n_buckets, len(arr))

  bucket_min, bucket_max = _min_max(arr)

  # step = np.ceil((bucket_max - bucket_min) / n_buckets)
  
  buckets_range = np.linspace(bucket_min, bucket_max, num=n_buckets)
  
  buckets = {r:[] for r in buckets_range}

  # Colocando elementos nos baldes
  for e in arr:
    for key in buckets:
      if e <= key:
        buckets[key].append(e)
        break
  
  # Ordenando baldes
  for key in buckets:
    if len(buckets[key]) > 1:
      bucket_sort(buckets[key])

  # Inserindo no array em ordem correta
  i = 0
  for key in buckets:
    for e in buckets[key]:
      arr[i] = e
      i += 1

In [None]:
test = [1, 3, 2, 9, 5, 4, 3]
bucket_sort(test)
test

RecursionError: ignored

## Desempenho em Caso Aleatório

In [None]:
tempo_de_ordenamento_1 = []

for tamanho in LISTA_DE_TAMANHOS:
  # 'tamanho' números aleatórios dentro do intervalo [0, 1)
  amostra = np.random.sample(tamanho)
  start = perf_counter()
  bucket_sort(amostra, tamanho)
  stop = perf_counter()
  tempo_de_ordenamento_1.append(stop - start)



## Desempenho em Pior Caso

* O pior caso é quando a lista se encontra ordenada de maneira decrescente

In [None]:
tempo_de_ordenamento_2 = []

for tamanho in LISTA_DE_TAMANHOS:
  # 'tamanho' números igualmente espaçados de 1 a 0 (nessa ordem)
  amostra = np.linspace(1, 0, tamanho)
  start = perf_counter()
  bucket_sort(amostra, tamanho)
  stop = perf_counter()
  tempo_de_ordenamento_2.append(stop - start)

## Gráfico de desempenho

In [None]:
def _mini_dataframe(lista:np.ndarray, case:str) -> pd.DataFrame:
  df = pd.DataFrame(
      data=[LISTA_DE_TAMANHOS, lista],
      index=['tamanho', 'tempo (s)']
      ).transpose()
  
  df['caso'] = case
  return df

LISTA_DE_CASOS = ['caso aleatório', 'pior caso']
LISTA_DE_TEMPOS = [tempo_de_ordenamento_1, tempo_de_ordenamento_2]

df = pd.concat(
    [_mini_dataframe(l, c) for l, c in zip(LISTA_DE_TEMPOS, LISTA_DE_CASOS)],
    ignore_index=True)

sns.set_style('darkgrid')

sns.pointplot(
    data=df,
    x='tamanho',
    y='tempo (s)',
    hue='caso',
    ).set(
        title='TAMANHO DA LISTA X TEMPO DE ORDENAMENTO')

df