<a href="https://colab.research.google.com/github/gibranfp/CursoDatosMasivosI/blob/main/notebooks/4c_elementos_distintos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmo de Flajolet-Martin
En esta libreta programaremos el algoritmo de Flajolet-Martin para estimar el número de elementos distintos en un flujo de datos.

La idea detrás de este algoritmo es que entre más elementos diferentes haya en el flujo de datos, más valores _hash_ diferentes veremos. A medida que vemos más valores _hash_ diferentes, es más probable que uno de estos valores sea inusual, en este caso que termine en muchos ceros.

En particular, sea $R$ el número de 0s al final de la cadena correspondiente al valor _hash_ de algún elemento, se mantiene el $R$ más grande de los elementos del flujo $\hat{R}$ y se toma $2^\hat{R}$ como un estimador del número de elementos distintos.

In [1]:
import numpy as np
import murmurhash

class ConteoProbabilista:  
  def __init__(self, n_cubetas):
    self.primo = 4294967291  
    self.n_cubetas = n_cubetas
    self.tam_max = 0
    self.a = np.random.randint(0, np.iinfo(np.uint16).max)
    self.b = np.random.randint(0, np.iinfo(np.uint16).max)
    
  def __call__(self, x):
    hv = ((self.a * x + self.b) % self.primo) % self.n_cubetas
    tam = bin(hv)[2:][::-1].find('1')
    if self.tam_max < tam:
      self.tam_max = tam

  def cardinalidad(self):
    return 2**self.tam_max

Definimos una clase que realiza varias estimaciones, las divide en grupos pequeños, obtiene el promedio de las estimaciones de cada grupo y toma la mediana de estos promedios como estimación final.

In [2]:
class EstimadorElementosDistintos:
  def __init__(self, n_cubetas, n_grupos, n_funciones):
    self.n_grupos = n_grupos
    self.n_funciones = n_funciones
    self.n_cubetas = n_cubetas
    self.estimadores = []
    for i in range(self.n_grupos):
      func = []
      for j in range(self.n_funciones):
        func.append(ConteoProbabilista(self.n_cubetas))
      self.estimadores.append(func)
    self.conteos = np.zeros((self.n_grupos, self.n_funciones))

  def __call__(self, x):
    for i in range(self.n_grupos):
      for j in range(self.n_funciones):  
        self.estimadores[i][j](x)
        self.conteos[i, j] = self.estimadores[i][j].cardinalidad()
      
  def cardinalidad(self):
    return np.median(self.conteos.mean(axis=0))

Generamos números aleatorios.

In [3]:
import numpy as np

X = np.random.randint(0,1000, size=100000)
print("Hay {0} elementos distintos".format(np.unique(X).size))

Hay 1000 elementos distintos


Instanciamos nuestra clase y estimamos elementos distintos.

In [4]:
est = EstimadorElementosDistintos(n_cubetas=100000, n_grupos=4, n_funciones=50)
for i,x in enumerate(X):
  est(x)
print(est.cardinalidad())

1552.25
