**1) Al construir una función de hashing perfecta y mínima con el método visto en clase explique por que es necesario que M sea mayor a N.**

Una funcion de hashing es minima y perfecta cuando tengamos O(1) para consultas, y O(m) espacio (m: espacio de direcciones). Estyo solo es posible cuando conocemos cuales son todas las claves que queremos almacenar en la tabla y los datos son estaticos. Cuando eso ocurre, es posible desarrllar una funcion que mapee cada clavle a una unica posicion de forma tal de no tener colisiones.
Tenemos que elegir un numero m mayor a n (n: numero de claves) y aplicarle a cada clave dos funcoines de hashing que conviertan las claves al espacio de direcciones 0...m-1. Esto lo hacemos generando 2 funciones de hashing de una flia universal.
El siguiente paso es armar un grafo de m nodos en donde cada clave es una arista y los valores de las funciones de hashing determinan los nodos que unimos con cada arista. Rotulamos cada arista con e numero de clave correspondiente.
Proximo paso: verificar que el grafo no tenga ciclos. Si existen ciclos, hay que probar con otras 2 funciones de hashing de nuestra flia universal.
**Para evitar este proceso muchas veces, es importante que m sea mucho mayor que n, ya que en difinitiva m es el numero de nodos, y n el numero de aristas de nuestro grafo y queremos minimizar la probabildiad de que el grafo sea ciclico. Si el grafo no tiene ciclos, es posible derivar la funcion de hashing perfecta.**

**2) Encontrar el m mínimo y los parámetros a y b de forma tal que la función de hashing ax + b mod m sea perfecta para las siguientes claves: 1,3,5,12**

**3)Tenemos vectores en 4 dimensiones y usamos “the hashing trick” usando el método de una única función de hashing (es decir sin signo) para reducirlos a 3 dimensiones. Sabemos que la matriz asociada a la función de hashing usada es la siguiente (por filas): [1,0,0; 0,0,1; 0,1,0; 1,0,0]. Se pide construir la función de hashing h(x) equivalente a la matriz presentada.**

Si tengo mi vector [a,b,c,d] y lo multiplico por la matriz:
[a,b,c,d*] * [[1,0,0],
              [0,0,1],
              [0,1,0],
              [1,0,0]
             ]
obtengo el vector con las nuevas dimensiones: [a+d,c,b]

Mi funcion tiene que cumpli que:
* pos = 0 -> h(pos) = 0
* pos = 1 -> h(pos) = 2
* pos = 2 -> h(pos) = 1
* pos = 3 -> h(pos) = 0

El prototipo de funciones de hashing para valores numericos es:
**h(x) = ((a*x + b)%p)%m**

* Obviamente, **m = 3** ya que tengo que hashear a un vector de 3 dimensiones.
* a es un valor entre 1 y p-1
* p es un numero primo >= m -> puedo tomar **p = 11**
* puedo tomar **a = 2**
* b es un numero entre 0 y p-1 -> puedo usar **b = 0**

Entonces, mi funcion de hashing quedaria expresada:
**h(x) = ((2*x) % 11) % 3**


**4)
Dada la siguiente función de hashing que pertenece a la familia Universal de Carter-Wegman para números enteros: h(x) = [(4*x + 3) mod 13] mod 5 . Usamos h para construir un esquema FKS para las siguientes claves: 20,40,70,10,100. Indicar la estructura final resultante y la en caso de ser necesario la segunda función de hashing a usar para el segundo nivel teniendo en cuenta que debe ser pertenecer a la familia [(a*x + b ) mod 13] mod m**


El esquema **FKS** nos asegura búsqueda en O(1), O(m) en espacio (<= 2m), y resolver colisiones buscando funciones de hash que diferencien las claves.
* Tenemos una tabla de tamaño k, primo, similar o igual a m (m: num claves)
* En cada posicion guardamos: la cantidad de claves que hashearon a esa posicion (m_i), una sub tabla (puntero) de tamaño (m_i)^2 (o primo cercano) y una segunda funcion de hashing.
* La segunda funcion de hashing debe salir de un pool de funciones de hashing donde elgimos alguna que no nos genere colisiones.
* Para buscar un elemento, hasheamos por la primer funcion de hashing, que nos indica el bucket, y luego por la que está guardada en el bucket.
* Espacio utilizado: aprox 2m -> O(m)

In [2]:
import pandas as pd

h1 = lambda x: ((4*x + 3) % 13) % 5

claves = [20,40,70,10,100]
hasheos_h1 = [h1(20), h1(40), h1(70), h1(10), h1(100)]
hasheos_h1

[0, 2, 0, 4, 0]

In [53]:
#Vemos que hay colisiones en la posicion 0 de la tabla de hash. (se hashean 3 claves a esa posicion)

k = [i for i in range(5)] #m = 5
# Elijo una h2(x) para evitar colisiones en la tabla original
h2 = lambda x: (x % 13) % 11 #primo cercano a 3²
hasheos_h2 = [h2(20), h2(70), h2(100)]
hasheos_h2

[7, 5, 9]

In [54]:
df = pd.DataFrame(columns= ['k','hash 1','h2(x)','tabla'])
df['k'] = k

def llenar_lista(lista1, lista2):
    lista = [[],[],[],[],[]]
    for i in range(5):
        indice = lista1[i]
        lista[indice].append(lista2[i])
    return lista

df['hash 1'] = llenar_lista(hasheos_h1,claves)
df['hash 1'] = df['hash 1'].str.len()
df['h2(x)'] = df['hash 1'].map(lambda x: '(x%13)%11' if x > 1 else '-')
df['tabla'] = df['hash 1'].map(lambda x: [[]]*(x**2))
df['tabla'][0] = "[-,-,-,-,-,70,-,20,-,100,-]"
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  from ipykernel import kernelapp as app


Unnamed: 0,k,hash 1,h2(x),tabla
0,0,3,(x%13)%11,"[-,-,-,-,-,70,-,20,-,100,-]"
1,1,0,-,[]
2,2,1,-,[[]]
3,3,0,-,[]
4,4,1,-,[[]]


**5)Tenemos un total de 10.000 claves de 32 bytes c/u. Si usamos el esquema FKS y la primer tabla tiene 1000 posiciones. ¿Cuánto espacio necesitamos en total para almacenar las 10.000 claves?**

Si la primer tabla tiene 1000 posiciones, es porque a esa posicion "k_i" hashearon sqrt(1000) claves.
El costo en espacio es <= 2m, con m: numero de claves.
Si tengo 10.000 claves -> 2*10.000 = 20.000 claves * 32bytes = 640.000 bytes = 640KB 

**6)Supongamos que asignamos a cada letra del alfabeto un número de la forma A=1, B=2, C=3, etc... Proponemos como función de hashing sumar el valor correspondiente a cada carácter del string y luego tomar el módulo con un cierto número primo p. Analizar la función propuesta indicando:**
* a) Cantidad de colisiones 
* b) Facilidad de encontrar sinónimos 
* c) Eficiencia 
* d) Efecto avalancha**

A) La cantidad de colisiones va a depender del numero p. Si p es grande, la cantidad de colisiones va a ser poca. Si p es chico, la cantidad de colisiones aumenta.

B) La facilidad de encontrar sinonimos: como los valores asociados a cada letra son cercanos, es facil encontrar distintas combinaciones que resulten en la misma sumatoria, y por ende terminen en el mismo bucket.

C) Eficiencia: en velocidad? espacio?

D) Efecto avalancha:  si una entrada cambia ligeramente (por ejemplo, permutando un solo bit), la salida cambia significativamente. No habria efecto avalancha en este ejemplo, ya que al haber combinaciones de letras que generarn la misma sumatoria, y los valors de las letras son tan cercanos, si cambio alguna letra de un string no deberia cambiar significativamente la salida.