# LSH: Locality Sensitive Hashing
## Problema: Los k-vecinos mas cercanos (knn).
IMPORTANTE, LA IDEA DE LSH ES EVITAR HACER MIL COMPARACIONES ENTRE DISTANCIAS DE PUNTOS. LA IDEA ES NO COMPARAR
![image.png](attachment:image.png)

## Existen muchas distancias diferentes que se pueden utilizar
+ Distancia Euclidea: La de siempre
+ Distancia Manhattan: Se mueve de forma isometrica
+ Distancia Angular: Llevar todos los puntos a la hiperesfera de radio 1 y calcular diferencias de angulos
+ Distancia de Hamming: Cantidad de elementos distintos entre vectores

## LSH
La idea de LSH es que se le pasan puntos, y esa funcion de Hashing mapea puntos a una tabla de hash, en la cual se agrupan puntos que son candidatos a ser vecinos. Produce colisiones en puntos similares. Algunas definiciones:

+ Falso positivo: Candidato a ser vecino, pero no lo es.
+ Falso negativo: Vecino que no aparece como candidato



### Distancia de Jaccard
Sirve para calcular distancia entre conjuntos. 

A = {1,3,11,4,27}

B = {1,2,3,4,35,8}

Semejanza de Jaccard: $S_{j}: \frac{|A\cap B|}{|A\cup B|} = \frac{3}{8}$

Distancia de Jaccard: $D_{j}: 1 - \frac{|A\cap B|}{|A\cup B|} = 1 - \frac{3}{8} = \frac{5}{8}$

__Obs: Distancia de Jaccard para Bags__

A = {1,1,1,1,3,7,21}

B = {1,1,3,8,21,21,21}

En lugar de la cardinalidad de la interseccion, se utiliza la cardinalidad menor de los elementos de la interseccion (Por ejemplo, para el _1_ es __2__, porque aparece 2 veces en B, que es su cardinalidad menor).

En lugar de la cardinalidad de la union, se suma la mayor cardinalidad de cada elemento. En este caso

$S_{j}: \frac{4}{10}$

### Jaccard para textos
Idea: Convertir cada texto en un conjunto $\rightarrow$ Conjunto de Shingles

"hola que tal" $\rightarrow$ Se particiona en conjuntos de K caracteres $\rightarrow$ K-Shingles

Ej: K = 3

{hol,ola, la ,a q, qu,que,ue ,e t, ta, tal}

Si tengo N documentos D1, D2, D3, D4,... DN, genero los K Shingles y genero una tabla en la cual pongo un 1 si el shingle aparece en ese documento y un 0 en caso contrario.

| Shingles | D1 | D2 | D3 | D4  |
|----------|----|----|----|-----|
| a_a      | 0  | 0  | 1  | ... |
| a_b      | 1  | 1  | 0  |     |
| baa      | 0  | 1  | 0  |     |

Luego permuto las filas al azar (RECURSO DIDACTICO, NO HACER).

| Shingles | D1 | D2 |
|----------|----|----|
| c_q      | 0  | 0  |
| que      | 1  | 0  |
| a_a      | 0  | 1  |
| b_a      | 1  | 1  |

Idea para un hash: Nº de fila donde aparece el primer 1

D1 = 1 

D2 = 2

Sea X: cantidad de filas con 1 y 1
Sea Y: cantidad de filas con 0,1 o 1,0


Quiero calcular $P[h(D_{i}) = h(D_{j})] = \frac{X}{X+Y}$


Declaro: $S_{j}(Di,Dj) = \frac{X}{X+Y}$

## Ejemplo del mundo real

"hola chau"

{hol,ola,la ,a c, ch,cha,hau} $\rightarrow$ 0...n-1 ,n = cant TOTAL de shingles en la coleccion de documentos

hasheando el conjunto de shingles:

16,211,8,16,23,415,109 $\rightarrow$ tomar el minimo (en este caso 8), y esto es el hash del documento. Esto se llama __Min Hash__.

Como hacer esto es equivalente a permutar las filas de forma aleatoria, entonces este hash tiene las mismas propiedades que el otro

$Pr[MinHash(Di) = MinHash(Dj)] = Sim_{jacc}(Di,Dj)$

Tengo entonces un conjunto de documentos y sus MinHash

| D1 | D2 | ...Dn |
|----|----|-------|
| 8  | 3  | ...21 |


## Criterio Ejemplo

Si Dist(Di,Dj) <= 0.2 => Mh(Di) = Mh(Dj) 

Si Dist(Di,Dj) >= 0.75 => Mh(Di) != Mh(Dj)

![image.png](attachment:image.png)

## Amplificacion de Familias LSH

$H(d1,d2,p1,p2)$

Si $D(Di,Dj) \leq d1 \Rightarrow P[mh(Di) = mh(Dj)] \geq P1$

$D(Di,Dj) \geq d2 \Rightarrow P[mh(Di) = mh(Dj)] \leq P2$

### Requisitos
Se puede amplificar cualquier familia LSH que cumpla:
+ $Pr[Mh(Di) = Mh(Dj)] = f(D(Di,Dj))$ (La probabilidad de que los hashes coincidan debe ser funcion de la distancia)

+ f tiene que ser monotona

+ El minhash debe poder calcularse de forma eficiente.

+ El minhash debe definir una _familia_ de funciones.

Dado que la funcion que definimos antes cumple todos estos requisitos, podemos amplificarla.

### Como amplificar
Idea 1: Reducir falsos positivos. 
Si utilizo mas de un MinHash, puedo exigir que coincidan los MinHash de ambos documentos coincidan para decir que son similares. Esto tira la funcion hacia abajo.
Si tengo _r_ minhashes, $P[mh(Di) = mh(Dj)] = p^{r}$

Idea 2: Reducir falsos negativos.
Utilizando varios minhash, y pido que los documentos coincidan en alguno de ellos.
Si tengo b minhashes

$P[mh(Di) = mh(Dj)] = 1 - (1-p)^{b}$

### Amplificacion
Usar "b" tablas de hash con "r" minhashes en cada una. 

b buckets (o tablas)
r minhash c/u

total: b*r minhashes


$P = 1 - (1-p^{r})^{b}$

Ej: b = 3, r = 2


"hola chau", le aplico los 6 minhash al documento

| mh0 | mh1 | mh2 | mh3 | mh4 | mh5 |
|-----|-----|-----|-----|-----|-----|
| 213 | 28  | 48  | 6   | 49  | 6   |

Luego, para las 3 tablas, utilizo para cada tabla hasheando de a 2 minihash

H(mh0,mh1) me manda a la posicion de la tabla 1

H(mh2,mh3) me manda a la posicion de la tabla 2

H(mh4,mh5) me manda a la posicion de la tabla 3

|         |         |                  |
|---------|---------|------------------|
| D4, D27 |         |                  |
|         | D28, D4 |                  |
|         |         |                  |
|         |         | D4, D11, D16, D3 |

Los candidatos son todos los que aparecen juntos en las tres tablas ( o sea es la union de todos).

Criterio:

Si

dist $\leq$ 0.2 $\Rightarrow$ p $\geq$ 0.8

dist $\geq$ 0.75 $\Rightarrow$ p $\leq$ 0.15

H(d1,d2,p1,p2)

con 1 minhash( Jaccard)

H(d1,d2,1-d1,1-d2)

H(d1,d2,$1-(1-(1-d1)^{r})^{b}$,$1-(1-(1-d2)^{r})^{b}$)

Falsos positivos: P2

Falsos negativos: 1 - P1

## LSH Distancia Angular
$\theta = 0$

### Hiperplano Aleatorio

(-1,+1)[NORMAL DEL PLANO] (esto se obtiene del hiperplano aleatorio)

Para hashear, se hace el producto interno entre la normal del plano y los vectores. Si el producto interno es positivo, se devuelve +1, y si el producto interno es negativo, se devuelve -1

$mh(A) = (2,3)(-1,+1) = 1 > 0 \Rightarrow +1$

$mh(B) = (3,-1)(-1,+1) = -4 < 0 \rightarrow -1$

$H = (d1,d2,1-\frac{d1}{\pi},1-\frac{d2}{\pi})$

Puedo utilizar varios MinHash, y se mide la similaridad de los documentos segun en cuantos minhash coincidan. Por ejemplo, si tengo 3 minhash:

coinciden en 0 $\rightarrow 0$

coinciden en 1 $\rightarrow \frac{1}{3}$

coinciden en 2 $\rightarrow \frac{2}{3}$

coinciden en 3 $\rightarrow 1$

### Voronoi
T Vectores Aleatorios

MinHash = Max producto interno de $V_{i}*G_{t}$

H(x) = IndiceMax <Gi,x> [RESPECTO DE LA LISTA DE VECTORES ALEATORIOS]

o sea, es el indice del vector aleatorio para el cual el producto interno es maximo.

### Polítopos
d Dimensiones $\rightarrow$

Matriz de Rotación dxd' aleatoria

Se rota el vector que se quiere hashear usando la matriz, y luego de aplicar esta rotación, se verifica cual es el vértice perteneciente al polítopo mas cercano al vector rotado. El indice de dicho vértice es el resultado del hash.

0:(0,1) 1:(1,0) 2:(0,-1) 3:(-1,0) (ejemplo de Polítopo)

## LSH Distancia Euclidea

### Hiperplanos aleatorios

Se trazan hiperplanos aleatorios, los cuales se dividen en buckets. Luego, se proyectan los puntos sobre dichos hiperplanos y se revisa en cual de los buckets cayo el punto para cada hiperplano.

$MH(x) = \frac{x*v_{i}}{w}$