# LSH para la distancia de Jaccard

En esta seccion desarrollaremos una funcion minhash para <b>documentos de texto</b> basada en la <b>distancia de Jaccard</b>. 

Para empezar vamos a procesar cada documento obteniendo los n-gramas de n caracteres a los cuales denominaremos <b>shingles</b>.

Por ejemplo:
- <b>bigramas</b> de "hola" son $h,ho,ol,la,a$.
- <b>trigramas</b> de "hola" son $ho,hol,ola,la$.

La eleccion de n para el tamanio de los n-gramas depende de los datos. En general para documentos de texto un valor de n entre 5 y 10 caracteres es una buena idea.

La <b>semejanza de Jaccard</b> entre dos documentos se define como:

<img src="semejanza_de_jaccard.png">

Es decir que la semejanza es el cociente entre la cantidad de shingles que los documentos tienen en comun (interseccion) y la cantidad total de shingles en ambos documentos (union).

La semejanza de Jaccard nos da un numero entre 0 y 1. Vale 0 cuando los documentos no tienen absolutamente ningun shingle en comun y vale 1 cuando los documentos tienen exactamente los mismos shingles. En base a esto podemos definir la <b>distancia de Jaccard</b> como:

<img src="distancia_de_jaccard.png">

Es importante tener en cuenta cuando estamos hablando de distancia y cuando de semejanza, recordando que uno es 1 menos el otro.

Imaginemos ahora una <b>matriz</b> en la cual las filas son todos los shingles que existen en nuestra coleccion y cada columna representa un documento, indicando con 1 o 0 segun el shingle apareza o no en el documento. 

<img src="shingles_documentos.png">

Esta matriz no hace falta construirla realmente, la vamos a construir unicamente con fines teoricos. Tomemos ahora una permutacion al azar de las filas de la matriz y consideremos en que numero de fila aparece el primer 1 en cada columna. A este numero lo llamamos "minhash". Cada documento tiene entonces un minshash asociado.

<img src="shingles_documentos_minhash.png">

Queremos demostrar que la probabilidad de que el minhash de dos documentos coincida es igual a la semejanza de Jaccard entre ambos documentos. Para demostrar esto vamos a considerar dos documentos aislados cualesquiera D1 y D2. Existen 3 posibilidades para cada shingle:
- El shingle aparece en ambos documentos. 1-1 en la matriz.
- El shingle no aparece en ningun documento. 0-0 en la matriz.
- El shingle aparece en un solo documento. 1-0 o 0-1 en la matriz.

Llamemos <b>x</b> a la cantidad de casos en los cuales el shingle aparece en ambos documentos e <b>y</b> a los casos en los cuales el shingle aparece en un documento o en el otro pero no en ambos.

Calculemos la probabilidad de que el primer 1 de cada columna coincida. 

Los casos favorables son aquellos en los cuales el shingle aparece en ambos documentos: <b>x</b>. <br> 
Los casos totales son aquellos en donde el shingle aparece en ambos documentos o bien aparece en uno pero no en el otro. <br>
Los casos en los cuales el shingle no aparece en ningun documento no hace falta captarlos porque son dos ceros y no afectan el lugar en donde aparece el primer 1. Por lo que nos queda <b>x + y</b>.

<img src="prob_dos_minhash_iguales.png">

Observemos que esta probabilidad es igual a la semejanza de Jaccard entre los documentos. Para la semejanza de Jaccard tomamos la interseccion, es decir aquellos shingles que apercen en ambos documentos (x) y dividimos por la union, siendo esta la suma de aquellos shingles que aparecen en ambos documentos (x) y los shingles que aparecen en uno u otro documento (y). Notar aquellos shingles que no aparecen en ningun de los dos documentos no forman parte ni de la union ni de la interseccion.

<img src="semejansa_jaccard.png">

<img src="prob_jaccard.png">

De aqui se desprende que comparar los minhashes de los documentos es una forma logica de evaluar la semejanza entre ambos. Notemos tambien que un solo minhash nos da muy poca granularidad para medir la semejanza entre dos documentos. Si solo tenemos un minhash nuestras opciones se limitan a decir que los documentos son similares (el minhash coincide) o bien no lo son (el minhash no coincide).

La solucion por supuesto es usar mas de un minhash y luego analizar cuantos minhash coinciden usando esta medida como semejanza entre documentos. Si usamos 4 minhash tenemos que dos documentos pueden tener semejanza 0, 1/4, 1/2, 3/4 o 1, segun coincidan 0,1,2,3 o los 4 minhash.

Veamos entonces de que forma podemos calcular el minhash de un documento de forma eficiente.

Vamos a usar tantas funciones de hahisng como minhash querramos usar y vamos a construir una pequenia matriz que tiene tantas filas como documentos y tantas columnas como minhashes. Inicialmente el minhash de cada documento lo inicializaremos en infinito.

<img src="minhashes_inicial.png">

A continuacion vamos a procesar documento por documento, extrayendo los shignles y hasheando cada shingle con cada una de las 4 funciones de hashing. Supongamos que para el primer shingle de nuestro documento las funciones de hashing nos devuelven 23, 317, 41 y 1145, respectivamente. Lo que hacemos es actualizar la tabla siempre y cuando el valor de la funcion de hashing sea menor al existente en la tabla.

Este proceso continua con el siguiente shingle del primer documento, luego pasamos al documento 2, y repetimos hasta haber procesado todos los documentos. 

<img src="minhashes_ej.png">

Tenemos que mostrar ahora que el minhash calculado de esta manera es equivalente a la posicion del primer uno en la columna de nuestra matriz de shingles y documentos, para probar que sigue siendo valido que la probabilidad de coincidencia entre dos minhash es igual a la semejanza de jaccard  entre los documentos.

La intuicion para demostrar esto es muy simple: el valor que nos devuelve la funcion de hashing para un shingle lo podemos considerar igual al numero de fila en la cual aparecia dicho shingle en una permutacion al azar de la matriz. 

Por lo tanto, el valor minimo de minhash es equivalente al numero de fila en el cual apareceria el primer uno de la matriz.