# Shingling y comparación de conjuntos

Vamos a aprender como comparar conjuntos usando la medida de simulitud de Jaccard, y como usar shingling para transformar texto a conjuntos, de forma de poder compararlos. 

## Shingling

La técnica de *k*-shingling consiste en transformar un texto (es decir, un string) a un conjunto formado por todos los substring de tamaño *k* de ese texto, incluyendo espacios y otros caracteres no lexicográficos. 

Veamos como hacer esto para un conjunto de 10 poesías escritas por Pablo Neruda, parte de su obra de Odas Elementales. 

In [9]:
### Para almacenar los distintos textos creamos un diccionario. 
odas = {}

### Vamos a subir cada texto indexado por un keyword distinto en este diccionario. 
### Para hacerlos más legibles, reemplazamos los fin de línea por un espacio. 

with open("oda_alegria.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['alegria']=text

with open("oda_caldillo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['caldillo']=text

with open("oda_feliz.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['feliz']=text

with open("oda_libro.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['libro']=text

with open("oda_mar.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['mar']=text

with open("oda_poetas.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['poetas']=text

with open("oda_tiempo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tiempo']=text

with open("oda_tristeza.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tristeza']=text


with open("oda_valparaiso.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['valparaiso']=text


with open("oda_vino.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['vino']=text

### Como vemos, el resultado es que cada uno de estos textos es un string, 
### indexado en el diccionario por un keyword diferente. 

print(odas)

{'alegria': 'Alegría hoja verde caída en la ventana, minúscula claridad recién nacida, elefante sonoro, deslumbrante moneda, a veces ráfaga quebradiza, pero más bien pan permanente, esperanza cumplida, deber desarrollado. Te desdeñé, alegría. Fui mal aconsejado. La luna me llevó por sus caminos. Los antiguos poetas me prestaron anteojos y junto a cada cosa un nimbo oscuro puse, sobre la flor una corona negra, sobre la boca amada un triste beso. Aún es temprano. Déjame arrepentirme. Pensé que solamente si quemaba mi corazón la zarza del tormento, si mojaba la lluvia mi vestido en la comarca cárdena del luto, si cerraba los ojos a la rosa y tocaba la herida, si compartía todos los dolores, yo ayudaba a los hombres. No fui justo. Equivoqué mis pasos y hoy te llamo, alegría.  Como la tierra eres necesaria.  Como el fuego sustentas los hogares.  Como el pan eres pura.  Como el agua de un río eres sonora.  Como una abeja repartes miel volando.  Alegría, fui un joven taciturno, hallé tu cabel

In [5]:
### El siguiente pedazo de código genera un diccionario, indexado bajo los mismos keywords que los textos, 
### En este diccionario almacenamos el resultado de hacer k-shingling en el texto. 

### Probemos con k = 3

odas_shingles = {}
k = 3

### iteramos sobre todas las odas
for (name,text) in odas.items(): 
    
    ### Es importante declarar los shingles como un set (conjunto), de forma que no hayan duplicados
    odas_shingles[name] = set()
    
    ### y nos concentramos en todos los substrings entre las posiciones i y la i+k+1, para un 
    ### i que parte desde el inicio del texto 
    
    for i in range(len(text) - k+1):
        shingle = text[i:i+k]
        odas_shingles[name].add(shingle)
        

In [6]:
### Este es el resultado de hacer shingling al primer texto, la Oda a la Alegría. 

print(odas_shingles['alegria'])

{'ra,', ' to', 'go ', 'o p', 'ust', 'uto', 'epe', ' ni', 'ría', ' rá', 'use', ' er', 'rca', 's s', 'y, ', 'qué', 'azó', 'mo ', 'hoj', 'ert', ' ti', 'a y', 'rec', 'omp', ' Aú', 'est', 'ora', ' la', ' te', 'ara', 'dre', 'o. ', 'me.', 'ir ', 'tus', '. N', 'oy,', ' ac', 'bra', 'eoj', 'uem', 'ped', 'lad', 'ndo', 'lo ', ' ju', 'te ', 'hos', 'o l', 'a a', 'oqu', 'leg', 'r s', 'riz', 'én ', 'nes', ' do', 'Los', 'eña', 'uan', 'dic', 'rda', 'bes', 'sar', 'l m', ', h', 'val', 'e e', 'ire', ' Ho', ' mo', ' vu', 'mpr', 'cár', 'deb', ' A ', 'do!', 'a v', ' ve', 'oja', 'ono', 'y h', 'me:', '!  ', 'can', 'ron', ' ma', 'ues', 'pra', 'ivo', 'odo', 's y', 'los', 'do ', 'esd', 'sé ', 'n n', ' lu', 'é q', 'ega', 'uni', 'cit', ' qu', 'r c', 'mad', 'uda', ' No', 'rro', 'da,', 'ón ', 'nte', 'ibr', 'cim', '. F', ' tr', ' co', 'i c', 'ra ', 'sat', 'ueg', 'i m', ' ar', 'de ', 'e: ', 'hal', 'ntr', ' is', 'gra', 'ent', ' jo', 'uos', 'za,', 'evó', 'ia ', 'mpa', 'mis', '. L', 'dos', ', q', 's p', 's c', 'uro', 'jam'

## Jaccard Similarity

Vamos a comparar cual de estas 10 odas es la más parecida entre sí, según la similitud de Jaccard. 

In [10]:
### Lo primero es una funcion que calcula la similitud de Jaccard entre dos conjuntos. 
### Recordemos que se define como la proporcion entre el tamaño de la intersección de los conjuntos, 
### dividido por el tamaño de su unión. 

def jaccard_similarity(set1, set2):
    # Computa la similitud de Jaccard entre dos sets
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

In [11]:
### Un par de pruebas: 
### - La similitud de un conjunto con si mismo debe ser 1
### - La similitud de un conjunto con el vacio debe ser cero
### - Probamos cuanto es la similitud entre los primeros dos textos. 

print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['alegria']))
print(jaccard_similarity(odas_shingles['alegria'],{}))
print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['caldillo']))

1.0
0.0
0.3007985803016859


Ahora vamos a calcular la similitud para todas las $10 \choose 2$ combinaciones. 
El resultado irá a una matriz de 10x10, donde la entrada $[i][j]$ es el valor 
de la similitud entre la i-ésima oda y la j-ésima oda. 

In [65]:
### Armamos la matriz 

n = len(odas_shingles)
similarity_matrix = [[0 for i in range(n)] for j in range(n)]

### con esto podemos usar names[i] para conseguir el nombre de la i-esima oda. 
names = list(odas_shingles.keys())

### Llenamos la matriz
for i in range(n):
    for j in range(n):
        if i != j:
            similarity = jaccard_similarity(odas_shingles[names[i]], odas_shingles[names[j]])
            similarity_matrix[i][j] = similarity
            
for row in similarity_matrix:
    print(row)


[0, 0.3007985803016859, 0.2569778633301251, 0.32996632996632996, 0.3414285714285714, 0.34497816593886466, 0.32142857142857145, 0.2377285851780558, 0.3604183427192277, 0.3537190082644628]
[0.3007985803016859, 0, 0.2625152625152625, 0.2924901185770751, 0.3110204081632653, 0.31333333333333335, 0.3045356371490281, 0.23809523809523808, 0.32369402985074625, 0.33528836754643204]
[0.2569778633301251, 0.2625152625152625, 0, 0.24242424242424243, 0.27065026362038663, 0.25309734513274335, 0.28431372549019607, 0.23232323232323232, 0.2416173570019724, 0.25494276795005205]
[0.32996632996632996, 0.2924901185770751, 0.24242424242424243, 0, 0.3200306983883346, 0.33280757097791797, 0.3128103277060576, 0.26033519553072626, 0.3365300784655623, 0.3120567375886525]
[0.3414285714285714, 0.3110204081632653, 0.27065026362038663, 0.3200306983883346, 0, 0.35330156569094623, 0.2991178829190056, 0.24324324324324326, 0.36539895600298283, 0.35725190839694654]
[0.34497816593886466, 0.31333333333333335, 0.2530973451327

En este caso lo podemos hacer de forma sencilla, ya que son solo 10 textos pequeños. Cuando la cantidad de conjuntos es muy grande, probar para todas las combinaciones es muy costoso, y debemos usar MinHashing. 

Para terminar, veamos cuales dos odas son las mas similares. 

In [66]:
maximo = 0
for i in range(n):
    for j in range(n):
        valor = similarity_matrix[i][j]
        if maximo < valor: 
            i_max = i
            j_max = j
            maximo = valor
print(i_max,j_max,maximo)

4 8 0.36539895600298283


In [67]:
names[4],names[8]

('mar', 'valparaiso')

Las mas similares son las odas al mar y a Valparaíso. 
Esto tiene sentido, ya que Valparaíso es una ciudad a orillas del mar, y por tanto a ratos se hablarán cosas parecidas. 

## Actividad propuesta

Usa otros valores de *k* para hacer shingling. ¿Qué ocurre con la similitud de Jaccard en esos casos? ¿Es verdad que las odas al mar y a Valparaíso son siempre las más similares, o esto depende del *k* elegido?