# Conceptos importantes

Es probable que ya hayas visto algunos de estos conceptos. Los vamos a repasar para estar todos en la misma página. 

## Shingling

La técnica de *k*-shingling consiste en transformar un texto (es decir, un string) a un conjunto formado por todos los substring de tamaño *k* de ese texto, incluyendo espacios y otros caracteres no lexicográficos. 

Veamos como hacer esto para un conjunto de 10 poesías escritas por Pablo Neruda, parte de su obra de Odas Elementales. 

In [2]:
### Para almacenar los distintos textos creamos un diccionario. 
odas = {}

### Vamos a subir cada texto indexado por un keyword distinto en este diccionario. 
### Para hacerlos más legibles, reemplazamos los fin de línea por un espacio. 

with open("oda_alegria.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['alegria']=text

with open("oda_caldillo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['caldillo']=text

with open("oda_feliz.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['feliz']=text

with open("oda_libro.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['libro']=text

with open("oda_mar.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['mar']=text

with open("oda_poetas.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['poetas']=text

with open("oda_tiempo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tiempo']=text

with open("oda_tristeza.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tristeza']=text


with open("oda_valparaiso.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['valparaiso']=text


with open("oda_vino.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['vino']=text

### Como vemos, el resultado es que cada uno de estos textos es un string, 
### indexado en el diccionario por un keyword diferente. 

print(odas)

{'alegria': 'Alegría hoja verde caída en la ventana, minúscula claridad recién nacida, elefante sonoro, deslumbrante moneda, a veces ráfaga quebradiza, pero más bien pan permanente, esperanza cumplida, deber desarrollado. Te desdeñé, alegría. Fui mal aconsejado. La luna me llevó por sus caminos. Los antiguos poetas me prestaron anteojos y junto a cada cosa un nimbo oscuro puse, sobre la flor una corona negra, sobre la boca amada un triste beso. Aún es temprano. Déjame arrepentirme. Pensé que solamente si quemaba mi corazón la zarza del tormento, si mojaba la lluvia mi vestido en la comarca cárdena del luto, si cerraba los ojos a la rosa y tocaba la herida, si compartía todos los dolores, yo ayudaba a los hombres. No fui justo. Equivoqué mis pasos y hoy te llamo, alegría.  Como la tierra eres necesaria.  Como el fuego sustentas los hogares.  Como el pan eres pura.  Como el agua de un río eres sonora.  Como una abeja repartes miel volando.  Alegría, fui un joven taciturno, hallé tu cabel

In [7]:
### El siguiente pedazo de código genera un diccionario, indexado bajo los mismos keywords que los textos, 
### En este diccionario almacenamos el resultado de hacer k-shingling en el texto. 

### Probemos con k = 3

odas_shingles = {}
k = 3

### iteramos sobre todas las odas
for (name,text) in odas.items(): 
    
    ### Es importante declarar los shingles como un set (conjunto), de forma que no hayan duplicados
    odas_shingles[name] = set()
    
    ### y nos concentramos en todos los substrings entre las posiciones i y la i+k, para un 
    ### i que parte desde el inicio del texto 
    
    for i in range(len(text) - k):
        shingle = text[i:i+k]
        odas_shingles[name].add(shingle)
        

In [8]:
### Este es el resultado de hacer shingling al primer texto, la Oda a la Alegría. 

print(odas_shingles['alegria'])

{'r t', 'Voy', 'ura', 'ios', 'ibr', ' mi', 'ás ', 'ues', 'un ', 'era', 'ona', 'sos', 'nor', 'unt', ' pr', 'tie', 'ia.', 'eta', 'cum', ' li', 'lit', 'ned', 'tur', ' jo', 'da,', 'lef', ' am', 'lib', 'so.', ' si', 'no ', 'hoj', 'poe', 'erm', 'rtí', 'ó p', 'nen', 'bre', '. D', 'ie ', ' el', 'Te ', 'éja', 'zad', 'cho', 'a f', 'nte', 'abe', 'bel', 'u c', 'tri', 'pic', 'ari', 'ía,', 'reu', ' pu', ', s', 'tod', 'und', 'rab', 'ali', ' le', '  V', 'iza', 'min', 'lan', 'boc', 'to.', 'uma', 'orm', 'apr', ' lo', 'toc', 'Com', 'dos', ' va', ' ma', 'es.', 'rea', 'qui', 'e s', 'vec', 'eja', ' qu', 'sus', 'e m', 'No ', 'e l', 'and', 'imb', 'flo', ' tu', 'jad', 'do ', 'aug', ' rá', 'lam', 'bro', 'ngr', 'n l', 'cos', ' oj', 's. ', 'ore', 'e d', 'i c', 'l p', 'obr', 'to,', 'deb', 'sól', 'aíd', ' vo', 'Aún', 'ica', 'ant', 'igu', 'gad', 'luc', 'ron', ' to', 'ueg', 'los', '. T', 'llu', 's c', 'nim', 'r a', ' lu', 'a b', 'alo', ', m', 'te,', 'las', 'pan', 'mie', 'ató', 'via', ' pi', 'rda', 'plo', 'n m', ' ti'

## Jaccard Similarity

Vamos a comparar cual de estas 10 odas es la más parecida entre sí, según la similitud de Jaccard. Esta medida es una medida usual al comparar conjuntos. 

In [9]:
### Lo primero es una funcion que calcula la similitud de Jaccard entre dos conjuntos. 
### Recordemos que se define como la proporcion entre el tamaño de la intersección de los conjuntos, 
### dividido por el tamaño de su unión. 

def jaccard_similarity(set1, set2):
    # Computa la similitud de Jaccard entre dos sets
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

In [10]:
### Un par de pruebas: 
### - La similitud de un conjunto con si mismo debe ser 1
### - La similitud de un conjunto con el vacio debe ser cero
### - Probamos cuanto es la similitud entre los primeros dos textos. 

print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['alegria']))
print(jaccard_similarity(odas_shingles['alegria'],{}))
print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['caldillo']))

1.0
0.0
0.29991126885536823


Ahora vamos a calcular la similitud para todas las $10 \choose 2$ combinaciones de pares de odas. 
El resultado irá a una matriz de 10x10, donde la entrada $[i][j]$ es el valor 
de la similitud entre la i-ésima oda y la j-ésima oda. 

In [12]:
### Armamos la matriz 

n = len(odas_shingles)
similarity_matrix = [[0 for i in range(n)] for j in range(n)]

### con esto podemos usar names[i] para conseguir el nombre de la i-esima oda. 
names = list(odas_shingles.keys())

### Llenamos la matriz
for i in range(n):
    for j in range(n):
        if i != j:
            similarity = jaccard_similarity(odas_shingles[names[i]], odas_shingles[names[j]])
            similarity_matrix[i][j] = similarity
            
for row in similarity_matrix:
    print(row)


[0, 0.29991126885536823, 0.2569778633301251, 0.3291245791245791, 0.3414285714285714, 0.34497816593886466, 0.32142857142857145, 0.23676612127045235, 0.3604183427192277, 0.3537190082644628]
[0.29991126885536823, 0, 0.2628361858190709, 0.29179030662710187, 0.3112745098039216, 0.31359466221851545, 0.30486486486486486, 0.2371638141809291, 0.3239962651727358, 0.3356164383561644]
[0.2569778633301251, 0.2628361858190709, 0, 0.24134199134199133, 0.27065026362038663, 0.25309734513274335, 0.28431372549019607, 0.23088023088023088, 0.2416173570019724, 0.25494276795005205]
[0.3291245791245791, 0.29179030662710187, 0.24134199134199133, 0, 0.3192632386799693, 0.33201892744479494, 0.3118172790466733, 0.2595078299776286, 0.33565823888404533, 0.31117021276595747]
[0.3414285714285714, 0.3112745098039216, 0.27065026362038663, 0.3192632386799693, 0, 0.35330156569094623, 0.2991178829190056, 0.24237140366172624, 0.36539895600298283, 0.35725190839694654]
[0.34497816593886466, 0.31359466221851545, 0.25309734513

En este caso lo podemos hacer de forma sencilla, ya que son solo 10 textos pequeños. Cuando la cantidad de conjuntos es muy grande, probar para todas las combinaciones es muy costoso, y vamos a ver qué otras alternativas usar. 

Para terminar, veamos cuales dos odas son las mas similares. 

In [13]:
maximo = 0
for i in range(n):
    for j in range(n):
        valor = similarity_matrix[i][j]
        if maximo < valor: 
            i_max = i
            j_max = j
            maximo = valor
print(i_max,j_max,maximo)

4 8 0.36539895600298283


In [14]:
names[4],names[8]

('mar', 'valparaiso')

Las mas similares son las odas al mar y a Valparaíso. Tiene sentido, ¿no crees?

### Actividad propuesta

Usa otros valores de *k* para hacer shingling. ¿Qué ocurre con la similitud de Jaccard en esos casos? ¿Es verdad que las odas al mar y a Valparaíso son siempre las más similares, o esto depende del *k* elegido?

## Hashing

Si bien no tiene que ver con comparar conjuntos, las funciones de hash son una parte importante de las herramientas de esta clase. En este código proveemos una receta para definir una familia de funciones de hash sobre una operación de módulo (%). Las funciones de abajo tienen la gracia de que todas mapean números en [0,n] a otros numeros en [0,n].

In [32]:
### Para que esta funcion de hash tenga buenas propiedades aleatorias, 
### - p debe ser un primo mayor que n, 
### - a y b deben estar entre 1 y p-1 (e idealmente ser escogidas al azar).

def crear_hash(a, b, p, n):
    def f(x):
        return ((a * x + b) % p) % n
    return f