<a href="https://colab.research.google.com/github/PabloGuev17/ProcesamientoDatosMasivos/blob/main/Simulitud_de_Jaccard_SimilutdEnTextos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Shingling y comparación de conjuntos

Vamos a aprender como comparar conjuntos usando la medida de simulitud de Jaccard, y como usar shingling para transformar texto a conjuntos, de forma de poder compararlos.

## Shingling

La técnica de *k*-shingling consiste en transformar un texto (es decir, un string) a un conjunto formado por todos los substring de tamaño *k* de ese texto, incluyendo espacios y otros caracteres no lexicográficos.

Veamos como hacer esto para un conjunto de 10 poesías escritas por Pablo Neruda, parte de su obra de Odas Elementales.

In [9]:
### Para almacenar los distintos textos creamos un diccionario.
odas = {}

### Vamos a subir cada texto indexado por un keyword distinto en este diccionario.
### Para hacerlos más legibles, reemplazamos los fin de línea por un espacio.

with open("oda_alegria.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['alegria']=text

with open("oda_caldillo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['caldillo']=text

with open("oda_feliz.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['feliz']=text

with open("oda_libro.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['libro']=text

with open("oda_mar.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['mar']=text

with open("oda_poetas.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['poetas']=text

with open("oda_tiempo.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tiempo']=text

with open("oda_tristeza.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['tristeza']=text


with open("oda_valparaiso.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['valparaiso']=text


with open("oda_vino.txt", "r") as file:
    text = file.read().replace('\n', ' ')
odas['vino']=text

### Como vemos, el resultado es que cada uno de estos textos es un string,
### indexado en el diccionario por un keyword diferente.

print(odas)

{'alegria': 'Alegría hoja verde caída en la ventana, minúscula claridad recién nacida, elefante sonoro, deslumbrante moneda, a veces ráfaga quebradiza, pero más bien pan permanente, esperanza cumplida, deber desarrollado. Te desdeñé, alegría. Fui mal aconsejado. La luna me llevó por sus caminos. Los antiguos poetas me prestaron anteojos y junto a cada cosa un nimbo oscuro puse, sobre la flor una corona negra, sobre la boca amada un triste beso. Aún es temprano. Déjame arrepentirme. Pensé que solamente si quemaba mi corazón la zarza del tormento, si mojaba la lluvia mi vestido en la comarca cárdena del luto, si cerraba los ojos a la rosa y tocaba la herida, si compartía todos los dolores, yo ayudaba a los hombres. No fui justo. Equivoqué mis pasos y hoy te llamo, alegría.  Como la tierra eres necesaria.  Como el fuego sustentas los hogares.  Como el pan eres pura.  Como el agua de un río eres sonora.  Como una abeja repartes miel volando.  Alegría, fui un joven taciturno, hallé tu cabel

In [14]:
### El siguiente pedazo de código genera un diccionario, indexado bajo los mismos keywords que los textos,
### En este diccionario almacenamos el resultado de hacer k-shingling en el texto.

### Probemos con k = 3

odas_shingles = {}
k = 3


### iteramos sobre todas las odas
for (name,text) in odas.items():

    ### Es importante declarar los shingles como un set (conjunto), de forma que no hayan duplicados
    odas_shingles[name] = set()

    ### y nos concentramos en todos los substrings entre las posiciones i y la i+k+1, para un
    ### i que parte desde el inicio del texto

    for i in range(len(text) - k+1):
        shingle = text[i:i+k]
        odas_shingles[name].add(shingle)



In [15]:
print(odas_shingles['alegria'])

{'i q', 'A l', 'én ', 'tus', 'í l', 'o q', 'blo', 'tra', 'ema', 'mad', 'pic', 'y h', 'i p', ' he', 'cas', 'r s', 'l p', ' cl', 'ué ', ' vu', 'rza', 'ngr', 's b', 'árd', 'ún ', 'No ', 'leñ', 'fag', 'tas', 'gus', 'nen', 'ebo', 's e', 'ue ', 'ebe', 'y a', ' me', 'omb', 's, ', 'Déj', 'a, ', ' pa', 'sde', 'o p', 'ugu', ' el', 'lir', 'des', 'é, ', ' ba', ' pu', 'u l', 'den', 'str', ' vo', ', l', 'ra.', 'uan', 'jos', 'es,', 'hos', 'uch', 'ono', 'a e', 'ura', 'ca ', 'tos', 'ind', 'llu', ' ce', 'os.', 'r o', 'spe', ' au', 's l', 'eso', 'os,', 'poe', 'uro', 'cur', 'oy ', ' Vo', ' cu', 'lé ', 'itu', 'se ', ' co', 'ere', 'ame', 'ero', 'a q', 'ejo', 'e t', 'eab', 'ora', ' ay', 'e e', 'lar', 'und', 'ras', 'rra', 'ier', 'ien', ' pr', 'ist', 'slu', 'mar', 'Voy', 'rol', ' mu', 'ólo', ' tu', 'no,', 'ayu', ' mo', 'a n', ' ab', 'end', 'obr', 'ent', 'Los', ' ag', 'ijo', 'ino', 'é m', 'rno', 'lan', 'goc', 'ban', 'ría', ' má', 'mon', 'del', 'ces', 'me ', 'a l', 'pra', 'ra ', 'ie ', 'za,', ':  ', 'ibr', 'era'

In [16]:
### Lo primero es una funcion que calcula la similitud de Jaccard entre dos conjuntos.
### Recordemos que se define como la proporcion entre el tamaño de la intersección de los conjuntos,
### dividido por el tamaño de su unión.

def jaccard_similarity(set1, set2):
    # Computa la similitud de Jaccard entre dos sets
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

In [17]:
### Un par de pruebas:
### - La similitud de un conjunto con si mismo debe ser 1
### - La similitud de un conjunto con el vacio debe ser cero
### - Probamos cuanto es la similitud entre los primeros dos textos.

print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['alegria']))
print(jaccard_similarity(odas_shingles['alegria'],{}))
print(jaccard_similarity(odas_shingles['alegria'],odas_shingles['caldillo']))

1.0
0.0
0.3007985803016859
