In [36]:
#!pip install -q transformers

In [43]:
import re
from collections import Counter

def txt_to_bag_of_words(text):
    """A partir de un texto creamos la bolsa de palabras a partir del text y lo limpiamos en caso de caracter no alfanumérico, dividiendolo en palabras

    Args:
        text (str): Texto a convertir en bolsa

    Returns:
        Dicionary<str,int>: Diccionario de apariciones
    """
    text = text.lower()
    text = re.sub(r"[^\w\s]",' ',text)
    words = text.split()
    bow = Counter(words)
    return bow

def distancia_jacard(bow1,bow2):
    """Mide el grado de similitud entre dos conjuntos, sea cual sea el tipo de elementos. 

    Args:
        bow1 (Dictionary<str,int>): Diccionario 1
        bow2 (Dictionary<str,int>): Diccionario 2

    Returns:
        float: Valor de distancia jacard
    """
    
    keys1 = set(bow1.keys())
    keys2 = set(bow2.keys())
    interseccion = keys1.intersection(keys2)
    union = keys1.union(keys2)
    d = 1 - (len(interseccion) / len(union))
    return d


In [44]:
txt = ' Esto es un texto.de prueba y otro de prueba 777'
txt_to_bag_of_words(txt)

Counter({'de': 2,
         'prueba': 2,
         'esto': 1,
         'es': 1,
         'un': 1,
         'texto': 1,
         'y': 1,
         'otro': 1,
         '777': 1})

In [45]:
text1 = """En cambio, el software sí es de código abierto, siendo su sistema operativo oficial una versión adaptada de Debian, 
denominada Raspberry Pi OS, aunque permite usar otros sistemas operativos, incluido una versión de Windows 10. 
En todas sus versiones, incluye un procesador Broadcom, memoria RAM, GPU, puertos USB, HDMI, Ethernet (el primer modelo no lo tenía), 
40 pines GPIO (desde la Raspberry Pi 2) y un conector para cámara. Ninguna de sus ediciones incluye memoria, 
siendo esta en su primera versión una tarjeta SD y en ediciones posteriores una tarjeta MicroSD. """

text2 = """La organización detrás de la Raspberry Pi consiste en dos brazos. 
Los primeros modelos fueron desarrollados por la Raspberry Pi Foundation. 
Después de que la Raspberry Pi 1 Modelo B fuese lanzado, la fundación creó Raspberry Pi Trading, 
con Eben Upton como CEO, para desarrollar el tercer modelo, el Raspberry Pi Modelo 1 B+. 
Raspberry Pi Trading es responsable de desarrollar la tecnología, 
mientras que la fundación es una organización sin fines de lucro educativa que tiene como objetivo promocionar la enseñanza de informática 
en escuelas y países en desarrollo. """

text3 = """Las primeras ventas comenzaron el 29 de febrero de 2012 a las 06:00 UTC;39
al mismo tiempo se anunció que el modelo A, que originalmente iba a tener 128 MB de RAM, tendría 256 MB.40 
La página de la fundación también anunció que “Seis años después del origen del proyecto, 
estamos cerca de finalizar el primer arranque del proyecto - aunque esto es solo el principio de la historia de Raspberry Pi”.4 
Por otro lado las dos tiendas que vendían las placas, Premier Farnell y RS Components, 
tuvieron una gran carga en sus servidores inmediatamente después del lanzamiento.4 
La cuenta oficial de Raspberry Pi en Twitter informó que Premier Farnell vendió toda su existencia de inventario a los pocos minutos del momento 
de lanzamiento, mientras que RS Components tuvo 100.000 peticiones de interés el primer día.4 
En los seis meses siguientes llegarían a vender 500.000 unidades."""

In [46]:
bow1 = txt_to_bag_of_words(text1)
bow2 = txt_to_bag_of_words(text2)
bow3 = txt_to_bag_of_words(text3)
d12 = distancia_jacard(bow1,bow2)
d13 = distancia_jacard(bow1,bow3)
d23 = distancia_jacard(bow2,bow3)

In [49]:
print(bow1)
print(bow2)
print(bow3)

Counter({'en': 4, 'de': 4, 'una': 4, 'versión': 3, 'el': 2, 'siendo': 2, 'su': 2, 'raspberry': 2, 'pi': 2, 'sus': 2, 'incluye': 2, 'un': 2, 'memoria': 2, 'y': 2, 'ediciones': 2, 'tarjeta': 2, 'cambio': 1, 'software': 1, 'sí': 1, 'es': 1, 'código': 1, 'abierto': 1, 'sistema': 1, 'operativo': 1, 'oficial': 1, 'adaptada': 1, 'debian': 1, 'denominada': 1, 'os': 1, 'aunque': 1, 'permite': 1, 'usar': 1, 'otros': 1, 'sistemas': 1, 'operativos': 1, 'incluido': 1, 'windows': 1, '10': 1, 'todas': 1, 'versiones': 1, 'procesador': 1, 'broadcom': 1, 'ram': 1, 'gpu': 1, 'puertos': 1, 'usb': 1, 'hdmi': 1, 'ethernet': 1, 'primer': 1, 'modelo': 1, 'no': 1, 'lo': 1, 'tenía': 1, '40': 1, 'pines': 1, 'gpio': 1, 'desde': 1, 'la': 1, '2': 1, 'conector': 1, 'para': 1, 'cámara': 1, 'ninguna': 1, 'esta': 1, 'primera': 1, 'sd': 1, 'posteriores': 1, 'microsd': 1})
Counter({'la': 8, 'raspberry': 6, 'pi': 6, 'de': 5, 'en': 3, 'que': 3, 'modelo': 3, 'organización': 2, '1': 2, 'b': 2, 'fundación': 2, 'trading': 2, '

In [47]:
print(d12,d13,d23)

0.9009009009009009 0.8881578947368421 0.8768115942028986
