# Pruebas de similitud con modelo personalizado

In [None]:
from gensim.models import KeyedVectors
from pprint import pprint
import pandas as pd
from statistics import mean
import spacy

#### Cargamos nuestro modelo personalizado

In [2]:
model = KeyedVectors.load_word2vec_format("modelo.txt", binary = False)

#### Importamos nuestros datos y etablecemos nuestra frase modelo

In [7]:
dataset = pd.read_csv("Datos-primaria-secundaria.csv")
model_str = "que mi hermanito grita mucho"

In [8]:
def docs_to_lists(docs):
    """
    Recibe una lista de strings y regresa
    para cada string una lista limpia
    sin stopwords o puntuaciones para usar
    entrenar Word2Vec.
    """
    temp_nlp = spacy.load("es_core_news_lg")
    doc_corp = []
    for doc in docs:
        clean_doc = []
        for word in temp_nlp(doc):
            if not(word.is_stop or word.is_punct or len(word) == 1):
                clean_doc.append(word.text)
        print(clean_doc)
        doc_corp.append(clean_doc)
    return doc_corp

def doc_to_str(clean_docs):
    """
    Recibe una lista de listas (de la func
    docs_to_lists) y las convierte en un string.
    """
    str_docs = []
    for doc in clean_docs:
        str_docs.append(" ".join(doc))
    return str_docs

def clean_docs(docs):
    """
    Recibe una lista de strings y las limpia de
    puntuaciones y stopwords
    """
    return doc_to_str(docs_to_lists(docs))

In [11]:
docs_str = dataset.iloc[:,0].values.tolist()
docs = docs_to_lists(docs_str)

['canta']
['hermano', 'grita']
['NS']
['hermano', 'llora']
['travieso', 'llora']
['hemanos', 'gritan']
['hermano', 'grita']
['gritamos']
['irritante', 'llora']
['hermano', 'grita']
['hermano', 'griton']
['hermano', 'grita']
['NS']
['hermano', 'grita']
['grita', 'reir']
['hermano', 'chillon']
['grita']
['grita']
['lenguaje', 'literal']
['hermano', 'gritando']
['griton']
['hermano', 'pelota', 'grita']
['enoja', 'empieza', 'gritar']
['hermano', 'grita']
['hermano', 'grita']
[]
['grita', 'fuerte']
['grita']
['grita', 'hermano']
['asusta', 'enojona', 'grita', 'furia']
['lloron', 'pelota', 'gritos']
['hermano', 'grita']
['hermano', 'grita']
['bota']
['hermano', 'gritando']
['grita']
['aburrido']
['hermano', 'mayoria', 'grita', 'llora']
['hermanito', 'pequeno', 'grita']
['hermanito', 'grita']
['grita']
['chilla']
['gritando']
['hermanas', 'enojan']
['hermano', 'travieso']
['grita']
['hermano', 'griton']
['escandaloso']
['llora']
['hermano', 'grita']
['pelota', 'inflada']
['grita']
['persona',

['hermano', 'grita']
['hermano', 'grita']
['grita']
['hermano', 'griton']
['hermanito', 'guardado', 'gritos']
['hermano', 'grita']
['hermano', 'grita']
['hermano', 'griton']
['hermano', 'escandaloso']
['hermano', 'grita']
['hermano', 'grita']
['puedes', 'hermanito', 'gordito', 'grita']
['hermano', 'rato', 'grita']
['grita', 'llora']
['hermano', 'grita', 'constantemente']
['hermano', 'menor', 'grita']
['hermano', 'grita']
['hermanito', 'grita', 'casa']
['hermano', 'grita']
['hermano', 'griton']
['gritar']
['grita', 'parar', 'pelota']
['ninos', 'chiquitos', 'berrinche']
['hermano', 'griton']
['hermanito', 'grita']
['hermanito', 'griton']
['grita']
['hermanito', 'berrinches']
['hermano', 'grita']
['hermano', 'grita']
['hermano', 'brinca', 'llora', 'gritos']
['grita']
['pelota', 'ruido', 'pelota', 'gritos']
['hermanito', 'gordo', 'gritos']
['hermano', 'gritando', 'saltando']
['hermano', 'grita']
['hermanito', 'grita', 'casa']
['hermano', 'gustan', 'gritos']
['hermano', 'grita']
['hermano',

In [81]:
def similarity(str1, str2):
    """
    str1 debe ser una lista de las palabras
    str2 es la frase modelo
    regresa una lista de listas con las similitudes
    similarity(), wmdistance(), n_sim(), distance()
    en ese orden
    """
    #a = str1.split()
    b = str2.split()
    a = [word for word in str1 if word in model.vocab]
    b = [word for word in b if word in model.vocab]
    sims = []
    if not len(a) == 0:
        for word in a:
            temp = []
            for word2 in b:
                temp.append(model.similarity(word, word2))
            sims.append(mean(temp))
        sim = mean(sims)
        distance = []
        for word in a:
            temp = []
            for word2 in b:
                temp.append(model.distance(word, word2))
            distance.append(mean(temp))
        distance = mean(distance)
        wmdistance = model.wmdistance(a,b)
        n_sim = model.n_similarity(a,b)
    else:
        return (False, False, False, False)
    return sim, wmdistance, n_sim, distance

def list_similarity(ls, frase):
    similitudes = [similarity(i, frase) for i in ls]
    return similitudes

In [86]:
x = list_similarity(docs, model_str)
similarities = [i[0] for i in x]
wmdistances = [i[1] for i in x]
n_similarities = [i[2] for i in x]
distances = [i[3] for i in x]
x

[(False, False, False, False),
 (0.22360355, 0.019130536618763582, 0.54872155, 0.7763964729383588),
 (False, False, False, False),
 (-0.08023764, 0.04211252331970074, -0.15989026, 1.080237640067935),
 (-0.101670794, 0.0419367426332552, -0.20780554, 1.1016707923263311),
 (0.07636154, 0.039953230366760864, 0.108274534, 0.9236384630203247),
 (0.22360355, 0.019130536618763582, 0.54872155, 0.7763964729383588),
 (False, False, False, False),
 (-0.08552028, 0.04178141892800853, -0.13207121, 1.0855202786624432),
 (0.22360355, 0.019130536618763582, 0.54872155, 0.7763964729383588),
 (0.0031861067, 0.039237635033791886, -0.007655694, 0.9968138951808214),
 (0.22360355, 0.019130536618763582, 0.54872155, 0.7763964729383588),
 (False, False, False, False),
 (0.22360355, 0.019130536618763582, 0.54872155, 0.7763964729383588),
 (0.5221621, 0.020206093788146973, 0.77471304, 0.47783794440329075),
 (-0.051960483, 0.03977283850598336, -0.1137906, 1.0519604831933975),
 (0.5221621, 0.020206093788146973, 0.774

In [12]:
clean_doc_str = clean_docs(docs_str)
clean_doc_str

['canta']
['hermano', 'grita']
['NS']
['hermano', 'llora']
['travieso', 'llora']
['hemanos', 'gritan']
['hermano', 'grita']
['gritamos']
['irritante', 'llora']
['hermano', 'grita']
['hermano', 'griton']
['hermano', 'grita']
['NS']
['hermano', 'grita']
['grita', 'reir']
['hermano', 'chillon']
['grita']
['grita']
['lenguaje', 'literal']
['hermano', 'gritando']
['griton']
['hermano', 'pelota', 'grita']
['enoja', 'empieza', 'gritar']
['hermano', 'grita']
['hermano', 'grita']
[]
['grita', 'fuerte']
['grita']
['grita', 'hermano']
['asusta', 'enojona', 'grita', 'furia']
['lloron', 'pelota', 'gritos']
['hermano', 'grita']
['hermano', 'grita']
['bota']
['hermano', 'gritando']
['grita']
['aburrido']
['hermano', 'mayoria', 'grita', 'llora']
['hermanito', 'pequeno', 'grita']
['hermanito', 'grita']
['grita']
['chilla']
['gritando']
['hermanas', 'enojan']
['hermano', 'travieso']
['grita']
['hermano', 'griton']
['escandaloso']
['llora']
['hermano', 'grita']
['pelota', 'inflada']
['grita']
['persona',

['hermano', 'grita']
['hermano', 'grita']
['hermano', 'griton']
['hermano', 'escandaloso']
['hermano', 'grita']
['hermano', 'grita']
['puedes', 'hermanito', 'gordito', 'grita']
['hermano', 'rato', 'grita']
['grita', 'llora']
['hermano', 'grita', 'constantemente']
['hermano', 'menor', 'grita']
['hermano', 'grita']
['hermanito', 'grita', 'casa']
['hermano', 'grita']
['hermano', 'griton']
['gritar']
['grita', 'parar', 'pelota']
['ninos', 'chiquitos', 'berrinche']
['hermano', 'griton']
['hermanito', 'grita']
['hermanito', 'griton']
['grita']
['hermanito', 'berrinches']
['hermano', 'grita']
['hermano', 'grita']
['hermano', 'brinca', 'llora', 'gritos']
['grita']
['pelota', 'ruido', 'pelota', 'gritos']
['hermanito', 'gordo', 'gritos']
['hermano', 'gritando', 'saltando']
['hermano', 'grita']
['hermanito', 'grita', 'casa']
['hermano', 'gustan', 'gritos']
['hermano', 'grita']
['hermano', 'ruidoso']
['persona', 'gritar']
['hermano', 'grita']
['hermano', 'grita']
['hermano', 'griton']
['hermanito'

['cosa', 'altera', 'grita']
['quieta']
['hermanito', 'grita', 'casa']
['ami', 'entender', 'persona', 'referencia', 'pelota', 'hermano', 'inquieto']
['hermano', 'gusta', 'gritar', 'hablar', 'fuerte']
['fastidioso']
['grita']
['entiendo', 'nino', 'pelota', 'super', 'fantastica']
['ninos', 'gritan', 'pequenos']
['hermano', 'bola', 'pelos']
['lida', 'conmigom', 'parese', 'tierno', 'pelota', 'pelos', 'sister']
['hermanito', 'grita', 'imperactivo']
['hermano', 'grita']
['grita']
['nino', 'griton', 'juega', 'pelota']
['grita']
['nino', 'grita', 'expresa', 'comun', 'forma']
['hermano', 'griton']
['ththt']
['grita']
['moleta']
['apodo']
['hermano', 'grillos']
['grita', 'piensa', 'pelota']
['latoso']
['gordito', 'pasa', 'gritando']
['pasa', 'gritando']
['peota', 'quieren', 'grita']
['supongo', 'nino', 'grita', 'nino', 'anos']
['sobrina']
['hermanito', 'griton']
['hermano', 'grita']
['grita', 'hermano']
['hermanito', 'grita']
['refiere', 'hermana']
['hermano', 'grita', 'muho', 'bota', 'pelota']
[

['canta',
 'hermano grita',
 'NS',
 'hermano llora',
 'travieso llora',
 'hemanos gritan',
 'hermano grita',
 'gritamos',
 'irritante llora',
 'hermano grita',
 'hermano griton',
 'hermano grita',
 'NS',
 'hermano grita',
 'grita reir',
 'hermano chillon',
 'grita',
 'grita',
 'lenguaje literal',
 'hermano gritando',
 'griton',
 'hermano pelota grita',
 'enoja empieza gritar',
 'hermano grita',
 'hermano grita',
 '',
 'grita fuerte',
 'grita',
 'grita hermano',
 'asusta enojona grita furia',
 'lloron pelota gritos',
 'hermano grita',
 'hermano grita',
 'bota',
 'hermano gritando',
 'grita',
 'aburrido',
 'hermano mayoria grita llora',
 'hermanito pequeno grita',
 'hermanito grita',
 'grita',
 'chilla',
 'gritando',
 'hermanas enojan',
 'hermano travieso',
 'grita',
 'hermano griton',
 'escandaloso',
 'llora',
 'hermano grita',
 'pelota inflada',
 'grita',
 'persona grita',
 'hermano grita',
 'hermano grita',
 'hermano grita',
 'nino griton',
 'hermanito grita',
 'griton',
 'hermano gri

In [13]:
nlp = spacy.load("./model")

In [14]:
def similitud_spacy(docs, frase):
    """
    Toma una lista de strings y compara cada string
    con la frase modelo, genera un lista con los resultados
    y la regresa. Para mejores resultados al comparar, limpiar
    la frase modelo y la lista de strings usando la funcion
    clean_docs()
    """
    frase = nlp(frase)
    resultados = [nlp(sim).similarity(frase) for sim in docs]
    return resultados

#### Generamos el dataframe con los resultados

In [92]:
resultados = pd.DataFrame({
    model_str : docs_str,
    "limpio" : docs,
    "similarity" : similarities,
    "wmdistances" : wmdistances,
    "n_similarities" : n_similarities,
    "distance" : distances
    "spacy" : similitud_spacy(clean_doc_str, model_str)
})

#### Guardamos el dataframe

In [94]:
resultados.to_csv("resultados.csv")