
# Proyecto
### Erick Fernando López Fimbres.  
#### erick.lopez.fimbres@gmail.com

## Desambiguación

En la vida real, la ambigüedad pocas veces es un problema, pues los humanos, usualmente, podemos reconocer el sentido de las palabras gracias al contexto, sin embargo, en el caso de la lingüística computacional, la ambigüedad representa uno de los problemas más serios a resolver

### CBOW (Continuous Bag of Words)

El modelo de bolsa continua de palabras, CBOW, utiliza una red neuronal para codificar las palabras en un vocabulario. La red neuronal utilizada, típicamente, es una red feedforward con una sola capa oculta
La red neuronal es alimentada con un conjunto de vectores, cada uno de ellos representando una de las palabras que conforman el contexto de la palabra objetivo.

### Modelo skip-gram
Es una generalización del modelo N-grama. Mientras que el N-grama se define formalmente como una secuencia de n palabras consecutivas, en el caso del skip-gram las palabras pueden dejar espacios intermedios entre palabras.
El modelo skip-gram utiliza una red neuronal con la misma estructura que la utilizada en el modelo CBOW

### Word2Vect
Es una estrategia de codificación que utiliza tanto CBOW como Skip-Gram, de acuerdo a las conveniencias. Adicionalmente, Word2Vec incluye estrategias de 

In [5]:
from nltk.corpus import wordnet
import pandas as pd
from IPython.display import display
pd.options.display.max_colwidth = 150

import gensim
import json
file = 'datos/lexicon_enfermedades_limpio.json'
with open(file) as archivo:
    dict_enf = json.load(archivo)
enfDf = pd.DataFrame.from_dict(dict_enf)

X = [row.split() for row in enfDf.descripcion_limpia]

#Construir un modelo CBOW por default, sg=0
model_cbow = gensim.models.Word2Vec(X, size=150)

#Construir un modelo Skip-Gram (sg=1)
model_skip = gensim.models.Word2Vec(X, size=150, sg=1)
display(enfDf.head())

Unnamed: 0,bigramas,bigramas_limpios,descripcion,descripcion_limpia,nombre,nueva_descripcion,palabras_principales,todas_colocaciones
0,"[[archivo, windelfetischistjpg], [windelfetischistjpg, miniaturadeimagen], [miniaturadeimagen, un], [un, con], [con, infantilismo], [infantilismo,...","[[adulto, diversas], [diversas, características], [características, anatomía], [anatomía, anatómicas], [anatómicas, fisiología], [fisiología, fisi...",archivo windelfetischistjpg miniaturadeimagen un con infantilismo al tener el fetichismo del pañal el infantilismo es una enfermedad en la que per...,infantilismo archivo miniaturadeimagen infantilismo tener infantilismo enfermedad persisten infancia según conservación modo niño cierta considera...,Infantilismo,infantilismo archivo miniaturadeimagen infantilismo tener pañal infantilismo enfermedad persisten adulto_diversas_características anatomía_anatómi...,"[archivo, miniaturadeimagen, infantilismo, tener, pañal, infantilismo, enfermedad, persisten, adulto, diversas, características, anatomía, anatómi...","[adulto diversas, diversas características, características anatomía, anatomía anatómicas, anatómicas fisiología, fisiología fisiológicas, psicolo..."
1,"[[el, pectus], [pectus, excavatum], [excavatum, es], [es, una], [una, deformidad], [deformidad, congénita], [congénita, de], [de, la], [la, caja],...","[[pectus, excavatum], [deformidad, congénita], [caja, torácica], [torácica, caracterizada], [pecho, hundido], [pectus, excavatum], [excavatum, dep...",el pectus excavatum es una deformidad congénita de la caja torácica caracterizada por pecho hundido en la región del esternón la probabilidad del ...,pectus_excavatum pectus caracterizada región probabilidad pectus_excavatum depende gravedad caso trata hendidura leve probabilidad caso grave foto...,Pectus excavatum,pectus_excavatum pectus excavatum deformidad_congénita caja_torácica caracterizada pecho_hundido región esternón probabilidad pectus_excavatum dep...,"[pectus, excavatum, deformidad, congénita, caja, torácica, caracterizada, pecho, hundido, región, esternón, probabilidad, pectus, excavatum, depen...","[pectus excavatum, deformidad congénita, caja torácica, torácica caracterizada, pecho hundido, pectus excavatum, excavatum depende, personas si, c..."
2,"[[el, pectus], [pectus, carinatum], [carinatum, es], [es, una], [una, deformidad], [deformidad, de], [de, la], [la, caja], [caja, torácica], [torá...","[[pectus, carinatum], [caja, torácica], [menos, frecuente], [pectus, excavatum], [repercusiones, funcionales], [menos, importantes], [importantes,...",el pectus carinatum es una deformidad de la caja torácica en la que el pecho protruye en quilla ave quilla de barco es menos frecuente que el pect...,pectus_carinatum pectus deformidad pecho ave menos_frecuente pectus_excavatum etiología asocia cierto_grado prematura líneas invasiva consiste vue...,Pectus carinatum,pectus_carinatum pectus carinatum deformidad caja_torácica pecho ave menos_frecuente pectus_excavatum repercusiones_funcionales menos_importantes ...,"[pectus, carinatum, deformidad, caja, torácica, pecho, ave, menos, frecuente, pectus, excavatum, repercusiones, funcionales, menos, importantes, p...","[pectus carinatum, caja torácica, menos frecuente, pectus excavatum, repercusiones funcionales, menos importantes, importantes pues, pues tan, tan..."
3,"[[la, onfalocele], [onfalocele, u], [u, onfalocele], [onfalocele, infantil], [infantil, también], [también, llamado], [llamado, exonfalocele], [ex...","[[onfalocele, u], [u, onfalocele], [onfalocele, infantil], [embrión, presenta], [región, abdominal], [cuerpo, aunque], [aunque, casi], [casi, siem...",la onfalocele u onfalocele infantil también llamado exonfalocele se da en el momento en el que el embrión presenta las vísceras de la región abdom...,onfalocele onfalocele infantil llamado da momento vísceras casi_siempre febrero hernia órgano hueco da onfalocele presenta base defecto primero re...,Onfalocele,onfalocele onfalocele u_onfalocele infantil llamado da momento embrión_presenta vísceras región_abdominal cuerpo_aunque casi_siempre saco_datos on...,"[onfalocele, u, onfalocele, infantil, llamado, da, momento, embrión, presenta, vísceras, región, abdominal, cuerpo, aunque, casi, siempre, saco, d...","[onfalocele u, u onfalocele, onfalocele infantil, embrión presenta, región abdominal, cuerpo aunque, aunque casi, casi siempre, saco datos, onfalo..."
4,"[[el, período], [período, prepatogénico], [prepatogénico, precede], [precede, a], [a, las], [las, manifestaciones], [manifestaciones, clínica], [c...","[[manifestaciones, clínica], [clínica, s], [medio, ambiente], [manifieste, clínicamente], [así, buscar], [medios, necesarios], [david, elementos],...",el período prepatogénico precede a las manifestaciones clínica s y está conformado por las condiciones del huésped el agente y el medio ambiente e...,período_prepatogénico período condiciones huésped agente medio_ambiente período aparición enfermedad desarrollar huésped organismo capaz agente_ca...,Período prepatogénico,período_prepatogénico período precede manifestaciones_clínica_s condiciones huésped agente medio_ambiente período aparición manifieste_clínicament...,"[período, precede, manifestaciones, clínica, s, condiciones, huésped, agente, medio, ambiente, período, aparición, manifieste, clínicamente, enfer...","[manifestaciones clínica, clínica s, medio ambiente, manifieste clínicamente, así buscar, medios necesarios, david elementos, agente causal, cualq..."


In [19]:
my_words = [('cáncer', 'virus'), ('vih', 'pandemia'), ('influenza', 'pandemia'),
           ('cáncer', 'vih'),('cáncer', 'cerdo'),('cerdo','gripe'),('infección','hueso'),
           ('alzheimer','cáncer'),('cerebro','próstata'),('síndrome','vih_sida'),
           ('trastorno','personas'),('vida','cáncer')]

similarities = []
for pair in my_words:
    similarities.append([pair[0], pair[1], 
                         model_cbow.similarity(pair[0], pair[1]), model_skip.similarity(pair[0], pair[1])])
sim_df = pd.DataFrame(similarities, columns = ["Palabra 1", "Palabra 2", "CBOW", "Skip-Gram"])
display(sim_df)

Unnamed: 0,Palabra 1,Palabra 2,CBOW,Skip-Gram
0,cáncer,virus,0.944701,0.122162
1,vih,pandemia,0.995276,0.733337
2,influenza,pandemia,0.999828,0.814602
3,cáncer,vih,0.949119,0.259546
4,cáncer,cerdo,0.951859,0.31343
5,cerdo,gripe,0.998767,0.756452
6,infección,hueso,0.99382,0.440864
7,alzheimer,cáncer,0.957127,0.283388
8,cerebro,próstata,0.994195,0.36095
9,síndrome,vih_sida,0.907825,0.320192


In [23]:
virus_falso = ['virus', 'gripe', 'influenza', 'neumonía', 'cáncer', 'necrosís', 
                'vacunas','vih_sida','epidemias']
print('Enfermedades que no pertenece al grupo:', model_cbow.doesnt_match(virus_falso))

Enfermedades que no pertenece al grupo: cáncer


Es de particular interés el método most_similar, que arroja el conjunto de palabras con mayor asociación al conjunto de palabras proporcionadas, como en los siguientes ejemplos:

In [32]:
#Palabras asociadas a 'cáncer'
#display(model_cbow.most_similar(positive=['cáncer'], topn=10))

#Palabras asociadas a 'cáncer' y 'vih'
display(model_cbow.most_similar(positive=['vih_sida', 'cáncer'], topn=10))

[('pulmón', 0.9963524341583252),
 ('páncreas_cáncer', 0.9947835803031921),
 ('colon_cáncer', 0.9942107200622559),
 ('pulmón_cáncer', 0.9941223859786987),
 ('mama_cáncer', 0.9940378069877625),
 ('mama', 0.9936075210571289),
 ('células_pequeñas', 0.9932914972305298),
 ('estómago_cáncer', 0.9929046034812927),
 ('unidos', 0.9929028749465942),
 ('próstata_cáncer', 0.9923919439315796)]