In [1]:
import nltk
from nltk.stem import WordNetLemmatizer 
nltk.download('wordnet')
nltk.download('punkt')
from nltk.corpus import wordnet as wn

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/inesherascaceres/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     /Users/inesherascaceres/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 1 Se obtienen los synsets de las palabras

In [2]:
synset_mosquito=wn.synsets('mosquito')
synset_tsetse=wn.synsets('tsetse')
synset_housefly=wn.synsets('housefly')
synset_spider=wn.synsets('spider')
synset_cockroach=wn.synsets('cockroach')

In [3]:
print("Synset de mosquito: "+str(synset_mosquito))
print("Synset de tsetse: "+str(synset_tsetse))
print("Synset de housefly: "+str(synset_housefly))
print("Synset de spider: "+str(synset_spider))
print("Synset de cockroach: "+str(synset_cockroach))


Synset de mosquito: [Synset('mosquito.n.01')]
Synset de tsetse: [Synset('tsetse_fly.n.01')]
Synset de housefly: [Synset('housefly.n.01')]
Synset de spider: [Synset('spider.n.01'), Synset('spider.n.02'), Synset('spider.n.03')]
Synset de cockroach: [Synset('cockroach.n.01')]


Se observa que Spider tiene varios synsets

## 2 Se obtienen las definiciones

In [4]:
def_mosquito=wn.synset('mosquito.n.01').definition()
def_tsetse=wn.synset('tsetse_fly.n.01').definition()
def_housefly=wn.synset('housefly.n.01').definition()
def_cockroach=wn.synset('cockroach.n.01').definition()

In [5]:
print("Definicion de mosquito: "+str(def_mosquito))
print("Definicion de tsetse: "+str(def_tsetse))
print("Definicion de housefly: "+str(def_housefly))
#print("Definicion de spider: "+str(synset_spider))
print("Definicion de cockroach: "+str(def_cockroach))

Definicion de mosquito: two-winged insect whose female has a long proboscis to pierce the skin and suck the blood of humans and animals
Definicion de tsetse: bloodsucking African fly; transmits sleeping sickness etc.
Definicion de housefly: common fly that frequents human habitations and spreads many diseases
Definicion de cockroach: any of numerous chiefly nocturnal insects; some are domestic pests


## 3 Desambiguación del sentido utilizando las definiciones

In [6]:
def get_lemas(definition):
    lemmatizer = WordNetLemmatizer() 
    lemas=[]
    for x in definition.split(" "):

        lemas.append(lemmatizer.lemmatize(x)) 
    return lemas

In [7]:
synset_spider_def=''
max_coincidences=0
#Recorremos todos los synsets de spider
for x in synset_spider:
    coincidences=0
    #Obtenemos la definición de cada uno de los synsets
    definition=wn.synset(x.name()).definition()
    #Comparamos los lemas de cada definición con la de las palabras mosquito, tsetse, housefly y cockroach
    #Vamos guardando y sumando el número de coincidencias con cada definición
    coinc_mosq=set(get_lemas(definition)) & set(get_lemas(def_mosquito))
    print("Coincidencias del synset: "+str(x)+" con mosquito: "+str(coinc_mosq))
    coincidences=coincidences+len(coinc_mosq)
    
    coinc_testse=set(get_lemas(definition)) & set(get_lemas(def_tsetse))
    print("Coincidencias del synset: "+str(x)+" con tsetse: "+str(coinc_testse))
    coincidences=coincidences+len(coinc_testse)
    
    coinc_fly=set(get_lemas(definition)) & set(get_lemas(def_housefly))
    print("Coincidencias del synset: "+str(x)+" con housefly: "+str(coinc_fly))
    coincidences=coincidences+len(coinc_fly)
    
    coinc_cock=set(get_lemas(definition)) & set(get_lemas(def_cockroach))
    print("Coincidencias del synset: "+str(x)+" con cockroach: "+str(coinc_cock))
    coincidences=coincidences+len(coinc_cock)
    #Nos quedamos con el synset que tenga más coincidencias
    if(coincidences>max_coincidences):
        max_coincidences=coincidences
        synset_spider_def=x

synset_spider_def

Coincidencias del synset: Synset('spider.n.01') con mosquito: {'the', 'of', 'to', 'and'}
Coincidencias del synset: Synset('spider.n.01') con tsetse: set()
Coincidencias del synset: Synset('spider.n.01') con housefly: {'and'}
Coincidencias del synset: Synset('spider.n.01') con cockroach: {'of'}
Coincidencias del synset: Synset('spider.n.02') con mosquito: {'the', 'a', 'to'}
Coincidencias del synset: Synset('spider.n.02') con tsetse: set()
Coincidencias del synset: Synset('spider.n.02') con housefly: {'that'}
Coincidencias del synset: Synset('spider.n.02') con cockroach: set()
Coincidencias del synset: Synset('spider.n.03') con mosquito: {'of', 'a'}
Coincidencias del synset: Synset('spider.n.03') con tsetse: set()
Coincidencias del synset: Synset('spider.n.03') con housefly: set()
Coincidencias del synset: Synset('spider.n.03') con cockroach: {'of'}


Synset('spider.n.01')

In [8]:
print("El synset seleccionado es "+str(synset_spider_def)+" con "+str(max_coincidences)+" coincidencias")
def_spider=wn.synset('spider.n.01').definition()
print("Su definición es: "+str(def_spider))

El synset seleccionado es Synset('spider.n.01') con 6 coincidencias
Su definición es: predatory arachnid with eight legs, two poison fangs, two feelers, and usually two silk-spinning organs at the back end of the body; they spin silk to make cocoons for eggs or traps for prey


Aunque la definición parece correcta, el método no ha sido del todo adecuado ya que las coincidencias se deben a palabras sin contenido léxico 

## 4 Desambiguación usando similaridad por longitud de camino

In [9]:
synset_spider_path=''
max_similar=0
for x in synset_spider:
    similar_mosq=x.path_similarity(synset_mosquito[0])
    similar_tsetse=x.path_similarity(synset_tsetse[0])
    similar_fly=x.path_similarity(synset_housefly[0])
    similar_cock=x.path_similarity(synset_cockroach[0])
    total_similar=similar_mosq+similar_tsetse+similar_fly+similar_cock
    if(total_similar>max_similar):
        max_similar=total_similar
        synset_spider_path=x

In [10]:
synset_spider_path

Synset('spider.n.01')

In [11]:
print("El synset seleccionado es "+str(synset_spider_path)+" con una similaridad total de "+str(max_similar))
def_spider=wn.synset('spider.n.01').definition()
print("Su definición es: "+str(def_spider))

El synset seleccionado es Synset('spider.n.01') con una similaridad total de 0.6190476190476191
Su definición es: predatory arachnid with eight legs, two poison fangs, two feelers, and usually two silk-spinning organs at the back end of the body; they spin silk to make cocoons for eggs or traps for prey


##  5 Extracción de sinónimos

In [12]:
#Nos quedamos con los synsets definitivos
synset_mosquito=synset_mosquito[0]
synset_tsetse=synset_tsetse[0]
synset_housefly=synset_housefly[0]
synset_spider=synset_spider_path
synset_cockroach=synset_cockroach[0]

In [13]:
#Para cada uno de los synsets, mostramos los lemmas que lo componen, que son sinónimos entre si
print (synset_mosquito.lemma_names())
print (synset_tsetse.lemma_names())
print (synset_housefly.lemma_names())
print (synset_spider.lemma_names())
print (synset_cockroach.lemma_names())

['mosquito']
['tsetse_fly', 'tsetse', 'tzetze_fly', 'tzetze', 'glossina']
['housefly', 'house_fly', 'Musca_domestica']
['spider']
['cockroach', 'roach']


##  6 Árbol de Hiperónimos

In [28]:

print("Árbol de Hiperónimos de Mosquito")
print(str(synset_mosquito.hypernym_paths()))
print(" ")
print("Árbol de Hiperónimos de Tsetse")
print(str(synset_tsetse.hypernym_paths()))
print(" ")
print("Árbol de Hiperónimos de Housefly")
print(str(synset_housefly.hypernym_paths()))
print("")
print("Árbol de Hiperónimos de Spider")
print(str(synset_spider.hypernym_paths()))
print("")
print("Árbol de Hiperónimos de Cockroach")
print(str(synset_cockroach.hypernym_paths()))

Árbol de Hiperónimos de Mosquito
[[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('living_thing.n.01'), Synset('organism.n.01'), Synset('animal.n.01'), Synset('invertebrate.n.01'), Synset('arthropod.n.01'), Synset('insect.n.01'), Synset('dipterous_insect.n.01'), Synset('mosquito.n.01')]]
 
Árbol de Hiperónimos de Tsetse
[[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('living_thing.n.01'), Synset('organism.n.01'), Synset('animal.n.01'), Synset('invertebrate.n.01'), Synset('arthropod.n.01'), Synset('insect.n.01'), Synset('dipterous_insect.n.01'), Synset('fly.n.01'), Synset('tsetse_fly.n.01')]]
 
Árbol de Hiperónimos de Housefly
[[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('living_thing.n.01'), Synset('organism.n.01'), Synset('animal.n.01'), Synset('invertebrate.n.01'), Synset('arthropod.n.01'), Synset('ins

## 8 Búsqueda del Ancestro común más bajo

In [24]:
synsets_list=[synset_mosquito,synset_tsetse,synset_housefly,synset_spider,synset_cockroach]
for x in synsets_list:
    for y in synsets_list:
        if(x!=y):
            
            print(str(x.lowest_common_hypernyms(y))+" es el ancestro común mas bajo de "+str(x)+" y "+str(y))
        

[Synset('dipterous_insect.n.01')] es el ancestro común mas bajo de Synset('mosquito.n.01') y Synset('tsetse_fly.n.01')
[Synset('dipterous_insect.n.01')] es el ancestro común mas bajo de Synset('mosquito.n.01') y Synset('housefly.n.01')
[Synset('arthropod.n.01')] es el ancestro común mas bajo de Synset('mosquito.n.01') y Synset('spider.n.01')
[Synset('insect.n.01')] es el ancestro común mas bajo de Synset('mosquito.n.01') y Synset('cockroach.n.01')
[Synset('dipterous_insect.n.01')] es el ancestro común mas bajo de Synset('tsetse_fly.n.01') y Synset('mosquito.n.01')
[Synset('fly.n.01')] es el ancestro común mas bajo de Synset('tsetse_fly.n.01') y Synset('housefly.n.01')
[Synset('arthropod.n.01')] es el ancestro común mas bajo de Synset('tsetse_fly.n.01') y Synset('spider.n.01')
[Synset('insect.n.01')] es el ancestro común mas bajo de Synset('tsetse_fly.n.01') y Synset('cockroach.n.01')
[Synset('dipterous_insect.n.01')] es el ancestro común mas bajo de Synset('housefly.n.01') y Synset('mo

Con el ancestro común más bajo es el Synset en común entre dos synsets más bajo en la jerarquía, que se representa como un grado. Es útil si queremos calcular la distancia entre dos nodos o synsets, ya que esta puede ser calculada como la suma de las distancias desde el ancestro a cada uno de los synsets

## 9 Profundidad de los synsets

La profundidad de los synsets puede calcularse a partir de la jerarquía de hiperónimos, contando cada uno de ellos

In [40]:
print("Profundidad de Mosquito "+str(len(synset_mosquito.hypernym_paths()[0])))
print("Profundidad de Tsetse "+str(len(synset_tsetse.hypernym_paths()[0])))
print("Profundidad de Housefly "+str(len(synset_housefly.hypernym_paths()[0])))
print("Profundidad de Spider "+str(len(synset_spider.hypernym_paths()[0])))
print("Profundidad de Cockroach "+str(len(synset_cockroach.hypernym_paths()[0])))


Profundidad de Mosquito 12
Profundidad de Tsetse 13
Profundidad de Housefly 13
Profundidad de Spider 11
Profundidad de Cockroach 12


In [41]:
max_similar=0
max_pair=['x','y']
for x in synsets_list:
    for y in synsets_list:
        if(x!=y):
            path=x.path_similarity(y)
            if(path>max_similar):
                max_similar=path
                max_pair=[x,y]

In [43]:
print("Los synsets con mayor similaridad son: "+str(max_pair))

Los synsets con mayor similaridad son: [Synset('tsetse_fly.n.01'), Synset('housefly.n.01')]


Tal y como se ha mencionado anteriormente, el ancestro común más bajo puede servir para calcular la similaridad entre dos palabras. Este es el método utilziado por la función path_similarity, que calcula el camino más corto dentro de la jerarquía de hiperónimos, 