# Explorando Wordnet

In [1]:
from nltk.corpus import wordnet as wn

## Obteniendo una palabra y sus atríbutos

In [6]:
# El método synsets nos premite encontar los sinónimos de alguna palabra
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

In [7]:
# Podemos usar un argumento POS al buscar la palabra
# El argumento puede tomar los valores VERB, NOUN, ADJ, ADV
wn.synsets('dog', pos=wn.VERB)

[Synset('chase.v.01')]

- El nombre de un synset tiene 3 partes 'word.pos.nn'
- Podemos ller las definiciones de cada uno de los términos

In [9]:
# Obtener el synset especifico
wn.synset('dog.n.01')

Synset('dog.n.01')

In [11]:
# Obteniendo la definición
print(wn.synset('dog.n.01').definition())

a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds


In [14]:
# Ver ejemplos de la palabra
# Te regresa una lista, por lo que es posible elegir entre varias
print(wn.synset('dog.n.01').examples()[0])

the dog barked all night


## Lemmas
- El método 'lemmas()' nos permite encontrar un listado de palabras dentro de un synset.
- Lemma = Forma Básica (canónica) de una palabra

In [16]:
[str(lemma.name()) for lemma in wn.synset('dog.n.01').lemmas()]

['dog', 'domestic_dog', 'Canis_familiaris']

## Diferentes Idiomas
- Wordnet nos permite acceder a palabras en otras lenguas

In [21]:
# Lenguajes con los que cuenta
sorted(wn.langs())

['als',
 'arb',
 'bul',
 'cat',
 'cmn',
 'dan',
 'ell',
 'eng',
 'eus',
 'fin',
 'fra',
 'glg',
 'heb',
 'hrv',
 'ind',
 'isl',
 'ita',
 'ita_iwn',
 'jpn',
 'lit',
 'nld',
 'nno',
 'nob',
 'pol',
 'por',
 'ron',
 'slk',
 'slv',
 'spa',
 'swe',
 'tha',
 'zsm']

In [22]:
# Número de lenguajes con los que se cuentan
len(sorted(wn.langs()))

32

In [18]:
wn.synset('dog.n.01').lemma_names('spa')

['can', 'perro']

In [20]:
wn.synset('dog.n.01').lemma_names('fra')

['canis_familiaris', 'chien']

# Explorando la Jerarquía de Wordnet
- Wordnet está organizado como una Red Semántica, por lo cual podemos explorar la jerarquia de conceptos

In [23]:
dog = wn.synset('dog.n.01')
dog.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

In [24]:
# Hiponimos de perro, es decir lo que es parte de perro
dog.hyponyms()

[Synset('basenji.n.01'),
 Synset('corgi.n.01'),
 Synset('cur.n.01'),
 Synset('dalmatian.n.02'),
 Synset('great_pyrenees.n.01'),
 Synset('griffon.n.02'),
 Synset('hunting_dog.n.01'),
 Synset('lapdog.n.01'),
 Synset('leonberg.n.01'),
 Synset('mexican_hairless.n.01'),
 Synset('newfoundland.n.01'),
 Synset('pooch.n.01'),
 Synset('poodle.n.01'),
 Synset('pug.n.01'),
 Synset('puppy.n.01'),
 Synset('spitz.n.01'),
 Synset('toy_dog.n.01'),
 Synset('working_dog.n.01')]

In [25]:
# Obteniendo Homonimos, es decir, lo que está arriba de 'perro'
dog.member_holonyms()

[Synset('canis.n.01'), Synset('pack.n.06')]

In [26]:
# 
dog.part_meronyms()

[Synset('flag.n.07')]

## Ejemplos en Relaciones Léxicas
### 1er Ejemplo

In [27]:
# Hyponym -> un concepto más específico
printer = wn.synset('printer.n.03')

In [31]:
# Encontrar las palabras en forma canónica que tienen un significado más especifico que la palabra 'printer.n.03'
sorted([lemma.name() for synset in printer.hyponyms() for lemma in synset.lemmas()])

['Addressograph',
 'addressing_machine',
 'character-at-a-time_printer',
 'character_printer',
 'electrostatic_printer',
 'impact_printer',
 'line-at-a-time_printer',
 'line_printer',
 'page-at-a-time_printer',
 'page_printer',
 'printer',
 'serial_printer',
 'thermal_printer',
 'typesetting_machine']

In [32]:
# hypernym ->  un concepto más general
[lemma.name() for synset in printer.hypernyms() for lemma in synset.lemmas()]

['machine']

In [33]:
# Podemos ir hasta raíz de la jerarquía
printer.root_hypernyms()

[Synset('entity.n.01')]

In [34]:
# Y revisar la ruta hacia la raiz de la jerarquía
[synset.name() for synset in printer.hypernym_paths()[0]]

['entity.n.01',
 'physical_entity.n.01',
 'object.n.01',
 'whole.n.02',
 'artifact.n.01',
 'instrumentality.n.03',
 'device.n.01',
 'machine.n.01',
 'printer.n.03']

### 2do Ejemplo

In [35]:
# Meronym -> denota una parte que forma un 'todo'
tree = wn.synset('tree.n.01')
# Obtiene las partes
tree.part_meronyms()

[Synset('burl.n.02'),
 Synset('crown.n.07'),
 Synset('limb.n.02'),
 Synset('stump.n.01'),
 Synset('trunk.n.01')]

In [36]:
# Obtiene substancias
tree.substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

In [37]:
# Holonyms -> denota la membresía a algo
# También hay part_holonyms() y subset_holonyms()
wn.synset('atom.n.01').part_holonyms()

[Synset('chemical_element.n.01'), Synset('molecule.n.01')]

In [38]:
wn.synset('hydrogen.n.01').substance_holonyms()

[Synset('water.n.01')]

## Verbos
- Para verbos, tenemos la relación 'entailment()' la cual es una relación 'causa-efecto'

In [39]:
wn.synset('eat.v.01').entailments()

[Synset('chew.v.01'), Synset('swallow.v.01')]

In [40]:
# Podemos 'medir' la similitud entre dos palabras de acuerdo a las rutas en la jerarquía donde se encuentran
truck = wn.synset('truck.n.01')
limousine = wn.synset('limousine.n.01')

truck.lowest_common_hypernyms(limousine)

[Synset('motor_vehicle.n.01')]

In [45]:
# POdemos determinar qué tan 'especifica' es una palabra conociendo su 'profundidad' en la jerarquia
wn.synset('entity.n.01').min_depth()

0

In [46]:
wn.synset('car.n.01').min_depth()

10

In [47]:
wn.synset('horse.n.01').min_depth()

14

In [48]:
wn.synset('mare.n.01').min_depth()

15

Una forma relativamente simple de medir la similitud entre dos palabras es conocer la longitud de una ruta entre ellos (pasando por el lower_common_hypernym()).
- La salida es range(0,1), donde:
    - 0: Nada similar
    - 1: Totalmente similar
    - Si la salida es '-1' no existe una ruta entre ellos
   
Ejemplo:

In [49]:
# Obteniendo las palabras
train = wn.synset('train.n.01')
horse = wn.synset('horse.n.01')
animal = wn.synset('animal.n.01')
atom = wn.synset('atom.n.01')

# Observando la similitud entre las combinaciones de palabras
print(f'Train -> Horse: {train.path_similarity(horse)}')
print(f'Horse -> Train: {horse.path_similarity(train)}')
print(f'Horse -> Animal: {horse.path_similarity(animal)}')
print(f'Train -> Atom: {train.path_similarity(atom)}')
print(f'Animal -> Atom: {animal.path_similarity(atom)}')

Train -> Horse: 0.058823529411764705
Horse -> Train: 0.058823529411764705
Horse -> Animal: 0.1111111111111111
Train -> Atom: 0.09090909090909091
Animal -> Atom: 0.1111111111111111


In [52]:
computer = wn.synset('computer.n.01')

print(f'Animal -> Computer: {animal.path_similarity(computer)}')
print(f'Animal -> Computer: {animal.lowest_common_hypernyms(computer)}')

Animal -> Computer: 0.1111111111111111
Animal -> Computer: [Synset('whole.n.02')]


In [56]:
for synset in wn.synsets('love'):
    print(synset.name(), '\t', synset.definition())
    for lemma in synset.lemmas():
        print('\t', lemma.name())
    print('\n')

love.n.01 	 a strong positive emotion of regard and affection
	 love


love.n.02 	 any object of warm affection or devotion
	 love
	 passion


beloved.n.01 	 a beloved person; used as terms of endearment
	 beloved
	 dear
	 dearest
	 honey
	 love


love.n.04 	 a deep feeling of sexual desire and attraction
	 love
	 sexual_love
	 erotic_love


love.n.05 	 a score of zero in tennis or squash
	 love


sexual_love.n.02 	 sexual activities (often including sexual intercourse) between two people
	 sexual_love
	 lovemaking
	 making_love
	 love
	 love_life


love.v.01 	 have a great affection or liking for
	 love


love.v.02 	 get pleasure from
	 love
	 enjoy


love.v.03 	 be enamored or in love with
	 love


sleep_together.v.01 	 have sexual intercourse with
	 sleep_together
	 roll_in_the_hay
	 love
	 make_out
	 make_love
	 sleep_with
	 get_laid
	 have_sex
	 know
	 do_it
	 be_intimate
	 have_intercourse
	 have_it_away
	 have_it_off
	 screw
	 fuck
	 jazz
	 eff
	 hump
	 lie_with
	 bed
	 have_a_g

In [60]:
# Con todo y Antonimos
for synset in wn.synsets('love'):
    print(synset.name(), '\t', synset.definition())
    for lemma in synset.lemmas():
        print('\t', lemma.name())
        if lemma.antonyms():
            print('\t\t Antonyms:')
            for ant in lemma.antonyms():
                print('\t\t\t', ant.name())
    print('\n')

love.n.01 	 a strong positive emotion of regard and affection
	 love
		 Antonyms:
			 hate


love.n.02 	 any object of warm affection or devotion
	 love
	 passion


beloved.n.01 	 a beloved person; used as terms of endearment
	 beloved
	 dear
	 dearest
	 honey
	 love


love.n.04 	 a deep feeling of sexual desire and attraction
	 love
	 sexual_love
	 erotic_love


love.n.05 	 a score of zero in tennis or squash
	 love


sexual_love.n.02 	 sexual activities (often including sexual intercourse) between two people
	 sexual_love
	 lovemaking
	 making_love
	 love
	 love_life


love.v.01 	 have a great affection or liking for
	 love
		 Antonyms:
			 hate


love.v.02 	 get pleasure from
	 love
	 enjoy


love.v.03 	 be enamored or in love with
	 love


sleep_together.v.01 	 have sexual intercourse with
	 sleep_together
	 roll_in_the_hay
	 love
	 make_out
	 make_love
	 sleep_with
	 get_laid
	 have_sex
	 know
	 do_it
	 be_intimate
	 have_intercourse
	 have_it_away
	 have_it_off
	 screw
	 fuck
	 j