<a href="https://colab.research.google.com/github/MarioCrespo/pruebapythonbot/blob/master/nivel_sem%C3%A1ntico_WordNet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Recursos Léxicos: WordNet

[Wordnet](https://wordnet.princeton.edu) es una red semántica para el inglés. En esencia, es similar a un diccionario pero está organizado por *synsets* (conjunto de palabras sinónimas) y no por lemas. Podemos acceder a WordNet a través de NLTK, de manera similar a como accedemos desde el [interfaz web](http://wordnetweb.princeton.edu/perl/webwn):
 

In [None]:
import nltk
nltk.download('wordnet')
from nltk.corpus import wordnet as wn

[nltk_data] Downloading package wordnet to /root/nltk_data...


Para consultar los synsets en los que aparece una determinada palabra, podemos utilizar el método `.synsets` como se muestra en el ejemplo. Como resultado obtenemos una lista con todos los synsets en los que aparece la palabra.

In [None]:
# buscamos los synsets en los que aparece la palabra sword
print(wn.synsets("sword"))

# y buscamos car
print(wn.synsets("car"))

[Synset('sword.n.01')]
[Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')]


En este caso, la palabra *sword* solo aparece en un synset, lo que implica que solo tiene un sentido. Además, sabemos que es un sustantivo, porque el nombre de synset está etiquetado como `n`.

Por su parte, la palabra *car* es polisémica y aparece en cinco sentidos, toso ellos sustantivos.

Si guardo el synset en cuestión en una variable (fíjate que me quedo con el primer elemento de la lista que me devuelve el método `wn.synsets`), podemos acceder a distintos métodos:

In [None]:
sword = wn.synsets("sword")[0]
print(sword.lemma_names())  # imprime los lemas del synset => sinónimos
print(sword.definition())  # imprime la definición del synset

# hacemos lo mismo con car
car = wn.synsets("car")
cable_car = car[-1]
print(cable_car.lemma_names(), cable_car.definition())
print(
    car[-1].lemma_names(), car[-1].definition()
)  # esta línea es equivalente a la anterior. ¿Ves por qué?

# imprimo las oraciones de ejemplo
print(cable_car.examples())

['sword', 'blade', 'brand', 'steel']
a cutting or thrusting weapon that has a long metal blade and a hilt with a hand guard
['cable_car', 'car'] a conveyance for passengers or freight on a cable railway
['cable_car', 'car'] a conveyance for passengers or freight on a cable railway
['they took a cable car to the top of the mountain']


In [None]:
car = wn.synsets("car")#"car" tiene hasta 5 sentidos en inglés, por eso aparece en 5 synsets
for numero_de_synset, sentido in enumerate(car):#voy recorriendo los sentidos y los enumero
  print(numero_de_synset, sentido, sentido.lemma_names(), sentido.definition())#imprimo el número de synset, su sentido, lemas que lo representan y definición
  for meronimo in sentido.part_meronyms():
    print("merónimos----->", meronimo.lemma_names())

0 Synset('car.n.01') ['car', 'auto', 'automobile', 'machine', 'motorcar'] a motor vehicle with four wheels; usually propelled by an internal combustion engine
merónimos-----> ['accelerator', 'accelerator_pedal', 'gas_pedal', 'gas', 'throttle', 'gun']
merónimos-----> ['air_bag']
merónimos-----> ['auto_accessory']
merónimos-----> ['automobile_engine']
merónimos-----> ['automobile_horn', 'car_horn', 'motor_horn', 'horn', 'hooter']
merónimos-----> ['buffer', 'fender']
merónimos-----> ['bumper']
merónimos-----> ['car_door']
merónimos-----> ['car_mirror']
merónimos-----> ['car_seat']
merónimos-----> ['car_window']
merónimos-----> ['fender', 'wing']
merónimos-----> ['first_gear', 'first', 'low_gear', 'low']
merónimos-----> ['floorboard']
merónimos-----> ['gasoline_engine', 'petrol_engine']
merónimos-----> ['glove_compartment']
merónimos-----> ['grille', 'radiator_grille']
merónimos-----> ['high_gear', 'high']
merónimos-----> ['hood', 'bonnet', 'cowl', 'cowling']
merónimos-----> ['luggage_comp

In [None]:
bank = wn.synsets("bank")#"bank" tiene diferentes sentidos en inglés
for numero_de_synset, sentido in enumerate(bank):#voy recorriendo los sentidos y los enumero
  print(numero_de_synset, sentido, sentido.lemma_names(), sentido.definition())#imprimo el número de synset, su sentido, lemas que lo representan y definición
  for hypo in sentido.hyponyms():
    print("hipónimos----->", hypo.lemma_names())

0 Synset('bank.n.01') ['bank'] sloping land (especially the slope beside a body of water)
hipónimos-----> ['riverbank', 'riverside']
hipónimos-----> ['waterside']
1 Synset('depository_financial_institution.n.01') ['depository_financial_institution', 'bank', 'banking_concern', 'banking_company'] a financial institution that accepts deposits and channels the money into lending activities
hipónimos-----> ['acquirer']
hipónimos-----> ['agent_bank']
hipónimos-----> ['commercial_bank', 'full_service_bank']
hipónimos-----> ['credit_union']
hipónimos-----> ['Federal_Reserve_Bank', 'reserve_bank']
hipónimos-----> ['Home_Loan_Bank']
hipónimos-----> ['lead_bank', 'agent_bank']
hipónimos-----> ['member_bank']
hipónimos-----> ['merchant_bank', 'acquirer']
hipónimos-----> ['state_bank']
hipónimos-----> ['thrift_institution']
2 Synset('bank.n.03') ['bank'] a long ridge or pile
hipónimos-----> ['bluff']
hipónimos-----> ['sandbank']
3 Synset('bank.n.04') ['bank'] an arrangement of similar objects in a 

In [None]:
print(wn.synsets("car"))

[Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')]


In [None]:
sword.

Si escribes `sword.` y pulsas el tabulador podrás visualizar todos los métodos accesibles desde un objeto synset. Son muchos: si tienes interés en alguno que no se menciona en este resumen, pregúntame o consulta el libro de NLTK.

Entre las cosas que sí nos interesan está el poder acceder a relaciones como hiponimia, meronimia, etc. Por ejemplo, para acceder a todos los hipónimos de *sword* con el sentido de *espada*, es decir, a todos los **tipos de** *espada* y a sus definiciones.

In [None]:
print(sword.hyponyms())

for element in sword.hyponyms():
    print(element.lemma_names())
    print(element.definition())

[Synset('backsword.n.02'), Synset('broadsword.n.01'), Synset('cavalry_sword.n.01'), Synset('cutlas.n.01'), Synset('falchion.n.01'), Synset('fencing_sword.n.01'), Synset('rapier.n.01')]
['backsword']
a sword with only one cutting edge
['broadsword']
a sword with a broad blade and (usually) two cutting edges; used to cut rather than stab
['cavalry_sword', 'saber', 'sabre']
a stout sword with a curved blade and thick back
['cutlas', 'cutlass']
a short heavy curved sword with one edge; formerly used by sailors
['falchion']
a short broad slightly convex medieval sword with a sharp point
['fencing_sword']
a sword used in the sport of fencing
['rapier', 'tuck']
a straight sword with a narrow blade and two edges


En lugar de bajar hasta los elementos más específicos, podemos navegar en la jerarquía de sentidos hasta los synsets más generales. Por ejemplo, podemos acceder a los hiperónimos inmediatos de un synset a través del método `.hypernyms()`:

In [None]:
for element in sword.hypernyms():
    print(element.lemma_names())
    print(element.definition())

Fíjate que con este método sólo subimos un nivel hacia el synset más general. En este caso, comprobamos que *sword* es un tipo de *weapon* o *arm*. Si, por el contrario, lo que nos interesa es acceder a todos los hiperónimos de *sword*, navegando hasta el elemento raíz de la jerarquía de WordNet (que siempre es *entity*), podemos utilizar el método `.hypernym_paths()`:

In [None]:
for path in sword.hypernym_paths():
    for element in path:
        print(element.lemma_names())
        print(element.definition())

Fíjate que `.hypernym_paths()` me devuelve una lista de caminos posibles desde el synset en cuestión hasta el elemento *entity*. Por eso itero sobre los elementos `path` que me devuelve `.hypernym_paths()`. En el ejemplo de *sword*, da la casualidad de que solo hay un camino posible. Cada `path` es una lista de synsets, e itero sobre ellos. Por eso utilizo un bucle dentro de otro.

Para acceder a los merónimos, es decir, a las partes o elementos constitutivos de *sword*, podemos utilizar el método `.part_meronyms()`, como se muestra a continuación.

In [None]:
for element in sword.part_meronyms():
    print(element.lemma_names())
    print(element.definition())

['blade']
the flat part of a tool or weapon that (usually) has a cutting edge
['foible']
the weaker part of a sword's blade from the forte to the tip
['forte']
the stronger part of a sword blade between the hilt and the foible
['haft', 'helve']
the handle of a weapon or tool
['hilt']
the handle of a sword or dagger
['point', 'tip', 'peak']
a V shape


De manera similar, podemos acceder a los holónimos de un synset, es decir, a los elementos de los que *espada* forma parte, a través del método `.part_holonyms()`. El synset que estamos utilizando no tiene definidos holónimos, así que el ejemplo devuelve una lista vacía.

In [None]:
print(sword.part_holonyms())

Busquemos ahora algún ejemplo que tenga otros tipos de merónimos.

In [None]:
# en cuántos synsets aparece la palabra water?
water = wn.synsets("water")
for synset in water:
    print(synset.lemma_names())

# me quedo con el primero
agua = water[0]
# que tiene unos cuantos merónimos de sustancia
print(agua.substance_meronyms())

# ídem para air
air = wn.synsets("air")
for synset in air:
    print(synset.lemma_names(), synset.definition())

aire = air[0]
print(aire.substance_meronyms())

['water', 'H2O']
['body_of_water', 'water']
['water']
['water_system', 'water_supply', 'water']
['urine', 'piss', 'pee', 'piddle', 'weewee', 'water']
['water']
['water', 'irrigate']
['water']
['water']
['water']
[Synset('hydrogen.n.01'), Synset('oxygen.n.01')]
['air'] a mixture of gases (especially oxygen) required for breathing; the stuff that the wind consists of
['air'] the region above the ground
['air', 'aura', 'atmosphere'] a distinctive but intangible quality surrounding a person or thing
['breeze', 'zephyr', 'gentle_wind', 'air'] a slight wind (usually refreshing)
['atmosphere', 'air'] the mass of air surrounding the Earth
['air'] once thought to be one of four elements composing the universe (Empedocles)
['tune', 'melody', 'air', 'strain', 'melodic_line', 'line', 'melodic_phrase'] a succession of notes forming a distinctive sequence
['air', 'airwave'] medium for radio and television broadcasting
['air_travel', 'aviation', 'air'] travel via aircraft
['air_out', 'air', 'aerate']

Hay varios métodos para acceder a distintos tipos de merónimos y holónimos, aunque no siempre están definidas estas relaciones. Cuando no están definidas, los métodos no dan error, simplemente devuelven listas vacías.

Los nombres de estos métodos tratan de ser autoexplicativos: por un lado, tenemos `.part_holonyms()`, `.member_holonyms()`, `.substance_holonyms()`, y por otro, `.part_meronyms()`, `.member_meronyms()`, `.substance_meronyms()`.

### Ejercicio 5

- Busca los sentidos en los que aparece la palabra *bike*.
- Identifica el que hace referencia a *bicicleta* como *vehículo de dos ruedas a pedales*
- Imprime los merónimos, esto es, las partes que conforman una bicicleta

In [None]:
# escribe tu código aquí

In [None]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [None]:
from nltk.corpus import wordnet as wn
wn.synsets('bank')[0].lemma_names('spa')

['margen', 'orilla', 'vera']

In [None]:
wn.synsets('car')[4].lemma_names()

['cable_car', 'car']

In [None]:
from nltk.corpus import wordnet
syns = wordnet.synsets("gato", lang="spa")
print(syns[0].definition())

feline mammal usually having thick soft fur and no ability to roar: domestic cats; wildcats


In [None]:
#¿Cuál es el output de este código?
from nltk.corpus import wordnet
syns = wordnet.synsets("happy")
print(syns[0].lemmas()[0].antonyms())

[Lemma('unhappy.a.01.unhappy')]
