# Práctica WordNet

Federico Ortega Riba

## Paso 0. Para empezar necesitamos responder a estas tres cuestiones

**¿Qué es WordNet?**

WordNet es una base de datos léxica del idioma inglés que agrupa las palabras en conjuntos de sinónimos llamados "synsets" (conjuntos de sinónimos). Cada synset está interconectado con otros mediante relaciones semánticas como hiperonimia (relación de "es-un"), hiponimia (relación de "es-un-tipo-de"), antonimia, etc.


**¿Cómo está estructurado WordNet (componentes y relaciones)?**

WordNet está estructurado en tres componentes principales:

1. **Nodos (Synsets)**: Cada nodo representa un conjunto de palabras intercambiables en un contexto específico. Cada synset tiene un identificador único.

2. **Relaciones**: Hay varias relaciones semánticas entre synsets, como hiperonimia (una relación de "es-un"), hiponimia (una relación de "es-un-tipo-de"), antonimia, meronimia (relación parte-todo), etc.

3. **Léxico**: Cada synset contiene un conjunto de palabras que son intercambiables en algún contexto.

## Paso 1. Obtener los significados de 'car'. Guardarlos en la variable sig_car

* ¿Qué tipo de datos es cada significado de 'car'? Cada significado es un synset

In [None]:
import nltk

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
from nltk.corpus import wordnet as wn

In [None]:
sig_car = wn.synsets('car')
sig_car

[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

In [None]:
str(wn.synsets('car')[0].name())
wn.synsets('WORD')
wn.synsets('WORD', pos = wn.VERB)

[Synset('give_voice.v.01')]

## Paso 2. Obtener el identificador del primer significado de 'car'. Comprobar si tiene categoría nombre

In [None]:
import re
reg_ex = '\.n\.'
parser = re.compile(reg_ex)
match = parser.search(str(sig_car[0]))
if match.group() == '.n.':
  print('car es un nombre')

car es un nombre


In [None]:
if wn.synsets('car')[0].pos=='n':
  print('car es un nombre')

else:
  print("No se puede")

No se puede


In [None]:
if 'n' in str(wn.synsets('car')[0].name):
  print('car es nombre')

else:
  print("No se puede")

car es nombre


## Paso 3. Exploramos dentro de un synset:

* Obtener los lemas del primer synset. Responder a las cuestiones siguientes:
 * ¿qué método(s) se utiliza(n): .lemmas y .lemma_name
 * ¿cuál es la estructura de datos de la salida? Una lista
 * desde el punto de vista lingüístico, ¿qué relación une a estos lemas? car, motorcar, auto, automobile son cohipónomos entre sí e hipónimos de machine, que es el hiperónimo

* Obtener la definición del primer synset.
  * ¿De qué tipo de datos es? Una cadena
  * ¿cómo se obtiene la definición en tipo de datos string? Con el método .definition
* Obtener los ejemplos del primer synset.
  * ¿Cuántos ejemplos hay? 5 ejemplos para cada uno de los significados


In [None]:
sig_car[0].lemmas

In [None]:
# Verificamos si se encontraron synsets
if sig_car:
    # Obtenemos el primer synset encontrado
    primer_synset = sig_car[0]

    # Obtenemos los lemmas asociados con el synset
    lemmas = primer_synset.lemmas()

    # Imprimimos los lemmas
    for lemma in lemmas:
        print("Lemma:", lemma.name())
else:
    print("No se encontraron synsets para 'car'")

Lemma: car
Lemma: auto
Lemma: automobile
Lemma: machine
Lemma: motorcar


In [None]:
sig_car[0].lemma_names

In [None]:
if sig_car:
    primer_synset = sig_car[0]

    lemma_names = primer_synset.lemma_names()

    print("Lemma names:", lemma_names)
else:
    print("No se encontraron synsets para 'car'")


Lemma names: ['car', 'auto', 'automobile', 'machine', 'motorcar']


In [None]:
sig_car[0].definition

In [None]:
if sig_car:
    car_definition = sig_car[0].definition()
    print("Definición de 'car':", car_definition)
else:
    print("No se encontraron synsets para 'car'")

Definición de 'car': a motor vehicle with four wheels; usually propelled by an internal combustion engine


In [None]:
sig_car[0].examples

In [None]:
def examples(self, lang="eng"):
        """Return examples in specified language"""
        return self._doc("exe", self._examples, lang=lang)

In [None]:
for synset in sig_car:
    ejemplos = synset.examples()

    print("Ejemplos para synset '{}':".format(synset.name()))
    for ejemplo in ejemplos:
        print("-", ejemplo)
    print()

Ejemplos para synset 'car.n.01':
- he needs a car to get to work

Ejemplos para synset 'car.n.02':
- three cars had jumped the rails

Ejemplos para synset 'car.n.03':

Ejemplos para synset 'car.n.04':
- the car was on the top floor

Ejemplos para synset 'cable_car.n.01':
- they took a cable car to the top of the mountain



## Paso 4. Construimos estructuras de datos para almacenar de forma compacta múltiples datos

In [None]:
lista_sinonimos = []
for syn in enumerate(wn.synsets('car')):
  print(syn)
  print(wn.synsets('car')[syn[0]].lemmas())
  print(wn.synsets('car')[syn[0]].lemma_names())
  print()
  lista_sinonimos.append(wn.synsets('car')[syn[0]].lemma_names())
lista_sinonimos

(0, Synset('car.n.01'))
[Lemma('car.n.01.car'), Lemma('car.n.01.auto'), Lemma('car.n.01.automobile'), Lemma('car.n.01.machine'), Lemma('car.n.01.motorcar')]
['car', 'auto', 'automobile', 'machine', 'motorcar']

(1, Synset('car.n.02'))
[Lemma('car.n.02.car'), Lemma('car.n.02.railcar'), Lemma('car.n.02.railway_car'), Lemma('car.n.02.railroad_car')]
['car', 'railcar', 'railway_car', 'railroad_car']

(2, Synset('car.n.03'))
[Lemma('car.n.03.car'), Lemma('car.n.03.gondola')]
['car', 'gondola']

(3, Synset('car.n.04'))
[Lemma('car.n.04.car'), Lemma('car.n.04.elevator_car')]
['car', 'elevator_car']

(4, Synset('cable_car.n.01'))
[Lemma('cable_car.n.01.cable_car'), Lemma('cable_car.n.01.car')]
['cable_car', 'car']



[['car', 'auto', 'automobile', 'machine', 'motorcar'],
 ['car', 'railcar', 'railway_car', 'railroad_car'],
 ['car', 'gondola'],
 ['car', 'elevator_car'],
 ['cable_car', 'car']]

In [None]:
[wn.synsets('car')[syn[0]].lemma_names() for syn in enumerate (wn.synsets('car'))]
[lemma.name() for lemma in wn.synset('car.n.01').lemmas()]
lista_sinonimos_car = []
for synset in sig_car:
  lista_sinonimos_car.append(synset.lemma_names)

lista_sinonimos

[['car', 'auto', 'automobile', 'machine', 'motorcar'],
 ['car', 'railcar', 'railway_car', 'railroad_car'],
 ['car', 'gondola'],
 ['car', 'elevator_car'],
 ['cable_car', 'car']]

In [None]:
# Otra opción sería esta:

lemas_car = []

for n in range(0,5):
  lemas = sig_car[n].lemmas()
  nombres = [lemas[l].name() for l in range(0, len(lemas))]
  lemas_car.append(nombres)
print(lemas_car)

[['car', 'auto', 'automobile', 'machine', 'motorcar'], ['car', 'railcar', 'railway_car', 'railroad_car'], ['car', 'gondola'], ['car', 'elevator_car'], ['cable_car', 'car']]


## Paso 5. Crear una función para obtener la lista de sinónimos para cualquier palabra.

In [None]:
from nltk.corpus import wordnet as wn

def sinonimos(word):
    conjunto_sinonimos = set()
    for synset in wn.synsets(word):
        sinonimos_synset = synset.lemma_names()
        conjunto_sinonimos.update(sinonimos_synset)
    return list(conjunto_sinonimos)

In [None]:
# Obtenemos los sinónimos para la palabra 'car' y mostrarlos
sinonimos('car')

['elevator_car',
 'machine',
 'car',
 'railcar',
 'gondola',
 'railway_car',
 'railroad_car',
 'motorcar',
 'cable_car',
 'automobile',
 'auto']

In [None]:
# probamos con otra palabra
sinonimos('plant')

['embed',
 'plant_life',
 'industrial_plant',
 'works',
 'set',
 'constitute',
 'implant',
 'imbed',
 'found',
 'institute',
 'flora',
 'plant',
 'engraft',
 'establish']

## Paso 6. Crear un diccionario con la descripción de cada synset de una palabra mediante un vector de palabras

In [None]:
# Probamos cómo se metería manualmente un dato en el diccionario
d = {}
d['car.n.01']=('a', 'motor', 'vehicle', 'with', 'four', 'wheels', 'usually', 'propelled', 'by', 'an', 'internal', 'combustion', 'engine')
d

{'car.n.01': ('a',
  'motor',
  'vehicle',
  'with',
  'four',
  'wheels',
  'usually',
  'propelled',
  'by',
  'an',
  'internal',
  'combustion',
  'engine')}

In [None]:
## Luego, para cada significado obtenemos el identificador y la lista de palabras de la glosa si la tiene. Si no tiene glosa usamos el vector vacío
## Por ejemplo, el primer identificador sería: id = str(wn.synsets('car')[0].name())
## La definición del primer identificador sería: wn.synset(id).definition()

id = str(wn.synsets('car')[0].name())
glosa = wn.synset(id).definition()
glosa


'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [None]:
## Me queda segmentar la definición en palabras (tokenizar), lo haré con split() aunque no elimina los símbolos de puntuación
glosa.split()

['a',
 'motor',
 'vehicle',
 'with',
 'four',
 'wheels;',
 'usually',
 'propelled',
 'by',
 'an',
 'internal',
 'combustion',
 'engine']

In [None]:
# Poniendo todo junto en un bucle que itere sobre el número de significados y vaya añadiendo al diccionario
# cada par id: vector de palabras:
semantica_pal= {}

for synset in wn.synsets('car'):
    id = synset.name()
    glosa = wn.synset(id).definition().split()
    semantica_pal[id] = glosa

for key, value in semantica_pal.items():
    print(f'{key}: {value}')

car.n.01: ['a', 'motor', 'vehicle', 'with', 'four', 'wheels;', 'usually', 'propelled', 'by', 'an', 'internal', 'combustion', 'engine']
car.n.02: ['a', 'wheeled', 'vehicle', 'adapted', 'to', 'the', 'rails', 'of', 'railroad']
car.n.03: ['the', 'compartment', 'that', 'is', 'suspended', 'from', 'an', 'airship', 'and', 'that', 'carries', 'personnel', 'and', 'the', 'cargo', 'and', 'the', 'power', 'plant']
car.n.04: ['where', 'passengers', 'ride', 'up', 'and', 'down']
cable_car.n.01: ['a', 'conveyance', 'for', 'passengers', 'or', 'freight', 'on', 'a', 'cable', 'railway']


## Paso 7. Volcar los resultados en un archivo para poder utilizarlos en otros programas

In [None]:
import json
# cuidado aquí debes poner la ruta de la carpeta donde se creará el archivo json

with open('datos.json', 'w') as g:
    json.dump(semantica_pal,g)