# **Procesamiento del Lenguaje Natural**
## *Práctica 4.3 - Análisis semántico*

## Objetivos

*   Realizar el análisis semántico de un texto.





## Análisis semántico

El análisis semántico consiste en determinar el significado de las palabras de un texto. En esta sesión vamos a ver cómo determinar el significado de las distintas palabras de un texto en función de su categoría gramatical y cómo obtener sinónimos y antónimos, lo cual puede ser de gran utilidad a la hora de facilitar la comprensión de un texto. 

**WordNet** es una base de datos léxica que contiene nombres, adjetivos, verbos y adverbios agrupados en conjuntos de sinónimos llamados synsets, proporcionando definiciones cortas y generales y almacenando las relaciones semánticas entre los conjuntos de sinónimos. Es la base de datos léxica más utilizada para desambiguar el significado de las palabras en inglés (word sense disambiguation - WSD), una tarea que tiene como objetivo asignar el concepto más apropiado a los términos según el contexto en el que aparezcan.

NLTK proporciona una interfaz para poder usar WordNet
(http://www.nltk.org/api/nltk.corpus.reader.html#module-nltk.corpus.reader.wordnet). A continuación, vamos a ver algunos ejemplos para comprender el potencial de esta base de datos léxica.


### Significado de un término

Dado un término, WordNet permite conocer los distintos significados que puede tener esa palabra, así como algunos ejemplos de oraciones en los que se puede utilizar. 

La función `synsets(lemma, pos=None, lang='eng')`, devuelve todos los synsets (conjuntos de sinónimos) del lema especificado que pertenezcan a la categoría (POS tag) señalada. Si no se especifica ninguna categoría gramatical, devuelve todos los synsets asociados al lema.




In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [2]:
from nltk.corpus import wordnet as wn

In [3]:
for syn in wn.synsets("car"):
  print(syn, syn.definition())

Synset('car.n.01') a motor vehicle with four wheels; usually propelled by an internal combustion engine
Synset('car.n.02') a wheeled vehicle adapted to the rails of railroad
Synset('car.n.03') the compartment that is suspended from an airship and that carries personnel and the cargo and the power plant
Synset('car.n.04') where passengers ride up and down
Synset('cable_car.n.01') a conveyance for passengers or freight on a cable railway


En el ejemplo anterior podemos ver que el término coche ("car") actúa siempre como un nombre ("n") y puede tener 5 significados distintos ("car.n.01", "car.n.02", "car.n.03", "car.n.04" y "cable_car.n.01"). 



Listado de POS tag usado en WordNet:
```
ADJ, ADJ_SAT, ADV, NOUN, VERB = "a", "s", "r", "n", "v"
```

Los adjetivos se organizan en grupos que contienen synsets de cabecera (a) y synsets de satélite (s):  

*   ADJ: adjetivos tienen un significado mínimo, por ejemplo, "seco", "bueno", etc.
*   ADJ_SAT: adjetivo que impone compromisos adicionales además del significado del adjetivo central, por ejemplo, "árido" = "seco" + un contexto particular (podría significar lugar o clima).


Para obtener un ejemplo de una oración en la que este término se utiliza para referirse a un vehículo a motor de cuatro ruedas ("car.n.01") realizamos una llamada a la función `examples()` del synset:

In [4]:
wn.synset('car.n.01').examples()

['he needs a car to get to work']

### Sinónimos

Aunque las definiciones ayudan a comprender el significado de una palabra, en algunas ocasiones puede resultar más útil obtener otras palabras con el mismo significado (sinónimos):

In [5]:
wn.synset('cable_car.n.01').lemma_names()

['cable_car', 'car']

### Antónimos

WordNet también permite obtener palabras con un significado opuesto a una dada (antónimos). 

En el siguiente ejemplo se muestra cómo obtener un antónimo de la palabra "cheap" cuando se utiliza con el significado de "precio bajo":

In [6]:
for ss in wn.synsets("cheap"):
  print(ss, ss.definition())

Synset('cheap.a.01') relatively low in price or charging low prices
Synset('brassy.s.02') tastelessly showy
Synset('bum.s.01') of very poor quality; flimsy
Synset('cheap.s.04') embarrassingly stingy


In [7]:
for lemma in wn.synset("cheap.a.01").lemmas():
  if lemma.antonyms():
    print(lemma.antonyms()[0].name())

expensive


### Desambiguación

Hasta ahora hemos trabajado con términos concretos seleccionando el synset para el cual queremos obtener la información, pero qué ocurre si lo que tenemos no es un término sino una oración. Será necesario llevar a cabo un proceso de desambiguación teniendo en cuenta el contexto en el que ocurren las palabras. 

NLTK proporciona una implementación del algoritmo de desambiguación Lesk (https://www.nltk.org/api/nltk.wsd.lesk.html?highlight=lesk), el cual, dada una palabra ambigua y el contexto en el que se produce la palabra, devuelve el synset con el mayor número de palabras comunes entre el contexto de la oración y la definición del diccionario del synset. Por ejemplo, el adjetivo "cheap" es una palabra ambigua que puede tener uno de los siguientes significados: relativamente bajo en precio ("cheap.a.01"), sin sabor ("brassy.s.02"), de muy mala calidad; endeble ("bum.s.01") o vergonzosamente tacaño ("cheap.s.04").

In [8]:
from nltk.wsd import lesk

In [9]:
sent = 'I am surprised with the price of this restaurant , it is very cheap .'
sent = sent.split()
synset = lesk(sent, 'cheap', 'a')
print(synset)

Synset('cheap.a.01')


In [10]:
synset = lesk(sent, 'cheap', 's')
print(synset)

Synset('bum.s.01')


Si mostramos la definición del synset proporcionado por el algoritmo Lesk podemos ver que, en esa oración, la palabra "cheap" se refiere a "bajo en precio".

In [11]:
print(synset.definition())

of very poor quality; flimsy


## Ejercicios

El resultado de esta práctica deberá entregarse en PLATEA y tiene como límite de entrega las **23:59 horas del día 26 de marzo de 2023**. Se entregará este mismo notebook de extensión .ipynb y se renombrará de la siguiente forma: pr4_usuario1_usuario2.ipynb. Sustituye "usuario1" y "usuario2" por el alias de vuestro correo.

Descargar los archivos "regreso_al_paraiso.txt" y "carroll-alice.txt" que se encuentra disponibles en PLATEA (carpeta Material complementario) y llevar a cabo las siguientes tareas:

**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es


###Ejercicio 1 (Práctica 4.1)

Utiliza el archivo "regreso_al_pariso.txt" para obtener el número de:


*   Nombres en masculino y singular
*   Nombres en masculino y plural
*   Nombres en femenino y singular
*   Nombres en femenino y plural

¿Existen nombres sin género?

In [12]:
import spacy.cli
spacy.cli.download("es_core_news_sm")



[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [13]:
import es_core_news_sm
nlp = es_core_news_sm.load()

In [14]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Mounted at /content/drive


In [15]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P4.3")
os.getcwd()

'/content/drive/MyDrive/PLN/P4.3'

In [16]:
import glob   #Lectura y procesado de los archivos
archivosProcesados=[]
nombresArchivos=[]
for filename in glob.glob('*.txt'):  #Lectura de todos los archivos de la carpeta con la libreria glob
   with open(os.path.join(os.getcwd(), filename), 'r') as f:
     nombresArchivos.append(filename)
     fichero = open(f.name)
     archivosProcesados.append(fichero.read());
j=0
print('Archivos leídos:')
for i in archivosProcesados: #Mostramos el nombre del archivo y el contenido leído
  print(nombresArchivos[j])
  #print(i)
  j=j+1

Archivos leídos:
regreso_al_paraiso.txt
carroll-alice.txt
reemplazos.txt
archivo_sinonimizado.txt


In [17]:
masculino_singular = []
masculino_plural = []
femenino_singular = []
femenino_plural = []
nombres_sin_genero = []

doc = nlp(archivosProcesados[0])
for token in doc:
    if token.text.isalpha(): 
        if token.pos_ == "NOUN" or token.pos_ == "PROPN":
          if "Gender=Masc" in token.morph and "Number=Sing" in token.morph:
              masculino_singular.append(token.text)
          elif "Gender=Masc" in token.morph and "Number=Plur" in token.morph:
              masculino_plural.append(token.text)
          elif "Gender=Fem" in token.morph and "Number=Sing" in token.morph:
              femenino_singular.append(token.text)
          elif "Gender=Fem" in token.morph and "Number=Plur" in token.morph:
              femenino_plural.append(token.text)
          elif "Gender" not in token.morph:
            nombres_sin_genero.append(token.text);
            #print(token.text, token.pos_, token.morph)


print("Nombres en masculino y singular:", len(masculino_singular), masculino_singular)
print("Nombres en masculino y plural:", len(masculino_plural), masculino_plural)
print("Nombres en femenino y singular:", len(femenino_singular), femenino_singular)
print("Nombres en femenino y plural:", len(femenino_plural), femenino_plural)
print("Nombres sin genero:", len(nombres_sin_genero), nombres_sin_genero)

Nombres en masculino y singular: 1723 ['autor', 'texto', 'camino', 'PROVERBIO', 'final', 'final', 'planeta', 'planeta', 'aire', 'planeta', 'petróleo', 'ejemplo', 'planeta', 'ordenador', 'trabajo', 'mundo', 'mundo', 'miedo', 'sentimiento', 'grupo', 'supernet', 'mundo', 'mundo', 'búnker', 'planeta', 'día', 'supernet', 'mundo', 'día', 'aviso', 'supernet', 'juego', 'mantenimiento', 'sistema', 'tiempo', 'mundo', 'complejo', 'supernet', 'planeta', 'coche', 'edificio', 'alimento', 'frío', 'calor', 'clima', 'cultivo', 'uso', 'ejemplo', 'mundo', 'supernet', 'planeta', 'plan', 'botón', 'cohete', 'planeta', 'combustible', 'equipo', 'momento', 'acceso', 'cohete', 'ascensor', 'suelo', 'ascensor', 'botón', 'momento', 'ascensor', 'problema', 'ascensor', 'elemento', 'túnel', 'tipo', 'mundo', 'pueblecito', 'acceso', 'tipo', 'momento', 'presentimiento', 'supernet', 'miniordenador', 'rato', 'fin', 'mundo', 'árbol', 'salvamento', 'anochecer', 'azul', 'cielo', 'paso', 'árbol', 'parque', 'árbol', 'estado', 

### Ejercicio 2 (Práctica 4.2)
Utiliza el archivo "regreso_al_pariso.txt" para contestar a las siguientes preguntas: 

1. ¿Cuáles son los 5 sujetos nominales más frecuentes?

2. ¿Cuáles son los 5 complementos directos más frecuentes? 

3. ¿Cuáles son los 5 negadores más frecuentes?

In [18]:
sujetosNominales=[]
complementosDirectos=[]
negadores=[]
doc = nlp(archivosProcesados[0])
for token in doc:
  if token.text.isalpha(): #Quitamos signos puntuación
    if token.dep_ == 'nsubj': #Si es sujeto nominal
      sujetosNominales.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados
    if token.dep_ == 'obj': #Si es complemento directo
      complementosDirectos.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados
    if 'Polarity=Neg' in token.morph or "PronType=Neg" in token.morph: #Si es un negador
      negadores.append(token.text.lower()) #Los pasamos a minúscula para evitar duplicados

import pandas as pd 

listaNominales = pd.Series(sujetosNominales) #Creamos un panda series para calcular las veces que se repiten
resultadosNominales = listaNominales.value_counts()

listaComplementos = pd.Series(complementosDirectos)  #Creamos un panda series para calcular las veces que se repiten
resultadosComplementos = listaComplementos.value_counts()

listaNegadores = pd.Series(negadores)  #Creamos un panda series para calcular las veces que se repiten
resultadosNegadores = listaNegadores.value_counts()

print("Cinco sujetos nominales más frecuentes:")
print(resultadosNominales.head(5)) #Mostramos los 5 que más se repiten
print(" ")

print("Cinco complementos directos más frecuentes:")
print(resultadosComplementos.head(5)) #Mostramos los 5 que más se repiten
print(" ")

print("Cinco negadores más frecuentes:")
top_cinco = resultadosNegadores.head(5);
print(top_cinco) #Mostramos los 5 que más se repiten
print(" ")

Cinco sujetos nominales más frecuentes:
que        348
shira      116
yo          96
eso         61
mujeres     47
dtype: int64
 
Cinco complementos directos más frecuentes:
lo     156
que    141
le     121
la      70
me      47
dtype: int64
 
Cinco negadores más frecuentes:
no         725
nadie       49
nada        45
ninguna     11
ningún       7
dtype: int64
 


### Ejercicio 3 (Práctica 4.2)
Busca información y navega por el arbol de dependencias en spaCy para obtener las 3 palabras con mayor frecuencia que están conectadas con cada uno de los negadores obtenidos en el ejercicio 2.

In [19]:
for negador in (top_cinco.index):
  palabras_conectadas = {}  # Creamos un diccionario vacío para almacenar las palabras conectadas al negador


  doc = nlp(archivosProcesados[0])
  for token in doc:
      if token.text.isalpha() and token.text.lower() == negador:  # Comprobamos si la palabra está en la lista
            for child in token.children:
                if child.dep_ != 'punct':  # Comprobamos si es un signo de puntuación
                    palabra = child.text.lower()
                    if palabra in palabras_conectadas: #Si la palabra ya se ha descubierto sumamos uno, si no la añadimos.
                        palabras_conectadas[palabra] += 1
                    else: 
                        palabras_conectadas[palabra] = 1

  # Ordenamos el diccionario por frecuencia descendente y mostramos las 3 palabras más frecuentes
  palabras_ordenadas = sorted(palabras_conectadas.items(), key=lambda x: x[1], reverse=True)
  print(f"Las 3 palabras más frecuentes conectadas al negador '{negador}' son:")
  for palabra, frecuencia in palabras_ordenadas[:3]:
    print(f"{palabra}: {frecuencia}")

Las 3 palabras más frecuentes conectadas al negador 'no' son:
obstante: 5
pero: 4
que: 4
Las 3 palabras más frecuentes conectadas al negador 'nadie' son:
a: 6
de: 2
casi: 1
Las 3 palabras más frecuentes conectadas al negador 'nada' son:
más: 6
de: 3
que: 2
Las 3 palabras más frecuentes conectadas al negador 'ninguna' son:
otra: 2
más: 1
Las 3 palabras más frecuentes conectadas al negador 'ningún' son:
otro: 1


### Ejercicio 4 (Práctica 4.3)

Utiliza el fichero "carroll-alice.txt" para generar un archivo resultante de sustituir todos los adjetivos existentes en el texto por sinónimos.

Guardar los pares (adj_sustituido, sinónimo), junto con su frecuencia, en un nuevo documento.

In [20]:
import spacy.cli
spacy.cli.download("en_core_web_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [21]:
import en_core_web_sm
nlpEn = en_core_web_sm.load()

In [22]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [23]:
from nltk.corpus import wordnet as wn

In [24]:
for syn in wn.synsets("car"):
  print(syn, syn.definition())

Synset('car.n.01') a motor vehicle with four wheels; usually propelled by an internal combustion engine
Synset('car.n.02') a wheeled vehicle adapted to the rails of railroad
Synset('car.n.03') the compartment that is suspended from an airship and that carries personnel and the cargo and the power plant
Synset('car.n.04') where passengers ride up and down
Synset('cable_car.n.01') a conveyance for passengers or freight on a cable railway


In [40]:
doc = nlpEn(archivosProcesados[1]) #Procesamos el texto
pares={} # Creamos un map
# Cálculo de sinónimos
print("Calculando sinónimos...")
for token in doc:
  if token.text.isalpha(): # Quitamos signos de puntuación
    if token.pos == spacy.parts_of_speech.ADJ:
      sinonimosPalabra=[] # Vector para guardar los sinónimos de cada adjetivo
      sinonimoElegido= "" # Sinónimo con el que nos quedaremos

      # Guardamos los sinónimos que genera cada synset
      for synset in wn.synsets(token.text,pos=wn.ADJ):  
        for sinonimo in synset.lemma_names():
          sinonimoString=sinonimo.replace("_"," ")# Quitamos la _
          sinonimosPalabra.append(sinonimoString)
      #print(sinonimosPalabra)

      # Elegimos sinónimo
      elegido = False
      if len(sinonimosPalabra) !=0: # Si la lista no está vacía
        for sinonimo in sinonimosPalabra: # Nos quedamos con el primero que no sea igual que la palabra
          if token.text.lower() != sinonimo.lower() and elegido == False: # Comparamos ambos en minúscula
            sinonimoElegido=sinonimo
            elegido = True

        #print(sinonimoElegido)
        if sinonimoElegido != "": #Realizamos algunos procesamientos
          sinonimoProcesado= sinonimoElegido
          if token.text.istitle(): # Si la la primera es mayúscula, ponemos la primera en mayúscula del sinónimo
            sinonimoProcesado=sinonimoElegido.capitalize() 
          if token.text.isupper():
            sinonimoProcesado=sinonimoElegido.upper() #Si está en mayúscula, convertirmos el sinónimo
          pares[token.text]= sinonimoProcesado

# Sustitución de adjetivos
print("Calculando sustituyendo adjetivos por sinónimos...")
texto=archivosProcesados[1]
numRemplazos={} # Map con el número de veces que aparece cada término
textoOriginal=texto
for elemento in pares:
  num=textoOriginal.count(elemento) # Contamos el número de veces que aparece el término a reemplazar
  numRemplazos[elemento]=num
  texto=texto.replace(elemento,pares[elemento]) # Reemplazamos

# Guardado de texto con el archivo reemplazado
print("Guardando archivo con adjetivos reemplazados por sinónimos...")
archivo = open("archivo_sinonimizado.txt", "w")
archivo.write(str(texto))
archivo.close

# Guardado de archivo de pares y frecuencia
print("Generando archivo de frecuencias...")
f = open("reemplazos.txt", "w") 
for elemento in pares:
  f.write(elemento)
  f.write(" -> " )
  f.write(pares[elemento])
  f.write(" || Frecuencia: " )
  f.write(str(numRemplazos[elemento]))
  f.write("/")
  f.write(str(len(pares)))
  f.write(" = ")
  f.write(str(numRemplazos[elemento]/len(pares)))
  f.write("\n")
f.close()

#Comprobamos contenido de los archivos
arch1 = open("reemplazos.txt", "r")
print(arch1.read())
arch2 = open("archivo_sinonimizado.txt", "r")
#print(arch2.read())
      
    

Calculando sinónimos...
Calculando sustituyendo adjetivos por sinónimos...
Guardando archivo con adjetivos reemplazados por sinónimos...
Generando archivo de frecuencias...
tired -> banal || Frecuencia: 7/320 = 0.021875
own -> ain || Frecuencia: 135/320 = 0.421875
hot -> raging || Frecuencia: 7/320 = 0.021875
sleepy -> sleepy-eyed || Frecuencia: 5/320 = 0.015625
stupid -> dazed || Frecuencia: 7/320 = 0.021875
worth -> deserving || Frecuencia: 6/320 = 0.01875
pink -> pinkish || Frecuencia: 1/320 = 0.003125
close -> near || Frecuencia: 17/320 = 0.053125
remarkable -> singular || Frecuencia: 2/320 = 0.00625
dear -> beloved || Frecuencia: 31/320 = 0.096875
late -> belated || Frecuencia: 27/320 = 0.084375
natural -> instinctive || Frecuencia: 4/320 = 0.0125
large -> big || Frecuencia: 41/320 = 0.128125
deep -> bass || Frecuencia: 12/320 = 0.0375
dark -> black || Frecuencia: 4/320 = 0.0125
great -> outstanding || Frecuencia: 39/320 = 0.121875
empty -> hollow || Frecuencia: 1/320 = 0.003125
b

### Ejercicio 5 (Práctica 4.3)

Indicar cuál es el adjetivo más frecuente del texto y obtener los posibles significados, sinónimos y antónimos del mismo.

In [26]:
palabra_mas_repetida = ""
numero_repeticiones = 0

for par in pares:
  if numRemplazos[par]>numero_repeticiones:
    numero_repeticiones =  numRemplazos[par]
    palabra_mas_repetida = par

print(palabra_mas_repetida + " " + str(numero_repeticiones))

synsets = wn.synsets(palabra_mas_repetida, pos=wn.ADJ)
if len(synsets) > 0:
    print("Significado:")
    for synset in synsets:
        print("- ", synset.definition())
    print("Sinónimos:")
    for synset in synsets:
        for lemma in synset.lemmas():
            if lemma.name() != palabra_mas_repetida:
                print("- ", lemma.name())
    print("Antónimos:")
    for synset in synsets:
        for antonimo in synset.lemmas()[0].antonyms():
            print("- ", antonimo.name())
else:
    print("No se han encontrado resultados para ", palabra_mas_repetida)


thin 231
Significado:
-  of relatively small extent from one surface to the opposite or in cross section
-  lacking excess flesh; ; -Shakespeare
-  very narrow
-  not dense
-  relatively thin in consistency or low in density; not viscous
-  (of sound) lacking resonance or volume
-  lacking spirit or sincere effort
-  lacking substance or significance; ; ; ; a fragile claim to fame"
Sinónimos:
-  lean
-  slender
-  sparse
-  flimsy
-  fragile
-  slight
-  tenuous
Antónimos:
-  thick
-  fat
-  thick
-  full
