# **Procesamiento del Lenguaje Natural**
## *Práctica 4.1 - Análisis morfológico*

## Objetivos

*   Conocer la librería spaCy y sus modelos.
*   Realizar el análisis morfológico de un texto.





## spaCy

***spaCy*** es una biblioteca gratuita de código abierto para el procesamiento avanzado del lenguaje natural en Python. Está diseñada específicamente para uso en producción y le ayuda a crear aplicaciones que procesan y "comprenden" grandes volúmenes de texto. Además, ***spaCy*** es usualmente utilizado para construir sistemas de extracción de información o comprensión del lenguaje natural.

Si bien NLTK se creó teniendo en cuenta el aprendizaje de PLN, ***spaCy*** se diseñó específicamente con el objetivo de ser una biblioteca útil para implementar sistemas listos para producción.

***spaCy*** incluye [modelos estadísticos pre-entrenados](https://spacy.io/usage/models) y vectores de palabras, y actualmente admite tokenización para más de 49 idiomas. Por este motivo, tiene una mayor orientación al desarrollo de modelos en producción.





### Instalando spaCy

Antes de hacer nada, debes tener spaCy instalado, así como su modelo en el idioma que necesites utilizar.


In [None]:
!pip install spacy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Elegimos el modelo que necesitemos para el tratamiento de la información y lo descargamos:

In [None]:
import spacy.cli
spacy.cli.download("es_core_news_sm")

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


Ahora podemos usar el modelo descargado en nuestro programa de la siguiente manera:

In [None]:
import es_core_news_sm
nlp = es_core_news_sm.load()

### Análisis morfológico

El análisis morfológico consiste en determinar la forma, clase o categoría gramatical de cada palabra de una oración. Este proceso también se conoce como etiquetado gramatical, por su nombre en inglés, “POS tagging” (Part Of Speech tagging).

A continuación, vamos a ver cómo obtener la categoría gramatical de las palabras de la oración:



1.   Primero creamos un **doc** a partir del texto que queremos analizar. Doc es un objeto de ***spaCy*** que almacena el texto y todas sus anotaciones. 
2.   Luego iteramos a través del documento para ver lo que ***spaCy*** ha analizado



In [None]:
text = "La lluvia en España cae principalmente en la llanura sin montañas."
doc = nlp(text)

for token in doc:
    print(token.text, token.pos_, token.morph)




La DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art
lluvia NOUN Gender=Fem|Number=Sing
en ADP 
España PROPN 
cae VERB Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
principalmente ADV 
en ADP 
la DET Definite=Def|Gender=Fem|Number=Sing|PronType=Art
llanura NOUN Gender=Fem|Number=Sing
sin ADP 
montañas NOUN Gender=Fem|Number=Plur
. PUNCT PunctType=Peri
futurs VERB VerbForm=Inf


Como podemos ver, spaCy primero realiza la tokenización según el modelo utilizado y para el idioma específico. Posteriormente analiza y etiqueta la oración. 

Los modelos estadísticos permiten a ***spaCy*** hacer predicciones de qué etiqueta se aplica con mayor probabilidad en un contexto determinado. 

Un modelo entrenado incluye datos con suficientes ejemplos para que pueda hacer predicciones que se generalicen en todo el idioma; por ejemplo, una palabra que sigue a determinante "el" probablemente sea un sustantivo.

Las anotaciones lingüísticas están disponibles como **Token** ofreciendo información de cada palabra de la sentencia como:


*   Texto: El texto original de la palabra.
*   Lema: La forma base de la palabra.
*   POS: La etiqueta de la palabra.
*   Tag: Revisión minuciosa de la cualidad anterior especificando parámetros dentro de la categoría.
*   Dep: Dependencia sintáctica, es decir, la relación entre los tokens.
*   Forma: La forma de la palabra: mayúsculas, puntuación, dígitos.
*   Alfa: ¿Es el token un carácter alfanumérico?
*   Stop-word: ¿forma parte el token de una lista de parada?





In [None]:
doc = nlp("Apple estudia comprar una empresa británica por 1000 millones de $.")

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.morph, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

Apple Apple PROPN  nsubj Xxxxx True False
estudia estudiar VERB Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin ROOT xxxx True False
comprar comprar VERB VerbForm=Inf xcomp xxxx True False
una uno DET Definite=Ind|Gender=Fem|Number=Sing|PronType=Art det xxx True True
empresa empresa NOUN Gender=Fem|Number=Sing obj xxxx True False
británica británico ADJ Gender=Fem|Number=Sing amod xxxx True False
por por ADP  case xxx True True
1000 1000 NUM NumForm=Digit|NumType=Card nummod dddd False False
millones millón NOUN Gender=Masc|Number=Plur appos xxxx True False
de de ADP  case xx True True
$ $ PROPN  nmod $ False False
. . PUNCT PunctType=Peri punct . False False


** La forma de las palabras es algo muy simple, se coloca una X mayúscula cuando está en mayúscula la letra y en minúscula en el caso contrario, dando estructuras de Xxxxx además si se introduce un numero este también tiene su propio valor en cuyo caso es una *d*.

La mayoría de las categorías morfológicas parecen bastante abstractas y varían según el idioma. El método **spacy.explain()** te mostrará una breve descripción en algunos casos:

In [12]:
import spacy
spacy.explain("PROPN")

'proper noun'

## Ejercicios

Los ejercicios deben realizarse sobre este *notebook*, y se deberán entregar a través de PLATEA antes de la fecha límite que se indique.

Descargar el cuento “regreso_al_paraiso.txt” que se encuentran disponibles en Docencia Virtual (carpeta Material complementario) y realiza los métodos necesarios para analizar siguiente información: 

**Autores de la práctica:** Juan Bautista Muñoz Ruiz jbmr0001@red.ujaen.es Marco Antonio Carrión Soriano macs0021@red.ujaen.es

### Ejercicio 1

Obtener el número total de nombres/sustantivos, adjetivos, verbos y adverbios en cada fichero.

In [None]:
!pip install spacy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [3]:
import spacy.cli
spacy.cli.download("es_core_news_sm")



[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [4]:
import es_core_news_sm
nlp = es_core_news_sm.load()

In [5]:
from google.colab import drive  #Montamos el drive
drive.mount('/content/drive')

Mounted at /content/drive


In [6]:
import os #Abrimos la carpeta
path = os.chdir("/content/drive/MyDrive/PLN/P4.1")
os.getcwd()

'/content/drive/MyDrive/PLN/P4.1'

In [7]:
import glob   #Lectura y procesado de los archivos
archivosProcesados=[]
nombresArchivos=[]
for filename in glob.glob('*.txt'):  #Lectura de todos los archivos de la carpeta con la libreria glob
   with open(os.path.join(os.getcwd(), filename), 'r') as f:
     nombresArchivos.append(filename)
     fichero = open(f.name)
     archivosProcesados.append(fichero.read());
j=0
print('Archivos leídos:')
for i in archivosProcesados: #Mostramos el nombre del archivo y el contenido leído
  print(nombresArchivos[j])
  #print(i)
  j=j+1

Archivos leídos:
regreso_al_paraiso.txt


In [27]:
for archivo in archivosProcesados: #Recorremos los archivos y contamos los de cada categoría
  adverbios=0
  verbos=0
  sustantivos=0
  adjetivos=0
  doc = nlp(archivo)

  for token in doc:
    #print(token.text, token.lemma_, token.pos_, token.morph)
    if token.pos == spacy.parts_of_speech.ADV:
      adverbios=adverbios+1
    if token.pos == spacy.parts_of_speech.ADJ:
      adjetivos=adjetivos+1
    if token.pos == spacy.parts_of_speech.VERB:
      verbos=verbos+1
    if token.pos == spacy.parts_of_speech.NOUN:
      sustantivos=sustantivos+1
    if token.pos == spacy.parts_of_speech.PROPN and token.text.isalpha():  #Quitamos los signos detectados como nombres 
      sustantivos=sustantivos+1
    

  print(adverbios,end=" ")
  print("Adverbios")
  print(verbos,end=" ")
  print("Verbos")
  print(sustantivos,end=" ")
  print("Sustantivos")
  print(adjetivos,end=" ")
  print("Adjetivos")


3420 Adverbios
5355 Verbos
7401 Sustantivos
2077 Adjetivos


### Ejercicio 2
Calcular la proporción (en porcentaje) del número de nombres, adjetivos, verbos y adverbios en toda la colección.

In [28]:
totalesSinPuntuación=0
proporcionNombres=0
proporcionAdjetivos=0
proporcionVerbos=0
proporcionAdverbios=0
for token in doc:  #Contamos los que no son signos de puntuación
   if not token.is_punct:
     totalesSinPuntuación=totalesSinPuntuación+1

proporcionNombres=(sustantivos/totalesSinPuntuación)*100
proporcionAdjetivos=(adjetivos/totalesSinPuntuación)*100
proporcionVerbos=(verbos/totalesSinPuntuación)*100
proporcionAdverbios=(adverbios/totalesSinPuntuación)*100

print("Tokens totales:",end=" ")
print(totalesSinPuntuación)
print("Proporción de sustantivos:",end=" ")
print(proporcionNombres,end=" %\n")
print("Proporción de adjetivos:",end=" ")
print(proporcionAdjetivos,end=" %\n")
print("Proporción de adverbios:",end=" ")
print(proporcionAdverbios,end=" %\n")
print("Proporción de verbos:",end=" ")
print(proporcionVerbos,end=" %\n")


Tokens totales: 36390
Proporción de sustantivos: 20.33800494641385 %
Proporción de adjetivos: 5.707611981313548 %
Proporción de adverbios: 9.398186314921682 %
Proporción de verbos: 14.71558120362737 %


### Ejercicio 3
Obtener el número de:


*   Nombres en masculino y singular
*   Nombres en masculino y plural
*   Nombres en femenino y singular
*   Nombres en femenino y plural

¿Existen nombres sin género?


Como se puede ver en el ejercicio si que existen nombres sin género para la libreria spaCy

- Con "Gender" not in token.morph:

In [29]:
masculino_singular = []
masculino_plural = []
femenino_singular = []
femenino_plural = []
nombres_sin_genero = []

for archivo in archivosProcesados:
    doc = nlp(archivo)
    for token in doc:
        if token.text.isalpha(): 
          if token.pos_ == "NOUN" or token.pos_ == "PROPN":
            if "Gender=Masc" in token.morph and "Number=Sing" in token.morph:
                masculino_singular.append(token.text)
            elif "Gender=Masc" in token.morph and "Number=Plur" in token.morph:
                masculino_plural.append(token.text)
            elif "Gender=Fem" in token.morph and "Number=Sing" in token.morph:
                femenino_singular.append(token.text)
            elif "Gender=Fem" in token.morph and "Number=Plur" in token.morph:
                femenino_plural.append(token.text)
            elif "Gender" not in token.morph:
              nombres_sin_genero.append(token.text);
              #print(token.text, token.pos_, token.morph)


print("Nombres en masculino y singular:", len(masculino_singular), masculino_singular)
print("Nombres en masculino y plural:", len(masculino_plural), masculino_plural)
print("Nombres en femenino y singular:", len(femenino_singular), femenino_singular)
print("Nombres en femenino y plural:", len(femenino_plural), femenino_plural)
print("Nombres sin genero:", len(nombres_sin_genero), nombres_sin_genero)

Nombres en masculino y singular: 1723 ['autor', 'texto', 'camino', 'final', 'final', 'planeta', 'aire', 'planeta', 'petróleo', 'ejemplo', 'planeta', 'ordenador', 'trabajo', 'mundo', 'supernet', 'mundo', 'miedo', 'sentimiento', 'grupo', 'supernet', 'mundo', 'mundo', 'búnker', 'superlujo', 'planeta', 'día', 'mundo', 'día', 'aviso', 'juego', 'mantenimiento', 'sistema', 'tiempo', 'mundo', 'complejo', 'supernet', 'planeta', 'coche', 'edificio', 'alimento', 'frío', 'calor', 'clima', 'cultivo', 'uso', 'ejemplo', 'mundo', 'planeta', 'plan', 'botón', 'cohete', 'planeta', 'combustible', 'equipo', 'momento', 'acceso', 'cohete', 'ascensor', 'suelo', 'ascensor', 'botón', 'momento', 'ascensor', 'problema', 'ascensor', 'elemento', 'túnel', 'tipo', 'mundo', 'pueblecito', 'acceso', 'tipo', 'momento', 'presentimiento', 'miniordenador', 'rato', 'fin', 'mundo', 'árbol', 'cuidarte', 'salvamento', 'azul', 'cielo', 'paso', 'árbol', 'parque', 'árbol', 'estado', 'shock', 'día', 'grupo', 'amanecer', 'conjunto',