**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

\***
Datos del alumno (Nombre y Apellidos): Nicolás Felipe Trujillo Montero

Fecha: 27 de Abril de 2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

## Parte 1: Carga y Preprocesamiento del texto a analizar


Observa las diferentes librerías que se están importando.

In [None]:
# !python -m spacy download en_core_web_sm

In [2]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

La primera libreria, se encarga de usar rutas con sus directorios para operar con archivos, necesario para la realización de esta actividad

La segunda libreria es una de las más usadas en el mundo del PLN, y es en la que se centrará la práctica. NLTK ha servido historicamente para primeras aproximaciones en el ámbito de la investigación, aunque Spacy está consiguiendo mayor popularización por sus usos aplicados.
Del mismo modo, la siguiente linea de codigo importa una de las funciones necesarias para analisis sintáctico.
Por último, [en_core_web_sm](https://spacy.io/models/en#en_core_web_sm) es un pipeline, un modelo pre-entrenado para el procesamiento de texto que en este caso se aplica al inglés.

Usando tanto la librería como su pipeline asignado, podemos usar 'ner' como parte de los componentes que integran Spacy. 





In [6]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))


En estas lineas de código, cargamos el modelo pre-entrenado, mediante un corpus con un solo documento de texto plano asignado a una variable que será tomada como 'doc'<br>
Esta variable doc es un objeto de la clase [Doc](https://spacy.io/api/doc)

Con el siguiente método, tomamos el segundo elemento que aparece en nuestro archivo:

In [12]:
# Vemos los atributos de la clase
# dir(doc)
doc.__getitem__(1)

Hello

## Parte 2: Preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [13]:
print("El número de tokens es de {}".format(doc.__len__()))
print("El número de palabras {}".format(len(doc.text.split())))

El número de tokens es de 1933
El número de palabras 1651


En el primer print, la clase doc tiene una funcion que devuelve el numero de tokens del texto, entendiendose tokens como cualquier componente del texto, es decir, palabras, espacios o signos de puntuación así como información pregramatical como onomatopeyas.

En el segundo print, contamos directamente el número de palabras, teniendo como criterio la separación entre espacios. Como el primer item es un entrecomillado, tomará Hello como punto de partida.

Sería necesario normalizar el texto, eliminando signos de puntuación.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [14]:
print("El texto contiene {} oraciones".format(len(doc.text.split("."))))

El texto contiene 81 oraciones


Usando el metodo split dividimos mediante delimitador específico, en este caso cada vez que acabe en un punto, aunque habría que distinguir entre aquellas con nucleo verbal de las frases que no las contengan.

Del mismo modo, no hemos diferenciado entre otros signos de puntuación como interrogación o exclamación.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál es el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [29]:
max_sent = ""

for sent in doc.text.split("."):
    if len(max_sent) < len(sent):
        max_sent = sent

print("La oración más grande contiene {} palabras".format( len(max_sent.split())) )
print("La oración sería... {} ".format(max_sent))

La oración más grande contiene 58 palabras
La oración sería... 
It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth 


Mediante un bucle, se ha segmentado en oraciones como en la pregunta anterior para que si la longitud de la oración actual '(len(sent))' es mayor que la longitud de la oración más larga encontrada hasta ahora '(len(max_sent))'<br> Si la oración actual es más larga, se asigna a la variable 'max_sent'.

### Pregunta 4. ¿Cómo puedes acceder al lema, lexema y morfemas de cada token?

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [28]:
tkn_example = doc.__getitem__(34)
lem = tkn_example.lemma
lem2 = tkn_example.lemma_
lex = tkn_example.lex.text
morph = tkn_example.morph

print("La palabra '{}', cuyo lema es '{}' asociado al id '{}', tendría como lexema '{}' siendo su morfema '{}'".format(tkn_example, lem2, lem, lex, morph))

La palabra 'founders', cuyo lema es 'founder' asociado al id '4354848742269768285', tendría como lexema 'founders' siendo su morfema 'Number=Plur'



En la lingüística, un lema es la raíz de una palabra, la unidad mínima de significado.

El lexema consiste en la palabra junto a sus morfemas asociados, donde el lema se convierte en diferentes tipos de palabras como sustantivos o adjetivos, siendo en el español obligatorio para la concordancía gramátical.


En este caso, al lema 'founder' se le añade un morfema '-s' de plural obteniendo el lexema 'founders'


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [25]:
print("¿Es '{}' una stop word? {}".format(tkn_example.text, "Sí" if tkn_example.is_stop else "No"))

¿Es 'founders' una stop word? No



En programación orientada a objetos, una instancia es un objeto creado a partir de una clase. Esta clase define los atributos y métodos que tendrán los objetos creados a partir de ella.
Spacy nos permite tomar cada instancia de la clase Token con un atributo asociado, en este caso indicando si el elemento es una stop word.

Podríamos crear un bucle donde se recorran las stop words del texto, eliminándolas. En la biblioteca de Spacy, se puede obtener un conjunto predefinido de stop words para ello:

    *from spacy.lang.en.stop_words import STOP_WORDS*

    *nlp = spacy.load("en_core_web_sm")*

    *stopwords = list(STOP_WORDS)*



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [24]:
# displacy.render(doc, style="ent")
estados = []

for tkn in doc.__iter__():
    if tkn.ent_type_ == "GPE":
        estados.append(tkn.text)

print(list(set(estados)))

['of', 'States', 'Chicago', 'Des', 'Moines', 'Afghanistan', 'Iraq', 'Birmingham', 'Atlanta', 'Concord', 'America', 'the', 'Charleston', 'Selma', 'Berlin', 'United', 'Washington']


Con la primera linea puesta en comentarios, desplegamos visualmente NER.

Creamos una lista donde añadimos todos los que contengan GPE, que en este caso corresponden a territorios administrativos como paises o estados de EEUU.

Como hemos visto en el caso anterior, se podrían eliminar stop words como 'of' o 'the' si fuese necesario para nuestro procesamiento.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [22]:
for _typeNER in nlp.pipe_labels['ner']:
        print("La entidad {} incluye '{}'".format(_typeNER, spacy.explain(_typeNER)))

La entidad CARDINAL incluye 'Numerals that do not fall under another type'
La entidad DATE incluye 'Absolute or relative dates or periods'
La entidad EVENT incluye 'Named hurricanes, battles, wars, sports events, etc.'
La entidad FAC incluye 'Buildings, airports, highways, bridges, etc.'
La entidad GPE incluye 'Countries, cities, states'
La entidad LANGUAGE incluye 'Any named language'
La entidad LAW incluye 'Named documents made into laws.'
La entidad LOC incluye 'Non-GPE locations, mountain ranges, bodies of water'
La entidad MONEY incluye 'Monetary values, including unit'
La entidad NORP incluye 'Nationalities or religious or political groups'
La entidad ORDINAL incluye '"first", "second", etc.'
La entidad ORG incluye 'Companies, agencies, institutions, etc.'
La entidad PERCENT incluye 'Percentage, including "%"'
La entidad PERSON incluye 'People, including fictional'
La entidad PRODUCT incluye 'Objects, vehicles, foods, etc. (not services)'
La entidad QUANTITY incluye 'Measurements




Imprimos en lenguaje natural cada entidad que puede soportar Spacy, junto a su descripción.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [26]:
# displacy.render(doc, style="ent")

NER = {}

for tkn in doc.__iter__():
    if tkn.ent_type_ != "":
        try:
            NER[tkn.ent_type_] = NER[tkn.ent_type_] + 1
        except:
            NER[tkn.ent_type_] = 0
print(NER)

{'GPE': 28, 'TIME': 19, 'ORDINAL': 1, 'NORP': 12, 'MONEY': 7, 'CARDINAL': 7, 'DATE': 26, 'LOC': 2, 'FAC': 1, 'ORG': 10, 'PERSON': 5}


Meidante un bucle todos los tokens, comprobemos cada entidad reconocida como NER, contabilizando cuantos items habría de cada una

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entidades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

Usando IOB, podemos etiquetar palabras en un corpus para aplicarse en procesos de NER, con lo que podemos entrenar nuestros propios modelos.

Para ello tendríamos tres etiquetas definidas:

*   B = Beginning, siendo la primera palabra que defina la entidad
*   I = Inside, resto de palabras dentro de la misma entidad
*   O = Outside, palabras fuera de una entidad

<br>




Tendríamos...

*'Hello, Chicago'* <br>

Hello - O <br>
Chicago - B-GPE <br>

<br>

*'We are, and always will be, the United States of America.'* <br>

We - O <br>
are - O <br>
and - O <br>
always - O <br>
will - O <br>
be - O <br>
the - O <br>
United - B-GPE <br>
States - I-GPE <br>
of - I-GPE <br>
America - I-GPE <br>



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 