**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>: 

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [3]:
doc

“Hello, Chicago.
If there is anyone out there who still doubts that America is a place where all things are possible, who still wonders if the dream of our founders is alive in our time, who still questions the power of our democracy, tonight is your answer.
It’s the answer told by lines that stretched around schools and churches in numbers this nation has never seen, by people who waited three hours and four hours, many for the first time in their lives, because they believed that this time must be different, that their voices could be that difference.
It’s the answer spoken by young and old, rich and poor, Democrat and Republican, black, white, Hispanic, Asian, Native American, gay, straight, disabled and not disabled. Americans who sent a message to the world that we have never been just a collection of individuals or a collection of red states and blue states.
We are, and always will be, the United States of America.
It’s the answer that led those who’ve been told for so long by so

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [4]:
num_palabras = sum(1 for token in doc if not token.is_space)
print("El texto contiene", num_palabras, "palabras.")

El texto contiene 1893 palabras.


In [5]:
num_palabras = sum(1 for token in doc if token.is_alpha)
print("El texto contiene", num_palabras, "palabras.")

El texto contiene 1646 palabras.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En la primera celda he creado un contador que suma 1 según las palabras, correspondientes con un token, que se encuentra en el texto excluyendo los espacios gracias a la función <i>is_space</i>. Este atributo devuelve un boleano según si el token consiste en un espacio en blanco.

En la segunda celda he sustituido la función de excluir espacios por <i>is_alfa</i>, que solo cuenta aquellos tokens que contienen caracteres alfabéticos. De esta forma creo que el recuento es más aproximado al ser el correcto ya que no solo omite espacios, sino también signos de puntuación (comas, puntos, guiones, etc.) y caracteres numéricos. 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [6]:
num_oraciones = len(list(doc.sents))
print("El texto contiene", num_oraciones, "oraciones.")

El texto contiene 83 oraciones.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
He utilizado el método <i>sents</i> del objeto doc, que permite detectar los límites de las oraciones para poder separarlas. Con la función <i>list()</i> transformo el resultado en una lista y luego cuento sus elementos utilizando <i>len()</i>.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [7]:
oracion = max(doc.sents, key=lambda sent: len(sent))
num_palabras = len(oracion)
print("La oración más larga contiene", num_palabras, "palabras.")
print("Esta oración es:", oracion.text)

La oración más larga contiene 67 palabras.
Esta oración es: It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para encontrar la oración más larga he iterado por el conjunto de oraciones del texto con el método que había encontrado en el apartado anterior. Utilizo lambda para poder definir la longitud de caracteres de cada oración a partir del atributo <i>sent</i>. Como todo ello está dentro de la función <i>max()</i>, el resultado será la oración más larga en términos de longitud de caracteres.

Una vez identificada la oración, hago una cuenta del número de caracteres con <i>len()</i>.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes acceder al lema, lexema y morfemas de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [8]:
token = doc[8]
print("Texto:", token.text)
print("Lema:", token.lemma_)
print("Lexema:", token.lex)
print("Morfemas:", token.morph)

Texto: is
Lema: be
Lexema: <spacy.lexeme.Lexeme object at 0x000001EE97D2B900>
Morfemas: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
He guardado como token el índice de la palabra que quería analizar del objeto doc, que no es más que su posición en el texto. He buscado un verbo así podía ver la diferencia entre el contenido del texto (.text) del token y su lema. 

Para acceder al lema llamamos al atributo <i>lemma_</i> que devuelve la forma inicial del token en forma de string. Tambien existe <i>lemma</i> pero devuelve su valor numérico. El lexema se obtiene a partir de <i>lex</i> , que es de tipo Lexeme y al no ser parte del POS tagging, dependencias o lemas, no devuelve un resultado textual sino el código del tipo de palabra al que pertenece. Para el morfema se utiliza <i>morph</i> para obtener el análisis morfolófico, que proviene del tipo MorphAnalysis.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [9]:
# Identificar stop words
stopwords = []
for token in doc:
    if token.is_stop:
        stopwords.append(token.text)
print(stopwords)

['If', 'there', 'is', 'anyone', 'out', 'there', 'who', 'still', 'that', 'is', 'a', 'where', 'all', 'are', 'who', 'still', 'if', 'the', 'of', 'our', 'is', 'in', 'our', 'who', 'still', 'the', 'of', 'our', 'is', 'your', 'It', '’s', 'the', 'by', 'that', 'around', 'and', 'in', 'this', 'has', 'never', 'by', 'who', 'three', 'and', 'four', 'many', 'for', 'the', 'first', 'in', 'their', 'because', 'they', 'that', 'this', 'must', 'be', 'that', 'their', 'could', 'be', 'that', 'It', '’s', 'the', 'by', 'and', 'and', 'and', 'and', 'not', 'who', 'a', 'to', 'the', 'that', 'we', 'have', 'never', 'been', 'just', 'a', 'of', 'or', 'a', 'of', 'and', 'We', 'are', 'and', 'always', 'will', 'be', 'the', 'of', 'It', '’s', 'the', 'that', 'those', 'who', '’ve', 'been', 'for', 'so', 'by', 'so', 'many', 'to', 'be', 'and', 'and', 'about', 'what', 'we', 'can', 'to', 'put', 'their', 'on', 'the', 'of', 'and', 'it', 'once', 'more', 'toward', 'the', 'of', 'a', 'It', '’s', 'been', 'a', 'but', 'because', 'of', 'what', 'we',

In [10]:
# Eliminar stop words
doc_nostpwrd = [token for token in doc if not token.is_stop]
print(doc_nostpwrd)

[“, Hello, ,, Chicago, ., 
, doubts, America, place, things, possible, ,, wonders, dream, founders, alive, time, ,, questions, power, democracy, ,, tonight, answer, ., 
, answer, told, lines, stretched, schools, churches, numbers, nation, seen, ,, people, waited, hours, hours, ,, time, lives, ,, believed, time, different, ,, voices, difference, ., 
, answer, spoken, young, old, ,, rich, poor, ,, Democrat, Republican, ,, black, ,, white, ,, Hispanic, ,, Asian, ,, Native, American, ,, gay, ,, straight, ,, disabled, disabled, ., Americans, sent, message, world, collection, individuals, collection, red, states, blue, states, ., 
, ,, ,, United, States, America, ., 
, answer, led, told, long, cynical, fearful, doubtful, achieve, hands, arc, history, bend, hope, better, day, ., 
, long, time, coming, ,, tonight, ,, date, election, defining, moment, change, come, America, ., 
, [, read, ], 

, start, money, endorsements, ., campaign, hatched, halls, Washington, ., began, backyards, Des, Moine

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Al igual que existe <i>is_space</i>, los tokens tienen el atributo <i>is_stop</i> que devuelve un boleano si la palabra forma parte o no de la lista de las stop worlds. Por tanto, creo una lista vacía y a partir de la iteración de tokens en doc verifico el resultado de cada atributo y si es verdadero los agrego a la lista. Para eliminarlos he creado un nuevo objeto donde solo agrego aquellos tokens que den falso.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [11]:
tokens_ner = filter(lambda token: token.ent_type_, doc)
for token in tokens_ner:
    print("Token: {} - NER: {}".format(token.text, token.ent_type_))

Token: Chicago - NER: GPE
Token: America - NER: GPE
Token: tonight - NER: TIME
Token: three - NER: TIME
Token: hours - NER: TIME
Token: four - NER: TIME
Token: hours - NER: TIME
Token: first - NER: ORDINAL
Token: Democrat - NER: NORP
Token: Republican - NER: NORP
Token: Hispanic - NER: NORP
Token: Asian - NER: NORP
Token: Native - NER: NORP
Token: American - NER: NORP
Token: Americans - NER: NORP
Token: the - NER: GPE
Token: United - NER: GPE
Token: States - NER: GPE
Token: of - NER: GPE
Token: America - NER: GPE
Token: tonight - NER: TIME
Token: America - NER: GPE
Token: Washington - NER: GPE
Token: Des - NER: GPE
Token: Moines - NER: GPE
Token: Concord - NER: GPE
Token: Charleston - NER: GPE
Token: $ - NER: MONEY
Token: 5 - NER: MONEY
Token: and - NER: MONEY
Token: $ - NER: MONEY
Token: 10 - NER: MONEY
Token: and - NER: MONEY
Token: $ - NER: MONEY
Token: 20 - NER: MONEY
Token: millions - NER: CARDINAL
Token: Americans - NER: NORP
Token: more - NER: DATE
Token: than - NER: DATE
Token:

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Como solo queremos los atributos que contengan una etiqueta, voy a filtrar aquellos tokens que formen parte de una entidad reconocida para no quedarnos con aquellos que puedan contener una cadena vacía. Para ello, <i>ent_type</i> nos devuelve el nombre de la etiqueta NER del token. Luego itero por el filtro creado para imprimir el texto contenido en el token y su etiqueta NER asociada.  

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [12]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

In [13]:
labels = nlp.get_pipe("ner").labels
print(labels)

('CARDINAL', 'DATE', 'EVENT', 'FAC', 'GPE', 'LANGUAGE', 'LAW', 'LOC', 'MONEY', 'NORP', 'ORDINAL', 'ORG', 'PERCENT', 'PERSON', 'PRODUCT', 'QUANTITY', 'TIME', 'WORK_OF_ART')


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Al cargar el modelo de lenguaje, podemos generar un Pipeline para obtener todas sus entidades soportadas. Como solo nos interesa comprobar las etiquetas NER, primero he impreso el nombre de las pipelines disponibles para luego poder filtrar por esa en concreto con la función <i>get_pipe()</i> y listar las opciones con <i>labels</i>.

Una breve explicación del significado de cada una:

- CARDINAL: Números cardinales .
- DATE: Fechas absolutas o relativas .
- EVENT: Eventos (festivales, conciertos, competiciones deportivas, etc.) 
- FAC: Edificios, aeropuertos, carreteras, puentes, etc. 
- GPE: Ubicaciones geopolíticas (países, ciudades o estados)
- LANGUAGE: Idiomas.
- LAW: Documentos legales (leyes, resoluciones, etc.) 
- LOC: Localizaciones concretas no geo-políticas (montañas, ríos, mares, etc.)
- MONEY: Referencias a dinero, monedas y valores.
- NORP: Nacionalidades y religiones.
- ORDINAL: Números ordinales. 
- ORG: Organizaciones o empresas (compañías, agencias gubernamentales, partidos políticos, etc.)
- PERCENT: Porcentajes.
- PERSON: Nombres de personas. 
- PRODUCT: Objetos y productos comerciales. 
- QUANTITY: Medidas y cantidades.
- TIME: Tiempos.
- WORK_OF_ART: Obras artísticas (libros, pinturas, canciones, etc.)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [14]:
num_ner = {}

labels = [ent.label_ for ent in doc.ents]
for label in labels:
    if label in num_ner:
        num_ner[label] += 1
    else:
        num_ner[label] = 1

for ent, count in num_ner.items():
    print(f"{ent}: {count}")

GPE: 24
TIME: 16
ORDINAL: 2
NORP: 12
MONEY: 1
CARDINAL: 8
DATE: 12
LOC: 2
FAC: 1
ORG: 5
PERSON: 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para hacer el recuento de los diferentes NER, he creado una lista vacía con la que a partir de un sumador he incremetado su valor según la ocurrencia de cada etiqueta cada vez que aparecía en el doc. He conseguido hacer el recuento gracias a que <i>doc.ents</i> contiene todas las entidades nombradas encontradas en el texto. He guardado esta lista en <i>labels</i>, que luego he recorrido guardando en cada clave (que corresponde con la entidad) el nuevo valor de apariciones. Por último, recorro la lista resultante imprimiendo cada etiqueta con la suma de su frencuencia. 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [15]:
# Etiqueta compuesta por un único token
for token in doc:
    if token.ent_type_ and len(token.text.split()) == 1:
        print(f"{token.ent_type_}: {token.text}")
        break

GPE: Chicago


In [16]:
# Etiqueta compuesta por varios tokens
for ent in doc.ents:
    if len(ent.text.split()) > 1:
        print(f"{ent.label_}: {ent.text}")
        break

TIME: three hours


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
El código IOB (Inside, Outside, Beginning) es un formato de etiquetado para transformar tokens a chunks utilzado en el named-entity recognition. Las etiquetas son parecidas al POS tagging, pero indican el "interior", "exterior" y "principio" de un chunk. Cada token se etiqueta con una de las tres etiquetas IOB: "I" si es un token adicional que forma parte de la entidad, "O" si el token no forma parte de ninguna y "B" si es el primer token de una entidad.

Para obtener una etiqueta con un único token, parto del nombre de la entidad del token y que la longitud de su texto no sea mayor de 1, imprimo la primera ocurrencia que se ha encontrado en el doc añadiendo un break. Si quiero buscar varios tokens formando una etiqueta compuesta, entonces voy a partir de la entidad en vez del token y la división del texto que contiene debe ser mayor de 1.