**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): Carlos Díez-Gil Romero

Fecha: 12-04-2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>: 

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [3]:
print(max([s for s in doc.sents], key=len))

lemmas = [token.lemma_ for token in doc]
print(lemmas)

lexema = [token.lex for token in doc]


It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.

['"', 'Hello', ',', 'Chicago', '.', '\n', 'if', 'there', 'be', 'anyone', 'out', 'there', 'who', 'still', 'doubt', 'that', 'America', 'be', 'a', 'place', 'where', 'all', 'thing', 'be', 'possible', ',', 'who', 'still', 'wonder', 'if', 'the', 'dream', 'of', 'our', 'founder', 'be', 'alive', 'in', 'our', 'time', ',', 'who', 'still', 'question', 'the', 'power', 'of', 'our', 'democracy', ',', 'tonight', 'be', 'your', 'answer', '.', '\n', 'it', '’', 'the', 'answer', 'tell', 'by', 'line', 'that', 'stretch', 'around', 'school', 'and', 'church', 'in', 'number', 'this', 'nation', 'have', 'never', 'see', ',', 'by', 'people', 'who', 'wait', 'three', 'hour', 'and', 'f

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [4]:
# Incluye aquí el código generado para poder responder a tu pregunta
print(len(doc))

1939


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Dentro de la variable doc se encuentran todos los tokens del texto, por lo que para obtener el número de palabras del texto se puede utilizar la función len() sobre doc.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [5]:
# Incluye aquí el código generado para poder responder a tu pregunta
print(len(list(doc.sents)))

83


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

doc.sents es una lista de oraciones, por lo que para obtener el número de oraciones del texto se puede utilizar la función len() sobre doc.sents.
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [6]:
print(max([len(s) for s in doc.sents]))
print(max([s for s in doc.sents], key=len))

67
It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Dentro de doc.sents se encuentran todas las oraciones del texto, por lo que para obtener la oración más grande se puede utilizar la función max() sobre doc.sents, pasando como parámetro la función len() para obtener el número de palabras de cada oración.

 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes acceder al lema, lexema y morfemas de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [7]:
for idx, token in enumerate (doc):
    print ("Lexema: " + token.lex.text +" Lema: " + token.lemma_ + " Morfema: " + token.suffix_)

Lexema: “ Lema: " Morfema: “
Lexema: Hello Lema: Hello Morfema: llo
Lexema: , Lema: , Morfema: ,
Lexema: Chicago Lema: Chicago Morfema: ago
Lexema: . Lema: . Morfema: .
Lexema: 
 Lema: 
 Morfema: 

Lexema: If Lema: if Morfema: If
Lexema: there Lema: there Morfema: ere
Lexema: is Lema: be Morfema: is
Lexema: anyone Lema: anyone Morfema: one
Lexema: out Lema: out Morfema: out
Lexema: there Lema: there Morfema: ere
Lexema: who Lema: who Morfema: who
Lexema: still Lema: still Morfema: ill
Lexema: doubts Lema: doubt Morfema: bts
Lexema: that Lema: that Morfema: hat
Lexema: America Lema: America Morfema: ica
Lexema: is Lema: be Morfema: is
Lexema: a Lema: a Morfema: a
Lexema: place Lema: place Morfema: ace
Lexema: where Lema: where Morfema: ere
Lexema: all Lema: all Morfema: all
Lexema: things Lema: thing Morfema: ngs
Lexema: are Lema: be Morfema: are
Lexema: possible Lema: possible Morfema: ble
Lexema: , Lema: , Morfema: ,
Lexema: who Lema: who Morfema: who
Lexema: still Lema: still Morfema

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Iterando en los token del texto se puede acceder a los atributos lex, lemma_ y morph, que obiene la información morfológica del token. Como en nuestro caso, solo tenemos que obtener el morfema, entiendo que sería suficiente con el atributo suffix_.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [8]:
token_list = []
for token in doc:
    token_list.append(token.text)

token_list_no_stopwords =[]

for word in token_list:
    lexeme = nlp.vocab[word]
    if not lexeme.is_stop:
        token_list_no_stopwords.append(word)
print(len(token_list))
print(len(token_list_no_stopwords))

1939
906


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Recorro los tokens para crear una lista. A continuación, recorro la lista de tokens y compruebo si el token es una stop word. Si no lo es, lo añado a la lista de tokens sin stop words. Así obtengo las dos listas, la de tokens, y la de tokens filtrada sin stopwords.
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [9]:
for token in doc:
    print(token.text, token.ent_type_)

for ent in doc.ents:
    print(ent.text, ent.label_)



“ 
Hello 
, 
Chicago GPE
. 

 
If 
there 
is 
anyone 
out 
there 
who 
still 
doubts 
that 
America GPE
is 
a 
place 
where 
all 
things 
are 
possible 
, 
who 
still 
wonders 
if 
the 
dream 
of 
our 
founders 
is 
alive 
in 
our 
time 
, 
who 
still 
questions 
the 
power 
of 
our 
democracy 
, 
tonight TIME
is 
your 
answer 
. 

 
It 
’s 
the 
answer 
told 
by 
lines 
that 
stretched 
around 
schools 
and 
churches 
in 
numbers 
this 
nation 
has 
never 
seen 
, 
by 
people 
who 
waited 
three TIME
hours TIME
and 
four TIME
hours TIME
, 
many 
for 
the 
first ORDINAL
time 
in 
their 
lives 
, 
because 
they 
believed 
that 
this 
time 
must 
be 
different 
, 
that 
their 
voices 
could 
be 
that 
difference 
. 

 
It 
’s 
the 
answer 
spoken 
by 
young 
and 
old 
, 
rich 
and 
poor 
, 
Democrat NORP
and 
Republican NORP
, 
black 
, 
white 
, 
Hispanic NORP
, 
Asian NORP
, 
Native NORP
American NORP
, 
gay 
, 
straight 
, 
disabled 
and 
not 
disabled 
. 
Americans NORP
who 
sent 
a 

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

El token que contiene la etiqueta NER es el atributo ent_type_.

También se puede obtener la etiqueta NER usando la lista de entidades del texto, que se puede obtener con doc.ents. En este caso, se obtiene el texto y la etiqueta NER de cada entidad. Este segundo método solo pintara los tokens que tengan una etiqueta NER.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [10]:
# Incluye aquí el código generado para poder responder a tu pregunta

for ent in nlp.get_pipe("ner").labels:
    print(ent)
    print(spacy.explain(ent))


CARDINAL
Numerals that do not fall under another type
DATE
Absolute or relative dates or periods
EVENT
Named hurricanes, battles, wars, sports events, etc.
FAC
Buildings, airports, highways, bridges, etc.
GPE
Countries, cities, states
LANGUAGE
Any named language
LAW
Named documents made into laws.
LOC
Non-GPE locations, mountain ranges, bodies of water
MONEY
Monetary values, including unit
NORP
Nationalities or religious or political groups
ORDINAL
"first", "second", etc.
ORG
Companies, agencies, institutions, etc.
PERCENT
Percentage, including "%"
PERSON
People, including fictional
PRODUCT
Objects, vehicles, foods, etc. (not services)
QUANTITY
Measurements, as of weight or distance
TIME
Times smaller than a day
WORK_OF_ART
Titles of books, songs, etc.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Obtenemos la lista por defecto de entidades soportadas por Spacy, que se obtiene con:
```
nlp.get_pipe("ner").labels
```
Para cada entidad, se obtiene la descripción que proporciona Spacy, con el explain

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [11]:
uniqueEntities = []
for entity in doc.ents:
    if not entity.label_ in uniqueEntities:
        uniqueEntities.append(entity.label_)
print(uniqueEntities)

for entity in uniqueEntities:
    print(entity, len([ent for ent in doc.ents if ent.label_ == entity]))

['GPE', 'TIME', 'ORDINAL', 'NORP', 'MONEY', 'CARDINAL', 'DATE', 'LOC', 'FAC', 'ORG', 'PERSON']
GPE 24
TIME 16
ORDINAL 2
NORP 12
MONEY 1
CARDINAL 8
DATE 12
LOC 2
FAC 1
ORG 5
PERSON 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

Primero, creo una lista de entidades únicas, recorriendo todas las entidades del documento, y añadiendo las que no están.
A continuación, recorro la lista de entidades únicas y obtengo el número de entidades de cada tipo.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [12]:
etiquetas_iob = [(ent.text, ent.start_char, ent.end_char, ent.label_) for ent in doc.ents]

# Imprimir las etiquetas IOB
for etiqueta in etiquetas_iob:
    print(etiqueta)



('Chicago', 8, 15, 'GPE')
('America', 68, 75, 'GPE')
('tonight', 235, 242, 'TIME')
('three hours', 392, 403, 'TIME')
('four hours', 408, 418, 'TIME')
('first', 433, 438, 'ORDINAL')
('Democrat', 616, 624, 'NORP')
('Republican', 629, 639, 'NORP')
('Hispanic', 655, 663, 'NORP')
('Asian', 665, 670, 'NORP')
('Native American', 672, 687, 'NORP')
('Americans', 731, 740, 'NORP')
('the United States of America', 905, 933, 'GPE')
('tonight', 1201, 1208, 'TIME')
('America', 1306, 1313, 'GPE')
('Washington', 1427, 1437, 'GPE')
('Des Moines', 1468, 1478, 'GPE')
('Concord', 1503, 1510, 'GPE')
('Charleston', 1536, 1546, 'GPE')
('$5 and $10 and $20', 1636, 1654, 'MONEY')
('millions', 1993, 2001, 'CARDINAL')
('Americans', 2005, 2014, 'NORP')
('more than two centuries later', 2061, 2090, 'DATE')
('Earth', 2179, 2184, 'LOC')
('tonight', 2400, 2407, 'TIME')
('tomorrow', 2437, 2445, 'DATE')
('two', 2492, 2495, 'CARDINAL')
('a century', 2551, 2560, 'DATE')
('tonight', 2584, 2591, 'TIME')
('Americans', 2617,

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

El código IOB (Inside-Outside-Beginning) se utiliza para identificar las entidades en un texto, se utiliza para indicar si una palabra es el inicio, el interior o el exterior de una entidad. El código IOB se utiliza sobre todo en tareas como la identificación de nombres de personas, lugares o cosas.

De la lista de arriba, podemos ver los siguientes ejemplos:
1 token: "Chicago", "America", "tonight", "hours", etc...
más de un token: "the moon", "106 years old", "the Republican Party", "the White House", "more than two centuries later", etc.....


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 