**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Diego Cristóbal Herreros

Fecha: 27 Abril 2024
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [18]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>:

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [19]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [20]:
# Ver tokens
for token in doc:
    print(token.text, token.pos_, token.lemma_)

“ PUNCT "
Hello PROPN Hello
, PUNCT ,
Chicago PROPN Chicago
. PUNCT .

 SPACE 

If SCONJ if
there PRON there
is VERB be
anyone PRON anyone
out ADV out
there ADV there
who PRON who
still ADV still
doubts VERB doubt
that SCONJ that
America PROPN America
is AUX be
a DET a
place NOUN place
where SCONJ where
all DET all
things NOUN thing
are AUX be
possible ADJ possible
, PUNCT ,
who PRON who
still ADV still
wonders VERB wonder
if SCONJ if
the DET the
dream NOUN dream
of ADP of
our PRON our
founders NOUN founder
is AUX be
alive ADJ alive
in ADP in
our PRON our
time NOUN time
, PUNCT ,
who PRON who
still ADV still
questions VERB question
the DET the
power NOUN power
of ADP of
our PRON our
democracy NOUN democracy
, PUNCT ,
tonight NOUN tonight
is AUX be
your PRON your
answer NOUN answer
. PUNCT .

 SPACE 

It PRON it
’s VERB ’
the DET the
answer NOUN answer
told VERB tell
by ADP by
lines NOUN line
that PRON that
stretched VERB stretch
around ADP around
schools NOUN school
and CCONJ and
churc

In [21]:
# Ver named entities
for ent in doc.ents:
    print(ent.text, ent.label_)

Chicago GPE
America GPE
tonight TIME
three hours TIME
four hours TIME
first ORDINAL
Democrat NORP
Republican NORP
Hispanic NORP
Asian NORP
Native American NORP
Americans NORP
the United States of America GPE
tonight TIME
America GPE
Washington GPE
Des Moines GPE
Concord GPE
Charleston GPE
$5 and $10 and $20 MONEY
millions CARDINAL
Americans NORP
more than two centuries later DATE
Earth LOC
tonight TIME
tomorrow DATE
two CARDINAL
a century DATE
tonight TIME
Americans NORP
Iraq GPE
Afghanistan GPE
one year DATE
one CARDINAL
America GPE
tonight TIME
America GPE
221 years DATE
21 months ago DATE
winter DATE
this autumn night TIME
Main Street FAC
one CARDINAL
one CARDINAL
first ORDINAL
the Republican Party ORG
the White House ORG
the Democratic Party ORG
tonight TIME
Lincoln ORG
Americans NORP
tonight TIME
tonight TIME
American NORP
America GPE
Tonight TIME
America GPE
America GPE
tomorrow DATE
tonight TIME
Atlanta GPE
millions CARDINAL
one CARDINAL
Ann Nixon Cooper PERSON
106 years old DAT

In [22]:
# Ver frases
for sent in doc.sents:
    print(sent.text)

“Hello, Chicago.

If there is anyone out there who still doubts that America is a place where all things are possible, who still wonders if the dream of our founders is alive in our time, who still questions the power of our democracy, tonight is your answer.

It’s the answer told by lines that stretched around schools and churches in numbers this nation has never seen, by people who waited three hours and four hours, many for the first time in their lives, because they believed that this time must be different, that their voices could be that difference.

It’s the answer spoken by young and old, rich and poor, Democrat and Republican, black, white, Hispanic, Asian, Native American, gay, straight, disabled and not disabled.
Americans who sent a message to the world that we have never been just a collection of individuals or a collection of red states and blue states.

We are, and always will be, the United States of America.

It’s the answer that led those who’ve been told for so long 

In [23]:
# Ver tags
for token in doc:
    print(token.text, token.pos_)


“ PUNCT
Hello PROPN
, PUNCT
Chicago PROPN
. PUNCT

 SPACE
If SCONJ
there PRON
is VERB
anyone PRON
out ADV
there ADV
who PRON
still ADV
doubts VERB
that SCONJ
America PROPN
is AUX
a DET
place NOUN
where SCONJ
all DET
things NOUN
are AUX
possible ADJ
, PUNCT
who PRON
still ADV
wonders VERB
if SCONJ
the DET
dream NOUN
of ADP
our PRON
founders NOUN
is AUX
alive ADJ
in ADP
our PRON
time NOUN
, PUNCT
who PRON
still ADV
questions VERB
the DET
power NOUN
of ADP
our PRON
democracy NOUN
, PUNCT
tonight NOUN
is AUX
your PRON
answer NOUN
. PUNCT

 SPACE
It PRON
’s VERB
the DET
answer NOUN
told VERB
by ADP
lines NOUN
that PRON
stretched VERB
around ADP
schools NOUN
and CCONJ
churches NOUN
in ADP
numbers NOUN
this DET
nation NOUN
has AUX
never ADV
seen VERB
, PUNCT
by ADP
people NOUN
who PRON
waited VERB
three NUM
hours NOUN
and CCONJ
four NUM
hours NOUN
, PUNCT
many ADJ
for ADP
the DET
first ADJ
time NOUN
in ADP
their PRON
lives NOUN
, PUNCT
because SCONJ
they PRON
believed VERB
that SCONJ
this DET

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [24]:
# Inicializa el contador
contador = 0

# Se itera sobre los tokens del documento
for token in doc:
    # Se comprueba que no es un signo y se añade +1 al contador
    if not token.is_punct:
        contador += 1

print("Número de palabras en el texto:", contador)

Número de palabras en el texto: 1732


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Se inicia un contador y a partir de ahí se seleccionan los tokens que no son un signo y se añaden al contador

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [25]:
# Se inicia otro contador para obtener la cantidad de frases en el texto
contador = 0

# Se itera sobre el texto obteniendo las frases
for _ in doc.sents:
    contador += 1

print("Número de oraciones en el texto:", contador)

Número de oraciones en el texto: 83


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Se inicia un contador como el de antes y se itera en el texto sobre todas las frases gracias a la función sents, cada vez que se itera se añade +1 al contador

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [26]:
# Inicializo el contador de palabras y una variable tipo string vacia
contador = 0
sentencia_mas_larga = ""

# Se itera sobre las oraciones del documento y se obtienen la mas larga
for i in doc.sents:
    numero_palabras = sum(1 for token in i if not token.is_punct)
    if numero_palabras > contador:
        contador = numero_palabras
        sentencia_mas_larga = i.text

print("Oración mas grande ({} palabras):".format(contador))
print(sentencia_mas_larga)

Oración mas grande (61 palabras):
It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Inicializo un contador de palabras y la variable que albergará la oración más larga. Utilizo un bucle for para recorrer el documento y contar las palabras con el bucle que hemos hecho anteriormente iterando palabras en la frase recorrida. Luego en el output, saco el número de palabras de la frase mas larga y la frase mas larga.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes obtener el lema, el sufijo y el análisis morfológico de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [27]:
for token in doc:
    print("Token:", token.text)
    print("Lema:", token.lemma_)
    print("Sufijo:", token.suffix_)
    print("Análisis morfológico:", token.morph)

    # Añade un salto de linea en cada token
    print()

Token: “
Lema: "
Sufijo: “
Análisis morfológico: PunctSide=Ini|PunctType=Quot

Token: Hello
Lema: Hello
Sufijo: llo
Análisis morfológico: Number=Sing

Token: ,
Lema: ,
Sufijo: ,
Análisis morfológico: PunctType=Comm

Token: Chicago
Lema: Chicago
Sufijo: ago
Análisis morfológico: Number=Sing

Token: .
Lema: .
Sufijo: .
Análisis morfológico: PunctType=Peri

Token: 

Lema: 

Sufijo: 

Análisis morfológico: 

Token: If
Lema: if
Sufijo: If
Análisis morfológico: 

Token: there
Lema: there
Sufijo: ere
Análisis morfológico: 

Token: is
Lema: be
Sufijo: is
Análisis morfológico: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin

Token: anyone
Lema: anyone
Sufijo: one
Análisis morfológico: Number=Sing|PronType=Ind

Token: out
Lema: out
Sufijo: out
Análisis morfológico: 

Token: there
Lema: there
Sufijo: ere
Análisis morfológico: PronType=Dem

Token: who
Lema: who
Sufijo: who
Análisis morfológico: 

Token: still
Lema: still
Sufijo: ill
Análisis morfológico: 

Token: doubts
Lema: doubt
Sufijo: b

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Itero en cada token del texto y uso las funciones text, lemma_, suffix_ y morph para visualizar los campos requeridos

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [28]:
# Importa la lista de stop words desde spacy
from spacy.lang.en.stop_words import STOP_WORDS

# Define una lista de tokens sin las stop words
tokens_sin_stop_words = [token.text for token in doc if token.text.lower() not in STOP_WORDS]

# Imprime los tokens sin stop words
print("Tokens sin stop words:")
print(tokens_sin_stop_words)


Tokens sin stop words:
['“', 'Hello', ',', 'Chicago', '.', '\n', 'doubts', 'America', 'place', 'things', 'possible', ',', 'wonders', 'dream', 'founders', 'alive', 'time', ',', 'questions', 'power', 'democracy', ',', 'tonight', 'answer', '.', '\n', 'answer', 'told', 'lines', 'stretched', 'schools', 'churches', 'numbers', 'nation', 'seen', ',', 'people', 'waited', 'hours', 'hours', ',', 'time', 'lives', ',', 'believed', 'time', 'different', ',', 'voices', 'difference', '.', '\n', 'answer', 'spoken', 'young', 'old', ',', 'rich', 'poor', ',', 'Democrat', 'Republican', ',', 'black', ',', 'white', ',', 'Hispanic', ',', 'Asian', ',', 'Native', 'American', ',', 'gay', ',', 'straight', ',', 'disabled', 'disabled', '.', 'Americans', 'sent', 'message', 'world', 'collection', 'individuals', 'collection', 'red', 'states', 'blue', 'states', '.', '\n', ',', ',', 'United', 'States', 'America', '.', '\n', 'answer', 'led', 'told', 'long', 'cynical', 'fearful', 'doubtful', 'achieve', 'hands', 'arc', 'his

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Se carga la libreria de palabras que spacy considera stop words (palabras sin aporte al procesamiento del NLP) y se itera por cada token que no esté dentro de la libreria STOP_WORDS añadiendolo a la variable tokens_sin_stop_words

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [29]:
for token in doc:
    print(token.text, token.ent_type_)

“ 
Hello 
, 
Chicago GPE
. 

 
If 
there 
is 
anyone 
out 
there 
who 
still 
doubts 
that 
America GPE
is 
a 
place 
where 
all 
things 
are 
possible 
, 
who 
still 
wonders 
if 
the 
dream 
of 
our 
founders 
is 
alive 
in 
our 
time 
, 
who 
still 
questions 
the 
power 
of 
our 
democracy 
, 
tonight TIME
is 
your 
answer 
. 

 
It 
’s 
the 
answer 
told 
by 
lines 
that 
stretched 
around 
schools 
and 
churches 
in 
numbers 
this 
nation 
has 
never 
seen 
, 
by 
people 
who 
waited 
three TIME
hours TIME
and 
four TIME
hours TIME
, 
many 
for 
the 
first ORDINAL
time 
in 
their 
lives 
, 
because 
they 
believed 
that 
this 
time 
must 
be 
different 
, 
that 
their 
voices 
could 
be 
that 
difference 
. 

 
It 
’s 
the 
answer 
spoken 
by 
young 
and 
old 
, 
rich 
and 
poor 
, 
Democrat NORP
and 
Republican NORP
, 
black 
, 
white 
, 
Hispanic NORP
, 
Asian NORP
, 
Native NORP
American NORP
, 
gay 
, 
straight 
, 
disabled 
and 
not 
disabled 
. 
Americans NORP
who 
sent 
a 

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


El atributo es ent_type_, en el código muestro la etiqueta NER de cada token con un bucle for. Cuando el token no tiene etiqueta NER aparece vacio el string

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [30]:
for ent in doc.ents:
        print(f"Entidad: {ent.text}, Tipo: {ent.label_}, Explicación: {spacy.explain(ent.label_)}")

Entidad: Chicago, Tipo: GPE, Explicación: Countries, cities, states
Entidad: America, Tipo: GPE, Explicación: Countries, cities, states
Entidad: tonight, Tipo: TIME, Explicación: Times smaller than a day
Entidad: three hours, Tipo: TIME, Explicación: Times smaller than a day
Entidad: four hours, Tipo: TIME, Explicación: Times smaller than a day
Entidad: first, Tipo: ORDINAL, Explicación: "first", "second", etc.
Entidad: Democrat, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: Republican, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: Hispanic, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: Asian, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: Native American, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: Americans, Tipo: NORP, Explicación: Nationalities or religious or political groups
Entidad: the United States of Am

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


El código muestra como se itera sobra las entidades y se obtienen las que hay en el texto (text_) junto con su tipo (label_) y su explicación (spacy.explain(label_)

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [31]:
# Diccionario para almacenar el recuento de cada tipo de entidad + 1
entity_count = {}

# Itera sobre las entidades nombradas y cuenta cuántas hay de cada tipo
for ent in doc.ents:
    entity_label = ent.label_
    entity_count[entity_label] = entity_count.get(entity_label, 0) + 1

# Imprime el recuento de cada tipo de entidad
print("Entidades nombradas y su recuento:")
for label, count in entity_count.items():
    print(f"{label}: {count}")

Entidades nombradas y su recuento:
GPE: 24
TIME: 16
ORDINAL: 2
NORP: 12
MONEY: 1
CARDINAL: 8
DATE: 12
LOC: 2
FAC: 1
ORG: 5
PERSON: 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Creo un diccionario para almacenar cuantas entidades hay de cada tipo, con ello itero en cada entidad y subo el contador + 1 por cada una repetida. Una vez obtenidas, se imprime en el output las entidades con el recuento total de cada una de ellas.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [32]:
# Obtiene las etiquetas IOB para cada token
iob_labels = [(token.text, token.ent_iob_, token.ent_type_) for token in doc]

# Saca en el ouptut las etiquetas IOB para cada token
print("Token       | Etiqueta IOB")
print("---------------------------")
for token, iob, ent_type in iob_labels:
    print(f"{token.ljust(11)}| {iob}-{ent_type if ent_type else 'O'}")

Token       | Etiqueta IOB
---------------------------
“          | O-O
Hello      | O-O
,          | O-O
Chicago    | B-GPE
.          | O-O

          | O-O
If         | O-O
there      | O-O
is         | O-O
anyone     | O-O
out        | O-O
there      | O-O
who        | O-O
still      | O-O
doubts     | O-O
that       | O-O
America    | B-GPE
is         | O-O
a          | O-O
place      | O-O
where      | O-O
all        | O-O
things     | O-O
are        | O-O
possible   | O-O
,          | O-O
who        | O-O
still      | O-O
wonders    | O-O
if         | O-O
the        | O-O
dream      | O-O
of         | O-O
our        | O-O
founders   | O-O
is         | O-O
alive      | O-O
in         | O-O
our        | O-O
time       | O-O
,          | O-O
who        | O-O
still      | O-O
questions  | O-O
the        | O-O
power      | O-O
of         | O-O
our        | O-O
democracy  | O-O
,          | O-O
tonight    | B-TIME
is         | O-O
your       | O-O
answer     | O-O
.          | O-O

  

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Lo que entiendo por esquema IOB es que es un sistema estandard de etiquetado para el reconocimento de entidades que se asignan a cada token. Según la [documentacion](https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)):

* B (Beginning): Indica el inicio de una entidad nombrada.
* I (Inside): Indica que un token está dentro de una entidad nombrada que ya ha comenzado.
* O (Outside): Indica que un token no forma parte de una entidad nombrada.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué POS Tags aparecen en el texto, y cuántos hay tokens hay de cada uno?</span>

In [33]:
# Diccionario para almacenar el recuento de cada POS tag
pos_counts = {}

# Itera sobre los tokens y cuenta cuántos hay de cada POS tag
for token in doc:
    pos = token.pos_
    pos_counts[pos] = pos_counts.get(pos, 0) + 1

# Imprime el recuento de cada POS tag
print("Partes del discurso (POS tags) y su recuento:")
for pos, count in pos_counts.items():
    print(f"{pos}: {count}")

Partes del discurso (POS tags) y su recuento:
PUNCT: 205
PROPN: 56
SPACE: 46
SCONJ: 51
PRON: 243
VERB: 211
ADV: 63
AUX: 125
DET: 153
NOUN: 330
ADJ: 93
ADP: 189
CCONJ: 92
NUM: 18
PART: 53
SYM: 3
INTJ: 7
X: 1


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Las etiquetas gramaticales que podemos observar en el texto son el output del código. Para ello creo un diccionario para hacer lo mismo que en la pregunta 8. Se itera sobre los tokens y obtenemos la cantidad de POS tags que hay por cada uno.