**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): JESÚS TOMÁS ALMANSA FERNÁNDEZ

Fecha: 15 de abril de 2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>: 

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [3]:
doc.__iter__

<method-wrapper '__iter__' of spacy.tokens.doc.Doc object at 0x000001948785EE80>

In [4]:
doc.__iter__()

<generator at 0x194879d24a0>

In [5]:
doc.__iter__().__next__()

“

In [6]:
doc.__len__

<method-wrapper '__len__' of spacy.tokens.doc.Doc object at 0x000001948785EE80>

In [7]:
doc.__len__()

1939

In [8]:
doc[0], doc[0].is_punct, doc[-1], doc[-1].is_punct

(“, True, [, True)

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [9]:
with open ("barack-obama-speech.txt", "r") as f:
    text = f.read()

In [10]:
for token in text[:10]:
    print(token)

“
H
e
l
l
o
,
 
C
h


In [11]:
# print(text) #Muestra todo el contenido del texto

Podemos obtener la longitud del texto de diferentes maneras

In [12]:
print("Longitud de la variable text: {}".format(len(text)))
print("Longitud de la variable doc: {}".format(len(doc)))

Longitud de la variable text: 8860
Longitud de la variable doc: 1939


In [13]:
text.__len__()

8860

In [14]:
# We can also obtain the length of the text with the built in function of the scapy library
doc.__len__()

1939

Hay que tener en cuenta que el texto está lleno de signos de puntuación, espacios y caracteres especiales, es por ello que debemos filtrarlos antes de contar los tokens que hay en el texto.

In [15]:
palabras = []
for token in doc:
    if token.is_punct != True:
        if token.is_space != True:
            palabras.append(token)
print(len(palabras))

1686


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Como podemos observar, ambas variables poseen longitudes diferentes, pues **text** contiene todos los caracteres del texto y **doc** almacena todas las palabras del texto como tokens.

Es por eso que el número de palabras que contiene el texto es de 1686, habiéndolo obtenido de la variable **doc**

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [16]:
# for sent in doc.sents:
#     print(sent)

In [17]:
# sentences = doc.sents[0]

doc objects are generators,this means we cannot iterate over them as if it were a list or a tupple

In [18]:
# You can write in the first way or in the second one, it does not matter
# sentences = list(doc.sents)[0]
# print(sentences)

# Personally, I prefer the second one

sentences = list(doc.sents)
print(sentences[0])

“Hello, Chicago.



In [19]:
print(sentences[1])

If there is anyone out there who still doubts that America is a place where all things are possible, who still wonders if the dream of our founders is alive in our time, who still questions the power of our democracy, tonight is your answer.



In [20]:
len(sentences)

83

In [21]:
sentences.__len__()

83

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Gracias a la función **doc.sents** podemos acceder a cada frase de manera individual, convirtiendo primero el objeto 'generator' a lista, permitiéndonos utilizar los métodos ya conocidas como **len()** 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál es el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [22]:
len(sentences[0])

6

In [23]:
frase_longa_len = 0
frase_longa = ""
for frase in sentences:
    if len(frase) > frase_longa_len:
        frase_longa_len = len(frase)
        frase_longa = frase

print(frase_longa_len)
print(frase_longa)


67
It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Se pueden iterar las frases obteniendo una lista de las mismas con el comando **doc.sents**. De esta manera podemos buscar la frase con mayor longitud.

La frase más larga es *"It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.
"* con un total de 67 tokens

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes acceder al lema, lexema y morfemas de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

Accediendo a los tokens

In [24]:
print("El token es {} y su longitud es {}".format(doc[1], doc[1].__len__()))

El token es Hello y su longitud es 5


#### Lema

In [25]:
doc[1].lemma_

'Hello'

#### Lexema

In [27]:
doc[1].lex

<spacy.lexeme.Lexeme at 0x194897a3940>

In [26]:
print(doc[1].lex.text)

Hello


#### Morfema

In [28]:
doc[1].morph.to_dict()

{'Number': 'Sing'}

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

In [29]:
# Cargar el modelo de lenguaje correspondiente
nlp2 = en_core_web_sm.load()


# Procesar el texto que quieras analizar
doc2 = nlp('The cats are sleeping')


# Iterar sobre cada token en el texto y obtener información lingüística
for token in doc2:
    print('Token:', token.text)
    print('Lema:', token.lemma_)
    print('Lexema:', token.lex.text)
    print('Morfemas:', token.morph.to_dict())
    print()


Token: The
Lema: the
Lexema: The
Morfemas: {'Definite': 'Def', 'PronType': 'Art'}

Token: cats
Lema: cat
Lexema: cats
Morfemas: {'Number': 'Plur'}

Token: are
Lema: be
Lexema: are
Morfemas: {'Mood': 'Ind', 'Tense': 'Pres', 'VerbForm': 'Fin'}

Token: sleeping
Lema: sleep
Lexema: sleeping
Morfemas: {'Aspect': 'Prog', 'Tense': 'Pres', 'VerbForm': 'Part'}



In [30]:
for token in doc:
    print('Token:', token.text)
    print('Lema:', token.lemma_)
    print('Lexema:', token.lex.text)
    print('Morfemas:', token.morph.to_dict())
    print()


Token: “
Lema: "
Lexema: “
Morfemas: {'PunctSide': 'Ini', 'PunctType': 'Quot'}

Token: Hello
Lema: Hello
Lexema: Hello
Morfemas: {'Number': 'Sing'}

Token: ,
Lema: ,
Lexema: ,
Morfemas: {'PunctType': 'Comm'}

Token: Chicago
Lema: Chicago
Lexema: Chicago
Morfemas: {'Number': 'Sing'}

Token: .
Lema: .
Lexema: .
Morfemas: {'PunctType': 'Peri'}

Token: 

Lema: 

Lexema: 

Morfemas: {}

Token: If
Lema: if
Lexema: If
Morfemas: {}

Token: there
Lema: there
Lexema: there
Morfemas: {}

Token: is
Lema: be
Lexema: is
Morfemas: {'Mood': 'Ind', 'Number': 'Sing', 'Person': '3', 'Tense': 'Pres', 'VerbForm': 'Fin'}

Token: anyone
Lema: anyone
Lexema: anyone
Morfemas: {'Number': 'Sing', 'PronType': 'Ind'}

Token: out
Lema: out
Lexema: out
Morfemas: {}

Token: there
Lema: there
Lexema: there
Morfemas: {'PronType': 'Dem'}

Token: who
Lema: who
Lexema: who
Morfemas: {}

Token: still
Lema: still
Lexema: still
Morfemas: {}

Token: doubts
Lema: doubt
Lexema: doubts
Morfemas: {'Number': 'Sing', 'Person': '3',

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [31]:
stop_words = []
for token in doc:
    if token.is_stop == True:
        stop_words.append(token)
print(stop_words)

[If, there, is, anyone, out, there, who, still, that, is, a, where, all, are, who, still, if, the, of, our, is, in, our, who, still, the, of, our, is, your, It, ’s, the, by, that, around, and, in, this, has, never, by, who, three, and, four, many, for, the, first, in, their, because, they, that, this, must, be, that, their, could, be, that, It, ’s, the, by, and, and, and, and, not, who, a, to, the, that, we, have, never, been, just, a, of, or, a, of, and, We, are, and, always, will, be, the, of, It, ’s, the, that, those, who, ’ve, been, for, so, by, so, many, to, be, and, and, about, what, we, can, to, put, their, on, the, of, and, it, once, more, toward, the, of, a, It, ’s, been, a, but, because, of, what, we, did, on, this, in, this, at, this, has, to, more, We, did, n’t, with, much, or, many, Our, was, not, in, the, of, It, in, the, of, and, the, of, and, the, front, of, It, was, by, and, who, into, what, they, had, to, give, and, and, to, the, It, from, the, who, the, of, their, ’s

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Una stopword es una palabra común que suele eliminarse de un texto durante la fase de preprocesamiento del procesamiento del lenguaje natural (PLN) porque no aportan información para el análisis del texto. Las stopwords son palabras que aparecen con frecuencia en el lenguaje e incluyen palabras como "el", "un", "una", "en", "de", "y", "es", "en", etc. Estas palabras no tienen un significado por sí solas y no suelen ser útiles para determinar el tema o el sentimiento de un texto.

Eliminar las palabras clave puede ayudar a reducir la dimensionalidad de los datos del texto y facilitar y agilizar su procesamiento. Sin embargo, es importante tener en cuenta que la eliminación de las palabras clave a veces puede eliminar el contexto y el significado importantes de un texto. Por lo tanto, la decisión de eliminar o no las palabras clave depende del caso de uso específico y de los objetivos del análisis.

La mayoría de las bibliotecas de PNL, incluidas como NLTK y spaCy en Python, proporcionan una lista de palabras clave comunes que se pueden utilizar para eliminarlas de un texto. Estas bibliotecas también suelen ofrecer la posibilidad de añadir o eliminar palabras clave adicionales según sea necesario.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

Parece ser que las stopwords no tienene etiqueta NER, por lo que buscaremos sin tenerlas en cuenta

In [40]:
for token in doc:
    if token.is_stop != True:
        print(token.text, token.ent_type_)

“ 
Hello 
, 
Chicago GPE
. 

 
doubts 
America GPE
place 
things 
possible 
, 
wonders 
dream 
founders 
alive 
time 
, 
questions 
power 
democracy 
, 
tonight TIME
answer 
. 

 
answer 
told 
lines 
stretched 
schools 
churches 
numbers 
nation 
seen 
, 
people 
waited 
hours TIME
hours TIME
, 
time 
lives 
, 
believed 
time 
different 
, 
voices 
difference 
. 

 
answer 
spoken 
young 
old 
, 
rich 
poor 
, 
Democrat NORP
Republican NORP
, 
black 
, 
white 
, 
Hispanic NORP
, 
Asian NORP
, 
Native NORP
American NORP
, 
gay 
, 
straight 
, 
disabled 
disabled 
. 
Americans NORP
sent 
message 
world 
collection 
individuals 
collection 
red 
states 
blue 
states 
. 

 
, 
, 
United GPE
States GPE
America GPE
. 

 
answer 
led 
told 
long 
cynical 
fearful 
doubtful 
achieve 
hands 
arc 
history 
bend 
hope 
better 
day 
. 

 
long 
time 
coming 
, 
tonight TIME
, 
date 
election 
defining 
moment 
change 
come 
America GPE
. 

 
[ 
read 
] 


 
start 
money 
endorsements 
. 
campaign

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

El atributo del token en spaCy que contiene la etiqueta NER (Reconocimiento de Entidades Nombradas, por sus siglas en inglés) es token.ent_type_.

Cuando procesas un texto con spaCy, el modelo de lenguaje intenta identificar las entidades nombradas en el texto y les asigna una etiqueta NER. Esta etiqueta puede indicar el tipo de entidad nombrada (por ejemplo, "persona", "organización", "país", etc.) o puede indicar que el token no forma parte de ninguna entidad nombrada (en cuyo caso la etiqueta es una cadena vacía).

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [41]:
for entidad in doc.ents:
    print(entidad.text, entidad.label_)

Chicago GPE
America GPE
tonight TIME
three hours TIME
four hours TIME
first ORDINAL
Democrat NORP
Republican NORP
Hispanic NORP
Asian NORP
Native American NORP
Americans NORP
the United States of America GPE
tonight TIME
America GPE
Washington GPE
Des Moines GPE
Concord GPE
Charleston GPE
$5 and $10 and $20 MONEY
millions CARDINAL
Americans NORP
more than two centuries later DATE
Earth LOC
tonight TIME
tomorrow DATE
two CARDINAL
a century DATE
tonight TIME
Americans NORP
Iraq GPE
Afghanistan GPE
one year DATE
one CARDINAL
America GPE
tonight TIME
America GPE
221 years DATE
21 months ago DATE
winter DATE
this autumn night TIME
Main Street FAC
one CARDINAL
one CARDINAL
first ORDINAL
the Republican Party ORG
the White House ORG
the Democratic Party ORG
tonight TIME
Lincoln ORG
Americans NORP
tonight TIME
tonight TIME
American NORP
America GPE
Tonight TIME
America GPE
America GPE
tomorrow DATE
tonight TIME
Atlanta GPE
millions CARDINAL
one CARDINAL
Ann Nixon Cooper PERSON
106 years old DAT

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

PERSON: Nombres de personas.

NORP: Nacionalidades o grupos étnicos.

FAC: Edificios, aeropuertos, autopistas, puentes, etc.

ORG: Nombres de organizaciones.

GPE: Países, ciudades y estados.

LOC: Ubicaciones geográficas específicas (por ejemplo, montañas, ríos, etc).

PRODUCT: Nombres de productos (por ejemplo, "iPhone").

EVENT: Nombres de eventos (por ejemplo, "Olimpiadas").

WORK_OF_ART: Nombres de obras de arte (por ejemplo, "Mona Lisa").

LAW: Nombres de leyes y regulaciones.

LANGUAGE: Nombres de lenguajes naturales.

DATE: Fechas específicas o rangos de fechas.

TIME: Tiempos específicos o rangos de tiempo.

PERCENT: Valores de porcentaje (por ejemplo, "50%").

MONEY: Valores monetarios (por ejemplo, "$10").

QUANTITY: Medidas de cantidad (por ejemplo, "10 kilos").

ORDINAL: Números ordinales (por ejemplo, "1st", "2nd", etc).

CARDINAL: Números cardinales (por ejemplo, "1", "2", "3", etc).


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [46]:
entidades = {}
for entidad in doc.ents:
    # Obtener el texto y la etiqueta de la entidad
    tipo_entidad = entidad.label_
    texto_entidad = entidad.text
    # Actualizar el contador para el tipo de entidad correspondiente
    if tipo_entidad in entidades:
        entidades[tipo_entidad] += 1
    else:
        entidades[tipo_entidad] = 1

# Imprimir el resultado
print("Entidades encontradas en el texto:")
for tipo, frecuencia in entidades.items():
    print("- {}: {}".format(tipo, frecuencia))

Entidades encontradas en el texto:
- GPE: 24
- TIME: 16
- ORDINAL: 2
- NORP: 12
- MONEY: 1
- CARDINAL: 8
- DATE: 12
- LOC: 2
- FAC: 1
- ORG: 5
- PERSON: 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [35]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

El código IOB es un formato comúnmente utilizado para etiquetar secuencias de texto con información de entidades nombradas. IOB significa "Inside, Outside, Beginning", lo que indica si un token en una secuencia pertenece a una entidad ("Inside"), no pertenece a una entidad ("Outside"), o es el primer token de una entidad ("Beginning"). El código IOB se utiliza para representar las entidades nombradas como secuencias de tokens en lugar de tokens individuales, lo que hace que sea más fácil identificar y manejar las entidades en el análisis de texto.

Un ejemplo de una etiqueta de un único token utilizando el formato IOB podría ser:

    "Barack" -> B-PER (comenzando la entidad de tipo persona)

Un ejemplo de una etiqueta compuesta por varios tokens utilizando el formato IOB podría ser:

    "Barack Obama is the president of the United States." -> B-PER I-PER O O O O O O O

En este ejemplo, "Barack" y "Obama" forman una entidad de tipo persona, por lo que son etiquetados con las etiquetas "B-PER" (comenzando la entidad de tipo persona) y "I-PER" (continuando la entidad de tipo persona) respectivamente. El resto de las palabras en la oración no forman parte de ninguna entidad nombrada y se etiquetan como "O" (fuera de la entidad).