**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): JESÚS TOMÁS ALMANSA FERNÁNDEZ

Fecha: 15 de abril de 2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>: 

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [71]:
doc.__iter__

<method-wrapper '__iter__' of spacy.tokens.doc.Doc object at 0x0000024B9AE42700>

In [81]:
doc.__iter__()

<generator at 0x24b9fdc5d60>

In [83]:
doc.__iter__().__next__()

“

In [75]:
doc.__len__

<method-wrapper '__len__' of spacy.tokens.doc.Doc object at 0x0000024B9AE42700>

In [73]:
doc.__len__()

1939

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [30]:
with open ("barack-obama-speech.txt", "r") as f:
    text = f.read()

In [31]:
for token in text[:10]:
    print(token)

“
H
e
l
l
o
,
 
C
h


In [38]:
# print(text) #Muestra todo el contenido del texto

Podemos obtener la longitud del texto de diferentes maneras

In [54]:
longitud_text = []
for token in text:
    longitud_text.append(token)
len(longitud_text)

8860

In [53]:
longitud_doc = []
for token in doc:
    longitud_doc.append(token)
len(longitud_doc)

1939

In [36]:
print("Longitud de la variable text: {}".format(len(text)))
print("Longitud de la variable doc: {}".format(len(doc)))

Longitud de la variable text: 8860
Longitud de la variable doc: 1939


In [51]:
# We can also obtain the length of the text with the built in function of the scapy library
doc.__len__()

1939

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

Como podemos observar, ambas variables poseen longitudes diferentes, pues **text** contiene todos los caracteres del texto y **doc** almacena todas las palabras del texto como tokens.

Es por eso que el número de palabras que contiene el texto es de 1939, habiéndolo obtenido de la variable **doc**

In [62]:
doc.__init__

<method-wrapper '__init__' of spacy.tokens.doc.Doc object at 0x0000024B9AE42700>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [44]:
for sent in doc.sents:
    print(sent)

“Hello, Chicago.

If there is anyone out there who still doubts that America is a place where all things are possible, who still wonders if the dream of our founders is alive in our time, who still questions the power of our democracy, tonight is your answer.

It’s the answer told by lines that stretched around schools and churches in numbers this nation has never seen, by people who waited three hours and four hours, many for the first time in their lives, because they believed that this time must be different, that their voices could be that difference.

It’s the answer spoken by young and old, rich and poor, Democrat and Republican, black, white, Hispanic, Asian, Native American, gay, straight, disabled and not disabled.
Americans who sent a message to the world that we have never been just a collection of individuals or a collection of red states and blue states.

We are, and always will be, the United States of America.

It’s the answer that led those who’ve been told for so long 

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [6]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes acceder al lema, lexema y morfemas de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [9]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [10]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [11]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [12]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 