**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos): Joel Elí Orellana Martínez

Fecha: 27/04/2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos** 

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>: 

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
# Trabajaré desde Google Colab, por lo que vamos a importar el drive y cargar el drive
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path('/content/gdrive/MyDrive/Colab Notebooks/PLN_ACT1/'+file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos 

In [4]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
# creando una funcion para mostrar las entidades
def show_ents(doc):
    for ent in doc.ents:
        print(ent.text, ent.label_, str(spacy.explain(ent.label_)), ent.start_char, ent.end_char)
show_ents(doc)
# la funcion anterior muestra:
# 1. el texto de la entidad con ent.text
# 2. el tipo de la entidad con ent.label_
# 3. el tipo de entidad con spacy.explain(ent.label_)
# 4. el inicio de la entidad con ent.start_char
# 5. el fin de la entidad con ent.end_char

Chicago GPE Countries, cities, states 8 15
America GPE Countries, cities, states 68 75
tonight TIME Times smaller than a day 235 242
three hours TIME Times smaller than a day 392 403
four hours TIME Times smaller than a day 408 418
first ORDINAL "first", "second", etc. 433 438
Democrat NORP Nationalities or religious or political groups 616 624
Republican NORP Nationalities or religious or political groups 629 639
Hispanic NORP Nationalities or religious or political groups 655 663
Asian NORP Nationalities or religious or political groups 665 670
Native American NORP Nationalities or religious or political groups 672 687
Americans NORP Nationalities or religious or political groups 731 740
the United States of America GPE Countries, cities, states 905 933
tonight TIME Times smaller than a day 1201 1208
America GPE Countries, cities, states 1306 1313
Washington GPE Countries, cities, states 1427 1437
Des Moines GPE Countries, cities, states 1468 1478
Concord GPE Countries, cities, state

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [18]:
# Incluye aquí el código generado para poder responder a tu pregunta
# R/ Se puede contar el numero de tokens del objeto doc
word_count = 0
for token in doc:
    if not token.is_punct and not token.is_space: # si el token no es punto ni espacio, entonces es una palabra
        word_count += 1
print(str(word_count) + ' palabras')

1686 palabras


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Para contar todas las palabras se realizará un recorrido o iteración sobre el documento, se cuenta una palabra como válida siempre que no sea signo de puntuación, lo que se verifica con token.is_punct y token.is_space para verificar que no sea un espacio en blanco.

El contador muestra al final un total de 1686 palabras.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [6]:
# Incluye aquí el código generado para poder responder a tu pregunta
sents = [sent for sent in doc.sents] # se obtiene una lista de oraciones del objeto doc
len(sents) # se obtiene el numero de oraciones

83

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
 Por medio del atributo sents del objeto doc, podemos obtener todas las oraciones del texto, la lista comprimida sirva para extraer oración por oración cada una de las que se encuentran en el texto. Finalmente, se calcula el tamaño de la lista de oraciones con len(sents).
El total de oraciones en el texto es de 83.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta
longest = max(sents, key=lambda sent: len(sent))
print(f'La oración más larga es "{longest}" con {len(longest)} palabras')

La oración más larga es "It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.
" con 67 palabras


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Por medio de una función anónima utilizando lambda, se encuentra el tamaño de cada oracion de la lista sents, la función max sirve para devolver la oración de mayor longitud.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes acceder al lema, lexema y morfemas de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta
# he encontrado lexema en https://spacy.io/usage/spacy-101
for token in doc:
    if not token.is_punct and not token.is_space:
        lexeme = token.lex.text
        lemma = token.lemma_
        morphema = token.morph
        print(f"TOKEN: {token}, LEXEMA: {lexeme}, LEMMA: {lemma}, MORPHEMA: {morphema}")

TOKEN: Hello, LEXEMA: Hello, LEMMA: Hello, MORPHEMA: Number=Sing
TOKEN: Chicago, LEXEMA: Chicago, LEMMA: Chicago, MORPHEMA: Number=Sing
TOKEN: If, LEXEMA: If, LEMMA: if, MORPHEMA: 
TOKEN: there, LEXEMA: there, LEMMA: there, MORPHEMA: 
TOKEN: is, LEXEMA: is, LEMMA: be, MORPHEMA: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
TOKEN: anyone, LEXEMA: anyone, LEMMA: anyone, MORPHEMA: Number=Sing|PronType=Ind
TOKEN: out, LEXEMA: out, LEMMA: out, MORPHEMA: 
TOKEN: there, LEXEMA: there, LEMMA: there, MORPHEMA: PronType=Dem
TOKEN: who, LEXEMA: who, LEMMA: who, MORPHEMA: 
TOKEN: still, LEXEMA: still, LEMMA: still, MORPHEMA: 
TOKEN: doubts, LEXEMA: doubts, LEMMA: doubt, MORPHEMA: Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
TOKEN: that, LEXEMA: that, LEMMA: that, MORPHEMA: 
TOKEN: America, LEXEMA: America, LEMMA: America, MORPHEMA: Number=Sing
TOKEN: is, LEXEMA: is, LEMMA: be, MORPHEMA: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
TOKEN: a, LEXEMA: a, LEMMA: a, MORPHEMA: Definite=

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Podemos extraer información sobre las palabras del documento, por medio de los siguientes atributos:

```token.lemma_``` extrae el lema de cada token

```token.lex.text``` extrae el lexema de cada token

```token.morph``` extrae el morfema de cada token

Es importante mencionar que sPaCy no tiene en la clase Doc un atributo para encontrar un lexema tal y como se haría en un análisis sintáctico.

token.morph devuelve el número, persona, tiempo y forma de verbo de cada token.



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [17]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Primero, SpaCy tiene un set de palabras ya establecidas como stop words, la cual se puede acceder con el atributo token.is_stop
# Ahora, vamos a identificar cuantas stop words hay en el doc
stopword_count = 0
for token in doc:
    if not token.is_stop:
        stopword_count += 1
print(f"El total de stop words en el texto es de {stopword_count} palabras. ") # total de palabras que no son stopwords
text_without_stopwords = ' '.join([token.text for token in doc if not token.is_stop])
print(f"El texto sin stopwords es: {text_without_stopwords}")

El total de stop words en el texto es de 906 palabras. 
El texto sin stopwords es: “ Hello , Chicago . 
 doubts America place things possible , wonders dream founders alive time , questions power democracy , tonight answer . 
 answer told lines stretched schools churches numbers nation seen , people waited hours hours , time lives , believed time different , voices difference . 
 answer spoken young old , rich poor , Democrat Republican , black , white , Hispanic , Asian , Native American , gay , straight , disabled disabled . Americans sent message world collection individuals collection red states blue states . 
 , , United States America . 
 answer led told long cynical fearful doubtful achieve hands arc history bend hope better day . 
 long time coming , tonight , date election defining moment change come America . 
 [ read ] 

 start money endorsements . campaign hatched halls Washington . began backyards Des Moines living rooms Concord porches Charleston . built working men women

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>

El atributo .is_stop indica si el token es una stop word, y el atributo .text contiene el texto del token. Para contar las stop words, se usa un ciclo for para recorrer todas las palabras del documento. Luego, se puede filtrar el texto original del documento con el atributo .is_stop y .text sobre todo el documento y uniendo luego con la función join.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [10]:
# Incluye aquí el código generado para poder responder a tu pregunta
# El atributo que contiene entidades es el .ents del documento de sPaCy doc
entity_counter = 0
for ent in doc.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))
    entity_counter += 1
print(f'El total de entidades mostradas en el texto es de: {entity_counter}')

Chicago - GPE - Countries, cities, states
America - GPE - Countries, cities, states
tonight - TIME - Times smaller than a day
three hours - TIME - Times smaller than a day
four hours - TIME - Times smaller than a day
first - ORDINAL - "first", "second", etc.
Democrat - NORP - Nationalities or religious or political groups
Republican - NORP - Nationalities or religious or political groups
Hispanic - NORP - Nationalities or religious or political groups
Asian - NORP - Nationalities or religious or political groups
Native American - NORP - Nationalities or religious or political groups
Americans - NORP - Nationalities or religious or political groups
the United States of America - GPE - Countries, cities, states
tonight - TIME - Times smaller than a day
America - GPE - Countries, cities, states
Washington - GPE - Countries, cities, states
Des Moines - GPE - Countries, cities, states
Concord - GPE - Countries, cities, states
Charleston - GPE - Countries, cities, states
$5 and $10 and $20 -

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
El atributo .ents contiene todas las entidades de la oración. Luego, se utiliza un ciclo for para recorrer todas las entidades. El atributo .label_ contiene la etiqueta de cada entidad. La cual puede obtenerse su explicación con la función spacy.explain.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [11]:
# Incluye aquí el código generado para poder responder a tu pregunta
total_ner_labels = 0
for label in nlp.pipe_labels["ner"]:
    print(label + ' - ' + spacy.explain(label))
    total_ner_labels += 1
print('Total of ner labels supported by sPaCy: ' + str(total_ner_labels))

CARDINAL - Numerals that do not fall under another type
DATE - Absolute or relative dates or periods
EVENT - Named hurricanes, battles, wars, sports events, etc.
FAC - Buildings, airports, highways, bridges, etc.
GPE - Countries, cities, states
LANGUAGE - Any named language
LAW - Named documents made into laws.
LOC - Non-GPE locations, mountain ranges, bodies of water
MONEY - Monetary values, including unit
NORP - Nationalities or religious or political groups
ORDINAL - "first", "second", etc.
ORG - Companies, agencies, institutions, etc.
PERCENT - Percentage, including "%"
PERSON - People, including fictional
PRODUCT - Objects, vehicles, foods, etc. (not services)
QUANTITY - Measurements, as of weight or distance
TIME - Times smaller than a day
WORK_OF_ART - Titles of books, songs, etc.
Total of ner labels supported by sPaCy: 18


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
Spacy soporta 18 entidades, las cuales pueden verse mediante .label_['ner'] de el objeto nlp.pipe_labels.
La explicación de cada entidad se puede obtener con la función spacy.explain.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [12]:
# Incluye aquí el código generado para poder responder a tu pregunta
ents = {}
for ent in doc.ents:
    if ent.label_ in ents:
        ents[ent.label_] += 1
    else:
        ents[ent.label_] = 1

for label, count in ents.items():
    print(f'{label}: {count}')

GPE: 24
TIME: 16
ORDINAL: 2
NORP: 12
MONEY: 1
CARDINAL: 8
DATE: 12
LOC: 2
FAC: 1
ORG: 5
PERSON: 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
En el discurso de Barack Obama, se presentan en total 11 entidades, las cuales pueden verse mediante .label_['ner'] de el objeto nlp.pipe_labels.
La entidad que aparece con más frecuencia es 'GPE' la cual aparece 24 veces, y se aplica a las instituciones paises, ciudades y estados, esto es lógico debido a que al ser un discurso político está cargado de lugares.
La entidad tiempo TIME aparece 16 veces, ya que el discurso continuamente da referencia a intervalos de tiempo, menores a un día.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Imprime una etiqueta IOB para un único token
token = doc[153:161]  # Obtener una oracion con un unico token que es IOB
iob_tags = [token.ent_iob_ + "-" + token.ent_type_ if token.ent_type_ else "O" for token in token]
print(f"Secuencia de tokens: {[token.text for token in token]}, Etiqueta IOB: {'-'.join(iob_tags)}")

# Imprime una etiqueta IOB compuesta por varios tokens
phrase = doc[182:195]  # Obtén una secuencia de tokens
iob_tags = [token.ent_iob_ + "-" + token.ent_type_ if token.ent_type_ else "O" for token in phrase]
print(f"Secuencia de tokens: {[token.text for token in phrase]}, Etiqueta IOB: {'-'.join(iob_tags)}")


Secuencia de tokens: ['Americans', 'who', 'sent', 'a', 'message', 'to', 'the', 'world'], Etiqueta IOB: B-NORP-O-O-O-O-O-O-O
Secuencia de tokens: ['We', 'are', ',', 'and', 'always', 'will', 'be', ',', 'the', 'United', 'States', 'of', 'America'], Etiqueta IOB: O-O-O-O-O-O-O-O-B-GPE-I-GPE-I-GPE-I-GPE-I-GPE


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
El código IOB se utiliza para el reconocimiento de entidades dentro de una cadena de texto. Una etiqueta IOB se puede obtener mediante el atributo .ent_iob_, donde "B" significa que el token empieza una entidad, "I" significa que el token esta dentro de una entidad, "O" significa que el token esta fuera de una entidad.
Observe que en los ejemplos anteriores, la primera oración contiene un token clasificado como "B", la cual es la palabra "Americans". La segunda oración contiene una entidad compuesta de varios tokens, por lo que el primer token es marcado como B, y todos los demas se marcan como I. Es el caso de "United States of America".


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [20]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Es la misma respuesta de la pregunta 1
word_count = 0
for token in doc:
    if not token.is_punct and not token.is_space: # si el token no es punto ni espacio, entonces es una palabra
        word_count += 1
print(str(word_count) + ' palabras')

1686 palabras


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
La pregunta fue contestada en 1). 

En total hay 1686 palabras no clasificadas ni como signos de puntuación ni como espacios.