**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***

Fecha: Octubre 9 2023
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [7]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm


El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>:

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [8]:
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [10]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
len(doc)

1939

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [11]:
# Incluye aquí el código generado para poder responder a tu pregunta
len(doc)

1939

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * Con la funcion len, se puede obtener la cantidad de tokens que tiene el documento.
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta
oraciones = list(doc.sents)
# Retornando el numero de oraciones.
len(oraciones)

83

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * Con la funcion list(doc.sents) se cuentan y separan la cantidad de oraciones, teniendo en cuenta que el separador es el punto.
</br> * Con la funcion len() obtenemos la cantidad de oraciones separadas en la linea anterior.
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [16]:
# Incluye aquí el código generado para poder responder a tu pregunta
total_palabras = 0
for oracion in doc.sents:
    num_palabras = len([token for token in oracion if not token.is_punct])
    if num_palabras > total_palabras:
        total_palabras = num_palabras

print ('Numero de palabras en la oracion mas larga ' + str(total_palabras))

Numero de palabras en la oracion mas larga 61


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * Se crea un for para recorrer las oraciones en el documento. Posteriormente se divide la oracion en palabras para contar la cantidad de tokens actualizando la longitud  maxima de palabras comparando con la anterior oracion.
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes obtener el lema, el sufijo y el análisis morfológico de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [19]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Iterando los tokens en el documento.
lema = None
sufijo = None
analisis = None
for token in doc:
    # Se obtiene el lema, sufijo, y analisis morfologico a partir del token.
    lema = token.lemma_
    sufijo = token.suffix_
    analisis = token.morph

    # Retornando los valores para cada token analizado.
    print(f'Token: {token.text}, Lema: {lema}, Sufijo: {sufijo}, Análisis Morfológico: {analisis}')

Token: “, Lema: ", Sufijo: “, Análisis Morfológico: PunctSide=Ini|PunctType=Quot
Token: Hello, Lema: Hello, Sufijo: llo, Análisis Morfológico: Number=Sing
Token: ,, Lema: ,, Sufijo: ,, Análisis Morfológico: PunctType=Comm
Token: Chicago, Lema: Chicago, Sufijo: ago, Análisis Morfológico: Number=Sing
Token: ., Lema: ., Sufijo: ., Análisis Morfológico: PunctType=Peri
Token: 
, Lema: 
, Sufijo: 
, Análisis Morfológico: 
Token: If, Lema: if, Sufijo: If, Análisis Morfológico: 
Token: there, Lema: there, Sufijo: ere, Análisis Morfológico: 
Token: is, Lema: be, Sufijo: is, Análisis Morfológico: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin
Token: anyone, Lema: anyone, Sufijo: one, Análisis Morfológico: Number=Sing|PronType=Ind
Token: out, Lema: out, Sufijo: out, Análisis Morfológico: 
Token: there, Lema: there, Sufijo: ere, Análisis Morfológico: PronType=Dem
Token: who, Lema: who, Sufijo: who, Análisis Morfológico: 
Token: still, Lema: still, Sufijo: ill, Análisis Morfológico: 
Token: 

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * Para este punto se itera a traves de los token y con los atributos de 'lemma_', 'suffix_', 'morph' se obtienen los valores de cada token
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [28]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Filtrando palabras que no son stop words.
fitro = [token.text for token in doc if not token.is_stop]
#len(filtro)
# Unificando palabras filtradas en  nuevo texto.
texto_sin_stop_words = ''.join(fitro)

# Imprimiento el texto sin stop words.
#len(texto_sin_stop_words)
print(texto_sin_stop_words)

“Hello,Chicago.
doubtsAmericaplacethingspossible,wondersdreamfoundersalivetime,questionspowerdemocracy,tonightanswer.
answertoldlinesstretchedschoolschurchesnumbersnationseen,peoplewaitedhourshours,timelives,believedtimedifferent,voicesdifference.
answerspokenyoungold,richpoor,DemocratRepublican,black,white,Hispanic,Asian,NativeAmerican,gay,straight,disableddisabled.Americanssentmessageworldcollectionindividualscollectionredstatesbluestates.
,,UnitedStatesAmerica.
answerledtoldlongcynicalfearfuldoubtfulachievehandsarchistorybendhopebetterday.
longtimecoming,tonight,dateelectiondefiningmomentchangecomeAmerica.
[read]

startmoneyendorsements.campaignhatchedhallsWashington.beganbackyardsDesMoineslivingroomsConcordporchesCharleston.builtworkingmenwomenduglittlesavings$5$10$20cause.
grewstrengthyoungpeoplerejectedmythgenerationapathylefthomesfamiliesjobsofferedlittlepaysleep.
drewstrength--youngpeoplebravedbittercoldscorchingheatknockdoorsperfectstrangers,millionsAmericansvolunteeredorganiz

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * Para este caso se filtran las palabras que no son stop words mediante la iteracion con el bucle for usando el atributo is_stop del token.
</br> * Posteriormente se unifican las palabras filtrdas en un nuevo objeto que tendra la informacion de texto sin stop words.
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [29]:
# Incluye aquí el código generado para poder responder a tu pregunta
# El atributo que contiene la etiqueta NER es ent_type_
# Iterando el documento por los tokens.
for token in doc:
    print(f"Token: {token.text}, Etiqueta NER: {token.ent_type_}")

Token: “, Etiqueta NER: 
Token: Hello, Etiqueta NER: 
Token: ,, Etiqueta NER: 
Token: Chicago, Etiqueta NER: GPE
Token: ., Etiqueta NER: 
Token: 
, Etiqueta NER: 
Token: If, Etiqueta NER: 
Token: there, Etiqueta NER: 
Token: is, Etiqueta NER: 
Token: anyone, Etiqueta NER: 
Token: out, Etiqueta NER: 
Token: there, Etiqueta NER: 
Token: who, Etiqueta NER: 
Token: still, Etiqueta NER: 
Token: doubts, Etiqueta NER: 
Token: that, Etiqueta NER: 
Token: America, Etiqueta NER: GPE
Token: is, Etiqueta NER: 
Token: a, Etiqueta NER: 
Token: place, Etiqueta NER: 
Token: where, Etiqueta NER: 
Token: all, Etiqueta NER: 
Token: things, Etiqueta NER: 
Token: are, Etiqueta NER: 
Token: possible, Etiqueta NER: 
Token: ,, Etiqueta NER: 
Token: who, Etiqueta NER: 
Token: still, Etiqueta NER: 
Token: wonders, Etiqueta NER: 
Token: if, Etiqueta NER: 
Token: the, Etiqueta NER: 
Token: dream, Etiqueta NER: 
Token: of, Etiqueta NER: 
Token: our, Etiqueta NER: 
Token: founders, Etiqueta NER: 
Token: is, Etiquet

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
</br> * El atributo que contiene la etiqueta NER es ent_type_ para obtener el valor, se recorre el documento mediante un for tomando como referencia cada token del doc. y con el argumento ent_type_ propio del token se obtiene el valor.
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [30]:
# Incluye aquí el código generado para poder responder a tu pregunta
for entidad in doc.ents:
    print(f"Entidad: {entidad.text}, Tipo: {entidad.label_}")

Entidad: Chicago, Tipo: GPE
Entidad: America, Tipo: GPE
Entidad: tonight, Tipo: TIME
Entidad: three hours, Tipo: TIME
Entidad: four hours, Tipo: TIME
Entidad: first, Tipo: ORDINAL
Entidad: Democrat, Tipo: NORP
Entidad: Republican, Tipo: NORP
Entidad: Hispanic, Tipo: NORP
Entidad: Asian, Tipo: NORP
Entidad: Native American, Tipo: NORP
Entidad: Americans, Tipo: NORP
Entidad: the United States of America, Tipo: GPE
Entidad: tonight, Tipo: TIME
Entidad: America, Tipo: GPE
Entidad: Washington, Tipo: GPE
Entidad: Des Moines, Tipo: GPE
Entidad: Concord, Tipo: GPE
Entidad: Charleston, Tipo: GPE
Entidad: $5 and $10 and $20, Tipo: MONEY
Entidad: millions, Tipo: CARDINAL
Entidad: Americans, Tipo: NORP
Entidad: more than two centuries later, Tipo: DATE
Entidad: Earth, Tipo: LOC
Entidad: tonight, Tipo: TIME
Entidad: tomorrow, Tipo: DATE
Entidad: two, Tipo: CARDINAL
Entidad: a century, Tipo: DATE
Entidad: tonight, Tipo: TIME
Entidad: Americans, Tipo: NORP
Entidad: Iraq, Tipo: GPE
Entidad: Afghanista

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
PERSON: Representa nombres de personas, tanto nombres propios como apellidos.</br>
ORG: Representa organizaciones, nombres de empresas, instituciones, etc.</br>
LOC: Representa ubicaciones geográficas, ciudades, países, ríos, montañas, etc.</br>
GPE (Geo-Political Entity): Representa entidades políticas y geográficas, como países, estados, regiones, ciudades, etc.</br>
DATE: Representa expresiones de fecha y tiempo, como fechas específicas, periodos de tiempo, horas, años, etc. </br>
TIME: Representa horas y momentos específicos en el tiempo.</br>
MONEY: Representa expresiones monetarias, como cantidades de dinero o monedas.</br>
PERCENT: Representa porcentajes o valores numéricos seguidos de un signo de porcentaje (%).</br>
QUANTITY: Representa cantidades y medidas, como números acompañados de unidades de medida.</br>
CARDINAL: Representa números cardinales, como números enteros.</br>
ORDINAL: Representa números ordinales, como "primer", "segundo", "tercero", etc.</br>
PRODUCT: Representa nombres de productos y artículos.</br>
EVENT: Representa eventos, conferencias, festivales y otros acontecimientos.</br>
WORK_OF_ART: Representa obras de arte, como pinturas, libros, canciones, etc.</br>
LAW: Representa leyes y regulaciones legales.</br>
LANGUAGE: Representa nombres de idiomas.</br>
NORP (Nationalities or Religious or Political Groups): Representa nacionalidades, grupos religiosos o políticos.</br>
FAC (Facility): Representa instalaciones o edificios, como aeropuertos, hospitales, estaciones de tren, etc.</br>
</br>
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [31]:
# Incluye aquí el código generado para poder responder a tu pregunta
conteo_entidades = {}
entidad_texto = None
entidad_tipo = None

for entidad in doc.ents:
    entidad_texto = entidad.text
    entidad_tipo = entidad.label_

    if entidad_texto in conteo_entidades:
        conteo_entidades[entidad_texto][0] += 1
    else:
        conteo_entidades[entidad_texto] = [1, entidad_tipo]

for entidad, (recuento, tipo) in conteo_entidades.items():
    print(f"Entidad: {entidad}, Tipo: {tipo}, Recuento: {recuento}")


Entidad: Chicago, Tipo: GPE, Recuento: 1
Entidad: America, Tipo: GPE, Recuento: 11
Entidad: tonight, Tipo: TIME, Recuento: 11
Entidad: three hours, Tipo: TIME, Recuento: 1
Entidad: four hours, Tipo: TIME, Recuento: 1
Entidad: first, Tipo: ORDINAL, Recuento: 2
Entidad: Democrat, Tipo: NORP, Recuento: 1
Entidad: Republican, Tipo: NORP, Recuento: 1
Entidad: Hispanic, Tipo: NORP, Recuento: 1
Entidad: Asian, Tipo: NORP, Recuento: 1
Entidad: Native American, Tipo: NORP, Recuento: 1
Entidad: Americans, Tipo: NORP, Recuento: 4
Entidad: the United States of America, Tipo: GPE, Recuento: 1
Entidad: Washington, Tipo: GPE, Recuento: 1
Entidad: Des Moines, Tipo: GPE, Recuento: 1
Entidad: Concord, Tipo: GPE, Recuento: 1
Entidad: Charleston, Tipo: GPE, Recuento: 1
Entidad: $5 and $10 and $20, Tipo: MONEY, Recuento: 1
Entidad: millions, Tipo: CARDINAL, Recuento: 2
Entidad: more than two centuries later, Tipo: DATE, Recuento: 1
Entidad: Earth, Tipo: LOC, Recuento: 1
Entidad: tomorrow, Tipo: DATE, Recue

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
* para este caso se iteran las entidades del documento, obteniendo el texto y tipo de identidad, agregando la entidad al diccionario para realizar los incrementos, por ultimo se imprimen las entidades con los respectivos re conteos.</br>
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué POS Tags aparecen en el texto, y cuántos hay tokens hay de cada uno?</span>

In [None]:
# Incluye aquí el código generado para poder responder a tu pregunta

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
