**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Alex Andino Yuquilema

Fecha: 29-04-2024
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [1]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>:

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [2]:
#Cargar el modelo, en conjunto con el <i>input</i>
nlp = en_core_web_sm.load()
file_name = "barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [3]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.
print("interar tokens para acceder a cada uno de ellos")
print([t.text for t in doc])

print("Numero de tokens en el documento")
print(len(doc))

print("Validar si una palabra existe en la entrada, no cuenta la cantidad o frecuencia")
print(doc.has_extension("election"))

print("Cuenta la frecuencia de las palabras de una entrada")
from spacy.attrs import ORTH
print(doc.count_by(ORTH))

print("Entidades en la entrada")
ents = list(doc.ents)
print(ents) #para llamar al nombre de la entidad ents.label_ y ents.text para el valor

print("puntuacion de la categoria mapeada de texto con span")
print(doc.cats)

print("oraciones presentes en el documento")
sents = list(doc.sents)
print(len(sents))
print(doc.vector_norm)
print(doc.vector.dtype)

interar tokens para acceder a cada uno de ellos
['“', 'Hello', ',', 'Chicago', '.', '\n', 'If', 'there', 'is', 'anyone', 'out', 'there', 'who', 'still', 'doubts', 'that', 'America', 'is', 'a', 'place', 'where', 'all', 'things', 'are', 'possible', ',', 'who', 'still', 'wonders', 'if', 'the', 'dream', 'of', 'our', 'founders', 'is', 'alive', 'in', 'our', 'time', ',', 'who', 'still', 'questions', 'the', 'power', 'of', 'our', 'democracy', ',', 'tonight', 'is', 'your', 'answer', '.', '\n', 'It', '’s', 'the', 'answer', 'told', 'by', 'lines', 'that', 'stretched', 'around', 'schools', 'and', 'churches', 'in', 'numbers', 'this', 'nation', 'has', 'never', 'seen', ',', 'by', 'people', 'who', 'waited', 'three', 'hours', 'and', 'four', 'hours', ',', 'many', 'for', 'the', 'first', 'time', 'in', 'their', 'lives', ',', 'because', 'they', 'believed', 'that', 'this', 'time', 'must', 'be', 'different', ',', 'that', 'their', 'voices', 'could', 'be', 'that', 'difference', '.', '\n', 'It', '’s', 'the', 'answ

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [4]:
# Incluye aquí el código generado para poder responder a tu pregunta
#los tokens represenan la cantidad de palabras que el texto de entrada tiene, incluyendo signos de puntuacion.
print("Numero de tokens en el documento con signos de puntuacion")
print(len(doc))

print("Numero de tokens en el documento sin signos de puntuacion")
#Una propiedad del token permita excluir los signos de puntacion (is_punct	Is the token punctuation?), en la funcion siguiente,
#se contara +1 si el token no integra signos de puntuacion. https://spacy.io/api/token
num_palabras_sin_puntuacion = sum(1 for token in doc if not token.is_punct)
print(num_palabras_sin_puntuacion)

Numero de tokens en el documento con signos de puntuacion
1939
Numero de tokens en el documento sin signos de puntuacion
1732


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#Una propiedad del token permita excluir los signos de puntacion (is_punct	Is the token punctuation?), en la funcion siguiente,
#se contara +1 si el token no integra signos de puntuacion. https://spacy.io/api/token

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [5]:
# Incluye aquí el código generado para poder responder a tu pregunta
print("oraciones presentes en el documento")
sents = list(doc.sents)
print(len(sents))


oraciones presentes en el documento
83


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#se aplica la funcion len, para ver los indices que presenta la variable sents, este atributo aplicado a la varaible doc
#permite generar una neuva lista con la cantidad de oraciones, para separar las oraciones toma en cuenta los signos de puntuacion 
# que separan una horacion como '.', ';', ':', '!', '?', etc.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [6]:
# Incluye aquí el código generado para poder responder a tu pregunta
sents = list(doc.sents)
oracion_mas_larga = max(sents, key=len)

numero_palabras = len(oracion_mas_larga)
print("Numero de palabras:",numero_palabras)
print("Oración más larga:", oracion_mas_larga.text)


Numero de palabras: 67
Oración más larga: It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.



<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#pra obtener la oracion mas larga, se utiliza la propiedad doc.sents para extraer las oraciones
#posterior se aplica la funcion max para obtener el valor de la lista con mayor longitud
#finalmente se aplica la funcion len para obtener la cantidad de palabras en la oracion.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes obtener el lema, el sufijo y el análisis morfológico de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta
for token in doc:
    # propeidad del token lemma_ (obtener el lema en forma de texto), alternativa lemma (otbener el lema como objeto lemma, recuperando las detalles del lema)
    lema = token.lemma_
    
    # propeidad del token suffix_(sufijo en forma de texto), suffix (el valor del objeto sufijo con mas propeidades), donde se obtiene las
    #ultimas letras del token
    sufijo = token.suffix_
    
    # propeidad que obtiene el analisis morfologico, disponigle unicamente en la version 3.0 de spacy y extrae la caracteristica del token, como 
    #si la palabra es singular, es un signo de puntuacion como ',', '.', etc.
    analisis_morfologico = token.morph
    
    print("Token:", token.text)
    print("Lema:", lema)
    print("Sufijo:", sufijo)
    print("Análisis Morfológico:", analisis_morfologico)
    print()


Token: “
Lema: "
Sufijo: “
Análisis Morfológico: PunctSide=Ini|PunctType=Quot

Token: Hello
Lema: Hello
Sufijo: llo
Análisis Morfológico: Number=Sing

Token: ,
Lema: ,
Sufijo: ,
Análisis Morfológico: PunctType=Comm

Token: Chicago
Lema: Chicago
Sufijo: ago
Análisis Morfológico: Number=Sing

Token: .
Lema: .
Sufijo: .
Análisis Morfológico: PunctType=Peri

Token: 

Lema: 

Sufijo: 

Análisis Morfológico: 

Token: If
Lema: if
Sufijo: If
Análisis Morfológico: 

Token: there
Lema: there
Sufijo: ere
Análisis Morfológico: 

Token: is
Lema: be
Sufijo: is
Análisis Morfológico: Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin

Token: anyone
Lema: anyone
Sufijo: one
Análisis Morfológico: Number=Sing|PronType=Ind

Token: out
Lema: out
Sufijo: out
Análisis Morfológico: 

Token: there
Lema: there
Sufijo: ere
Análisis Morfológico: PronType=Dem

Token: who
Lema: who
Sufijo: who
Análisis Morfológico: 

Token: still
Lema: still
Sufijo: ill
Análisis Morfológico: 

Token: doubts
Lema: doubt
Sufijo: b

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
# propeidad del token lemma_ (obtener el lema en forma de texto), alternativa lemma (otbener el lema como objeto lemma, recuperando las detalles del lema)
# propeidad del token suffix_(sufijo en forma de texto), suffix (el valor del objeto sufijo con mas propeidades), donde se obtiene la
    #ultimas letras del token
# propeidad que obtiene el analisis morfologico, disponigle unicamente en la version 3.0 de spacy y extrae la caracteristica del token, como 
    #si la palabra es singular, es un signo de puntuacion como ',', '.', etc.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta
palabras_sin_stopwords = []
for token in doc:
    #se imprime los tokens stop words
    if token.is_stop:
        print("stop word:", token.text)
        print()
    if not token.is_stop:
        palabras_sin_stopwords.append(token.text)
        
# Convertir la lista de palabras sin stop words a una cadena
texto_sin_stopwords = ' '.join(palabras_sin_stopwords)
print("Texto sin stop words:",texto_sin_stopwords)

    

stop word: If

stop word: there

stop word: is

stop word: anyone

stop word: out

stop word: there

stop word: who

stop word: still

stop word: that

stop word: is

stop word: a

stop word: where

stop word: all

stop word: are

stop word: who

stop word: still

stop word: if

stop word: the

stop word: of

stop word: our

stop word: is

stop word: in

stop word: our

stop word: who

stop word: still

stop word: the

stop word: of

stop word: our

stop word: is

stop word: your

stop word: It

stop word: ’s

stop word: the

stop word: by

stop word: that

stop word: around

stop word: and

stop word: in

stop word: this

stop word: has

stop word: never

stop word: by

stop word: who

stop word: three

stop word: and

stop word: four

stop word: many

stop word: for

stop word: the

stop word: first

stop word: in

stop word: their

stop word: because

stop word: they

stop word: that

stop word: this

stop word: must

stop word: be

stop word: that

stop word: their

stop word: coul

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#Se utiliza un ciclo for para recorrer los tokens, posterior se utiliza la propiedad is_stop del token par avlaidar si ese es un stop word
#en el segundo if, se valida que el token no es stop word y lo guarda en una nueva lista vacia de tokens
#finalmente se concatena a una cadena la lsita de tokens.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [9]:
# Incluye aquí el código generado para poder responder a tu pregunta
#para llamar al nombre de la entidad ents.label_ y ents.text para el valor
ents = list(doc.ents)

for token in doc:
    # Verificar si el token es parte de una entidad nombrada
    if token.ent_type_: # and token.ent_type_ == "PERSON": #imprimir por token entidad PERSON
        print("Token:", token.text)
        print("Etiqueta NER:", token.ent_type_)
print("________________________________________________________________")

for token in ents:
    print("Token ents:", token.text)
    print("Etiqueta ents NER:", token.label_)



Token: Chicago
Etiqueta NER: GPE
Token: America
Etiqueta NER: GPE
Token: tonight
Etiqueta NER: TIME
Token: three
Etiqueta NER: TIME
Token: hours
Etiqueta NER: TIME
Token: four
Etiqueta NER: TIME
Token: hours
Etiqueta NER: TIME
Token: first
Etiqueta NER: ORDINAL
Token: Democrat
Etiqueta NER: NORP
Token: Republican
Etiqueta NER: NORP
Token: Hispanic
Etiqueta NER: NORP
Token: Asian
Etiqueta NER: NORP
Token: Native
Etiqueta NER: NORP
Token: American
Etiqueta NER: NORP
Token: Americans
Etiqueta NER: NORP
Token: the
Etiqueta NER: GPE
Token: United
Etiqueta NER: GPE
Token: States
Etiqueta NER: GPE
Token: of
Etiqueta NER: GPE
Token: America
Etiqueta NER: GPE
Token: tonight
Etiqueta NER: TIME
Token: America
Etiqueta NER: GPE
Token: Washington
Etiqueta NER: GPE
Token: Des
Etiqueta NER: GPE
Token: Moines
Etiqueta NER: GPE
Token: Concord
Etiqueta NER: GPE
Token: Charleston
Etiqueta NER: GPE
Token: $
Etiqueta NER: MONEY
Token: 5
Etiqueta NER: MONEY
Token: and
Etiqueta NER: MONEY
Token: $
Etiqueta N

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#para validar que atributo dle token contiene etiqueta NER, se dispone de 2 variantes
#primera es procesar con el token, donde la propiedad ent_type_(nombre entidad), ent_type(objeto de tipo entidad),permite extraer la etiqueta.
#la alternativa es directamente tomar al doc y con la pripeidad ents, permite extraer las etiquetas NER.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [10]:
# Incluye aquí el código generado para poder responder a tu pregunta
nueva_lista_entidades = []
# Crear un conjunto para almacenar las etiquetas NER sin repetir
etiquetas_sin_repetidos = set()
for token in doc:
    # Verificar si el token es parte de una entidad nombrada
    if token.ent_type_:
        nueva_lista_entidades.append(token.ent_type_)
        etiquetas_sin_repetidos.add(token.ent_type_)
        
# Convertir el conjunto a una lista
lista_etiquetas_sin_repetidos = list(etiquetas_sin_repetidos)

print("lista:",lista_etiquetas_sin_repetidos)
print("objeto tipo lista:",set(nueva_lista_entidades))

        

lista: ['DATE', 'ORG', 'TIME', 'CARDINAL', 'PERSON', 'NORP', 'GPE', 'LOC', 'ORDINAL', 'FAC', 'MONEY']
objeto tipo lista: {'DATE', 'ORG', 'TIME', 'CARDINAL', 'PERSON', 'NORP', 'GPE', 'LOC', 'ORDINAL', 'FAC', 'MONEY'}


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#existen 2 enfoques para obtener la entidad de los tokens y posterior aplciar un filtro de no repetidos
#primero, al validar si el token es entidad, se añade a un conjunto set(), donde elimina repetidos y posterior se transforma a una lista
#segundo, al valodar si el token es entidad, se añade el token valido a un neuvmo token y fnalmente se aplica el set, para eliminar repetidos.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [11]:
# Incluye aquí el código generado para poder responder a tu pregunta
#Para su solucion se dispone de 2 casos
#caso 1
entidades_por_tipo = {}
for entidad in doc.ents:
    # Obtener el tipo de la entidad nombrada
    tipo_entidad = entidad.label_
    
    # Actualizar el recuento para este tipo de entidad nombrada
    if tipo_entidad in entidades_por_tipo:
        entidades_por_tipo[tipo_entidad] += 1
    else:
        entidades_por_tipo[tipo_entidad] = 1

print("Entidades encontradas y su cantidad:")
for tipo_entidad, recuento in entidades_por_tipo.items():
    print(tipo_entidad, ":", recuento)
#caso 2

from collections import Counter      

nueva_lista_entidades = []
for token in doc:
    # Verificar si el token es parte de una entidad nombrada
    if token.ent_type_:
        nueva_lista_entidades.append(token.ent_type_)
        
frecuencia_entidades = Counter(nueva_lista_entidades)
for valor, frecuencia in frecuencia_entidades.items():
    print(f"El valor '{valor}' aparece {frecuencia} veces.")

 

Entidades encontradas y su cantidad:
GPE : 24
TIME : 16
ORDINAL : 2
NORP : 12
MONEY : 1
CARDINAL : 8
DATE : 12
LOC : 2
FAC : 1
ORG : 5
PERSON : 2
El valor 'GPE' aparece 29 veces.
El valor 'TIME' aparece 20 veces.
El valor 'ORDINAL' aparece 2 veces.
El valor 'NORP' aparece 13 veces.
El valor 'MONEY' aparece 8 veces.
El valor 'CARDINAL' aparece 8 veces.
El valor 'DATE' aparece 27 veces.
El valor 'LOC' aparece 3 veces.
El valor 'FAC' aparece 2 veces.
El valor 'ORG' aparece 11 veces.
El valor 'PERSON' aparece 6 veces.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>
#caso 1, accediendo directametne a ents y obteniendo la propiedad, se valida si la entidad esta en entidades_por_tipo, si no esta se inicializa con 1
#si esta, se incrementa el conto y se añade como propiedad esa entidad.
#para la trabajar con ents, se no se extrae por tokens sino por entidad.
#caso 2, recorre el token individual, se valida si es entidad y se crea una lsita completa.
#se utiliza Counter para obtener la frecuencia de cada valor de la lista y posteior se imprime.
#tomar en cuenta que la diferenecia entre la primera es que al extraer la entidad por token un nombre Ann Nixon Cooper, lo va a tomar token por token.
#caso de ents, tomara todo el nombre que representa al PERSON {Ann Nixon Cooper}  


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [12]:
# Incluye aquí el código generado para poder responder a tu pregunta
#se toma una oracion de la poscion 6 de la lsita de oraciones
doc_1 = nlp("And I know you didn’t do this just to win an election. And I know you didn’t do it for me.")
for token in doc_1:
    # Imprimir el texto del token y su etiqueta IOB
    print(token.text, token.ent_iob_)
print()
doc_2 = nlp("ecuador")
for token in doc_2:
    print(token.text, token.ent_iob_)


And O
I O
know O
you O
did O
n’t O
do O
this O
just O
to O
win O
an O
election O
. O
And O
I O
know O
you O
did O
n’t O
do O
it O
for O
me O
. O

ecuador B


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>#Es un etiquetado de una secuencia de palabras de un texto de entrada, para reconocer entidades que pertenesca cada uno de estos.
#B -> indica palabra que inicia en una entidad.
#I-> que la apalabra esta dentro de la entidad.
#O -> esta fuera de una entidad nomrbada.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué POS Tags aparecen en el texto, y cuántos hay tokens hay de cada uno?</span>

In [13]:
# Incluye aquí el código generado para poder responder a tu pregunta
pos_tags_count = {}

for token in doc:
    # Obtener la etiqueta POS del token diferencias pos_(extrae el nombre), pos(extrae el objeto pos) para obtener propiedades léxicas y gramaticales adicionales de las palabras
    #la libreria de spacy utiliza los pos tags universales definidos pro https://universaldependencies.org/u/pos/ 
    pos_tag = token.pos_
    
    # Actualizar el recuento para esta etiqueta POS
    if pos_tag in pos_tags_count:
        pos_tags_count[pos_tag] += 1
    else:
        pos_tags_count[pos_tag] = 1

print("etiquetas POS:")
for pos_tag, count in pos_tags_count.items():
    print(pos_tag, ":", count)



etiquetas POS:
PUNCT : 205
PROPN : 56
SPACE : 46
SCONJ : 51
PRON : 243
VERB : 211
ADV : 63
AUX : 125
DET : 153
NOUN : 330
ADJ : 93
ADP : 189
CCONJ : 92
NUM : 18
PART : 53
SYM : 3
INTJ : 7
X : 1


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>#se itera el texto en tokens y se crea una lista de objetos con los pos tags y va contanto si existe ya en la lista de objetos o lo añade.
