<a href="https://colab.research.google.com/github/iamronsuez/nlp-notebooks/blob/main/NER.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural**

***
Datos del alumno (Nombre y Apellidos): Ronald Suez

Fecha: 28/04/2024
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Trabajo: Named-Entity Recognition</span>

**Objetivos**

Con esta actividad se tratará de que el alumno se familiarice con el manejo de la librería spacy, así como con los conceptos básicos de manejo de las técnicas NER

**Descripción**

En esta actividad debes procesar de forma automática un texto en lenguaje natural para detectar características básicas en el mismo, y para identificar y etiquetar las ocurrencias de conceptos como localización, moneda, empresas, etc.

En la primera parte del ejercicio se proporciona un código fuente a través del cual se lee un archivo de texto y se realiza un preprocesado del mismo. En esta parte el alumno tan sólo debe ejecutar y entender el código proporcionado.

En la segunda parte del ejercicio se plantean una serie de preguntas que deben ser respondidas por el alumno. Cada pregunta deberá responderse con un fragmento de código fuente que esté acompañado de la explicación correspondiente. Para elaborar el código solicitado, el alumno deberá visitar la documentación de la librería spacy, cuyos enlaces se proporcionarán donde corresponda.

# Parte 1: carga y preprocesamiento del texto a analizar

Observa las diferentes librerías que se están importando.

In [None]:
import pathlib
import spacy
from spacy import displacy
import en_core_web_sm

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


El siguiente código simplemente carga y preprocesa el texto. Para ello, lo primero que hace es cargar un modelo de lenguaje previamente entrenado. En este caso, se utiliza <i>en_core_web_sm</i>:

https://spacy.io/models/en#en_core_web_sm

Al cargar el modelo de lenguaje se genera un <i>Pipeline</i>, que nos permite realizar las diferentes tareas. En este caso, vamos a utilizar el pipeline para hacer un preprocesamiento básico, que consiste en tokenizar el texto.

Al final del código proporcionado <i>doc</i> representa una versión tokenizada del texto leído.

In [4]:
nlp = en_core_web_sm.load()
file_name = "/content/drive/MyDrive/Colab Notebooks/barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

In [5]:
doc

“Hello, Chicago.
If there is anyone out there who still doubts that America is a place where all things are possible, who still wonders if the dream of our founders is alive in our time, who still questions the power of our democracy, tonight is your answer.
It’s the answer told by lines that stretched around schools and churches in numbers this nation has never seen, by people who waited three hours and four hours, many for the first time in their lives, because they believed that this time must be different, that their voices could be that difference.
It’s the answer spoken by young and old, rich and poor, Democrat and Republican, black, white, Hispanic, Asian, Native American, gay, straight, disabled and not disabled. Americans who sent a message to the world that we have never been just a collection of individuals or a collection of red states and blue states.
We are, and always will be, the United States of America.
It’s the answer that led those who’ve been told for so long by so

### Playground

La variable <i>doc</i> es un objeto de la clase <i>Doc</i> (https://spacy.io/api/doc)

Visita la documentación de dicha clase y experimenta probando las diferentes funciones y atributos

In [None]:
# Puedes insertar aquí código de pruebas para experimentar con las diferentes funciones y atributos de 'doc'.

# Parte 2: preguntas

Para responder a cada una de las preguntas planteadas deberás aportar tanto el código fuente con el cual puedes conseguir la respuesta, como una explicación válida de la respuesta y de la forma de obtenerla.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 1.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas palabras tiene el texto?</span>

In [7]:
# Incluye aquí el código generado para poder responder a tu pregunta

word_count = len([token for token in doc if not token.is_punct])

print(f"el documento contiene {word_count} palabras.")

The document contains 1732 words.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Spacy toma en cuenta los signos de puntuacion como una palabra por lo que si se desea conocer solo la cantidad de palabras se debería hacer un condicional para tomar en cuenta los tokens que no son signos de puntuación

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 2.</span>

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuántas oraciones tiene el texto?</span>

In [8]:
# Incluye aquí el código generado para poder responder a tu pregunta

# Contar el número de oraciones en el documento
sentence_count = len(list(doc.sents))

print(f"El documento contiene {sentence_count} oraciones.")

El documento contiene 83 oraciones.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


El atributo sents del objeto ```doc``` es un generador que devuelve las oraciones del documento. Al convertirlo en una lista usando ```list()```, podemos obtener el número de oraciones utilizando la función ```len()```.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 3.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cuál el número de palabras de la oración más grande? ¿Cual es dicha oración?</span>

In [9]:
# Incluye aquí el código generado para poder responder a tu pregunta


# Encontrar la oración más larga
longest_sentence = max(doc.sents, key=len)

# Contar el número de palabras en la oración más larga
word_count = len([token for token in longest_sentence if not token.is_punct])

print(f"La oración más larga es: {longest_sentence.text}")
print(f"Tiene {word_count} palabras.")

La oración más larga es: It drew strength from the not-so-young people who braved the bitter cold and scorching heat to knock on doors of perfect strangers, and from the millions of Americans who volunteered and organized and proved that more than two centuries later a government of the people, by the people, and for the people has not perished from the Earth.

Tiene 61 palabras.


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>




*  Para encontrar la oración más larga, utilizamos ```max(doc.sents, key=len)```.
* Esto itera sobre todas las oraciones del documento ```doc.sents``` y utiliza la función ```len()``` como clave para determinar la oración más larga.
* Luego, contamos el número de palabras en la oración más larga utilizando una lista de comprensión.
* Filtramos los tokens que no son signos para contar solo la cantidad de palabras.



<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 4.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes obtener el lema, el sufijo y el análisis morfológico de cada token?</span>

Recomendación: si no lo has hecho ya, visita la documentación de la clase <i>Token</i>: https://spacy.io/api/token

In [22]:
# Incluye aquí el código generado para poder responder a tu pregunta


# Se toma una oración de ejemplo
sentence_index = 5
example_sentence = list(doc.sents)[sentence_index]

print(f"Oración de prueba : {example_sentence.text}")

for token in example_sentence:
  if not token.is_punct:
    print(f"Token: {token.text}")
    print(f"Lema: {token.lemma_}")
    print(f"Sufijo: {token.suffix_}")
    print(f"Análisis morfológico: {token.morph}")
    print("---")


Oración de prueba : We are, and always will be, the United States of America.

Token: We
Lema: we
Sufijo: We
Análisis morfológico: Case=Nom|Number=Plur|Person=1|PronType=Prs
---
Token: are
Lema: be
Sufijo: are
Análisis morfológico: Mood=Ind|Tense=Pres|VerbForm=Fin
---
Token: and
Lema: and
Sufijo: and
Análisis morfológico: ConjType=Cmp
---
Token: always
Lema: always
Sufijo: ays
Análisis morfológico: 
---
Token: will
Lema: will
Sufijo: ill
Análisis morfológico: VerbForm=Fin
---
Token: be
Lema: be
Sufijo: be
Análisis morfológico: VerbForm=Inf
---
Token: the
Lema: the
Sufijo: the
Análisis morfológico: Definite=Def|PronType=Art
---
Token: United
Lema: United
Sufijo: ted
Análisis morfológico: Number=Sing
---
Token: States
Lema: States
Sufijo: tes
Análisis morfológico: Number=Sing
---
Token: of
Lema: of
Sufijo: of
Análisis morfológico: 
---
Token: America
Lema: America
Sufijo: ica
Análisis morfológico: Number=Sing
---
Token: 

Lema: 

Sufijo: 

Análisis morfológico: 
---


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


El análisis morfológico del token, que proporciona detalles sobre las características gramaticales, como género, número, tiempo verbal, etc.

Ejemplo:

```
  Token: be
  Lema: be
  Sufijo: be
  Análisis morfológico: VerbForm=In
```


1. Token: America: Indica que el token analizado es la palabra "America".

2.  Lema: America: El lema de un token es su forma base o de diccionario. En este caso, el lema de "America" es también "America". Esto sugiere que "America" está en su forma base y no tiene variaciones adicionales.

3. Sufijo: ica: El sufijo es la parte final de la palabra. En este caso, el sufijo del token "America" es "ica". Esto indica que "ica" es la parte final de la palabra "America".

4. Análisis morfológico: Number=Sing: El análisis morfológico proporciona información sobre las características gramaticales del token. En este caso, "Number=Sing" indica que el token "America" está en singular.

    * Number representa la categoría gramatical de número.

    * Sing es la abreviatura de "singular", lo que significa que el token "America" se refiere a una entidad singular.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 5.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Cómo puedes identificar/eliminar las stop words?</span>

In [25]:
# Incluye aquí el código generado para poder responder a tu pregunta


# Se toma una oración de ejemplo
sentence_index = 6
example_sentence = list(doc.sents)[sentence_index]

print(f"Oración de prueba : {example_sentence.text}")
for token in example_sentence:
  if not token.is_punct:
    print(f"Token: {token.text}")
    print(f"Is stop word: {token.is_stop}")
    print("---")

Oración de prueba : It’s the answer that led those who’ve been told for so long by so many to be cynical and fearful and doubtful about what we can achieve to put their hands on the arc of history and bend it once more toward the hope of a better day.

Token: It
Is stop word: True
---
Token: ’s
Is stop word: True
---
Token: the
Is stop word: True
---
Token: answer
Is stop word: False
---
Token: that
Is stop word: True
---
Token: led
Is stop word: False
---
Token: those
Is stop word: True
---
Token: who
Is stop word: True
---
Token: ’ve
Is stop word: True
---
Token: been
Is stop word: True
---
Token: told
Is stop word: False
---
Token: for
Is stop word: True
---
Token: so
Is stop word: True
---
Token: long
Is stop word: False
---
Token: by
Is stop word: True
---
Token: so
Is stop word: True
---
Token: many
Is stop word: True
---
Token: to
Is stop word: True
---
Token: be
Is stop word: True
---
Token: cynical
Is stop word: False
---
Token: and
Is stop word: True
---
Token: fearful
Is sto

<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Las stop words, o palabras vacías, son palabras comunes en un idioma que generalmente se consideran poco informativas para el análisis de texto. Ejemplos en español incluyen artículos, preposiciones, pronombres y conjunciones.

La eliminación de stop words es una técnica común en el procesamiento del lenguaje natural para reducir la dimensionalidad del texto y enfocarse en las palabras más significativas. Esto puede mejorar la eficiencia y precisión en tareas como búsqueda, clasificación y análisis de sentimientos.

Sin embargo, eliminar stop words también puede afectar la estructura y el contexto del texto. Por lo tanto, la decisión de eliminarlas depende del objetivo específico del análisis y su impacto en los resultados deseados.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 6.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué atributo del token contiene la etiqueta NER?</span>

In [55]:
from spacy import displacy

# Incluye aquí el código generado para poder responder a tu pregunta

sentence_index = 18
example_sentence = list(doc.sents)[sentence_index]

displacy.render(example_sentence, style="ent", jupyter=True)


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 7.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas soporta Spacy?, ¿Qué significa cada una?</span>

<b>Nota</b>: Debes escribir el código que liste las entidades disponibles y la explicación de las mismas. El listado sin código se considerará respuesta incompleta.

In [56]:
# Incluye aquí el código generado para poder responder a tu pregunta
# Obtener las etiquetas NER disponibles en el modelo
labels = nlp.get_pipe("ner").labels
print("Etiquetas NER soportadas por spaCy:")
for label in labels:
    print(label)

Etiquetas NER soportadas por spaCy:
CARDINAL
DATE
EVENT
FAC
GPE
LANGUAGE
LAW
LOC
MONEY
NORP
ORDINAL
ORG
PERCENT
PERSON
PRODUCT
QUANTITY
TIME
WORK_OF_ART


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


NER (Named Entity Recognition) es una tarea fundamental en el procesamiento del lenguaje natural que consiste en identificar y clasificar las entidades nombradas en un texto. Las entidades nombradas son palabras o frases que se refieren a objetos, personas, lugares, organizaciones u otros conceptos específicos.

En spaCy, el componente NER se encarga de asignar etiquetas a las entidades nombradas encontradas en el texto. a continuación las  etiquetas que incluye el modelo ```en_core_web_sm```:


1. `CARDINAL`: Representa números cardinales, como "uno", "dos", "tres", etc.
2. `DATE`: Representa fechas, como "2023-06-08", "el próximo lunes", "en enero", etc.
3. `EVENT`: Representa eventos nombrados, como "la Segunda Guerra Mundial", "el Festival de Cannes", etc.
4. `FAC`: Representa instalaciones y edificios, como "el Empire State Building", "el Museo del Louvre", etc.
5. `GPE`: Representa entidades geopolíticas, como países, estados, ciudades, etc.
6. `LANGUAGE`: Representa nombres de idiomas, como "español", "inglés", "francés", etc.
7. `LAW`: Representa documentos legales y leyes, como "la Constitución", "el Código Penal", etc.
8. `LOC`: Representa ubicaciones geográficas, como "el río Amazonas", "el desierto del Sahara", etc.
9. `MONEY`: Representa cantidades monetarias, como "100 dólares", "25 euros", etc.
10. `NORP`: Representa nacionalidades, religiones, grupos políticos, etc., como "estadounidense", "católico", "demócrata", etc.
11. `ORDINAL`: Representa números ordinales, como "primero", "segundo", "tercero", etc.
12. `ORG`: Representa organizaciones, empresas, instituciones, agencias gubernamentales, etc.
13. `PERCENT`: Representa porcentajes, como "50%", "el 75 por ciento", etc.
14. `PERSON`: Representa nombres de personas, incluyendo nombres completos, nombres de pila y apellidos.
15. `PRODUCT`: Representa nombres de productos, como "iPhone", "Coca-Cola", "Toyota Corolla", etc.
16. `QUANTITY`: Representa cantidades y unidades de medida, como "10 kilómetros", "5 litros", etc.
17. `TIME`: Representa horas y duraciones, como "10:30 AM", "dos horas", "30 minutos", etc.
18. `WORK_OF_ART`: Representa títulos de obras de arte, como libros, películas, canciones, etc.


<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 8.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué entidades nombradas diferentes son reconocidas en el texto?, ¿cuántas hay de cada tipo?</span>

In [58]:
# Incluye aquí el código generado para poder responder a tu pregunta

entity_counts = {}
for ent in doc.ents:
    if ent.label_ not in entity_counts:
        entity_counts[ent.label_] = 1
    else:
        entity_counts[ent.label_] += 1

# Imprimir los resultados
print("Entidades nombradas reconocidas:")
for entity_type, count in entity_counts.items():
    print(f"{entity_type}: {count}")

Entidades nombradas reconocidas:
GPE: 24
TIME: 16
ORDINAL: 2
NORP: 12
MONEY: 1
CARDINAL: 8
DATE: 12
LOC: 2
FAC: 1
ORG: 5
PERSON: 2


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Iteramos sobre las entidades nombradas reconocidas en el documento utilizando doc.ents.
Para cada entidad nombrada (ent), verificamos si su etiqueta (ent.label_) ya existe como clave en el diccionario entity_counts:

* Si la etiqueta no existe, la agregamos al diccionario con un valor inicial de 1.
* Si la etiqueta ya existe, incrementamos su valor en 1.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 9.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Explica con tus palabras qué es el código IOB para el reconocimiento de entiedades. Pon un ejemplo, sacado del texto, de una etiqueta de un único token y una etiqueta compuesta por varios tokens.</span>

In [77]:
# Incluye aquí el código generado para poder responder a tu pregunta


one_token_example_sentence = 'She’s a lot like the millions of others who stood in line to make their voice heard in this election except for one thing: Ann Nixon Cooper is 106 years old.'

doc = nlp(one_token_example_sentence)

print(doc.ents)

for x in range(len(doc)):
  if doc[x].ent_iob_ != "O":
    print(f"Token: {doc[x]}, {doc[x].ent_iob_}, {doc[x].ent_type_}")
    print("---")

(millions, one, Ann Nixon Cooper, 106 years old)
Token: millions, B, CARDINAL
---
Token: one, B, CARDINAL
---
Token: Ann, B, PERSON
---
Token: Nixon, I, PERSON
---
Token: Cooper, I, PERSON
---
Token: 106, B, DATE
---
Token: years, I, DATE
---
Token: old, I, DATE
---


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


El código IOB (Inside-Outside-Beginning) es una convención utilizada en el reconocimiento de entidades nombradas (NER) para indicar la posición y el tipo de cada token dentro de una entidad. El código IOB ayuda a identificar si un token es parte de una entidad y, en caso afirmativo, si es el comienzo (B) o la continuación (I) de la entidad. Los tokens que no forman parte de ninguna entidad se etiquetan como "O" (Outside).
La estructura del código IOB es la siguiente:

"B-" se utiliza para etiquetar el primer token de una entidad.
"I-" se utiliza para etiquetar los tokens subsiguientes dentro de la misma entidad.
"O" se utiliza para etiquetar los tokens que no pertenecen a ninguna entidad

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Pregunta 10.</span>
<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">¿Qué POS Tags aparecen en el texto, y cuántos hay tokens hay de cada uno?</span>

In [79]:
# Incluye aquí el código generado para poder responder a tu pregunta

file_name = "/content/drive/MyDrive/Colab Notebooks/barack-obama-speech.txt"
doc = nlp(pathlib.Path(file_name).read_text(encoding="utf-8"))

# Contar los POS Tags
pos_counts = {}
for token in doc:
    if token.pos_ not in pos_counts:
        pos_counts[token.pos_] = 1
    else:
        pos_counts[token.pos_] += 1

# Imprimir los resultados
print("POS Tags encontrados en el texto:")
for pos, count in pos_counts.items():
    print(f"{pos}: {count}")

POS Tags encontrados en el texto:
PUNCT: 205
PROPN: 56
SPACE: 46
SCONJ: 51
PRON: 243
VERB: 211
ADV: 63
AUX: 125
DET: 153
NOUN: 330
ADJ: 93
ADP: 189
CCONJ: 92
NUM: 18
PART: 53
SYM: 3
INTJ: 7
X: 1


<b>Incluye aquí, debajo de la línea, la explicación de tu respuesta</b>
<hr>


Los POS Tags (Part-of-Speech Tags) son etiquetas que indican la categoría gramatical de cada palabra en un texto. Estas etiquetas proporcionan información sobre la función sintáctica y morfológica de las palabras, lo que es fundamental para el análisis lingüístico y el procesamiento del lenguaje natural.


Los POS Tags son asignados automáticamente por herramientas de procesamiento de lenguaje natural, utilizando modelos de lenguaje entrenados en grandes corpus anotados. Estos modelos aprenden patrones y reglas para determinar la categoría gramatical más probable de cada palabra en función de su contexto.

El etiquetado POS es un paso fundamental en muchas tareas de procesamiento del lenguaje natural, como el análisis sintáctico, la desambiguación del sentido de las palabras, la extracción de información y la traducción automática, entre otras. Proporciona una base para comprender la estructura y el significado de las oraciones en un texto.

Descripción de etiquetas encontradas:

1. **PUNCT** (Puntuación): Signos de puntuación como puntos, comas, signos de interrogación, etc.
   - Ejemplo: ".", ",", "!", "?"

2. **PROPN** (Nombre Propio): Nombres de personas, lugares, organizaciones específicas, etc.
   - Ejemplo: "Juan", "Nueva York", "Apple Inc."

3. **SPACE** (Espacio): Caracteres de espacio en blanco como espacios, tabulaciones y saltos de línea.

4. **SCONJ** (Conjunción Subordinante): Palabras que introducen cláusulas subordinadas.
   - Ejemplo: "porque", "aunque", "si", "cuando"

5. **PRON** (Pronombre): Palabras que sustituyen a un sustantivo.
   - Ejemplo: "él", "ella", "ellos", "lo", "me"

6. **VERB** (Verbo): Palabras que indican acciones, estados o procesos.
   - Ejemplo: "correr", "es", "fueron", "había"

7. **ADV** (Adverbio): Palabras que modifican verbos, adjetivos u otros adverbios.
   - Ejemplo: "rápidamente", "muy", "aquí", "ayer"

8. **AUX** (Verbo Auxiliar): Verbos que acompañan a otros verbos para indicar tiempo, aspecto, modo, etc.
   - Ejemplo: "haber", "ser", "estar"

9. **DET** (Determinante): Palabras que preceden y modifican sustantivos, como artículos y demostrativos.
   - Ejemplo: "el", "la", "un", "este", "esos"

10. **NOUN** (Sustantivo): Palabras que representan personas, lugares, cosas o conceptos.
    - Ejemplo: "libro", "casa", "felicidad"

11. **ADJ** (Adjetivo): Palabras que describen o modifican sustantivos.
    - Ejemplo: "rojo", "grande", "interesante"

12. **ADP** (Adposición): Palabras que indican relaciones gramaticales, como preposiciones y posposiciones.
    - Ejemplo: "a", "de", "en", "por"

13. **CCONJ** (Conjunción Coordinante): Palabras que conectan palabras, frases o cláusulas del mismo nivel sintáctico.
    - Ejemplo: "y", "o", "pero", "sino"

14. **NUM** (Numeral): Palabras que representan números.
    - Ejemplo: "uno", "dos", "10", "primer"

15. **PART** (Partícula): Palabras que desempeñan funciones gramaticales específicas.
    - Ejemplo: "no" (negación), "sí" (afirmación)

16. **SYM** (Símbolo): Símbolos y caracteres especiales.
    - Ejemplo: "%", "$", "+"

17. **INTJ** (Interjección): Palabras que expresan emociones o sentimientos repentinos.
    - Ejemplo: "oh", "wow", "ouch"

18. **X** (Otro): Palabras que no encajan en ninguna de las categorías anteriores o son desconocidas.
