# NER con spaCy:

Se procesa un texto extenso (simulando un artículo de noticias) con varias entidades

Se extraen las entidades y se muestran en un DataFrame para facilitar su análisis

Se utiliza la visualización con displaCy para resaltar las entidades en el texto


**By Jean Carlo Alvarez**

# Instalacion de Librerias

In [1]:
!pip install -q spacy transformers
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


**!pip install:** Usa el gestor de paquetes pip para instalar bibliotecas en el entorno de Python

**spacy**: Biblioteca para procesamiento de lenguaje natural (NLP)

**transformers**: Biblioteca de Hugging Face que permite usar modelos avanzados de NLP, como BERT, GPT, etc

**spacy download: **Comando de spaCy para descargar modelos preentrenados de lenguaje

**en_core_web_sm**: Modelo en inglés de spaCy
- en o es → Inglés/Español
- core → Modelo principal de spaCy
- web → Entrenado en textos de la web
- sm (small) → Modelo pequeño (más rápido, pero menos preciso)

**Otros modelos disponibles:**

- en_core_web_md (Medium) → Modelo mediano, más preciso que sm
- en_core_web_lg (Large) → Modelo grande, mejor precisión pero más pesado
- en_core_web_trf (Transformer) → Modelo basado en Transformers de Hugging Face, el más preciso pero más lento

**Qué pasa si cambias el modelo?**

Modelos más grandes mejoran la precisión en el análisis de texto (tokenización, lematización, entidades, etc.)

Modelos más pequeños son más rápidos pero pueden cometer más errores


# Importar Librerias

In [2]:
import spacy
import pandas as pd
from spacy import displacy

**spacy** es una biblioteca de procesamiento de lenguaje natural (NLP)

Se usa para tareas como tokenización, lematización, análisis sintáctico y reconocimiento de entidades

**pandas** es una biblioteca para manejo y análisis de datos en formato tabular

**Por qué importar pandas aquí?**
Si se trabaja con texto en archivos como CSV o bases de datos, pandas ayuda a manipular los datos antes de pasarlos a spaCy

**displacy** es una herramienta de visualización de spaCy para mostrar:

- Análisis sintáctico (dependencias gramaticales entre palabras)
- Entidades nombradas (nombres, fechas, lugares, organizaciones, etc.)

Se usa con displacy.render() o displacy.serve()




# Cargar el modelo pre-entrenado

In [3]:
nlp = spacy.load("en_core_web_sm")

**spacy.load()** Función de spaCy que carga un modelo preentrenado de procesamiento de lenguaje natural (NLP)

- "en_core_web_sm" → Modelo específico de inglés, que es:
- en → Inglés
- core → Modelo principal de spaCy
- web → Entrenado con datos de texto web
- sm (small) → Versión pequeña del modelo, rápida pero con menor precisión

**Modelos en inglés**

- "en_core_web_sm"	Modelo pequeño, rápido, menor precisión
- "en_core_web_md"	Modelo mediano, equilibrio entre velocidad y precisión
- "en_core_web_lg"	Modelo grande, más preciso pero más lento
- "en_core_web_trf"	Modelo con Transformers, el más preciso pero muy pesado

**Modelos en español**
- "es_core_news_sm"  Pequeño
- "es_core_news_md"  Mediano
- "es_core_news_lg"  Grande
- "es_core_news_trf"  Basado en Transformers

**Qué pasa si cambias el modelo?**
Si usas un modelo más grande (md o lg), el análisis será más preciso, pero tomará más memoria y será más lento

Si usas un modelo más pequeño (sm), el análisis será más rápido, pero podría ser menos preciso en tareas complejas

**nlp**  Objeto que contiene el modelo cargado y puede analizar texto

# Texto de ejemplo (simulando un artículo de noticias)

In [4]:
texto_noticia = (
    "In an unprecedented move, the technology giant Google announced on March 15, 2025, "
    "a strategic partnership with the European Union to invest over $2 billion in AI research. "
    "The initiative, which was unveiled at a press conference in Berlin, Germany, aims to revolutionize "
    "machine learning and data analytics. CEO Sundar Pichai stated that this collaboration will boost innovation "
    "and create thousands of jobs across Europe. Meanwhile, other companies such as Microsoft and Amazon "
    "are also ramping up their efforts in the AI sector, following the latest trends in Silicon Valley. "
    "Experts from MIT and Stanford University have joined the consortium to guide the research efforts, "
    "ensuring ethical and responsible development of new technologies."
)

La varibale **texto_noticia** contiene un arituclo de noticia de simulacion para poder palicarle NER

# Procesar el texto con spaC

In [5]:
doc = nlp(texto_noticia)

**nlp()**  Es una función del modelo cargado en spaCy, que analiza un texto y devuelve un objeto Doc con información estructurada

**texto_noticia**  Es una variable que contiene el texto que queremos analizar

**doc**  Almacena el resultado del análisis, que incluye tokens, entidades, dependencias gramaticales, etc

**Que información se puede extraer de doc?**

- doc.text	Texto completo
- doc.ents	Entidades nombradas (nombres, lugares, fechas, etc.)
- doc.noun_chunks	Grupos de sustantivos en la oración
- doc.sents	Oraciones dentro del texto

**tiquetas comunes en spaCy:**

- PER → Persona
- LOC → Lugar
- ORG → Organización
- DATE → Fecha

# Extraer las entidades encontradas y almacenarlas en una lista de diccionarios

In [6]:
entidades = []
for ent in doc.ents:
    entidades.append({"Entidad": ent.text, "Etiqueta": ent.label_, "Inicio": ent.start_char, "Fin": ent.end_char})

- Inicializa una lista vacía entidades para almacenar los resultados
- Recorre todas las entidades en doc.ents (entidades detectadas por spaCy)
- Añade un diccionario a la lista entidades, con:
  -  "Entidad": **ent.text** → Texto de la entidad detectada

  - "Etiqueta": **ent.label_**  Tipo de entidad (persona, lugar, fecha, etc.).
 - "Inicio": **ent.start_char**  Posición donde empieza la entidad en el texto original.
  - "Fin": **ent.end_char**  Posición donde termina la entidad en el texto

**Resumen de lo que podemos obtener**

- doc.ents	Lista de entidades nombradas detectadas en el texto
- ent.text	Texto de la entidad
- ent.label_	Tipo de entidad (persona, fecha, lugar, etc.)
- ent.start_char	Posición inicial de la entidad en el texto
- ent.end_char	Posición final de la entidad en el texto

# Convertir  en un DataFrame para mejor visualización

In [7]:
df_entidades = pd.DataFrame(entidades)
print("Tabla de entidades reconocidas:")
display(df_entidades)

Tabla de entidades reconocidas:


Unnamed: 0,Entidad,Etiqueta,Inicio,Fin
0,Google,ORG,47,53
1,"March 15, 2025",DATE,67,81
2,the European Union,ORG,112,130
3,over $2 billion,MONEY,141,156
4,AI,ORG,160,162
5,Berlin,GPE,233,239
6,Germany,GPE,241,248
7,Sundar Pichai,PERSON,313,326
8,thousands,CARDINAL,391,400
9,Europe,LOC,416,422


**pd.DataFrame(entidades)**  Convierte la lista de diccionarios entidades en un DataFrame de Pandas

**df_entidades** Contendrá una tabla con columnas: "Entidad", "Etiqueta", "Inicio", "Fin"

**display(df_entidades)** Muestra la tabla de pandas de una forma más clara (funciona mejor en entornos como Jupyter Notebook y Google Colab)




# Visualización interactiva de entidades usando displaCy.

In [8]:
html = displacy.render(doc, style="ent", jupyter=True)


**displacy.render()**  Es una función de spaCy que genera una representación visual del texto analizado

- **doc** Es el objeto procesado con spaCy, que contiene las entidades reconocidas.
- **style="ent"** Indica que queremos visualizar entidades nombradas (Personas, Lugares, Fechas, etc.).
- **jupyter=True**  Indica que se ejecuta en Jupyter Notebook o Google Colab, para mostrar el resultado correctamente


Con **style="ent"** se resaltan las entidades en el texto

La opción **jupyter=True** permite visualizar la salida de forma adecuada en Google Colab

Puedes cambiar el parámetro **'style' a 'dep'** para visualizar dependencias sintácticas

