<a href="https://colab.research.google.com/github/apchavezr/-Analisis_Grandes_Volumenes_Datos/blob/main/BigData_NLP_spaCy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Análisis de Datos No Estructurados con spaCy

Este notebook hace parte de la unidad *Fundamentos conceptuales y tipos de datos en entornos Big Data* y tiene como objetivo mostrar cómo procesar **datos no estructurados** (textos jurídicos o administrativos) utilizando técnicas de procesamiento de lenguaje natural con la biblioteca **spaCy** en español.

### Objetivo
Extraer entidades nombradas (como instituciones, lugares y fechas) de un texto simulado de una sentencia judicial, y discutir su aplicabilidad en entornos de Big Data en Colombia.



In [1]:

# Instalación de spaCy y el modelo en español (si no está instalado)
!pip install -q spacy
!python -m spacy download es_core_news_sm


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m68.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:

import spacy

# Cargar el modelo de lenguaje en español
nlp = spacy.load("es_core_news_sm")

# Texto simulado de una sentencia judicial
texto_sentencia = '''
La Corte Constitucional de Colombia, en su sentencia T-760 de 2008, ordenó al Ministerio de Salud revisar el Plan Obligatorio de Salud (POS).
La decisión fue tomada en Bogotá el 31 de julio de 2008.
'''

# Procesar el texto con spaCy
doc = nlp(texto_sentencia)

# Mostrar entidades nombradas
print("Entidades nombradas encontradas:")
for ent in doc.ents:
    print(f"- {ent.text} ({ent.label_})")


Entidades nombradas encontradas:
- Corte Constitucional de Colombia (ORG)
- Ministerio de Salud (MISC)
- Plan Obligatorio de Salud (MISC)
- POS (MISC)
- Bogotá (LOC)



### Reflexión

Este ejemplo muestra cómo a partir de datos no estructurados es posible extraer información clave, como organizaciones, fechas y ubicaciones. Estas entidades pueden luego convertirse en variables para análisis cuantitativo, visualización o cruce con bases estructuradas.

**Aplicaciones posibles en Colombia:**
- Análisis de decisiones judiciales de la Corte Constitucional.
- Extracción de patrones en textos de participación ciudadana en portales como Bogotá Abierta.
- Validación automatizada de fuentes de texto con criterios de veracidad.

---

Este proceso permite abordar dos de las 5 Vs del Big Data:
- **Veracidad**, al evaluar y organizar datos textuales desordenados.
- **Valor**, al transformar el texto en información útil para análisis posteriores.
