<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_1_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.1.4: Ciclo de vida de los datos en una organización

## 1. ¿Qué es el ciclo de vida de los datos?

El **ciclo de vida de los datos** describe las etapas que atraviesan los datos desde que se generan hasta que se archivan o eliminan. Gestionarlo bien es clave para que una organización sea **data-driven** y maximice el **valor** de sus datos.

> **Clave:** Cada etapa debe estar diseñada para garantizar calidad, accesibilidad y seguridad, alineándose con los objetivos del negocio.

## 2. Etapas del ciclo de vida de los datos

| Etapa | Descripción | Ejemplo práctico |
|-------|-------------|------------------|
| **Generación** | Creación o captura de datos desde fuentes internas o externas. | Un cliente compra en una web (transacción) o un sensor IoT registra temperatura. |
| **Ingesta** | Recolección y transferencia de datos al sistema de la organización. | Fivetran extrae datos de una API de ventas y los envía a Snowflake. |
| **Almacenamiento** | Organización de datos en sistemas como Data Lakes o Warehouses. | Datos estructurados en BigQuery; no estructurados en S3. |
| **Procesamiento** | Limpieza, transformación y enriquecimiento para análisis. | dbt transforma datos crudos en tablas optimizadas para KPIs. |
| **Análisis** | Extracción de insights mediante reportes, dashboards o modelos. | Un analista crea un dashboard en Power BI para ventas mensuales. |
| **Uso/Activación** | Aplicación de insights en decisiones o productos. | Un modelo de ML predice churn y activa emails personalizados. |
| **Archivado/Eliminación** | Retención de datos históricos o eliminación por cumplimiento legal. | Datos de clientes archivados tras 7 años (GDPR). |

> **Buena idea:** Documentar cada etapa para garantizar trazabilidad y cumplir normativas como GDPR.

## 3. Roles en el ciclo de vida

Cada rol de datos contribuye en distintas etapas:

- **Data Engineer:** Gestiona **generación, ingesta, almacenamiento y procesamiento**. Construye pipelines robustos y escalables.
- **Data Analyst:** Enfocado en **análisis y uso**. Crea reportes y dashboards para decisiones inmediatas.
- **Data Scientist:** Participa en **procesamiento y análisis**. Desarrolla modelos predictivos para activar insights.

**Ejemplo:** En una tienda online:
1. **Ingeniero** crea un pipeline que ingesta datos de compras en tiempo real.
2. **Analista** identifica un aumento de carritos abandonados en móviles.
3. **Científico** entrena un modelo para predecir abandonos y recomendar descuentos.

**Resultado:** +15% en conversiones tras implementar descuentos personalizados.

## 4. Retos clave en el ciclo

- **Calidad:** Datos incompletos o erróneos (e.g., sensores IoT defectuosos) afectan el análisis.
- **Escalabilidad:** Procesar terabytes en tiempo real requiere herramientas como Spark o Flink.
- **Seguridad:** Proteger datos sensibles (e.g., cumplir GDPR) es obligatorio.
- **Gobernanza:** Definir quién accede a qué datos y cómo se usan.

> **Buena idea:** Usar herramientas como Great Expectations para validar calidad y Collibra para gobernanza.

## 5. Ejemplo integrado: Ciclo en una empresa de logística

**Contexto:** Una empresa de envíos quiere optimizar rutas.

1. **Generación:** Sensores GPS en camiones registran ubicaciones.
2. **Ingesta:** Kafka captura datos en tiempo real.
3. **Almacenamiento:** Datos crudos en un Data Lake (Delta Lake).
4. **Procesamiento:** Spark limpia y agrega datos de tráfico y entregas.
5. **Análisis:** Un científico crea un modelo de optimización de rutas.
6. **Uso:** El modelo sugiere rutas más cortas a conductores.
7. **Archivado:** Datos históricos se guardan para auditorías.

**Impacto:** -20% en costes de combustible, +10% en entregas a tiempo.

## 6. Mejores prácticas

- **Automatización:** Usa herramientas como Airflow para orquestar pipelines.
- **Calidad desde el inicio:** Implementa validaciones en la ingesta.
- **Documentación:** Registra metadatos para saber qué datos existen y de dónde vienen.
- **Cumplimiento legal:** Asegura eliminación segura de datos obsoletos.

> **Tip:** Un ciclo bien gestionado reduce costes y acelera la toma de decisiones.

## 7. Resumen

El ciclo de vida de los datos es un proceso continuo que va desde la **generación** hasta el **archivado**. Cada etapa requiere colaboración entre **ingenieros, analistas y científicos** para transformar datos crudos en **valor empresarial**. Con herramientas modernas y buenas prácticas, las organizaciones pueden optimizar este ciclo para ser más ágiles y competitivas.

## Referencias

### Vídeos
- [What is a Data Lifecycle?](https://youtu.be/5R1XohiM6CU?si=8z3K9j5pLqW7xY2Z)
- [Data Engineering in 2025: Key Concepts](https://youtu.be/9kJ2x3yV0gM?si=4kD7pH8qT2z1xW9Y)

### Lecturas
- [The Data Lifecycle Explained – IBM](https://www.ibm.com/topics/data-lifecycle-management)
- [Modern Data Stack in 2025 – Databricks](https://www.databricks.com/glossary/modern-data-stack)