<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_1_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.1.4: Ciclo de vida de los datos en una organización

## 1. ¿Qué es el ciclo de vida de los datos?
El **ciclo de vida de los datos** describe las etapas que atraviesan los datos desde que se generan hasta que se archivan o eliminan.  

Gestionarlo bien es clave para que una organización sea **data-driven** y maximice el **valor** de sus datos.

> **Clave:** Un ciclo bien diseñado garantiza que los datos lleguen **limpios, seguros y a tiempo** a quien los necesita.

## 2. Las 7 Etapas del ciclo de vida de los datos

| Etapa | Descripción | Ejemplo práctico | Ejemplo en Spotify |
|-------|-------------|------------------|--------------------|
|1 **Generación** | Los datos nacen. Creación o captura de datos desde fuentes internas o externas. | Un cliente compra en una web (transacción) o un sensor IoT registra temperatura. | Un usuario reproduce una canción |
|2 **Ingesta** | Los datos entran al sistema. Recolección y transferencia de datos al sistema de la organización. | Fivetran extrae datos de una API de ventas y los envía a Snowflake. | Eventos de reproducción viajan a Kafka |
|3 **Almacenamiento** | Los datos encuentran casa. Organización de datos en sistemas como Data Lakes o Warehouses. | Datos estructurados en BigQuery; no estructurados en S3. | Datos en Google BigQuery y Amazon S3 |
|4 **Procesamiento** | Los datos se preparan. Limpieza, transformación y enriquecimiento para análisis. | dbt transforma datos crudos en tablas optimizadas para KPIs. | Spark limpia y agrega reproducciones por usuario |
|5 **Análisis** | Los datos cuentan historias. Extracción de insights mediante reportes, dashboards o modelos. | Un analista crea un dashboard en Power BI para ventas mensuales. | Analista descubre que los viernes se escucha más reggaeton |
|6 **Activación/Uso** | Los datos actúan. Aplicación de insights en decisiones o productos. | Un modelo de ML predice churn y activa emails personalizados. | El modelo de recomendación sugiere playlists de viernes |
|7 **Archivado/Eliminación** | Los datos se retiran. Retención de datos históricos o eliminación por cumplimiento legal. | Datos de clientes archivados tras 7 años (GDPR). | Datos de usuarios inactivos pasan a almacenamiento frío |

> **Buena idea:** Documentar cada etapa para garantizar trazabilidad y cumplir normativas como GDPR.

## 3. Roles en el ciclo de vida

Cada rol de datos contribuye en distintas etapas:  

**Data Engineer:** "El arquitecto"
- Construye las autopistas de datos (etapas 1-4)
- Gestiona **generación, ingesta, almacenamiento y procesamiento**. Construye pipelines robustos y escalables.
- Asegura que los datos fluyan rápido y limpio

**Data Analyst:** "El traductor"  
- Convierte datos en insights (etapas 5-6)
- Enfocado en **análisis y uso**.
- Crea reportes y dashboards para decisiones inmediatas.
- Responde: "¿Qué pasó y por qué?"

**Data Scientist:** "El adivino"
- Crea magia predictiva (etapas 5-6)
- Participa en **procesamiento y análisis**.
- Desarrolla modelos predictivos para activar insights.
- Responde: "¿Qué pasará si...?"

**Ejemplo en una tienda online**:
1. **Ingeniero** crea un pipeline que ingesta datos de compras en tiempo real.
2. **Analista** identifica un aumento de carritos abandonados en móviles.
3. **Científico** entrena un modelo para predecir abandonos y recomendar descuentos.

- **Resultado:** +15% en conversiones tras implementar descuentos personalizados.

**Ejemplo en Netflix:**
1. **Ingeniero:** Pipeline que capta qué ves y cuándo
2. **Analista:** Identifica que los domingos se ven más documentales
3. **Científico:** Modelo que recomienda "Si te gustó X, amarás Y"
4. **Resultado:** Tú feliz, Netflix más engagged

## 4. Los 3 enemigos del ciclo saludable

🚫 **Callejones sin salida:** Datos atrapados en silos
✅ **Solución:** Data Lake bien organizado

🚫 **Garbage in, garbage out:** Datos sucios entran, decisiones malas salen  
✅ **Solución:** Validación desde la ingesta (Great Expectations)

🚫 **Pérdida de memoria:** ¿De dónde vino este dato?
✅ **Solución:** Documentación y lineage (Data Catalog)

## 5. Caso real: Cómo Amazon optimiza entregas

**Problema:** Entregas tardías = clientes insatisfechos

**Ciclo solución:**
1. **Generación:** App de repartidores + sensores almacén
2. **Ingesta:** 1M eventos/día via Kinesis
3. **Procesamiento:** Spark calcula rutas óptimas en tiempo real
4. **Análisis:** Identifican que lluvia = +15 min de entrega
5. **Activación:** Sistema ajusta rutas automáticamente
6. **Resultado:** 98% entregas a tiempo, -12% coste combustible

## 6. Tu checklist para un ciclo saludable

- [ ] **Automatiza** los flujos (Airflow, dbt)
- [ ] **Valida** calidad en cada paso
- [ ] **Documenta** todo (metadata matters)
- [ ] **Planifica** asegura el retiro de datos obsoletos

> **Tip:** Un ciclo bien gestionado reduce costes y acelera la toma de decisiones.

## 7. Resumen

Los datos viven, se transforman y aportan valor. Un ciclo bien orquestado es como una **coreografía perfecta** donde cada rol y herramienta trabaja en armonía para convertir datos crudos en **decisiones inteligentes**.

## Referencias

### Vídeos
- [What is Data Lifecycle](https://youtube.com/shorts/wgtuu2kazaI?si=FM4f1dowu2rozMCv)
- [Data Lifecycle | Navigate the End-to-End Data Journey](https://youtu.be/1JliX9KlGus?si=qJeyhy380uzMeJok)
- [Phases of the data life cycle - Google Data Analytics](https://youtu.be/Jt10v86bqVU?si=CLNgCYG17OdzdL9Z)
- [What Does a Data Engineer ACTUALLY Do?](https://youtu.be/hTjo-QVWcK0?si=JWWw4LDrZ2Ho5tZV)

### Lecturas
- [The Data Lifecycle Explained – IBM](https://www.ibm.com/topics/data-lifecycle-management)
- [What is the modern data stack?](https://www.ibm.com/think/topics/modern-data-stack)

