<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_1_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lecci√≥n 1.1.4: Ciclo de vida de los datos en una organizaci√≥n

## 1. ¬øQu√© es el ciclo de vida de los datos?
El **ciclo de vida de los datos** describe las etapas que atraviesan los datos desde que se generan hasta que se archivan o eliminan.  

Gestionarlo bien es clave para que una organizaci√≥n sea **data-driven** y maximice el **valor** de sus datos.

> **Clave:** Un ciclo bien dise√±ado garantiza que los datos lleguen **limpios, seguros y a tiempo** a quien los necesita.

## 2. Las 7 Etapas del ciclo de vida de los datos

| Etapa | Descripci√≥n | Ejemplo pr√°ctico | Ejemplo en Spotify |
|-------|-------------|------------------|--------------------|
|1 **Generaci√≥n** | Los datos nacen. Creaci√≥n o captura de datos desde fuentes internas o externas. | Un cliente compra en una web (transacci√≥n) o un sensor IoT registra temperatura. | Un usuario reproduce una canci√≥n |
|2 **Ingesta** | Los datos entran al sistema. Recolecci√≥n y transferencia de datos al sistema de la organizaci√≥n. | Fivetran extrae datos de una API de ventas y los env√≠a a Snowflake. | Eventos de reproducci√≥n viajan a Kafka |
|3 **Almacenamiento** | Los datos encuentran casa. Organizaci√≥n de datos en sistemas como Data Lakes o Warehouses. | Datos estructurados en BigQuery; no estructurados en S3. | Datos en Google BigQuery y Amazon S3 |
|4 **Procesamiento** | Los datos se preparan. Limpieza, transformaci√≥n y enriquecimiento para an√°lisis. | dbt transforma datos crudos en tablas optimizadas para KPIs. | Spark limpia y agrega reproducciones por usuario |
|5 **An√°lisis** | Los datos cuentan historias. Extracci√≥n de insights mediante reportes, dashboards o modelos. | Un analista crea un dashboard en Power BI para ventas mensuales. | Analista descubre que los viernes se escucha m√°s reggaeton |
|6 **Activaci√≥n/Uso** | Los datos act√∫an. Aplicaci√≥n de insights en decisiones o productos. | Un modelo de ML predice churn y activa emails personalizados. | El modelo de recomendaci√≥n sugiere playlists de viernes |
|7 **Archivado/Eliminaci√≥n** | Los datos se retiran. Retenci√≥n de datos hist√≥ricos o eliminaci√≥n por cumplimiento legal. | Datos de clientes archivados tras 7 a√±os (GDPR). | Datos de usuarios inactivos pasan a almacenamiento fr√≠o |

> **Buena idea:** Documentar cada etapa para garantizar trazabilidad y cumplir normativas como GDPR.

## 3. Roles en el ciclo de vida

Cada rol de datos contribuye en distintas etapas:  

**Data Engineer:** "El arquitecto"
- Construye las autopistas de datos (etapas 1-4)
- Gestiona **generaci√≥n, ingesta, almacenamiento y procesamiento**. Construye pipelines robustos y escalables.
- Asegura que los datos fluyan r√°pido y limpio

**Data Analyst:** "El traductor"  
- Convierte datos en insights (etapas 5-6)
- Enfocado en **an√°lisis y uso**.
- Crea reportes y dashboards para decisiones inmediatas.
- Responde: "¬øQu√© pas√≥ y por qu√©?"

**Data Scientist:** "El adivino"
- Crea magia predictiva (etapas 5-6)
- Participa en **procesamiento y an√°lisis**.
- Desarrolla modelos predictivos para activar insights.
- Responde: "¬øQu√© pasar√° si...?"

**Ejemplo en una tienda online**:
1. **Ingeniero** crea un pipeline que ingesta datos de compras en tiempo real.
2. **Analista** identifica un aumento de carritos abandonados en m√≥viles.
3. **Cient√≠fico** entrena un modelo para predecir abandonos y recomendar descuentos.

- **Resultado:** +15% en conversiones tras implementar descuentos personalizados.

**Ejemplo en Netflix:**
1. **Ingeniero:** Pipeline que capta qu√© ves y cu√°ndo
2. **Analista:** Identifica que los domingos se ven m√°s documentales
3. **Cient√≠fico:** Modelo que recomienda "Si te gust√≥ X, amar√°s Y"
4. **Resultado:** T√∫ feliz, Netflix m√°s engagged

## 4. Los 3 enemigos del ciclo saludable

üö´ **Callejones sin salida:** Datos atrapados en silos
‚úÖ **Soluci√≥n:** Data Lake bien organizado

üö´ **Garbage in, garbage out:** Datos sucios entran, decisiones malas salen  
‚úÖ **Soluci√≥n:** Validaci√≥n desde la ingesta (Great Expectations)

üö´ **P√©rdida de memoria:** ¬øDe d√≥nde vino este dato?
‚úÖ **Soluci√≥n:** Documentaci√≥n y lineage (Data Catalog)

## 5. Caso real: C√≥mo Amazon optimiza entregas

**Problema:** Entregas tard√≠as = clientes insatisfechos

**Ciclo soluci√≥n:**
1. **Generaci√≥n:** App de repartidores + sensores almac√©n
2. **Ingesta:** 1M eventos/d√≠a via Kinesis
3. **Procesamiento:** Spark calcula rutas √≥ptimas en tiempo real
4. **An√°lisis:** Identifican que lluvia = +15 min de entrega
5. **Activaci√≥n:** Sistema ajusta rutas autom√°ticamente
6. **Resultado:** 98% entregas a tiempo, -12% coste combustible

## 6. Tu checklist para un ciclo saludable

- [ ] **Automatiza** los flujos (Airflow, dbt)
- [ ] **Valida** calidad en cada paso
- [ ] **Documenta** todo (metadata matters)
- [ ] **Planifica** asegura el retiro de datos obsoletos

> **Tip:** Un ciclo bien gestionado reduce costes y acelera la toma de decisiones.

## 7. Resumen

Los datos viven, se transforman y aportan valor. Un ciclo bien orquestado es como una **coreograf√≠a perfecta** donde cada rol y herramienta trabaja en armon√≠a para convertir datos crudos en **decisiones inteligentes**.

## Referencias

### V√≠deos
- [What is Data Lifecycle](https://youtube.com/shorts/wgtuu2kazaI?si=FM4f1dowu2rozMCv)
- [Data Lifecycle | Navigate the End-to-End Data Journey](https://youtu.be/1JliX9KlGus?si=qJeyhy380uzMeJok)
- [Phases of the data life cycle - Google Data Analytics](https://youtu.be/Jt10v86bqVU?si=CLNgCYG17OdzdL9Z)
- [What Does a Data Engineer ACTUALLY Do?](https://youtu.be/hTjo-QVWcK0?si=JWWw4LDrZ2Ho5tZV)

### Lecturas
- [The Data Lifecycle Explained ‚Äì IBM](https://www.ibm.com/topics/data-lifecycle-management)
- [What is the modern data stack?](https://www.ibm.com/think/topics/modern-data-stack)

