<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_1_1_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 1.1.3: Historia y evolución: de Big Data al ecosistema moderno de datos

## **1. Los orígenes del Big Data (2000-2010)**

El término "Big Data" se popularizó a principios de los años 2000, pero sus fundamentos surgieron antes:

**Años 90: Los precursores**
- Los data warehouses empresariales (Oracle, Teradata)
- Primeros sistemas de Business Intelligence
- Problema: escalabilidad limitada y alto coste

**2003-2006: La revolución de Google**
- **2003:** Google publica el paper de GFS (Google File System)
- **2004:** Google publica el paper de MapReduce
- Necesidad: indexar miles de millones de páginas web
- Solución: procesamiento distribuido en hardware commodity

**2006: Nace Hadoop**
- Doug Cutting y Mike Cafarella crean Hadoop inspirados en los papers de Google
- Primera implementación open source de MapReduce y HDFS
- Yahoo! adopta Hadoop para procesar su índice web

> **Punto clave:** El Big Data nació de la necesidad de empresas tecnológicas de procesar cantidades de datos imposibles para sistemas tradicionales, utilizando clusters de servidores comunes en lugar de supercomputadores caros.

---

## **2. La era del Big Data (2010-2018)**

**2010-2014: Explosión del ecosistema Hadoop**
- Proliferación de herramientas: Hive, HBase, Pig, Sqoop
- Nacen las "distribuciones" comerciales: Cloudera, Hortonworks, MapR
- Empresas tradicionales adoptan Big Data
- Problema: complejidad técnica y curva de aprendizaje empinada

**2014: Apache Spark cambia el juego**
- 100x más rápido que MapReduce para ciertas operaciones
- API más simple y versátil
- Procesamiento batch y streaming unificado
- Se convierte en el estándar de facto

**2015-2018: La nube se impone**
- AWS, Google Cloud y Azure ofrecen servicios Big Data managed
- Transición de clusters on-premise a infraestructura cloud
- Modelo serverless: pagar solo por uso
- Empresas pequeñas pueden acceder a capacidades Big Data

---

## **3. La transición al ecosistema moderno de datos (2018-presente)**

### Del Big Data al Modern Data Stack

El término "Big Data" empieza a quedarse corto porque:

**Cambio de enfoque**
- **Antes:** Foco en el volumen (¿cuántos datos tenemos?)
- **Ahora:** Foco en el valor (¿qué hacemos con los datos?)

**Democratización de los datos**
- **Antes:** Solo grandes tech companies podían hacer Big Data
- **Ahora:** Startups y PyMEs acceden a herramientas enterprise-grade

**Nuevos paradigmas**
- **Data Lakes** → **Data Lakehouses** (2020)
- ETL → ELT (Extract-Load-Transform en lugar de Extract-Transform-Load)
- Batch processing → Real-time & streaming como estándar
- Infraestructura propia → Cloud-native y serverless

### Evolución de roles

| Era Big Data (2010-2018) | Ecosistema moderno (2018-presente) |
|--------------------------|-----------------------------------|
| "Data Scientist hace de todo" | Roles especializados claramente definidos |
| Ingeniero Big Data | Data Engineer, Analytics Engineer, ML Engineer |
| Analista BI tradicional | Data Analyst + Data Scientist + Analytics Engineer |
| Infraestructura → enfoque principal | Valor de negocio → enfoque principal |

---

## **4. El Modern Data Stack: nuevo paradigma**

**Principios del ecosistema moderno:**

**Componentes modulares**
- Herramientas especializadas que hacen una cosa muy bien
- Integración mediante APIs y conectores estándar
- Ejemplo: Fivetran (ingesta) + Snowflake (warehouse) + dbt (transformación) + Looker (visualización)

**Cloud-first y serverless**
- Sin gestión de infraestructura
- Escalado automático según demanda
- Pago por uso real

**SQL como lenguaje común**
- Renacimiento de SQL como interfaz universal
- Herramientas modernas optimizadas para consultas SQL a escala
- Accesibilidad para analistas sin conocimientos de programación distribuida

**DataOps y automatización**
- CI/CD para pipelines de datos
- Testing automatizado de calidad
- Versionado de transformaciones (dbt)
- Observabilidad y monitorización

---

## **5. Tecnologías clave por era**

### Era Hadoop (2006-2014)
- **Almacenamiento:** HDFS
- **Procesamiento:** MapReduce, Pig, Hive
- **Limitación:** Lento, complejo, solo batch

### Era Spark (2014-2020)
- **Almacenamiento:** HDFS, S3, ADLS
- **Procesamiento:** Spark (batch + streaming)
- **Orquestación:** Airflow
- **Avance:** Más rápido, más versátil

### Era Moderna (2020-presente)
- **Almacenamiento:** Data Lakehouses (Databricks, Snowflake)
- **Procesamiento:** Spark, dbt, Flink
- **Orquestación:** Airflow, Prefect, Dagster
- **Stack completo:** Herramientas especializadas integradas
- **Filosofía:** Simplicidad, modularidad, democratización

---

## **6. Casos emblemáticos de evolución**

**Netflix:**
- **2008:** Migra de data centers propios a AWS
- **2012:** Adopta Hadoop para procesamiento batch
- **2016:** Spark para procesamiento más ágil
- **2020+:** Data Lakehouse con múltiples herramientas especializadas

**Uber:**
- **2013:** Stack basado en PostgreSQL (no escalaba)
- **2015:** Adopta Hadoop/Spark
- **2018:** Migra a arquitectura de data lake moderna
- **2021+:** Real-time streaming como core del negocio

> **Lección clave:** La evolución no significa que Hadoop o Spark desaparezcan, sino que se integran en ecosistemas más amplios y accesibles.

---

## **7. Tendencias actuales (2024-2025)**

**Data Lakehouses como estándar**
- Convergencia de Data Lakes y Data Warehouses
- Arquitectura medallion (bronze → silver → gold)
- Formato abierto: Delta Lake, Iceberg, Hudi

**Democratización mediante SQL**
- Analistas pueden trabajar directamente sobre Big Data sin conocer Spark
- dbt transforma el rol del Analytics Engineer

**IA/ML integrado**
- Feature Stores para gestionar features de modelos
- MLOps: despliegue y monitorización de modelos
- LLMs aplicados a análisis de datos

**Observabilidad de datos**
- Data lineage: rastrear origen y transformaciones
- Data quality como prioridad (Great Expectations, Deequ)
- Monitorización continua de pipelines

---

## **Conceptos clave**

- **Hadoop (2006):** Primera plataforma open source de Big Data distribuido
- **Spark (2014):** Procesamiento in-memory 100x más rápido que MapReduce
- **Modern Data Stack:** Ecosistema modular, cloud-native y especializado
- **Data Lakehouse (2020+):** Convergencia de data lakes y warehouses
- **Democratización:** De herramientas de élite técnica a accesibles para analistas

---

## **Resumen**

El Big Data surgió en los años 2000 como respuesta a la necesidad de procesar volúmenes masivos de datos que sistemas tradicionales no podían manejar. **Hadoop (2006)** democratizó el procesamiento distribuido, seguido por **Spark (2014)** que mejoró drásticamente el rendimiento.

Desde 2018, el ecosistema ha evolucionado hacia el **Modern Data Stack**: herramientas especializadas, cloud-native, con SQL como lenguaje común, que han democratizado el acceso a capacidades Big Data. Ya no se trata solo de "procesar muchos datos", sino de construir **arquitecturas de datos ágiles, escalables y generadoras de valor** con roles especializados trabajando colaborativamente.

El futuro apunta a **Data Lakehouses**, mayor integración con IA/ML, y ecosistemas donde la **calidad, observabilidad y gobernanza** son tan importantes como el procesamiento en sí.

---

## **Referencias**

### Lecturas
- [Apache Hadoop - Wikipedia](https://en.wikipedia.org/wiki/Apache_Hadoop)
- [History of Hadoop - GeeksforGeeks](https://www.geeksforgeeks.org/hadoop-history-or-evolution/)
- [The Modern Data Stack Explained: What to Know in 2025 - Alation](https://www.alation.com/blog/modern-data-stack-explained/)
- [The Modern Data Stack: Past, Present, and Future - dbt Labs](https://www.getdbt.com/blog/future-of-the-modern-data-stack)

### Vídeos
- [Hadoop In 5 Minutes | What Is Hadoop?](https://youtu.be/aReuLtY0YMI?si=DRalKbgQ-9OJzxGn)
- [Hadoop vs Spark | Which One to Choose](https://youtu.be/xDpvyu0w0C8?si=RVKCPhx-5XWKc4r2)
- [Data Science In 5 Minutes | Data Science For Beginners | What Is Data Science?](https://youtu.be/X3paOmcrTjQ?si=FHPRuWO_ENVx6dt0)