# 📌 Servicios Gestionados de Big Data en la Nube

## 🌐 Introducción a Big Data
**Big Data** se refiere al manejo de grandes volúmenes de datos que superan las capacidades de herramientas tradicionales. En la actualidad, las empresas han pasado de usar **terabytes (TB)** a **petabytes (PB)** como unidad estándar.

### ¿Qué es un Petabyte?
- **1 PB** = 1,000 TB = 1,000,000 GB.
- **Ejemplos ilustrativos**:
  - Equivale a una pila de disquetes más alta que 12 edificios Empire State.
  - Descargarlo por 4G tomaría ~27 años.
  - Almacena todos los tweets históricos multiplicados por 50.
- **Perspectiva**:
  - Solo guarda 2 microgramos de ADN.
  - Equivale a un día de contenido subido a YouTube.

💡 **Contexto empresarial**: En contabilidad, un petabyte puede almacenar millones de transacciones financieras, facturas y registros históricos, permitiendo análisis profundos para auditorías o proyecciones.

### Importancia del Big Data
- **Objetivo**: No solo almacenar datos, sino extraer información útil para mejorar operaciones.
- **Beneficio**: Identificar patrones, optimizar procesos y tomar decisiones estratégicas.

💡 **Ejemplo contable**: Analizar transacciones de clientes para detectar tendencias de gasto o riesgos financieros.

Para más información, consulta la [Documentación de Google Cloud Big Data](https://cloud.google.com/solutions/big-data).

## 🚀 Servicios Gestionados de Big Data en Google Cloud

**Google Cloud** ofrece herramientas gestionadas para procesar **Big Data** sin preocuparte por la infraestructura técnica. Los servicios clave son:

1. **Dataproc**: Procesamiento con **Apache Hadoop** y **Apache Spark**.
2. **Dataflow**: Procesamiento en streaming y por lotes (**batch**).
3. **BigQuery**: Análisis de datos a escala petabyte con **SQL**.

| Servicio | Uso Principal | Características | Casos Comunes |
|---------|---------------|-----------------|---------------|
| **Dataproc** | Procesamiento con Hadoop/Spark | Usa herramientas open source; fácil migración | Empresas con sistemas legados |
| **Dataflow** | Streaming y batch | Maneja datos estructurados/no estructurados en tiempo real | Sensores, redes sociales, logs |
| **BigQuery** | Análisis a gran escala | Consultas SQL rápidas; soporta petabytes | Reportes BI, dashboards, KPIs |

💡 **Beneficio empresarial**: Automatizar procesos contables, como consolidar datos financieros de múltiples fuentes o generar reportes en tiempo real.

## 🛠️ Introducción a Dataproc: Procesamiento de Grandes Volúmenes

### ¿Qué es Dataproc?
**Dataproc** es un servicio gestionado que permite ejecutar **Apache Hadoop** y **Apache Spark** para procesar grandes volúmenes de datos.

💡 **Analogía contable**: Como un equipo automatizado que analiza y consolida libros contables digitales rápidamente, sin necesidad de mantener servidores encendidos.

### Tecnologías Base
- **Apache Hadoop**: Conjunto de herramientas para procesar datos en múltiples computadoras.
- **Apache Spark**: Motor rápido para análisis por lotes y en tiempo real.

### Características Clave
1. **Costo efectivo**: Desde 1 centavo por vCPU/hora + recursos usados.
2. **Rápido y escalable**: Clusters en <90 segundos.
3. **Open source**: Compatible con Spark, Hadoop, Pig, Hive.
4. **Gestionado**: Sin necesidad de administrar servidores.
5. **Versionado**: Opciones de versiones de Spark/Hadoop.
6. **Integración**: Con **Cloud Storage**, **BigQuery**, **Bigtable**, **Cloud Logging**, **Cloud Monitoring**.

### Ejemplo de Comando
Crear un cluster en **Dataproc**:


In [None]:
gcloud dataproc clusters create my-cluster \
    --region=REGION \
    --zone=ZONE \
    --image-version=2.0-debian10 \
    --master-machine-type=e2-standard-4 \
    --worker-machine-type=e2-standard-4 \
    --num-workers=2

💡 **Propósito**: Crea un cluster para procesar datos, como consolidar transacciones financieras de múltiples sucursales.

### Casos de Uso
- **Logs diarios**: Procesar 50 GB de logs en minutos.
- **Análisis con Spark**: Escalar análisis sin intervención técnica.
- **Machine Learning**: Clasificar datos con **Spark MLlib**.

| Elemento | Descripción |
|----------|-------------|
| **Servicio** | Dataproc |
| **Tecnologías** | Hadoop, Spark |
| **Uso** | Procesamiento batch, streaming, ML |
| **Costo** | Desde 1 centavo/vCPU/hora |
| **Ventajas** | Rápido, escalable, gestionado |
| **Casos** | Logs, análisis Spark, MLlib |
| **Analogía contable** | Oficina temporal de análisis financiero |
| **Integraciones** | Cloud Storage, BigQuery, Bigtable, Logging, Monitoring |

Para más información, consulta la [Documentación de Dataproc](https://cloud.google.com/dataproc/docs).

## 📊 Introducción a Dataflow: Procesamiento de Datos

### ¿Qué es Dataflow?
**Dataflow** es un servicio gestionado para procesos **ETL** (Extract, Transform, Load) en streaming o por lotes.

💡 **Analogía contable**: Automatiza la recolección, limpieza y carga de datos financieros, como procesar facturas electrónicas en tiempo real.

### Diferencia con Dataproc
- **Dataproc**: Ideal para sistemas legados (Hadoop/Spark).
- **Dataflow**: Optimizado para pipelines modernos, sin depender de Hadoop.

### Características
- **Pipelines**: Secuencias automatizadas para ETL.
- **Escalabilidad**: Recursos asignados a demanda.
- **Tolerancia a fallos**: Resultados correctos siempre.
- **Monitoreo**: Métricas en tiempo real (rendimiento, lag).
- **Integración**: Con **Cloud Storage**, **Pub/Sub**, **Datastore**, **Bigtable**, **BigQuery**.

### Ejemplo de Pipeline
Pipeline básico en Python con **Apache Beam** para contar palabras:


In [None]:
import apache_beam as beam

def run():
    with beam.Pipeline() as pipeline:
        (
            pipeline
            | 'Read' >> beam.io.ReadFromText('gs://my-bucket/input.txt')
            | 'Split' >> beam.FlatMap(lambda x: x.split())
            | 'Count' >> beam.combiners.Count.PerElement()
            | 'Write' >> beam.io.WriteToText('gs://my-bucket/output.txt')
        )

if __name__ == '__main__':
    run()

💡 **Propósito**: Procesa datos de un archivo en **Cloud Storage**, como contar transacciones por categoría.

| Concepto | Descripción |
|----------|-------------|
| **Dataflow** | Servicio para pipelines ETL |
| **ETL** | Extraer, transformar, cargar |
| **Batch/Streaming** | Procesamiento histórico o en tiempo real |
| **Ventajas** | Escalabilidad, tolerancia a fallos, monitoreo |
| **Integraciones** | Cloud Storage, Pub/Sub, BigQuery, Bigtable |
| **Analogía contable** | Automatizar análisis de facturas |

Para más información, consulta la [Documentación de Dataflow](https://cloud.google.com/dataflow/docs).

## 🧠 Introducción a BigQuery: Análisis de Datos

### ¿Qué es BigQuery?
**BigQuery** es un **data warehouse** serverless para análisis de datos a escala petabyte, usando **SQL**.

💡 **Analogía contable**: Como un archivo centralizado que consolida datos de ventas, compras y gastos para generar reportes financieros.

### Características
1. **Almacenamiento y análisis**: Petabytes de datos con herramientas de **ML**, geoespacial y **BI**.
2. **Serverless**: Sin gestión de infraestructura.
3. **Precios flexibles**: Pago por uso o tarifa fija.
4. **Seguridad**: Encriptación automática.
5. **BigQuery ML**: Modelos de machine learning con **SQL**.

### Ejemplo de Consulta
Consulta SQL para analizar ventas por región:


In [None]:
SELECT region, SUM(sales_amount) as total_sales
FROM `my-project.dataset.sales`
GROUP BY region
ORDER BY total_sales DESC;

💡 **Propósito**: Resume ventas por región, útil para reportes financieros.

### Arquitectura
- **Ingesta**:
  - **Streaming**: Via **Pub/Sub**.
  - **Batch**: Desde **Cloud Storage**.
  - **ETL**: Procesado con **Dataflow**.
- **Destinos**: **Looker**, **Looker Studio**, **Google Sheets**, **Vertex AI**.

| Concepto | Explicación |
|----------|-------------|
| **BigQuery** | Data warehouse serverless |
| **Data Warehouse** | Archivo central de datos |
| **Serverless** | Sin gestión de servidores |
| **SQL** | Lenguaje para consultas |
| **ETL** | Extraer, transformar, cargar |
| **BigQuery ML** | ML con SQL |
| **BI Tools** | Looker, Tableau, Google Sheets |
| **Analogía contable** | Archivo contable consolidado |

Para más información, consulta la [Documentación de BigQuery](https://cloud.google.com/bigquery/docs).

## 🚀 Conclusión

Este módulo te permitió:
1. Comprender **Big Data** y su importancia empresarial.
2. Explorar **Dataproc** para Hadoop/Spark.
3. Conocer **Dataflow** para pipelines ETL.
4. Usar **BigQuery** para análisis a gran escala.

💡 **Beneficio empresarial**: Automatizar y escalar procesos contables, desde consolidar transacciones hasta generar reportes predictivos.

Para más información, consulta la [Documentación de Google Cloud Big Data](https://cloud.google.com/solutions/big-data).