# üìå Servicios Gestionados de Big Data en la Nube

## üåê Introducci√≥n a Big Data
**Big Data** se refiere al manejo de grandes vol√∫menes de datos que superan las capacidades de herramientas tradicionales. En la actualidad, las empresas han pasado de usar **terabytes (TB)** a **petabytes (PB)** como unidad est√°ndar.

### ¬øQu√© es un Petabyte?
- **1 PB** = 1,000 TB = 1,000,000 GB.
- **Ejemplos ilustrativos**:
  - Equivale a una pila de disquetes m√°s alta que 12 edificios Empire State.
  - Descargarlo por 4G tomar√≠a ~27 a√±os.
  - Almacena todos los tweets hist√≥ricos multiplicados por 50.
- **Perspectiva**:
  - Solo guarda 2 microgramos de ADN.
  - Equivale a un d√≠a de contenido subido a YouTube.

üí° **Contexto empresarial**: En contabilidad, un petabyte puede almacenar millones de transacciones financieras, facturas y registros hist√≥ricos, permitiendo an√°lisis profundos para auditor√≠as o proyecciones.

### Importancia del Big Data
- **Objetivo**: No solo almacenar datos, sino extraer informaci√≥n √∫til para mejorar operaciones.
- **Beneficio**: Identificar patrones, optimizar procesos y tomar decisiones estrat√©gicas.

üí° **Ejemplo contable**: Analizar transacciones de clientes para detectar tendencias de gasto o riesgos financieros.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Big Data](https://cloud.google.com/solutions/big-data).

## üöÄ Servicios Gestionados de Big Data en Google Cloud

**Google Cloud** ofrece herramientas gestionadas para procesar **Big Data** sin preocuparte por la infraestructura t√©cnica. Los servicios clave son:

1. **Dataproc**: Procesamiento con **Apache Hadoop** y **Apache Spark**.
2. **Dataflow**: Procesamiento en streaming y por lotes (**batch**).
3. **BigQuery**: An√°lisis de datos a escala petabyte con **SQL**.

| Servicio | Uso Principal | Caracter√≠sticas | Casos Comunes |
|---------|---------------|-----------------|---------------|
| **Dataproc** | Procesamiento con Hadoop/Spark | Usa herramientas open source; f√°cil migraci√≥n | Empresas con sistemas legados |
| **Dataflow** | Streaming y batch | Maneja datos estructurados/no estructurados en tiempo real | Sensores, redes sociales, logs |
| **BigQuery** | An√°lisis a gran escala | Consultas SQL r√°pidas; soporta petabytes | Reportes BI, dashboards, KPIs |

üí° **Beneficio empresarial**: Automatizar procesos contables, como consolidar datos financieros de m√∫ltiples fuentes o generar reportes en tiempo real.

## üõ†Ô∏è Introducci√≥n a Dataproc: Procesamiento de Grandes Vol√∫menes

### ¬øQu√© es Dataproc?
**Dataproc** es un servicio gestionado que permite ejecutar **Apache Hadoop** y **Apache Spark** para procesar grandes vol√∫menes de datos.

üí° **Analog√≠a contable**: Como un equipo automatizado que analiza y consolida libros contables digitales r√°pidamente, sin necesidad de mantener servidores encendidos.

### Tecnolog√≠as Base
- **Apache Hadoop**: Conjunto de herramientas para procesar datos en m√∫ltiples computadoras.
- **Apache Spark**: Motor r√°pido para an√°lisis por lotes y en tiempo real.

### Caracter√≠sticas Clave
1. **Costo efectivo**: Desde 1 centavo por vCPU/hora + recursos usados.
2. **R√°pido y escalable**: Clusters en <90 segundos.
3. **Open source**: Compatible con Spark, Hadoop, Pig, Hive.
4. **Gestionado**: Sin necesidad de administrar servidores.
5. **Versionado**: Opciones de versiones de Spark/Hadoop.
6. **Integraci√≥n**: Con **Cloud Storage**, **BigQuery**, **Bigtable**, **Cloud Logging**, **Cloud Monitoring**.

### Ejemplo de Comando
Crear un cluster en **Dataproc**:


In [None]:
gcloud dataproc clusters create my-cluster \
    --region=REGION \
    --zone=ZONE \
    --image-version=2.0-debian10 \
    --master-machine-type=e2-standard-4 \
    --worker-machine-type=e2-standard-4 \
    --num-workers=2

üí° **Prop√≥sito**: Crea un cluster para procesar datos, como consolidar transacciones financieras de m√∫ltiples sucursales.

### Casos de Uso
- **Logs diarios**: Procesar 50 GB de logs en minutos.
- **An√°lisis con Spark**: Escalar an√°lisis sin intervenci√≥n t√©cnica.
- **Machine Learning**: Clasificar datos con **Spark MLlib**.

| Elemento | Descripci√≥n |
|----------|-------------|
| **Servicio** | Dataproc |
| **Tecnolog√≠as** | Hadoop, Spark |
| **Uso** | Procesamiento batch, streaming, ML |
| **Costo** | Desde 1 centavo/vCPU/hora |
| **Ventajas** | R√°pido, escalable, gestionado |
| **Casos** | Logs, an√°lisis Spark, MLlib |
| **Analog√≠a contable** | Oficina temporal de an√°lisis financiero |
| **Integraciones** | Cloud Storage, BigQuery, Bigtable, Logging, Monitoring |

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Dataproc](https://cloud.google.com/dataproc/docs).

## üìä Introducci√≥n a Dataflow: Procesamiento de Datos

### ¬øQu√© es Dataflow?
**Dataflow** es un servicio gestionado para procesos **ETL** (Extract, Transform, Load) en streaming o por lotes.

üí° **Analog√≠a contable**: Automatiza la recolecci√≥n, limpieza y carga de datos financieros, como procesar facturas electr√≥nicas en tiempo real.

### Diferencia con Dataproc
- **Dataproc**: Ideal para sistemas legados (Hadoop/Spark).
- **Dataflow**: Optimizado para pipelines modernos, sin depender de Hadoop.

### Caracter√≠sticas
- **Pipelines**: Secuencias automatizadas para ETL.
- **Escalabilidad**: Recursos asignados a demanda.
- **Tolerancia a fallos**: Resultados correctos siempre.
- **Monitoreo**: M√©tricas en tiempo real (rendimiento, lag).
- **Integraci√≥n**: Con **Cloud Storage**, **Pub/Sub**, **Datastore**, **Bigtable**, **BigQuery**.

### Ejemplo de Pipeline
Pipeline b√°sico en Python con **Apache Beam** para contar palabras:


In [None]:
import apache_beam as beam

def run():
    with beam.Pipeline() as pipeline:
        (
            pipeline
            | 'Read' >> beam.io.ReadFromText('gs://my-bucket/input.txt')
            | 'Split' >> beam.FlatMap(lambda x: x.split())
            | 'Count' >> beam.combiners.Count.PerElement()
            | 'Write' >> beam.io.WriteToText('gs://my-bucket/output.txt')
        )

if __name__ == '__main__':
    run()

üí° **Prop√≥sito**: Procesa datos de un archivo en **Cloud Storage**, como contar transacciones por categor√≠a.

| Concepto | Descripci√≥n |
|----------|-------------|
| **Dataflow** | Servicio para pipelines ETL |
| **ETL** | Extraer, transformar, cargar |
| **Batch/Streaming** | Procesamiento hist√≥rico o en tiempo real |
| **Ventajas** | Escalabilidad, tolerancia a fallos, monitoreo |
| **Integraciones** | Cloud Storage, Pub/Sub, BigQuery, Bigtable |
| **Analog√≠a contable** | Automatizar an√°lisis de facturas |

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Dataflow](https://cloud.google.com/dataflow/docs).

## üß† Introducci√≥n a BigQuery: An√°lisis de Datos

### ¬øQu√© es BigQuery?
**BigQuery** es un **data warehouse** serverless para an√°lisis de datos a escala petabyte, usando **SQL**.

üí° **Analog√≠a contable**: Como un archivo centralizado que consolida datos de ventas, compras y gastos para generar reportes financieros.

### Caracter√≠sticas
1. **Almacenamiento y an√°lisis**: Petabytes de datos con herramientas de **ML**, geoespacial y **BI**.
2. **Serverless**: Sin gesti√≥n de infraestructura.
3. **Precios flexibles**: Pago por uso o tarifa fija.
4. **Seguridad**: Encriptaci√≥n autom√°tica.
5. **BigQuery ML**: Modelos de machine learning con **SQL**.

### Ejemplo de Consulta
Consulta SQL para analizar ventas por regi√≥n:


In [None]:
SELECT region, SUM(sales_amount) as total_sales
FROM `my-project.dataset.sales`
GROUP BY region
ORDER BY total_sales DESC;

üí° **Prop√≥sito**: Resume ventas por regi√≥n, √∫til para reportes financieros.

### Arquitectura
- **Ingesta**:
  - **Streaming**: Via **Pub/Sub**.
  - **Batch**: Desde **Cloud Storage**.
  - **ETL**: Procesado con **Dataflow**.
- **Destinos**: **Looker**, **Looker Studio**, **Google Sheets**, **Vertex AI**.

| Concepto | Explicaci√≥n |
|----------|-------------|
| **BigQuery** | Data warehouse serverless |
| **Data Warehouse** | Archivo central de datos |
| **Serverless** | Sin gesti√≥n de servidores |
| **SQL** | Lenguaje para consultas |
| **ETL** | Extraer, transformar, cargar |
| **BigQuery ML** | ML con SQL |
| **BI Tools** | Looker, Tableau, Google Sheets |
| **Analog√≠a contable** | Archivo contable consolidado |

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de BigQuery](https://cloud.google.com/bigquery/docs).

## üöÄ Conclusi√≥n

Este m√≥dulo te permiti√≥:
1. Comprender **Big Data** y su importancia empresarial.
2. Explorar **Dataproc** para Hadoop/Spark.
3. Conocer **Dataflow** para pipelines ETL.
4. Usar **BigQuery** para an√°lisis a gran escala.

üí° **Beneficio empresarial**: Automatizar y escalar procesos contables, desde consolidar transacciones hasta generar reportes predictivos.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Big Data](https://cloud.google.com/solutions/big-data).