# Diseño de Pipelines de datos con GCP DataFlow

### José Luis Chiquete.
### 2022.


#### https://github.com/josechval/dataflow-datadays

## *CGP Dataflow*.

Es un servicio creado para ejecutar *pipelines* de datos implementados en *Apache Beam*.

* Totalmente autogestionado.
* Integrado a los demás servicios de *GCP*.
* Cuenta con un tablero de control y monitoreo.
* Se ejecuta desde el *Google Cloud Shell*.
* Cuenta con *Notebooks* de *JupyterLab*.

## *Apache Beam*.

Es una herramienta que permite ejecutar procesos por lotes (*batch*) o por flujos (*streams*) de datos.

https://beam.apache.org/

### *Apache Beam* es portable y ejecutable en diversas plataformas (*runners*).

* [*Apache Spark*](https://spark.apache.org/).
* [*Apache Flink*](https://flink.apache.org/).
* [*Apache Samza*](https://samza.apache.org/).
* [*Apache Nemo*](https://nemo.apache.org/).
* [*Hazelcat Jet*](https://jet-start.sh/).
* [*AWS Kinesis*](https://aws.amazon.com/es/kinesis/).
* [*GCP Dataflow*](https://cloud.google.com/dataflow).

### *Apache Beam* puede ser implementado en varios lenguajes.

* *Java*.
* *Python*.
* *Go*.
* *SQL*.

## Alternativas a *Apache Beam*.

* [*Apache Apex*](https://apex.apache.org/).
* [*Apache Airflow*](https://airflow.apache.org/).

## *Pipelines*.

Un *pipeline* describe una grafo dirigido acíclico (*DAG* por sus siglas en inglés) que corresponde a un flujo en el que los datos son filtrados o transformados.

![dag](img/dag.svg)

Según la [guía de programación de Apache Beam](https://beam.apache.org/documentation/programming-guide/), un ```Pipeline``` encapsula una tarea de procesamiento de datos de principio a fin, incluyendo.
* Lectura de datos de entrada.
* Transformación de los datos.
* Escritura de los datos de salida.

## ```PCollections```.

Representa un conjunto de datos distribuído sobre el que opera un pipeline de *Apache Beam*. Dependiendo de su naturaleza pueden ser:

* Ligadas (*bounded*), como es el caso de un archivo.
* Desligadas (*unbounded*) como es el caso de una fuente de transmisión de datos.

Las ```PCollections``` son las entradas y salidas de cada paso en un *pipeline*. 

## ```PTransforms```.

Corresponde a las acciones de procesamiento de datos que afectan a una o más ```PCollections```.

## La guía de programación de *Apache Beam*.

https://beam.apache.org/documentation/programming-guide/

### Código de ejemplo.

https://beam.apache.org/get-started/wordcount-example/

## *Google Cloud Platform*.

Es la oferta de nube pública de *Google* de servicios *PaaS* e *Iaas*.

### Servicios de cómputo.

* [*Google Compute Engine* (*GCE*)](https://cloud.google.com/compute).
* [*Google Kubernetes Engine* (*GKE*)](https://cloud.google.com/kubernetes-engine).
* [*VMWare Engine*](https://cloud.google.com/vmware-engine).
* [*App Engine*](https://cloud.google.com/appengine).
* [*Cloud Run*](https://cloud.google.com/run).
* [*Cloud Functions*](https://cloud.google.com/functions).

### Sevicios de almacenamiento.

* [*Cloud Storage*](https://cloud.google.com/storage).
* [*Persistent disk*](https://cloud.google.com/persistent-disk).
* [*Cloud Storage for Firebase*](https://firebase.google.com/docs/storage/).
* [*Cloud Filestore*](https://cloud.google.com/filestore). NAS.

### Bases de datos.

* [*Cloud SQL*](https://cloud.google.com/sql).
* [*Cloud Spanner*](https://cloud.google.com/spanner).
* [*Cloud Firestore*/*Datastore*](https://cloud.google.com/firestore).
* [*Cloud Memorystore*](https://cloud.google.com/memorystore).
* [*Cloud Bigtable*](https://cloud.google.com/bigtable).

### Big Data y aprendizaje automático.

* [*BigQuery*](https://cloud.google.com/bigquery).
* [*Cloud Dataproc*](https://cloud.google.com/dataproc).
* [*Cloud Pub/Sub*](https://cloud.google.com/pubsub).
* [*Cloud Dataflow*](https://cloud.google.com/dataflow).
* [*Cloud Composer*](https://cloud.google.com/composer).
* [*Cloud Data Catalog*](https://cloud.google.com/data-catalog).
* [*Cloud Data Fusion*](https://cloud.google.com/data-fusion).
* [*Cloud Life Sciences*](https://cloud.google.com/life-sciences).

## Guías de inicio rápido *GCP  Dataflow*.

https://cloud.google.com/dataflow/docs/quickstarts

## Contacto:

* email: josech@gmail.com
* Twitter: @josech
* LinkedIn: https://www.linkedin.com/in/josech/ 




<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2021.</p>