[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Introducción.

*BigQuery* es la herramienta de analítica de *Google* que aprovecha y separa:

* Almacenamiento ([*Colossus*)](https://cloud.google.com/blog/products/storage-data-transfer/a-peek-behind-colossus-googles-file-system).
* Procesamiento ([*Dremel*](https://research.google/pubs/pub36632/)).

Para poder realizar dichas operaciones por separado en tiempos mínimos se utiliza una red de datos de alta velocidad ([*Jupiter*)](https://cloudplatform.googleblog.com/2015/06/A-Look-Inside-Googles-Data-Center-Networks.html), la cual cuenta con ancho de banda bidireccional de más de *1 Pb/s*. 

https://cloud.google.com/blog/products/data-analytics/new-blog-series-bigquery-explained-overview

<img src="img/01/BQ_Explained_2.max-900x900.jpg">

## Google Cloud Platform para datos y analítica.

### Ciclo de vida de los datos.

* Ingesta.
* Almacenamiento.
* Procesamiento y análisis.
* Exploración y visualización.
* Modelos predictivos a partir de datos. 

https://cloud.google.com/architecture/data-lifecycle-cloud-platform

<img src="img/01/data-lifecycle-1.svg">

## *Data Warehousing*.

Un *data warehouse* es un tipo de sistema de gestión de datos que es diseñado para habilitar y soportar actividades de *Business Intelligence* (*BI*), particularmente para analítica. Los *data warehouses* son usados primordialmente para realizar consultas (*queries*) mediante *SQL* y análisis que contienen grandes volúmenes de datos históricos de un negocio.

### *OLAP*.

El procesamiento analítico en línea (*OLAP*) se refiere a ciertas tecnologías que organizan grandes bases de datos y soportan análisis complejos. Permiten realizar consultas analíticas complejas sin afectar negativamente a los sistemas transaccionales. *Big Query* Es un sistema *OLAP*.

### *OLTP*.

El Procesamiento de Transacciones En Línea (*OLTP*) se refiere a ciertas tecnologías y herramientas que permiten realizar operaciones altamente transaccionales en bases de datos, tal como es el caso de los sistemas de gestión de bases de datos relacionales (*RDBMS*). *Big Query* NO es un sistema *OLTP*.

## *Data Lake*. 

Es un repositorio de almacenamiento centralizado que contienen grandes cantidades de datos provenientes de múltiples fuentes en formato * crudo* y generalmente, no estructurado.  

* *Big Query* NO es un *Data Lake*.
* *Cloud Storage* es un *Data Lake*. 

### BigQuery es un sistema de Data Warehouse que realiza operaciones OLAP mediante *queries* basadas en ANSI SQL Estándar.

### *ETL*, *ELT*, *EL*.

Son operaciones de procesamiento de datos donde:

* *E* significa "extraer". Es decir, adquirir información de una o varias fuentes de datos.
    * Por lotes (*batch*). Elementos finitos.
    * Por flujo (*stream*). Elementos que no tiene un fin delimitado y son generados/enviados en intervalos generalmente impredecibles.
* *L* significa "cargar". Es decir, almacenar los elementos en un *data store*.
* *T* significa "transformar". Es decir, realizar las operaciones necesarias para convertir los datos crudos en datos útiles.

### *Data Mart*.

Un  *data mart* es un almacen de datos relativo a un área, proyecto o interés particular dentro del negocio. *Big Query* es capaz de ofrecer:

* [Tablas](https://cloud.google.com/bigquery/docs/tables-intro).
* [Vistas](https://cloud.google.com/bigquery/docs/views-intro).
* [Sesiones](https://cloud.google.com/bigquery/docs/sessions-intro).

Las cuales pueden ser compartidas mediante:

* El gestor de identidad y accesos ([*IAM*](https://cloud.google.com/bigquery/docs/access-control)).
* [Listas de control de acceso (*ACL*)](https://cloud.google.com/bigquery/docs/table-access-controls-intro#permissions) de tablas.
* [Autorización de vistas](https://cloud.google.com/bigquery/docs/authorized-views).


## Acceso sin costo a *BigQuery*.

### El *sandbox*.

https://cloud.google.com/bigquery/docs/sandbox#get_started_with_the_sandbox

https://console.cloud.google.com/bigquery

### El nivel gratuito de *GCP*.
|
https://cloud.google.com/free/

## Primera consulta.

```SQL
SELECT 
  EXTRACT(YEAR FROM creation_date) AS year,
  EXTRACT(MONTH FROM creation_date) AS month,
  COUNT(creation_date) AS number_posts
FROM
  `bigquery-public-data.stackoverflow.stackoverflow_posts`
WHERE
  answer_count > 0
GROUP BY year, month
ORDER BY year ASC, month ASC;
```

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>