[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Tablas, vistas y sesiones.

##  *Dremel*.

*Dremel* es el componente principal de analítica de *BigQuery*.

*Dremel* es un sistema de consultas (*queries*) escalable hecho explícitamente para el análisis de datos "anidados" de sólo lectura. Al combinar árboles de ejecución y una disposición columnar de los datos, es capaz de ejecutar consultas de agregación sobre tablas con billones de renglones en segundos. El sistema es capaz de escalar a miles de *CPUs* y petabytes de datos.

Ihttps://research.google/pubs/pub36632/

## *Datasets*.

Los *datasets* son contenedores de nivel superior que se usan para organizar y controlar el acceso a tablas y vistas. Es necesario que dentro de un proyecto de *GCP* exista al menos un conjunto de datos para poder cargar datos en *BigQuery*.

https://cloud.google.com/bigquery/docs/datasets-intro?hl=es_419

### Creación de un conjunto de datos.

https://cloud.google.com/bigquery/docs/datasets?hl=es_419#create-dataset

## Tablas.

Una tabla de *BigQuery* contiene registros individuales organizados en renglones. Cada registro está compuesto por columnas (también llamadas campos).

Cada tabla cuenta con un esquema que describe los nombres de las columnas, los tipos de datos y otra información. Es posible especificar el esquema de una tabla cuando es creada, aun cuando también es posible crear una tabla sin un esquema y declarar el esquema en el trabajo de consulta o de carga en el que los datos se propaguen primero.


https://cloud.google.com/bigquery/docs/tables-intro?hl=es_419

### Tipos de tablas.

#### Tablas nativas.
Son tablas que se encuentran almacenadas en la infraestructura de *BigQuery*.

**Tablas estándar:**

Las **tablas estándar** son el tipo de tabla más básico en BigQuery. Son **inmutables**, lo que significa que una vez que se insertan los datos, no se pueden modificar. Las tablas estándar son ideales para almacenar datos históricos que no necesitan ser actualizados.

**Clones de tablas:**

Los [**clones de tablas**](https://cloud.google.com/bigquery/docs/table-clones-intro) son **copias ligeras** de las tablas estándar. Son **editables**, lo que significa que puedes modificar los datos después de crearlos. Los clones de tablas son ideales para crear conjuntos de datos de prueba o para trabajar con datos que necesitan ser actualizados con frecuencia.

**Vistas materializadas:**

Las [**vistas materializadas**](https://cloud.google.com/bigquery/docs/materialized-views-intro?hl=es-419#overview) son **tablas pre-calculadas** que se generan a partir de una consulta SQL. Son **inmutables**, como las tablas estándar, pero se actualizan automáticamente cuando la consulta subyacente cambia. Las vistas materializadas son ideales para mejorar el rendimiento de las consultas que se ejecutan con frecuencia.

**Resumen:**

| Tipo de tabla | Mutabilidad | Ideal para |
|---|---|---|
| Tabla estándar | Inmutable | Almacenar datos históricos |
| Clon de tabla | Editable | Crear conjuntos de datos de prueba, trabajar con datos que necesitan ser actualizados |
| Vista materializada | Inmutable | Mejorar el rendimiento de las consultas que se ejecutan con frecuencia |

**Escenarios de uso:**

* **Tablas estándar:** Almacenar datos de sensores, registros de aplicaciones, datos financieros históricos.
* **Clones de tablas:** Crear conjuntos de datos de prueba para análisis, trabajar con conjuntos de datos que se actualizan con frecuencia.
* **Vistas materializadas:** Agrupar datos para análisis, mejorar el rendimiento de las consultas complejas

### Tablas externas

Las **tablas externas** en BigQuery son una herramienta poderosa que te permite acceder a datos almacenados en **fuentes externas** sin necesidad de cargarlos en BigQuery. Esto puede ser útil para:

* **Reducir los costos de almacenamiento**: Al no tener que duplicar los datos en BigQuery, puedes ahorrar espacio y costos.
* **Agilizar el acceso a datos**: Puedes acceder a datos en tiempo real sin necesidad de realizar procesos de carga y transformación.
* **Mantener la integridad de los datos**: Los datos se mantienen en su ubicación original, lo que reduce el riesgo de errores o inconsistencias.

**Tipos de fuentes externas:**

BigQuery soporta una amplia variedad de fuentes externas, incluyendo:

* **Archivos CSV, JSON, Avro y Parquet** almacenados en Google Cloud Storage (GCS) o en otros proveedores de almacenamiento en la nube.
* **Bases de datos** como Cloud SQL, MySQL, PostgreSQL y Oracle.
* **Tablas de BigQuery** en otros proyectos o datasets.
* **APIs** RESTful.

**Creación de una tabla externa:**

Para crear una tabla externa, es necesario definir la siguiente información:

* **Nombre de la tabla**: El nombre que tendrá la tabla en BigQuery.
* **Esquema**: La estructura de la tabla, incluyendo los nombres y tipos de datos de las columnas.
* **Ubicación de la fuente de datos**: La ubicación de los datos en la fuente externa.
* **Formato de los datos**: El formato de los datos en la fuente externa.

**Consultas y análisis:**

Una vez que has creado una tabla externa, puedes consultarla y analizarla como si fuera una tabla estándar de BigQuery. Puedes usar todas las funciones y herramientas de BigQuery para trabajar con los datos, incluyendo:

* **Consultas SQL**: Puedes usar SQL para seleccionar, filtrar y agrupar datos de la tabla externa.
* **Visualizaciones**: Puedes crear visualizaciones de los datos de la tabla externa.
* **Machine learning**: Puedes usar los datos de la tabla externa para entrenar modelos de machine learning.

**Limitaciones:**

Las tablas externas tienen algunas limitaciones:

* **No se pueden modificar**: No puedes agregar, eliminar o modificar datos en una tabla externa.
* **No se pueden usar en particiones**: No puedes particionar una tabla externa.
* **No se pueden usar en snapshots**: No puedes crear snapshots de una tabla externa.

https://cloud.google.com/bigquery/docs/external-data-sources?hl=es-419

### Creación de tablas.

https://cloud.google.com/bigquery/docs/tables

https://console.cloud.google.com/bigquery

```sql
#StandardSQL
CREATE TABLE demo_qtop_adicional.tabla_nueva_1 AS (
SELECT unique_key AS id, 
trip_start_timestamp AS inicio, 
trip_stop_timestamp AS fin,
company,
trip_total
FROM
  `bigquery-public-data.chicago_taxi_trips.taxi_trips`
  WHERE trip_total > 500 AND 
  company IS NOT NULL AND 
  EXTRACT(YEAR FROM
    trip_start_timestamp) = 2017
  ORDER BY company DESC, inicio);
```

### Particionamiento de tablas.

BigQuery permite particionar una tabla para mejorar el rendimiento de las consultas. Cuando una tabla es particionada, esta se divide en subconjuntos más pequeños de datos basados en una columna específica, llamada **columna de partición**. 

**Tipos de particiones:**

* **Particiones por tiempo:** Se basan en una columna de tipo DATE o TIMESTAMP. Puedes particionar por año, mes, día, hora, etc.
* **Particiones por rango:** Se basan en una columna de tipo NUMERIC. Puedes particionar por rangos de valores, como por ejemplo, 0-100, 101-200, etc.
* **Particiones por hash:** Se basan en una función hash que se aplica a una o más columnas. Esta técnica es útil para distribuir uniformemente los datos entre las particiones.

**Beneficios de particionar una tabla:**

* **Mejor rendimiento de las consultas:** BigQuery solo necesita escanear las particiones que son relevantes para la consulta, lo que reduce el tiempo de ejecución.
* **Escalabilidad:** Las particiones te permiten escalar tu tabla a medida que aumenta la cantidad de datos.
* **Facilidad de administración:** Puedes eliminar particiones antiguas para liberar espacio de almacenamiento.

**Cómo particionar una tabla:**

Es posible particionar una tabla al crearla o después de que se haya creado.

**Al crear la tabla:**

1. Usar la cláusula `PARTITION BY` en la sentencia `CREATE TABLE`.
2. Especificar la columna de partición y el tipo de partición.

**Ejemplo:**

```sql
CREATE TABLE mydataset.mytable (
  id INT64,
  fecha DATE
)
PARTITION BY fecha;
```

**Después de crear la tabla:**

1. Usar la sentencia `ALTER TABLE`.
2. Agregar la cláusula `PARTITION BY`.

**Ejemplo:**

```sql
ALTER TABLE mydataset.mytable
PARTITION BY fecha;
```

* https://cloud.google.com/bigquery/docs/partitioned-tables
* https://cloud.google.com/bigquery/docs/creating-partitioned-tables

## Vistas.

Una vista es una tabla virtual definida por una consulta *SQL*. Al crear una vista, las consultas se ejecutan de la misma manera que en una tabla. 

Cuando un usuario consulta la vista, los resultados solo contienen datos de las tablas y los campos especificados en la consulta definida en la vista.

https://cloud.google.com/bigquery/docs/views-intro?hl=es_419

### Creación de vistas.

```sql
CREATE VIEW <DATASET>.vista_nueva AS (
SELECT unique_key AS id, 
trip_start_timestamp AS inicio, 
trip_start_timestamp AS fin,
company,
trip_total
FROM
  `bigquery-public-data.chicago_taxi_trips.taxi_trips`
  WHERE trip_total > 500 AND 
  company IS NOT NULL AND 
  EXTRACT(YEAR FROM
    trip_start_timestamp) = 2017
  ORDER BY company DESC, inicio);
```

## Sesiones.

Una sesión permite conservar las actividades de consultas *SQL* de *BigQuery*. 

* Se pueden usar variables y tablas temporales durante la sesión para compilar de forma interactiva una o más consultas. 
* Pueden haber múltiples sesiones simultáneas y se guarda el historial de cada sesión. 
* Es posible ver el historial de una sesión hasta 20 días después de que esta haya terminado.

https://cloud.google.com/bigquery/docs/sessions-intro

## *BigQuery Omni*.

[*BigQuery Omni*](https://cloud.google.com/bigquery-omni/docs/introduction) es un servicio lanzado muy recientemente, el cual permite crear tablas externas a partir de datos almacenados en *S3* de *AWS* y *Blob Storage* de *Azure*.

## BigLake

**BigLake** es un motor de almacenamiento de **Google Cloud** que te permite unificar lagos de datos y almacenes de datos en una única plataforma. Ofrece una interfaz unificada para acceder a tus datos sin importar dónde estén almacenados, su formato o el sistema de almacenamiento subyacente.

**Beneficios de BigLake:**

* **Simplicidad:** Elimina la necesidad de mover o duplicar datos entre diferentes plataformas.
* **Eficiencia:** Reduce los costos y la complejidad de la gestión de datos.
* **Flexibilidad:** Te permite trabajar con datos en una variedad de formatos y sistemas de almacenamiento.
* **Escalabilidad:** Se adapta a tus necesidades a medida que aumenta la cantidad de datos.
* **Seguridad:** Protege tus datos con las funciones de seguridad integradas de Google Cloud.

**BigLake permite:**

* **Acceder a datos de diferentes fuentes:** Puedes acceder a datos almacenados en BigQuery, AWS S3, Azure Data Lake Store Gen2 y otros sistemas de almacenamiento.
* **Aplicar controles de acceso:** Puedes aplicar controles de acceso detallados a tus datos, independientemente de dónde estén almacenados.
* **Ejecutar análisis:** Puedes ejecutar análisis en tus datos utilizando herramientas como BigQuery, Spark, Presto y TensorFlow.
* **Desarrollar aplicaciones:** Puedes desarrollar aplicaciones que utilizan tus datos.

https://cloud.google.com/biglake?hl=es_419


## Esquema de costos de BigQuery.

BigQuery ofrece dos opciones de precios: por consumo y por slot.

**Precios por consumo:**

* **Almacenamiento:** Se cobra por la cantidad de datos que se almacenan en BigQuery. El precio depende del tipo de almacenamiento que se elija: **de alto rendimiento** o **de bajo costo**.
* **Cálculo:** Se cobra por la cantidad de datos que se procesan cuando se ejecutn consultas. El precio depende del tipo de consulta y la cantidad de datos que procesa.
* **E/S de red:** Secobra por la cantidad de datos que se transfieren a BigQuery y desde BigQuery.

**Precios por slot:**

* **Slots:** Se paga por un número determinado de slots por hora. Un slot es una unidad de recursos de computación que se utiliza para ejecutar consultas.
* **Almacenamiento:** El almacenamiento es gratuito.
* **Cálculo:** No se cobra por el procesamiento de datos.

**Consejos para optimizar tus costos de BigQuery:**

* **Utilizar las particiones:** Las particiones te permiten dividir tus datos en subconjuntos más pequeños, lo que puede mejorar el rendimiento de las consultas y reducir los costos.
* **Comprimir los datos:** La compresión puede reducir el tamaño de tus datos, lo que puede reducir los costos de almacenamiento y de red.
* **Utilizar las vistas materializadas:** Las vistas materializadas son tablas pre-calculadas que pueden mejorar el rendimiento de las consultas y reducir los costos.
* **Supervisar costos:** Utilizar la herramienta de supervisión de costos de BigQuery para identificar oportunidades de optimización.

* https://cloud.google.com/bigquery/pricing?hl=es-419

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>