# GX Core Overview

[Documentación](https://docs.greatexpectations.io/docs/core/introduction/gx_overview)

**GX Core components and workflows**

**Great Expectations (GX)** es un marco para describir datos mediante pruebas expresivas y validar a continuación que los datos cumplen los criterios de las pruebas. GX Core es una biblioteca de Python que proporciona una interfaz programática para crear y ejecutar flujos de trabajo de validación de datos mediante GX. GX Core es versátil y admite diversos flujos de trabajo. Puede utilizarse para la validación de datos interactiva y exploratoria, así como para la validación de datos en despliegues a producción. 

* **Los componentes GX (GX Components)** son clases de Python que representan sus datos y entidades de validación de datos. 
* **Los flujos de trabajo GX (GX Workflows)** son procesos de validación de datos definidos mediante programación. Los flujos de trabajo GX se construyen utilizando componentes GX.

**Patrón de un flujo de trabajo GX**
Todos los flujos de trabajo GX comparten un patrón común: 
1. Configurar un entorno GX 
2. Conectar a datos
3. Definir expectativas
4. Ejecutar validaciones


<img src='../images/gx_workflow_steps_and_components-a1511e31cccadb7158f1e8665cc90628.png'>

## **1. Set up a GX environment**

**Un contexto de datos (Data Context)** gestiona la configuración y los metadatos de un flujo de trabajo GX. En GX Core, el contexto de datos es un objeto Python que sirve como punto de entrada para la API Python de GX. El Contexto de datos se utiliza para definir y ejecutar un flujo de trabajo GX; el Contexto de datos proporciona acceso a las configuraciones, metadatos y acciones de los componentes del flujo de trabajo GX y a los resultados de las validaciones de datos. Todos los flujos de trabajo GX comienzan con la creación de un Contexto de datos.

## **2. Connect to data**

* **Una fuente de datos (Data Source)** es la representación en GX de un almacén de datos. La fuente de datos le dice a GX cómo conectarse a sus datos, y admite la conexión a diferentes tipos de almacenes de datos, incluidas bases de datos, esquemas y archivos de datos en almacenamiento de objetos en la nube. 

* **Un activo de datos (Data Asset)** es una colección de registros dentro de una fuente de datos. Una analogía útil es: si una Fuente de Datos es una base de datos relacional, entonces un Activo de Datos es una tabla dentro de esa base de datos, o los resultados de una consulta select en una tabla dentro de esa base de datos. 

* **Una Definición de Lote (Batch Definition)** le dice a GX cómo organizar los registros dentro de un Activo de Datos. El objeto Python Batch Definition permite recuperar un Lote, o colección de registros de un Activo de Datos, para su validación en tiempo de ejecución. Un Activo de Datos puede validarse como un único Lote, o dividirse en varios Lotes para validaciones separadas.

## **3. Define Expectations**

**Una expectativa (Expectation)** es una afirmación verificable sobre los datos. Al igual que las aserciones de las pruebas unitarias tradicionales de Python, las expectativas proporcionan un lenguaje flexible y declarativo para describir las cualidades esperadas de los datos. Una expectativa puede utilizarse para validar un lote de datos.

**Un conjunto de expectativas (Expectation Suite)** es una colección de expectativas. Los conjuntos de expectativas pueden utilizarse para validar un lote de datos utilizando varias expectativas, lo que agiliza el proceso de validación. Puede definir varios conjuntos de expectativas para los mismos datos con el fin de cubrir diferentes casos de uso, y puede aplicar el mismo conjunto de expectativas a diferentes lotes.

## **4. Run Validations**

* **Una Definición de Validación (Validation Definition)** asocia explícitamente una Definición de Lote (Batch definition) a un Conjunto de Expectativas (Expectation Suite), definiendo qué datos deben ser validados frente a qué Expectativas. 

* **Un Resultado de Validación (Validation Result)** es devuelto por GX tras la validación de los datos. Los resultados de validación le indican cómo se corresponden sus datos con lo que usted esperaba de ellos. 

* **Un punto de comprobación (Checkpoint)** es el medio principal para validar datos en un despliegue de producción (production deployment) de GX. Los Puntos de Verificación (Chekpoints) permiten ejecutar una lista de Definiciones de Validación (Validation Definitions) con parámetros compartidos. Los puntos de control pueden configurarse para ejecutar acciones y pasar los resultados de validación a una lista de acciones predefinidas para su procesamiento. 

* **Las acciones (Actions)** proporcionan un mecanismo para integrar los puntos de control (Chekpoints) en los data pipelines de datos mediante el procesamiento automático de los resultados de validación. Los casos de uso típicos incluyen el envío de alertas por correo electrónico, mensajes de Slack o notificaciones personalizadas basadas en el resultado de la validación de datos. 

* **Los documentos de datos (Data Docs)** son documentación legible por humanos generada por GX que aloja sus definiciones de Expectation Suite y resultados de validación. Mediante puntos de comprobación y acciones, puede configurar su flujo de trabajo de GX para que escriba automáticamente los resultados de validación en un sitio de Data Docs seleccionado.

## **5. Customize GX Core Workflows**

Aunque todos los flujos de trabajo GX Core siguen un patrón común, el resultado y el funcionamiento de un flujo de trabajo pueden personalizarse en función de cómo se creen los lotes, se definan las expectativas y se ejecuten las validaciones. Los componentes GX Core son bloques de construcción que pueden aplicarse de diversas maneras para satisfacer su caso de uso de validación de datos. Por ejemplo, un flujo de trabajo GX Core podría:

* Crear un lote (Batch) utilizando datos de un marco de datos de Spark (Spark DataFrame) y permitirle validar interactivamente el lote con expectativas y revisar inmediatamente los resultados de la validación. Este flujo de trabajo podría servir para informarle sobre qué Expectativas desea utilizar en un despliegue de producción de GX.

* Conéctese a los datos de una tabla SQL, defina varias suites de expectativas que comprueben cada una de las características de calidad de datos deseadas y utilice un punto de comprobación para ejecutar todas las suites de expectativas. Este flujo de trabajo, cuando se integra con un orquestador y es activado por éste, podría permitir la realización de pruebas de calidad de datos automatizadas y programadas en una tabla de datos esencial (essential data table).

* Conéctese a un grupo de tablas SQL y defina una colección de Activos de datos, cada uno de ellos agrupado por lotes en una columna basada en el tiempo, y valide los datos dentro de cada Activo de datos utilizando el mismo Expectation Suite. Este flujo de trabajo podría proporcionar una forma de implementar pruebas de calidad de datos consistentes a través de una infraestructura de datos fragmentada.




In [21]:
#%pip install great_expectations

# Example 1: Try GX Core


In [1]:
import great_expectations as gx
from great_expectations.data_context import FileDataContext
from great_expectations import expectations as gxe

In [2]:
import pandas as pd

In [22]:
print(gx.__version__)

1.1.0


## Sample Data

Los ejemplos proporcionados en esta página utilizan una muestra de datos de registro de [viajes en taxi de la ciudad de Nueva York](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page). Los datos de muestra se proporcionan utilizando varios medios (archivo CSV, tabla Postgres) para apoyar cada flujo de trabajo. 

Al utilizar los datos de taxi, puede hacer ciertas suposiciones. Por ejemplo: 
* El recuento de pasajeros debe ser mayor que cero porque al menos un pasajero debe estar presente para un viaje. Además, los taxis tienen capacidad para un máximo de seis pasajeros.
* Las tarifas de los viajes deben ser superiores a cero.

### 1. Descargue y lea los datos de muestra en un DataFrame de Pandas.

In [23]:
df = pd.read_csv(
    'https://raw.githubusercontent.com/great-expectations/gx_tutorials/main/data/yellow_tripdata_sample_2019-01.csv'
)

In [24]:
df.head()

Unnamed: 0,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,trip_distance,rate_code_id,store_and_fwd_flag,pickup_location_id,dropoff_location_id,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,1,2019-01-15 03:36:12,2019-01-15 03:42:19,1,1.0,1,N,230,48,1,6.5,0.5,0.5,1.95,0.0,0.3,9.75,
1,1,2019-01-25 18:20:32,2019-01-25 18:26:55,1,0.8,1,N,112,112,1,6.0,1.0,0.5,1.55,0.0,0.3,9.35,0.0
2,1,2019-01-05 06:47:31,2019-01-05 06:52:19,1,1.1,1,N,107,4,2,6.0,0.0,0.5,0.0,0.0,0.3,6.8,
3,1,2019-01-09 15:08:02,2019-01-09 15:20:17,1,2.5,1,N,143,158,1,11.0,0.0,0.5,3.0,0.0,0.3,14.8,
4,1,2019-01-25 18:49:51,2019-01-25 18:56:44,1,0.8,1,N,246,90,1,6.5,1.0,0.5,1.65,0.0,0.3,9.95,0.0


### 2. Cree un Contexto de datos. Un objeto Contexto de datos sirve como punto de entrada para interactuar con los componentes GX.

In [25]:
context = gx.get_context()

### 3. Conectar a los datos y crear un Lote. Definir una Fuente de Datos, un Activo de Datos, una Definición de Lote y un Lote. El DataFrame de Pandas se proporciona a la definición de lote en tiempo de ejecución para crear el lote.

In [26]:
data_source = context.data_sources.add_pandas("pandas")

data_asset = data_source.add_dataframe_asset(name="pd dataframe asset")

batch_definition = data_asset.add_batch_definition_whole_dataframe("batch definition")

batch = batch_definition.get_batch(batch_parameters={'dataframe': df})

### 4. Cree una expectativa

Las expectativas son un componente fundamental de GX. Permiten definir explícitamente el estado al que deben ajustarse los datos. Ejecute el siguiente código para definir una Expectativa de que el contenido de la columna passenger_count consista en valores comprendidos entre 1 y 6:

In [33]:
expectation = gx.expectations.ExpectColumnValuesToBeBetween(
    column="passenger_count", min_value = 1, max_value = 6
)

### 5. Ejecute el siguiente código para validar los datos de muestra frente a su Expectativa y ver los resultados:

In [34]:
validation_result = batch.validate(expectation)

Calculating Metrics:   0%|          | 0/10 [00:00<?, ?it/s]

In [35]:
print(validation_result)

{
  "success": true,
  "expectation_config": {
    "type": "expect_column_values_to_be_between",
    "kwargs": {
      "batch_id": "pandas-pd dataframe asset",
      "column": "passenger_count",
      "min_value": 1.0,
      "max_value": 6.0
    },
    "meta": {}
  },
  "result": {
    "element_count": 10000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_counts": [],
    "partial_unexpected_index_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


# Example 2: Data in a SQL Table

Este flujo de trabajo de ejemplo le guía a través de la conexión a los datos de una tabla Postgres, la creación de un conjunto de expectativas y la configuración de un punto de comprobación para validar los datos.

In [6]:
#%pip install psycopg2-binary

Defaulting to user installation because normal site-packages is not writeable
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.9-cp39-cp39-macosx_11_0_arm64.whl.metadata (4.4 kB)
Downloading psycopg2_binary-2.9.9-cp39-cp39-macosx_11_0_arm64.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m17.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.9
Note: you may need to restart the kernel to use updated packages.


In [4]:
# Create data context

context = gx.get_context()

In [7]:
# Connect to data and create a Batch. 

'''
Define a Data Source, Data Asset, Batch Definition, and Batch. 
The connection string is used by the Data Source to connect to the cloud Postgres database hosting the sample data.
'''

connection_string = "postgresql+psycopg2://try_gx:try_gx@postgres.workshops.greatexpectations.io/gx_example_db"

data_source = context.data_sources.add_postgres(
    "postgres db", connection_string = connection_string
)

data_asset = data_source.add_table_asset(
    name = "taxi data", table_name = "nyc_taxi_data"
)

batch_definition = data_asset.add_batch_definition_whole_table("batch definition")

batch = batch_definition.get_batch()

In [8]:
# Create an Expectation Suite

'''
Las expectativas son un componente fundamental de GX. Permiten definir explícitamente el estado al que deben ajustarse los datos. 
Los conjuntos de expectativas son colecciones de expectativas. Ejecute el código siguiente para definir un conjunto de expectativas que contenga dos expectativas. 
La primera Expectativa espera que la columna passenger_count esté formada por valores comprendidos entre 1 y 6, 
y la segunda espera que la columna fare_amount contenga valores no negativos.
'''

suite = context.suites.add(
    gx.core.expectation_suite.ExpectationSuite(name="expectations")
)

suite.add_expectation(
    gx.expectations.ExpectColumnValuesToBeBetween(column="passenger_count", min_value=1, max_value=6)
)

suite.add_expectation(
    gx.expectations.ExpectColumnValuesToBeBetween(column="fare_amount", min_value=0)
)

ExpectColumnValuesToBeBetween(id='0b06ac3d-4c50-46e8-8e75-ec5fe2359640', meta=None, notes=None, result_format=<ResultFormat.BASIC: 'BASIC'>, description=None, catch_exceptions=True, rendered_content=None, windows=None, batch_id=None, row_condition=None, condition_parser=None, column='fare_amount', mostly=1.0, min_value=0.0, max_value=None, strict_min=False, strict_max=False)

In [9]:
# Create an Validation Definition

'''
La definición de validación vincula explícitamente el lote de datos que debe validarse con el conjunto de expectativas utilizado para validar los datos.
'''

validation_definition = context.validation_definitions.add(
    gx.core.validation_definition.ValidationDefinition(
        name = "validation definition",
        data = batch_definition,
        suite = suite
    )
)

In [11]:
'''
Crea y ejecuta un punto de comprobación (Checkpoint) para validar los datos basándose en la definición de validación suministrada. 
.describe() es un método práctico para ver un resumen de los resultados del punto de comprobación.
'''

checkpoint = context.checkpoints.add(
    gx.checkpoint.checkpoint.Checkpoint(
        name="checkpoint", validation_definitions=[validation_definition]
    )
)

checkpoint_result = checkpoint.run()
print(checkpoint_result.describe())

Calculating Metrics:   0%|          | 0/22 [00:00<?, ?it/s]

{
    "success": false,
    "statistics": {
        "evaluated_validations": 1,
        "success_percent": 0.0,
        "successful_validations": 0,
        "unsuccessful_validations": 1
    },
    "validation_results": [
        {
            "success": false,
            "statistics": {
                "evaluated_expectations": 2,
                "successful_expectations": 1,
                "unsuccessful_expectations": 1,
                "success_percent": 50.0
            },
            "expectations": [
                {
                    "expectation_type": "expect_column_values_to_be_between",
                    "success": true,
                    "kwargs": {
                        "batch_id": "postgres db-taxi data",
                        "column": "passenger_count",
                        "min_value": 1.0,
                        "max_value": 6.0
                    },
                    "result": {
                        "element_count": 20000,
                     