# **Calidad de datos**

**La importancia de la calidad en los datos....**

La calidad de los datos se refiere a la medida en que los datos son precisos, completos, confiables y relevantes para su uso previsto. En otras palabras, se trata de evaluar si los datos cumplen con ciertos estándares y requisitos para ser útiles y efectivos en una variedad de aplicaciones y contextos.

La calidad de los datos se puede evaluar a través de diferentes dimensiones, que incluyen:

* **Precisión:** ¿Los datos son correctos y están libres de errores?
* **Completitud:** ¿Todos los datos necesarios están presentes y no hay valores faltantes?
* **Consistencia:** ¿Los datos son coherentes y no hay discrepancias entre diferentes conjuntos de datos o fuentes?
* **Confiabilidad:** ¿Los datos son confiables y se pueden utilizar de manera consistente para tomar decisiones informadas?
* **Relevancia:** ¿Los datos son pertinentes y adecuados para el propósito específico para el que se están utilizando?

Mejorar la calidad de los datos es fundamental para garantizar la integridad y la eficacia de los procesos de toma de decisiones, la generación de informes, el análisis de datos y otras actividades relacionadas con el manejo de datos.

Para lograr solventar todos estos inconvenientes, existen técnicas convenientes. Algunas de ellas son:

1. Definir controles de calidad e integridad de datos en el pipeline.
2. Abordar errores en la calidad de datos con políticas predefinidas.
3. Aprovechar las métricas de calidad de datos obtenidas en los pipeline.

Los pipelines desempeñan un papel fundamental en este proceso, ya que representan un flujo de datos automatizado donde los datos ingresan y pasan por un proceso de transformación para garantizar su limpieza y fiabilidad.

Existen herramientas diseñadas para ayudarnos en este proceso, como es el caso de Great Expectations.

# **Great Expectations**

Great Expectations es una librería de Python que se utiliza para definir, documentar y validar expectativas sobre datos. Permite a los científicos de datos y a los ingenieros de datos establecer reglas sobre cómo deberían ser los datos y luego verificar si los datos en realidad cumplen con esas expectativas. Esto ayuda a garantizar la calidad y la integridad de los datos utilizados en proyectos de análisis de datos y machine learning.

Con Great Expectations, puedes establecer expectativas sobre la precisión, completitud, consistencia y otras características de tus datos. Luego, la librería proporciona herramientas para ejecutar estas expectativas sobre tus datos y generar informes detallados que te permiten identificar rápidamente cualquier discrepancia o problema en los datos. Esto facilita la detección temprana de errores y problemas en los datos, lo que a su vez mejora la confianza en los resultados de los análisis de datos y la toma de decisiones basadas en ellos.

**¿Qué no es Great Expectations?**
1. No es un pipeline.
2. No es una herramienta para versionar datos.

**¿Qué funcionalidades tiene Great Expectations?**
1. **Expectativas:** Permite validar los datos con expectativas o reglas específicas que definen lo que se espera de los datos.
2. **Pruebas y Documentos:** Las pruebas son documentos y los documentos son pruebas.
3. **Perfilado automático de datos:** Great Expectations puede realizar el perfilado automático de los datos, proporcionando información detallada incluso si no se conoce la estructura de la base de datos.

**Pasos:**
Todo comienza con las expectativas, que son básicamente reglas que definen cómo deben ser los datos. Por ejemplo:

In [None]:
'''
expect_column_values_to_be_between(
    columns='passenger_count',
    min_values=1,
    max_values=6
)
'''

"\nexpect_column_values_to_be_between(\n    columns='passenger_count',\n    min_values=1,\n    max_values=6\n)\n"

En este caso seestablece una expectativa sobre los valores de una columna específica en los datos:

* **función expect_column_values_to_be_between:** Definine que los valores en la columna **passenger_count** deben estar entre **1 y 6**. Esto significa que se espera que los valores de la columna **passenger_count** se encuentren dentro de este rango y que cualquier valor fuera de este rango se considere una discrepancia o un problema en los datos.

## **Pactica 1**

Primero necesitamos instalar la librería Great Expectations en el entorno.

In [None]:
# Instalamos la librería Great Expectations
!pip install great_expectations==0.15.18



Antes de comenzar a establecer expectativas y validar los datos, necesitamos obtenerlos desde la fuente correspondiente.

Proviene del conjunto de datos proveído por [NYC taxi data](https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page).

En este caso, utilizaremos datos de Enero y Febrero del año 2019. Para poder descargarlos, emplearemos los siguientes comandos:

In [None]:
# Descargar los archivos CSV con datos de muestra de viajes en taxi de Nueva York para enero y febrero de 2019
!wget https://raw.githubusercontent.com/limapaulabelen-mutt/calidad-datos-ge/master/yellow_tripdata_sample_2019_01.csv
!wget https://raw.githubusercontent.com/limapaulabelen-mutt/calidad-datos-ge/master/yellow_tripdata_sample_2019-02.csv

--2024-03-09 21:15:04--  https://raw.githubusercontent.com/limapaulabelen-mutt/calidad-datos-ge/master/yellow_tripdata_sample_2019_01.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 954456 (932K) [text/plain]
Saving to: ‘yellow_tripdata_sample_2019_01.csv.1’


2024-03-09 21:15:04 (18.6 MB/s) - ‘yellow_tripdata_sample_2019_01.csv.1’ saved [954456/954456]

--2024-03-09 21:15:04--  https://raw.githubusercontent.com/limapaulabelen-mutt/calidad-datos-ge/master/yellow_tripdata_sample_2019-02.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 

In [None]:
# Importamos pandas
import pandas as pd

# Importamos los datasets necesarios
taxi_2019_01_df = pd.read_csv('/content/yellow_tripdata_sample_2019_01.csv')
taxi_2019_02_df = pd.read_csv('/content/yellow_tripdata_sample_2019-02.csv')

# Combinamos en un solo dataset para poder visualizarlo
taxi_df = pd.concat([taxi_2019_01_df, taxi_2019_02_df])

In [None]:
# Solicitamos las primeras cinco columnas
taxi_df.head()

Unnamed: 0,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,trip_distance,rate_code_id,store_and_fwd_flag,pickup_location_id,dropoff_location_id,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,1,2019-01-15 03:36:12,2019-01-15 03:42:19,1,1.0,1,N,230,48,1,6.5,0.5,0.5,1.95,0.0,0.3,9.75,
1,1,2019-01-25 18:20:32,2019-01-25 18:26:55,1,0.8,1,N,112,112,1,6.0,1.0,0.5,1.55,0.0,0.3,9.35,0.0
2,1,2019-01-05 06:47:31,2019-01-05 06:52:19,1,1.1,1,N,107,4,2,6.0,0.0,0.5,0.0,0.0,0.3,6.8,
3,1,2019-01-09 15:08:02,2019-01-09 15:20:17,1,2.5,1,N,143,158,1,11.0,0.0,0.5,3.0,0.0,0.3,14.8,
4,1,2019-01-25 18:49:51,2019-01-25 18:56:44,1,0.8,1,N,246,90,1,6.5,1.0,0.5,1.65,0.0,0.3,9.95,0.0


In [None]:
# Obtenemos los principales estadísticos descriptivos
taxi_df.describe()

Unnamed: 0,vendor_id,passenger_count,trip_distance,rate_code_id,pickup_location_id,dropoff_location_id,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
count,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,20000.0,13673.0
mean,1.64215,1.46465,2.804018,1.05875,165.41535,162.86465,1.27865,12.552555,0.73668,0.498276,2.004352,0.336302,0.299235,17.108451,1.5942
std,0.533299,1.238639,3.677374,0.7878,65.96913,70.016601,0.468738,24.382407,1.068392,0.266036,2.502923,3.821301,0.020662,25.942786,1.20476
min,1.0,0.0,0.0,1.0,1.0,1.0,1.0,-52.0,-36.71,-0.5,0.0,0.0,-0.3,-52.8,-2.5
25%,1.0,1.0,0.93,1.0,129.0,113.0,1.0,6.0,0.0,0.5,0.0,0.0,0.3,9.36,0.0
50%,2.0,1.0,1.58,1.0,162.0,162.0,1.0,9.0,0.5,0.5,1.65,0.0,0.3,12.95,2.5
75%,2.0,2.0,2.8,1.0,234.0,234.0,2.0,13.5,1.0,0.5,2.65,0.0,0.3,18.3,2.5
max,4.0,6.0,57.95,99.0,265.0,265.0,4.0,3004.0,7.0,37.51,75.0,500.05,0.3,3004.8,2.5


In [None]:
# Obtenemos información del tipo de datos de las columnas
taxi_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 20000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   vendor_id              20000 non-null  int64  
 1   pickup_datetime        20000 non-null  object 
 2   dropoff_datetime       20000 non-null  object 
 3   passenger_count        20000 non-null  int64  
 4   trip_distance          20000 non-null  float64
 5   rate_code_id           20000 non-null  int64  
 6   store_and_fwd_flag     20000 non-null  object 
 7   pickup_location_id     20000 non-null  int64  
 8   dropoff_location_id    20000 non-null  int64  
 9   payment_type           20000 non-null  int64  
 10  fare_amount            20000 non-null  float64
 11  extra                  20000 non-null  float64
 12  mta_tax                20000 non-null  float64
 13  tip_amount             20000 non-null  float64
 14  tolls_amount           20000 non-null  float64
 15  imp

## **1. Setup**

En esta etapa, configuramos el entorno y creamos una estructura de directorios para nuestro proyecto de Great Expectations. Esto se realiza utilizando el comando **great_expectations init**, que inicializa un nuevo proyecto de Great Expectations en el directorio actual. Durante esta etapa, se crea un archivo de configuración principal (great_expectations.yml) y se establecen los directorios para almacenar las Expectation Suites, checkpoints, datos no confirmados, entre otros.

In [None]:
!great_expectations init

Using v3 (Batch Request) API[0m
[36m
  ___              _     ___                  _        _   _
 / __|_ _ ___ __ _| |_  | __|_ ___ __  ___ __| |_ __ _| |_(_)___ _ _  ___
| (_ | '_/ -_) _` |  _| | _|\ \ / '_ \/ -_) _|  _/ _` |  _| / _ \ ' \(_-<
 \___|_| \___\__,_|\__| |___/_\_\ .__/\___\__|\__\__,_|\__|_\___/_||_/__/
                                |_|
             ~ Always know what to expect from your data ~
[0m[0m
Let's create a new Data Context to hold your project configuration.

Great Expectations will create a new directory with the following structure:

    great_expectations
    |-- great_expectations.yml
    |-- expectations
    |-- checkpoints
    |-- plugins
    |-- .gitignore
    |-- uncommitted
        |-- config_variables.yml
        |-- data_docs
        |-- validations

OK to proceed? [Y/n]: Y

[0m
[36mCongratulations! You are now ready to customize your Great Expectations configuration.[0m[0m

[36mYou can customize your configuration in many ways. Here are s


La librería Great Expectations ha creado un nuevo Data Context para contener la configuración de tu proyecto. Esta acción ha generado una nueva estructura de directorios que incluye:

* **great_expectations.yml:** archivo de configuración principal.
* **expectations:** directorio para guardar las Expectation Suites (conjuntos de expectativas).
* **checkpoints:** directorio para guardar los Checkpoints, que son paquetes de datos junto con Expectation Suites para validación posterior.
* **plugins:** directorio para almacenar plugins de Great Expectations.
* **.gitignore:** archivo para ignorar archivos y directorios en el control de versiones.
* **uncommitted:** directorio para almacenar archivos y directorios generados durante el proceso, como variables de configuración, documentación de datos y resultados de validaciones.

El proceso de creación del Data Context te permite personalizar la configuración de Great Expectations de varias formas. Puedes conectar tus datos, crear Expectation Suites, checkpoints y documentación de datos, entre otras cosas. Esta configuración inicial te permite adaptar Great Expectations a tus necesidades específicas, como almacenar en la nube, agregar notificaciones a Slack o PagerDuty, y personalizar tus Data Docs.

4. **context:** El contexto de Great Expectations es esencial para interactuar con la librería y realizar diversas operaciones, como la definición y ejecución de expectativas sobre tus datos, la creación de checkpoints para validar conjuntos de datos, la generación de documentación de datos, entre otros.

In [None]:
# Importamos great_expectations
import great_expectations as ge

In [None]:
context = ge.get_context()

Al llamar a **ge.get_context()**, se obtiene una instancia del contexto de Great Expectations,  que permite acceder a todas las funcionalidades y configuraciones de la librería.

Este objeto de contexto se utiliza para realizar acciones como la conexión a las fuentes de datos, la creación de Expectation Suites, la ejecución de validaciones y la generación de documentación de datos.

## **2. Connect to Data**

Una vez que se ha configurado el proyecto, el siguiente paso es conectarse a las fuentes de datos que se utilizarán para definir y validar expectativas. Esto se puede hacer mediante el comando **great_expectations datasource new**, que guía al usuario a través de la creación de una nueva fuente de datos. Durante este proceso, se especifica el tipo de fuente de datos (por ejemplo, archivo CSV, base de datos SQL) y se proporcionan detalles como la ubicación de los datos y las credenciales de conexión.

**Configurando el Data Source**

In [None]:
#Asignamos el nombre taxi_datasource a una variable que despues usaremos
datasource_name = "taxi_datasource"

In [None]:
# Definimos un origen de datos en Great Expectations
data_base_directory="/"

datasource_yaml = f"""
name: {datasource_name}
class_name: Datasource
execution_engine:
  class_name: PandasExecutionEngine
data_connectors:
    my_data_connector:
        class_name: InferredAssetFilesystemDataConnector
        base_directory: {data_base_directory}
        glob_directive: "*/*.csv"
        default_regex:
            pattern: (.+)/(.+)\\.csv
            group_names:
                - data_asset_name
                - partition
"""

In [None]:
'''
Ejecutamos una prueba en el objeto de contexto de Great Expectations para validar
la configuración YAML
'''
context.test_yaml_config(yaml_config=datasource_yaml)

Attempting to instantiate class from config...
	Instantiating as a Datasource, since class_name is Datasource
	Successfully instantiated Datasource


ExecutionEngine class name: PandasExecutionEngine
Data Connectors:
	my_data_connector : InferredAssetFilesystemDataConnector

	Available data_asset_names (1 of 1):
		content (2 of 2): ['content/yellow_tripdata_sample_2019-02.csv', 'content/yellow_tripdata_sample_2019_01.csv']

	Unmatched data_references (0 of 0):[]



<great_expectations.datasource.new_datasource.Datasource at 0x7f6944dc6aa0>

In [None]:
# Realizamos las importaciones necesarias
from great_expectations.cli.datasource import sanitize_yaml_and_save_datasource

# Guardamos en el context, el datasource
sanitize_yaml_and_save_datasource(context, datasource_yaml,
                                  overwrite_existing=True)
context.list_datasources()

[{'class_name': 'Datasource',
  'module_name': 'great_expectations.datasource',
  'data_connectors': {'my_data_connector': {'glob_directive': '*/*.csv',
    'class_name': 'InferredAssetFilesystemDataConnector',
    'module_name': 'great_expectations.datasource.data_connector',
    'base_directory': '/',
    'default_regex': {'pattern': '(.+)/(.+)\\.csv',
     'group_names': ['data_asset_name', 'partition']}}},
  'execution_engine': {'module_name': 'great_expectations.execution_engine',
   'class_name': 'PandasExecutionEngine'},
  'name': 'taxi_datasource'}]

## **3. Create expectations**

Después de conectar con los datos, se pueden definir expectativas sobre esos datos utilizando el comando **great_expectations suite new**. Esto crea una nueva Expectation Suite, que es un conjunto de expectativas que se aplicarán a un conjunto específico de datos. Las expectativas pueden ser reglas simples como "el valor de esta columna debe estar entre x e y" o reglas más complejas que involucren múltiples columnas o relaciones entre columnas.

In [None]:
# Importamos librerías que serán de utilidad
import datetime
from great_expectations.core.expectation_configuration import ExpectationConfiguration
from great_expectations.data_context.types.resource_identifiers import ExpectationSuiteIdentifier
from great_expectations.exceptions import DataContextError

# Instanciamos nuestro data context
context = ge.data_context.DataContext()

# Asignamos un nombre a nuestro expectation suite
expectation_suite_name = "taxi_trips.demo"
try:
    # Verificará si el  ExpectationSuite existe
    suite = context.get_expectation_suite(
        expectation_suite_name=expectation_suite_name)
    print(f'Loaded ExpectationSuite "{suite.expectation_suite_name}" containing\
          {len(suite.expectations)} expectations.')
except DataContextError:
    # Si el ExpectationSuite no existe, lo creará
    suite = context.create_expectation_suite(
        expectation_suite_name=expectation_suite_name)
    print(f'Created ExpectationSuite "{suite.expectation_suite_name}".')

Created ExpectationSuite "taxi_trips.demo".


**Expectativa 1:**  Esta expectativa que se esta creando es para garantizar que las columnas de una tabla estén en un orden específico.

In [None]:
# Creamos la configuración de la expectation
expectation_configuration = ExpectationConfiguration(
    # Nombre del tipo de expectation que se añade
    expectation_type="expect_table_columns_to_match_ordered_list",
    # Keyword Arguments de este expectation type
    kwargs={
        "column_list": [
          "vendor_id",
          "pickup_datetime",
          "dropoff_datetime",
          "passenger_count",
          "trip_distance",
          "rate_code_id",
          "store_and_fwd_flag",
          "pickup_location_id",
          "dropoff_location_id",
          "payment_type",
          "fare_amount",
          "extra",
          "mta_tax",
          "tip_amount",
          "tolls_amount",
          "improvement_surcharge",
          "total_amount",
          "congestion_surcharge"
        ]
    },
    meta={}
)

# Agregar la expectation al suite
suite.add_expectation(expectation_configuration=expectation_configuration)

{"meta": {}, "expectation_type": "expect_table_columns_to_match_ordered_list", "kwargs": {"column_list": ["vendor_id", "pickup_datetime", "dropoff_datetime", "passenger_count", "trip_distance", "rate_code_id", "store_and_fwd_flag", "pickup_location_id", "dropoff_location_id", "payment_type", "fare_amount", "extra", "mta_tax", "tip_amount", "tolls_amount", "improvement_surcharge", "total_amount", "congestion_surcharge"]}}

* **expectation_type:** Especifica el tipo de expectativa que se está agregando, en este caso, "expect_table_columns_to_match_ordered_list".

* **kwargs:** Son los argumentos específicos de este tipo de expectativa. En este caso, se proporciona una lista ordenada de nombres de columnas que se espera que estén presentes y en el orden especificado.

* **column_list:** Es una lista de nombres de columnas en el orden en el que se espera que aparezcan en la tabla.

**Expectativa 2:** Esta expectativa es para verificar que el número de filas en la tabla esté dentro de un rango específico. En este caso, estamos configurando la expectativa para que el número máximo y mínimo de filas sea 10,000. Esto significa que esperamos que la tabla tenga entre 10,000 y 10,000 filas. Si el número de filas está fuera de este rango, se considerará una discrepancia y se generará un informe detallado.

In [None]:
# Creamos la configuración de la expectation
expectation_configuration = ExpectationConfiguration(
    # Nombre del tipo de expectation que se añade
    expectation_type="expect_table_row_count_to_be_between",
    # Keyword Arguments de este expectation type
    kwargs={
        "max_value": 10000,
        "min_value": 10000
    },
    meta={}
)

# Agregar la expectation al suite
suite.add_expectation(expectation_configuration=expectation_configuration)

{"meta": {}, "expectation_type": "expect_table_row_count_to_be_between", "kwargs": {"max_value": 10000, "min_value": 10000}}

**Expectativa 3:**  Esta expectativa se utiliza para verificar que los valores en una columna estén presentes en un conjunto específico de valores. En este caso, estamos verificando la columna "vendor_id" y esperamos que los valores en esta columna estén dentro del conjunto [1, 2, 4].

In [None]:
# Creamos la configuración de la expectation
expectation_configuration = ExpectationConfiguration(
    # Nombre del tipo de expectation que se añade
    expectation_type="expect_column_values_to_be_in_set",
    # Keyword Arguments de este expectation type
    kwargs={
        "column": "vendor_id",
        "value_set": [1, 2, 4]
    },
    meta={}
)

# Agregar la expectation al suite
suite.add_expectation(expectation_configuration=expectation_configuration)

{"meta": {}, "expectation_type": "expect_column_values_to_be_in_set", "kwargs": {"column": "vendor_id", "value_set": [1, 2, 4]}}

**Expectativa 4:** Esta expectativa se utiliza para verificar que no haya valores nulos en una columna específica. Aquí, estamos verificando la columna "vendor_id" y esperamos que no haya ningún valor nulo presente en esta columna.

In [None]:
# Creamos la configuración de la expectation
expectation_configuration = ExpectationConfiguration(
    # Nombre del tipo de expectation que se añade
    expectation_type="expect_column_values_to_not_be_null",
    # Keyword Arguments de este expectation type
    kwargs={
        "column": "vendor_id"
    },
    meta={}
)

# Agregar la expectation al suite
suite.add_expectation(expectation_configuration=expectation_configuration)

{"meta": {}, "expectation_type": "expect_column_values_to_not_be_null", "kwargs": {"column": "vendor_id"}}

**Expectativa 5:** Esta expectativa se utiliza para verificar que el valor máximo en una columna específica esté dentro de un rango dado. Aquí, estamos verificando la columna "pickup_location_id" y esperamos que el valor máximo sea 265.

In [None]:
# Creamos la configuración de la expectation
expectation_configuration = ExpectationConfiguration(
    # Nombre del tipo de expectation que se añade
    expectation_type="expect_column_max_to_be_between",
    # Keyword Arguments de este expectation type
    kwargs={
        "column": "pickup_location_id",
        "max_value": 265,
        "min_value": 265
    },
    meta={}
)

# Agregar la expectation al suite
suite.add_expectation(expectation_configuration=expectation_configuration)

{"meta": {}, "expectation_type": "expect_column_max_to_be_between", "kwargs": {"column": "pickup_location_id", "max_value": 265, "min_value": 265}}

**Nota:** Dependiendo de la expectativa que deseamos establecer, es necesario consultar la [documentación](https://greatexpectations.io/expectations/) de Great Expectations para comprender cómo utilizar los argumentos de palabras clave (kwargs).

**Guardamos las expectativas que establecimos**

In [None]:
print(context.get_expectation_suite(
    expectation_suite_name=expectation_suite_name))
context.save_expectation_suite(
    expectation_suite=suite, expectation_suite_name=expectation_suite_name)

suite_identifier = ExpectationSuiteIdentifier(
    expectation_suite_name=expectation_suite_name);

{
  "expectations": [],
  "data_asset_type": null,
  "meta": {
    "great_expectations_version": "0.15.18"
  },
  "expectation_suite_name": "taxi_trips.demo",
  "ge_cloud_id": null
}


## **4. Validate data:**

Una vez que se han definido las expectativas, se pueden ejecutar para validar los datos. Esto se hace utilizando el comando **great_expectations checkpoint run**, que ejecuta las expectativas definidas en una Expectation Suite sobre un conjunto de datos específico. El resultado de la validación se presenta en forma de informe, que muestra cualquier discrepancia entre los datos reales y las expectativas definidas. Esto permite identificar rápidamente problemas en los datos y tomar medidas para corregirlos.

In [None]:
# Importamos librerías necesarias
from ruamel.yaml import YAML
yaml = YAML()

# Nombre del checkpoint
my_checkpoint_name = "taxi_checkpoint"

# Definimos el yaml de configuración
yaml_config = f"""
name: {my_checkpoint_name}
config_version: 1.0
class_name: SimpleCheckpoint
run_name_template: "%Y%m%d-%H%M%S-taxi-template"
validations:
  - batch_request:
      datasource_name: taxi_datasource
      data_connector_name: my_data_connector
      data_asset_name: content
      data_connector_query:
        index: -1
    expectation_suite_name: taxi_trips.demo
"""

# Lo imprimimos
print(yaml_config)


name: taxi_checkpoint
config_version: 1.0
class_name: SimpleCheckpoint
run_name_template: "%Y%m%d-%H%M%S-taxi-template"
validations:
  - batch_request:
      datasource_name: taxi_datasource
      data_connector_name: my_data_connector
      data_asset_name: content
      data_connector_query:
        index: -1
    expectation_suite_name: taxi_trips.demo



**Realizamos una prueba**

In [None]:
my_checkpoint = context.test_yaml_config(yaml_config=yaml_config)

Attempting to instantiate class from config...
	Instantiating as a SimpleCheckpoint, since class_name is SimpleCheckpoint
	Successfully instantiated SimpleCheckpoint


Checkpoint class name: SimpleCheckpoint


* Ejecutamos una prueba en el contexto de Great Expectations utilizando la configuración YAML proporcionada
* La función test_yaml_config() del contexto de Great Expectations valida la configuración YAML y devuelve un objeto que representa el resultado de la prueba del checkpoint.
* En este caso, el resultado de la prueba se asigna a la variable my_checkpoint.

In [None]:
context.add_checkpoint(**yaml.load(yaml_config))

{
  "action_list": [
    {
      "name": "store_validation_result",
      "action": {
        "class_name": "StoreValidationResultAction"
      }
    },
    {
      "name": "store_evaluation_params",
      "action": {
        "class_name": "StoreEvaluationParametersAction"
      }
    },
    {
      "name": "update_data_docs",
      "action": {
        "class_name": "UpdateDataDocsAction",
        "site_names": []
      }
    }
  ],
  "batch_request": {},
  "class_name": "Checkpoint",
  "config_version": 1.0,
  "evaluation_parameters": {},
  "module_name": "great_expectations.checkpoint",
  "name": "taxi_checkpoint",
  "profilers": [],
  "run_name_template": "%Y%m%d-%H%M%S-taxi-template",
  "runtime_configuration": {},
  "validations": [
    {
      "batch_request": {
        "datasource_name": "taxi_datasource",
        "data_connector_name": "my_data_connector",
        "data_asset_name": "content",
        "data_connector_query": {
          "index": -1
        }
      },
      "exp

* Añadimos un checkpoint al contexto de Great Expectations utilizando la
configuración YAML proporcionada
* La función add_checkpoint() del contexto de Great Expectations recibe los
argumentos deserializados del objeto YAML y agrega el checkpoint al contexto.

In [None]:
context.run_checkpoint(checkpoint_name=my_checkpoint_name)

Calculating Metrics:   0%|          | 0/10 [00:00<?, ?it/s]

{
  "run_id": {
    "run_time": "2024-03-09T21:16:22.533796+00:00",
    "run_name": "20240309-211622-taxi-template"
  },
  "run_results": {
    "ValidationResultIdentifier::taxi_trips/demo/20240309-211622-taxi-template/20240309T211622.533796Z/72517082d5ee87e29df1d29c54fa82d1": {
      "validation_result": {
        "evaluation_parameters": {},
        "results": [
          {
            "exception_info": {
              "raised_exception": false,
              "exception_traceback": null,
              "exception_message": null
            },
            "result": {
              "observed_value": [
                "vendor_id",
                "pickup_datetime",
                "dropoff_datetime",
                "passenger_count",
                "trip_distance",
                "rate_code_id",
                "store_and_fwd_flag",
                "pickup_location_id",
                "dropoff_location_id",
                "payment_type",
                "fare_amount",
              

* Ejecutamos el checkpoint previamente definido en el contexto de Great Expectations
* La función run_checkpoint() del contexto de Great Expectations recibe el nombre del checkpoint como argumento y lo ejecuta.



**Extra**

In [None]:
!zip -r /content/great_expectations/uncommitted/data_docs.zip /content/great_expectations/uncommitted/data_docs/

  adding: content/great_expectations/uncommitted/data_docs/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/expectations/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/expectations/taxi_trips/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/expectations/taxi_trips/demo.html (deflated 80%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/validations/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/validations/taxi_trips/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/validations/taxi_trips/demo/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/validations/taxi_trips/demo/20240309-211622-taxi-template/ (stored 0%)
  adding: content/great_expectations/uncommitted/data_docs/local_site/