In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import logging
import sys
sys.path.append('../')
logger = logging.getLogger()
logger.setLevel(logging.INFO)

Asegurar crear primero el archivo `.env` con las siguientes variables de ambiente:
```
AZURE_STORAGE_CONNECTION_STRING="aaaa"
CONTENEDOR_VALIDACIONES="calidad-datos" # debe existir en la cuenta.
````

In [None]:
from dotenv import load_dotenv
load_dotenv()

In [None]:
from great_expectations.core.expectation_configuration import ExpectationConfiguration
from centraal_dataframework.tasks import task_dq

@task_dq
def hello_gx(datalake, gx_toolkit, logger):
    """Saluda al gx."""
    source = datalake.read_csv("test/test_framework.csv", sep="|")
    logger.info(source.head(1))
    logger.info("hello there, iam a task_dq using great expectations")
    # creaciones de expectativas
    expectation_1 = ExpectationConfiguration(
        expectation_type="expect_table_columns_to_match_set",
        kwargs={'column_set': ['Producto', '2023-07-01', '2023-08-01', '2023-09-01', '2023-10-01',
        '2023-11-01', '2023-12-01', '2024-01-01', '2024-02-01', '2024-03-01',
        '2024-04-01', '2024-05-01', '2024-06-01']},
        meta={
            "notes": {
                "format": "markdown",
                "content": "Ejemplo de expectativa",
            }
        },
    )
    expectation_2 = ExpectationConfiguration(
        expectation_type = "expect_column_values_to_not_be_null",
        kwargs = {"column" : "Producto"} 
    )

    expectation_3 = ExpectationConfiguration(
        expectation_type = "expect_table_row_count_to_be_between",
        kwargs = {"max_value" : 160, "min_value": 131},
        meta={
            "notes": {
                "format": "markdown",
                "content": "**Ejemplo de expectativa** que va fallar",
            }
        }
    )
    url = gx_toolkit.run_expectations_on_df(source, "test", [expectation_1, expectation_2, expectation_3])
    print("reporte de expectativas", url)

In [None]:
hello_gx()

Tambien se puede cargar expectativas desde un json almacenado.

In [None]:
from centraal_dataframework.tasks import task_dq

@task_dq
def hello_gx_file(datalake, gx_toolkit, logger):
    """Saluda al gx."""
    source = datalake.read_csv("test/test_framework.csv", sep="|")
    logger.info("hello there, iam a task_dq using great expectations from a file")
    # creaciones de expectativas
    url = gx_toolkit.run_expectation_file_on_df(source, "test", "hello_gx_expectation_suite_json")
    print("reporte de expectativas", url)

In [None]:
hello_gx_file()

Crear el modulo con la logica, en la siguiente celda se configura una logica de pandas.

In [None]:
%%writefile logica_pandas.py
"""Prueba."""
from centraal_dataframework.tasks import task


@task
def hello_datalake(datalake, logger):
    """Saluda al datalake."""
    source = datalake.read_csv("test/test_framework.csv", sep="|")
    logger.info(source.head(1))
    logger.info("hello there, iam a task")


O puedes crear una estructura mas compleja de modulos. En la siguiente celda se crea un modulo dentro de otra carpeta y se usa un decorador para poder usar great expectations.

In [None]:
%mkdir modulo

In [None]:
%%writefile modulo/__init__.py
"""Prueba."""

In [None]:
%%writefile modulo/logica_gx.py
"""Prueba gx."""
from great_expectations.core.expectation_configuration import ExpectationConfiguration
from centraal_dataframework.tasks import task_dq


@task_dq
def hello_gx(datalake, gx_toolkit, logger):
    """Saluda al gx."""
    source = datalake.read_csv("test/test_framework.csv", sep="|")
    logger.info(source.head(1))
    logger.info("hello there, iam a task_dq using great expectations")
    # creaciones de expectativas
    expectation_1 = ExpectationConfiguration(
        expectation_type="expect_table_columns_to_match_set",
        kwargs={'column_set': ['Producto', '2023-07-01', '2023-08-01', '2023-09-01', '2023-10-01',
        '2023-11-01', '2023-12-01', '2024-01-01', '2024-02-01', '2024-03-01',
        '2024-04-01', '2024-05-01', '2024-06-01']},
        meta={
            "notes": {
                "format": "markdown",
                "content": "Ejemplo de expectativa",
            }
        },
    )
    expectation_2 = ExpectationConfiguration(
        expectation_type = "expect_column_values_to_not_be_null",
        kwargs = {"column" : "Producto"} 
    )

    expectation_3 = ExpectationConfiguration(
        expectation_type = "expect_table_row_count_to_be_between",
        kwargs = {"max_value" : 160, "min_value": 131},
        meta={
            "notes": {
                "format": "markdown",
                "content": "**Ejemplo de expectativa** que va fallar",
            }
        }
    )
    url = gx_toolkit.run_expectations_on_df(source, "test", [expectation_1, expectation_2, expectation_3])
    print("reporte de expectativas", url)


A continuación un se muestra el contenido que debe tener `function_app.py`

In [None]:
# contenido de function_app.py
import azure.functions as func
from centraal_dataframework.blueprints import framework
# se deben importar las funciones, ejemplo todas las funciones dentro
# de uno
from logica_pandas import *
# o se pueden importar uno a uno
from modulo.logica_gx import hello_gx
from modulo.logica_gx import hello_gx_negocio

app = func.FunctionApp()
# se agrega el framework:
app.register_functions(framework)

Realizar test dentro del notebook.

In [None]:
from azure.functions import QueueMessage

queue_trigger = app.get_functions()[1].get_user_function()
# simular la ejecucion de la tarea.
queue_trigger(QueueMessage(body = bytes("otra_cosa",  "utf-8")))

In [None]:
# simular la ejecucion de la tarea.
queue_trigger(QueueMessage(body = bytes("otra_cosa",  "utf-8")))