<a href="https://colab.research.google.com/github/NiveskZ/KEVIN_MENESES_DDF_TECH_122025/blob/feat%2Fdata-quality/notebooks/02_data_quality.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Quality

In [None]:
!pip install great_expectations

In [None]:
import pandas as pd
from sqlalchemy import create_engine, text
from urllib.parse import quote
import great_expectations as gx
from google.colab import userdata

In [None]:
password = quote(userdata.get('DB_PASSWORD'))

DB_URI = f"postgresql://postgres.cxdlybaeosnszzaixoia:{password}@aws-1-sa-east-1.pooler.supabase.com:6543/postgres"

engine = create_engine(DB_URI)

print("Coletando dados do Supabase...")
df_vendas = pd.read_sql('vendas', engine)
df_clientes = pd.read_sql('clientes', engine)
df_produtos = pd.read_sql('produtos', engine)

In [None]:
context = gx.get_context()

## Clientes


In [None]:
suite_clientes = context.suites.add(gx.ExpectationSuite(name="suite_clientes"))

# Regra 1: ID √önico
suite_clientes.add_expectation(gx.expectations.ExpectColumnValuesToBeUnique(column="id_cliente"))
# Regra 2: Nome n√£o nulo
suite_clientes.add_expectation(gx.expectations.ExpectColumnValuesToNotBeNull(column="nome"))
# Regra 3: Regex de Email
suite_clientes.add_expectation(gx.expectations.ExpectColumnValuesToMatchRegex(
    column="email", regex=r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
))
# Regra 4: Data de cadastro (N√£o pode ser futuro)
suite_clientes.add_expectation(gx.expectations.ExpectColumnValuesToBeBetween(
    column="data_cadastro", min_value=pd.Timestamp("2015-01-01"), max_value=pd.Timestamp.now()
))

In [None]:
# Conectar o DataFrame ao GX (A "Esteira" de Clientes)
ds_clientes = context.data_sources.add_pandas(name="ds_clientes")
asset_clientes = ds_clientes.add_dataframe_asset(name="asset_clientes")
batch_clientes = asset_clientes.add_batch_definition_whole_dataframe("batch_clientes")

In [None]:
# Validar
res_clientes = batch_clientes.get_batch(batch_parameters={"dataframe": df_clientes}).validate(suite_clientes)

In [None]:
print(f"‚úÖ Clientes verificados: {len(df_clientes)} registros")
print(f"üìä Resultado: {'‚úì APROVADO' if res_clientes.success else '‚úó REPROVADO'}")
print(f"üìà Nota: {res_clientes.statistics['success_percent']:.1f}% das regras atendidas")

## Produtos

In [None]:
suite_produtos = context.suites.add(gx.ExpectationSuite(name="suite_produtos"))

suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToBeUnique(column="id_produto"))
suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToNotBeNull(column="nome"))
suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToNotBeNull(column="cat"))
suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToBeBetween(column="preco", min_value=0.01, max_value=1000))
suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToBeBetween(column="custo", min_value=0.01, max_value=999))

df_produtos['lucro_unitario'] = df_produtos['preco'] - df_produtos['custo']
suite_produtos.add_expectation(gx.expectations.ExpectColumnValuesToBeBetween(column="lucro_unitario", min_value=0))

In [None]:
# Conectar (A "Esteira" de Produtos)
ds_produtos = context.data_sources.add_pandas(name="ds_produtos")
asset_produtos = ds_produtos.add_dataframe_asset(name="asset_produtos")
batch_produtos = asset_produtos.add_batch_definition_whole_dataframe("batch_produtos")

In [None]:
# Executar verifica√ß√£o
res_produtos = batch_produtos.get_batch(batch_parameters={"dataframe": df_produtos}).validate(suite_produtos)

In [None]:
print(f"‚úÖ Produtos verificados: {len(df_produtos)} registros")
print(f"üìä Resultado: {'‚úì APROVADO' if res_produtos.success else '‚úó REPROVADO'}")
print(f"üìà Nota: {res_produtos.statistics['success_percent']:.1f}% das regras atendidas")

## Vendas

In [None]:
suite_vendas = context.suites.add(gx.ExpectationSuite(name="suite_vendas"))

suite_vendas.add_expectation(gx.expectations.ExpectColumnValuesToBeUnique(column="id_venda"))
suite_vendas.add_expectation(gx.expectations.ExpectColumnValuesToNotBeNull(column="id_cliente"))
suite_vendas.add_expectation(gx.expectations.ExpectColumnValuesToNotBeNull(column="id_produto"))
suite_vendas.add_expectation(gx.expectations.ExpectColumnValuesToBeBetween(column="valor_total", min_value=0.01))

In [None]:
# Preparar verifica√ß√£o das vendas
ds_vendas = context.data_sources.add_pandas(name="ds_vendas")
asset_vendas = ds_vendas.add_dataframe_asset(name="asset_vendas")
batch_vendas = asset_vendas.add_batch_definition_whole_dataframe("batch_vendas")

In [None]:
# Executar verifica√ß√£o
res_vendas = batch_vendas.get_batch(batch_parameters={"dataframe": df_vendas}).validate(suite_vendas)

In [None]:
print(f"‚úÖ Vendas verificadas: {len(df_vendas):,} registros".replace(",", "."))
print(f"üìä Resultado: {'‚úì APROVADO' if res_vendas.success else '‚úó REPROVADO'}")
print(f"üìà Nota: {res_vendas.statistics['success_percent']:.1f}% das regras atendidas")

## Mapeamento Common Data Model (CDM)


| Tabela Local | Entidade CDM | Atributo Local | Atributo CDM | Justificativa (Alinhamento CDM) | Tipo CDM Esperado |
| :--- | :--- | :--- | :--- | :--- | :--- |
| **clientes** | **Contact** | `id_cliente` | `ContactNumber` | Identificador √∫nico de neg√≥cio do cliente no sistema de origem. | String |
| | | `nome` | `FullName` | Nome completo do contato, conforme padr√£o da entidade Contact. | String |
| | | `email` | `EmailAddress` | Endere√ßo de e-mail prim√°rio para comunica√ß√£o. | String |
| | | `cidade` | `AddressCity` | Munic√≠pio da localiza√ß√£o do cliente. | String |
| | | `bairro` | `AddressDistrict` | Bairro ou distrito do endere√ßo. | String |
| | | `data_cadastro` | `CreatedOn` | Data e hora de registro do cliente no sistema. | DateTime |
| **produtos** | **Product** | `id_produto` | `ProductNumber` | C√≥digo √∫nico (SKU) do produto para identifica√ß√£o de neg√≥cio. | String |
| | | `nome` | `ProductName` | Nome comercial ou descri√ß√£o do produto. | String |
| | | `cat` | `ProductCategory` | Categoria funcional para agrupamento e an√°lise. | String |
| | | `preco` | `DefaultPrice` | Pre√ßo de venda padr√£o do produto. | Decimal (Currency) |
| | | `custo` | `StandardCost` | Custo unit√°rio padr√£o para forma√ß√£o de pre√ßo. | Decimal (Currency) |
| | | `peso` | `Weight` | Peso f√≠sico do produto para log√≠stica. | Decimal |
| **vendas** | **SalesOrder** | `id_venda` | `SalesOrderNumber` | N√∫mero √∫nico identificador da transa√ß√£o comercial. | String |
| | | `data_venda` + `hora_venda` | `OrderDate` | Data e hora completa da realiza√ß√£o do pedido. | DateTime |
| | | `id_cliente` | `CustomerId` | Refer√™ncia √† chave prim√°ria da entidade Contact (cliente). | Guid (FK) |
| | | `id_produto` | `ProductId` | Refer√™ncia √† chave prim√°ria da entidade Product (produto). | Guid (FK) |
| | | `quantidade` | `Quantity` | Quantidade de unidades vendidas na linha do pedido. | Decimal |
| | | `valor_unitario` | `UnitPrice` | Pre√ßo unit√°rio praticado na transa√ß√£o espec√≠fica. | Decimal (Currency) |
| | | `valor_total` | `TotalAmount` | Valor total da linha (quantidade √ó pre√ßo unit√°rio). | Decimal (Currency) |



Os nomes dos atributos CDM (`ContactNumber`, `FullName`, `ProductNumber`, `OrderDate`, etc.) seguem a nomenclatura definida na documenta√ß√£o oficial do [Common Data Model](https://learn.microsoft.com/en-us/common-data-model/).

## Relacionamentos entre Entidades

O modelo garante a integridade referencial atrav√©s dos seguintes relacionamentos:

1.  **`SalesOrder.CustomerId` ‚Üí `Contact.Id`**: Cada pedido de venda est√° associado a um √∫nico cliente (Contact).
2.  **`SalesOrder.ProductId` ‚Üí `Product.Id`**: Cada linha do pedido de venda referencia um produto espec√≠fico.

## Objetivos do Mapeamento

- **Padroniza√ß√£o**: Converter nomenclaturas locais para um vocabul√°rio de dados universal.
- **Interoperabilidade**: Permitir a integra√ß√£o com ferramentas do ecossistema Microsoft (Power BI, Dynamics 365, Azure Data Services).
- **Consist√™ncia**: Garantir que os mesmos conceitos de neg√≥cio sejam representados de forma uniforme.
- **Extensibilidade**: Fornecer uma base que pode ser enriquecida com atributos adicionais conforme a necessidade.



In [None]:
def criar_camada_cdm(engine):
    with engine.connect() as conn:
        try:
          # Drop views antigas para garantir (ordem reversa por causa das dependencias)
            conn.execute(text("DROP VIEW IF EXISTS cdm_sales_order;"))
            conn.execute(text("DROP VIEW IF EXISTS cdm_contact;"))
            conn.execute(text("DROP VIEW IF EXISTS cdm_product;"))

            # 1. View para Clientes (Mapeada para Contact)
            conn.execute(text("""
                CREATE VIEW cdm_contact AS
                SELECT
                    -- Gera um GUID como chave prim√°ria no padr√£o CDM
                    gen_random_uuid() AS "Id",
                    id_cliente AS "ContactNumber",
                    nome AS "FullName",
                    email AS "EmailAddress",
                    cidade AS "AddressCity",
                    bairro AS "AddressDistrict",
                    data_cadastro AS "CreatedOn"
                FROM clientes;
            """))

            # 2. View para Produtos (Mapeada para Product)
            conn.execute(text("""
                CREATE VIEW cdm_product AS
                SELECT
                    -- Gera um GUID como chave prim√°ria no padr√£o CDM
                    gen_random_uuid() AS "Id",
                    id_produto AS "ProductNumber",
                    nome AS "ProductName",
                    cat AS "ProductCategory",
                    preco AS "DefaultPrice",
                    custo AS "StandardCost",
                    peso AS "Weight"
                FROM produtos;
            """))

            # 3. View para Vendas (Mapeada para SalesOrder) - COM RELACIONAMENTOS CORRETOS
            conn.execute(text("""
                CREATE VIEW cdm_sales_order AS
                SELECT
                    -- Gera um GUID como chave prim√°ria no padr√£o CDM
                    gen_random_uuid() AS "Id",
                    v.id_venda AS "SalesOrderNumber",

                    -- Combina data e hora em um √∫nico campo DateTime, conforme padr√£o CDM
                    -- Concatena data_venda (texto) com hora_venda (texto) e converte para timestamp
                    (v.data_venda || ' ' || v.hora_venda)::timestamp AS "OrderDate",

                    -- Buscando os GUIDs das outras Views
                    c."Id" AS "CustomerId",
                    p."Id" AS "ProductId",

                    -- Colunas de Enriquecimento (Facilitam o Item 5: Visualiza√ß√£o)
                    c."FullName" AS "CustomerName",
                    p."ProductName" AS "ProductName",
                    p."ProductCategory" AS "Category",

                    v.quantidade AS "Quantity",
                    v.valor_unitario AS "UnitPrice",
                    v.valor_total AS "TotalAmount"
                FROM vendas v
                LEFT JOIN cdm_contact c ON v.id_cliente = c."ContactNumber"
                LEFT JOIN cdm_product p ON v.id_produto = p."ProductNumber";
            """))

            conn.commit()

        except Exception as e:
            conn.rollback()
            print(f"‚ùå Erro ao criar views CDM: {e}")
            raise

In [None]:
criar_camada_cdm(engine)