In [1]:
import pandas as pd
from sqlalchemy import create_engine
from dotenv import load_dotenv
import os

In [2]:
load_dotenv()
DATABASE_URL = os.getenv(
    "DATABASE_URL",
    "postgresql://estufas_user:estufas_pass_123@localhost:5432/estufas_kibala"
)
engine = create_engine(DATABASE_URL)

In [3]:
df_silver = pd.read_sql("SELECT * FROM silver.inventario_estufas", engine)

# Ajuste este nome se sua coluna de data do inventário tiver outro nome
COL_DATA_INVENTARIO = "data_inventario"

In [4]:
from datetime import date

def run_silver_checks_with_prints(df: pd.DataFrame, max_rows_preview: int = 5):
    """
    Roda os 14 checks de qualidade para silver.inventario_estufas
    e imprime o resultado de forma legível (OK/FAIL + amostras).
    """
    def log_result(idx, name, mask_fail, description):
        n_fail = int(mask_fail.sum())
        status = "OK" if n_fail == 0 else "FAIL"
        icon = "✅" if status == "OK" else "❌"

        print(f"\n[{idx}] {icon} {name}")
        print(f"    -> {description}")
        print(f"    -> Linhas com falha: {n_fail}")

        if n_fail > 0:
            print(f"    -> Amostra das linhas com problema (até {max_rows_preview}):")
            display(df.loc[mask_fail].head(max_rows_preview))

    # 1 - bloco_modelado nao pode ter nulos
    mask_fail = df["bloco_modelado"].isna()
    log_result(
        1,
        "bloco_modelado NÃO pode ser nulo",
        mask_fail,
        "Registros com bloco_modelado nulo"
    )

    # 2 - bloco nao pode ter nulos
    mask_fail = df["bloco"].isna()
    log_result(
        2,
        "bloco NÃO pode ser nulo",
        mask_fail,
        "Registros com bloco nulo"
    )

    # 3 - naves nao pode ter nulos
    mask_fail = df["naves"].isna()
    log_result(
        3,
        "naves NÃO pode ser nulo",
        mask_fail,
        "Registros com naves nulo"
    )

    # 4 - n_naves nao pode ter nulos
    mask_fail = df["n_naves"].isna()
    log_result(
        4,
        "n_naves NÃO pode ser nulo",
        mask_fail,
        "Registros com n_naves nulo"
    )

    # 5 - area_nave nao pode ter nulos
    mask_fail = df["area_nave"].isna()
    log_result(
        5,
        "area_nave NÃO pode ser nulo",
        mask_fail,
        "Registros com area_nave nulo"
    )

    # 6 - area_total nao pode ter nulos
    mask_fail = df["area_total"].isna()
    log_result(
        6,
        "area_total NÃO pode ser nulo",
        mask_fail,
        "Registros com area_total nulo"
    )

    # 7 - area_total = n_naves * area_nave (com tolerância)
    tol = 1e-6
    mask_valid_area = (
        ~df["area_total"].isna() &
        ~df["n_naves"].isna() &
        ~df["area_nave"].isna()
    )
    area_calc = df.loc[mask_valid_area, "n_naves"] * df.loc[mask_valid_area, "area_nave"]
    diff = (df.loc[mask_valid_area, "area_total"] - area_calc).abs()
    mask_fail_area = pd.Series(False, index=df.index)
    mask_fail_area.loc[mask_valid_area] = diff > tol

    log_result(
        7,
        "area_total = n_naves * area_nave",
        mask_fail_area,
        "Registros onde area_total difere de n_naves * area_nave além da tolerância"
    )

    # 8 - cultura nao pode ser nulo
    mask_fail = df["cultura"].isna() | (df["cultura"].astype(str).str.strip() == "")
    log_result(
        8,
        "cultura NÃO pode ser nula",
        mask_fail,
        "Registros com cultura nula ou vazia"
    )

    # 9 - idade = semanas entre data_plantio e (ano, semana_inventario)
    mask_valid_idade = (
        ~df["data_plantio"].isna() &
        ~df["ano"].isna() &
        ~df["semana_inventario"].isna()
    )

    idade_calc = pd.Series(index=df.index, dtype="float")

    for idx in df.index[mask_valid_idade]:
        ano_inv = int(df.at[idx, "ano"])
        semana_inv = int(df.at[idx, "semana_inventario"])
        try:
            data_inv = date.fromisocalendar(ano_inv, semana_inv, 1)  # segunda da ISO week
            delta_dias = (pd.to_datetime(data_inv) - df.at[idx, "data_plantio"]).days
            idade_calc.loc[idx] = delta_dias // 7
        except ValueError:
            idade_calc.loc[idx] = float("nan")

    idade_val = pd.to_numeric(df.loc[mask_valid_idade, "idade"], errors="coerce")
    mask_fail_idade = pd.Series(False, index=df.index)
    mask_fail_idade.loc[mask_valid_idade] = idade_val != idade_calc.loc[mask_valid_idade]

    log_result(
        9,
        "idade = semanas entre data_plantio e (ano, semana_inventario)",
        mask_fail_idade,
        "Registros onde idade não bate com diferença em semanas entre data_plantio e (ano, semana_inventario)"
    )

    # 10 - semana_plantio = semana ISO de data_plantio
    semana_iso_plantio = df["data_plantio"].dt.isocalendar().week
    semana_plantio_val = pd.to_numeric(df["semana_plantio"], errors="coerce")
    mask_fail = semana_iso_plantio != semana_plantio_val

    log_result(
        10,
        "semana_plantio = semana ISO de data_plantio",
        mask_fail,
        "Registros onde semana_plantio não coincide com a semana ISO de data_plantio"
    )

    # 11 - ano nao pode ser nulo
    mask_fail = df["ano"].isna()
    log_result(
        11,
        "ano NÃO pode ser nulo",
        mask_fail,
        "Registros com ano nulo"
    )

    # 12 - semana_inventario nao nulo
    mask_fail = df["semana_inventario"].isna()
    log_result(
        12,
        "semana_inventario NÃO pode ser nulo",
        mask_fail,
        "Registros com semana_inventario nulo"
    )

    # 13 - artigo_id_global = '0107'
    mask_fail = df["artigo_id_global"].astype(str) != "0107"
    log_result(
        13,
        "artigo_id_global = '0107'",
        mask_fail,
        "Registros com artigo_id_global diferente de '0107'"
    )

    # 14 - artigo_id_bloco não nulo e sufixo = bloco
    artigo_str = df["artigo_id_bloco"].astype(str)
    bloco_2d = df["bloco"].astype("Int64").astype(str).str.zfill(2)

    mask_null = df["artigo_id_bloco"].isna() | (artigo_str.str.strip() == "")
    mask_sufixo = artigo_str.str[-2:] != bloco_2d
    mask_fail = mask_null | mask_sufixo

    log_result(
        14,
        "artigo_id_bloco NÃO nulo e últimos 2 dígitos = bloco",
        mask_fail,
        "Registros com artigo_id_bloco nulo ou com últimos 2 dígitos diferentes do bloco"
    )

    print("\n\n✅ Fim dos checks.\n")

In [5]:
run_silver_checks_with_prints(df_silver)



[1] ✅ bloco_modelado NÃO pode ser nulo
    -> Registros com bloco_modelado nulo
    -> Linhas com falha: 0

[2] ✅ bloco NÃO pode ser nulo
    -> Registros com bloco nulo
    -> Linhas com falha: 0

[3] ✅ naves NÃO pode ser nulo
    -> Registros com naves nulo
    -> Linhas com falha: 0

[4] ✅ n_naves NÃO pode ser nulo
    -> Registros com n_naves nulo
    -> Linhas com falha: 0

[5] ✅ area_nave NÃO pode ser nulo
    -> Registros com area_nave nulo
    -> Linhas com falha: 0

[6] ✅ area_total NÃO pode ser nulo
    -> Registros com area_total nulo
    -> Linhas com falha: 0

[7] ✅ area_total = n_naves * area_nave
    -> Registros onde area_total difere de n_naves * area_nave além da tolerância
    -> Linhas com falha: 0

[8] ✅ cultura NÃO pode ser nula
    -> Registros com cultura nula ou vazia
    -> Linhas com falha: 0

[9] ❌ idade = semanas entre data_plantio e (ano, semana_inventario)
    -> Registros onde idade não bate com diferença em semanas entre data_plantio e (ano, semana_inv

Unnamed: 0,bloco_modelado,bloco,naves,n_naves,area_nave,area_total,cultura,idade,semana_plantio,data_plantio,ano,semana_inventario,arquivo_origem,artigo_id_global,artigo_id_bloco
5,Bloco 4,4,18 e 19,2.0,0.057,0.114,Phisallis,182.0,22.0,2022-05-31,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10704
11,Bloco 7,7,1 a 22,22.0,0.06,1.32,Tomate,3.0,45.0,2025-11-04,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10707
12,Bloco 8,8,1 a 20,20.0,0.06,1.2,Tomate,13.0,35.0,2025-08-27,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10708
15,Bloco 11,11,1 a 20,20.0,0.06,1.2,Pimento,11.0,37.0,2025-11-08,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10711
19,Bloco 14,14,1 a 10,10.0,0.06,0.6,Pepino,4.0,44.0,2025-10-31,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10714



[10] ❌ semana_plantio = semana ISO de data_plantio
    -> Registros onde semana_plantio não coincide com a semana ISO de data_plantio
    -> Linhas com falha: 9
    -> Amostra das linhas com problema (até 5):


Unnamed: 0,bloco_modelado,bloco,naves,n_naves,area_nave,area_total,cultura,idade,semana_plantio,data_plantio,ano,semana_inventario,arquivo_origem,artigo_id_global,artigo_id_bloco
13,Bloco 9,9,1 a 20,20.0,0.06,1.2,Tomate,19.0,29.0,2025-07-11,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10709
15,Bloco 11,11,1 a 20,20.0,0.06,1.2,Pimento,11.0,37.0,2025-11-08,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10711
16,Bloco 12,12,1 a 20,20.0,0.06,1.2,Tomate,10.0,38.0,2025-09-12,2025,48,ES2548 Inventário Estufas - Semana 48 2025.pdf,107,10712
46,Bloco 9,9,1 a 20,20.0,0.06,1.2,Tomate,20.0,29.0,2025-07-11,2025,49,ES2549 Inventário Estufas - Semana 49 2025.pdf,107,10709
48,Bloco 11,11,1 a 20,20.0,0.06,1.2,Pimento,12.0,37.0,2025-11-08,2025,49,ES2549 Inventário Estufas - Semana 49 2025.pdf,107,10711



[11] ✅ ano NÃO pode ser nulo
    -> Registros com ano nulo
    -> Linhas com falha: 0

[12] ✅ semana_inventario NÃO pode ser nulo
    -> Registros com semana_inventario nulo
    -> Linhas com falha: 0

[13] ✅ artigo_id_global = '0107'
    -> Registros com artigo_id_global diferente de '0107'
    -> Linhas com falha: 0

[14] ✅ artigo_id_bloco NÃO nulo e últimos 2 dígitos = bloco
    -> Registros com artigo_id_bloco nulo ou com últimos 2 dígitos diferentes do bloco
    -> Linhas com falha: 0


✅ Fim dos checks.

