In [53]:
import pandas as pd
import re
import math
from sqlalchemy import create_engine, text

In [54]:
# -------------------------
# 0) conexão
# -------------------------
CONN_STR = "postgresql+psycopg2://estufas_user:estufas_pass_123@localhost:5432/estufas_kibala"
engine = create_engine(CONN_STR)

In [55]:
# -------------------------
# 1) EXTRACT (BRONZE)
# -------------------------
sql_bronze = """
SELECT
  ano,
  semana_inventario AS semana,
  bloco::int AS bloco_id,
  TRIM(naves) AS naves,
  TRIM(cultura) AS cultura,
  idade,
  semana_plantio,
  data_plantio
FROM bronze.inventario_estufas_bronze
WHERE ano IS NOT NULL
  AND semana_inventario IS NOT NULL
  AND bloco IS NOT NULL
  AND naves IS NOT NULL
  AND cultura IS NOT NULL;
"""
df = pd.read_sql(sql_bronze, engine)
print("BRONZE rows:", df.shape[0])

BRONZE rows: 1882


In [56]:
# -------------------------
# 2) TRANSFORM (padronização)
# -------------------------
def cultura_key(s: str) -> str:
    s = str(s).strip()
    s = re.sub(r"\s*\(.*\)\s*$", "", s)   # remove "(...)"
    s = re.sub(r"\.\s*$", "", s)         # remove ponto final no fim
    s = re.sub(r"\s+", " ", s)           # normaliza espaços
    return s

df["cultura_key"] = df["cultura"].apply(cultura_key)

df["ano"] = pd.to_numeric(df["ano"], errors="coerce")
df["semana"] = pd.to_numeric(df["semana"], errors="coerce")
df["bloco_id"] = pd.to_numeric(df["bloco_id"], errors="coerce")

# ano_semana
df["ano"] = df["ano"].astype("Int64")
df["semana"] = df["semana"].astype("Int64")
df["ano_semana"] = df["ano"].astype(str) + "-" + df["semana"].astype(str).str.zfill(2)

# datas
df["data_plantio"] = pd.to_datetime(df["data_plantio"], errors="coerce").dt.date


  df["data_plantio"] = pd.to_datetime(df["data_plantio"], errors="coerce").dt.date


In [57]:
# -------------------------
# 3) MAP cultura_id (DIM)
# -------------------------
dim = pd.read_sql("SELECT cultura_id, cultura_nome FROM silver.dim_cultura", engine)
dim["cultura_key"] = dim["cultura_nome"].apply(cultura_key)

map_cult = dict(zip(dim["cultura_key"], dim["cultura_id"]))
df["cultura_id"] = df["cultura_key"].map(map_cult)

print("Mapeadas:", df["cultura_id"].notna().sum(), "| Não mapeadas:", df["cultura_id"].isna().sum())

# se tiver não mapeadas, mostra as top 30
if df["cultura_id"].isna().any():
    print("\nCulturas não mapeadas (amostra):")
    print(df.loc[df["cultura_id"].isna(), "cultura"].drop_duplicates().head(30).to_string(index=False))

Mapeadas: 1882 | Não mapeadas: 0


In [58]:
# -------------------------
# 4) monta FACT LOTE (mantém só linhas mapeadas)
# -------------------------
fact_lote = df.loc[df["cultura_id"].notna(), [
    "ano_semana","ano","semana","bloco_id","naves","cultura_id",
    "idade","semana_plantio","data_plantio"
]].copy()

# regras MVP de faixa (evitar sujeira)
fact_lote = fact_lote.loc[
    fact_lote["ano"].between(2000, 2100) &
    fact_lote["semana"].between(1, 53) &
    fact_lote["bloco_id"].between(1, 25)
].copy()

# dedup por chave
fact_lote = fact_lote.drop_duplicates(subset=["ano_semana","bloco_id","naves","cultura_id"])
print("FACT LOTE após filtros/dedup:", fact_lote.shape[0])


FACT LOTE após filtros/dedup: 1850


In [59]:
# -------------------------
# 5) parse de naves -> n_naves_lote + parse_ok
# -------------------------
def count_naves(txt: str):
    if txt is None:
        return 0, False

    t = str(txt).lower().strip()

    # remove "a confirmar"
    t = t.replace("a confirmar", "").strip()

    # normaliza conectivos
    t = t.replace(" e ", ",").replace(";", ",")

    if t == "":
        return 0, False

    total = 0
    ok = True

    # intervalos "7 a 12"
    ranges = re.findall(r"(\d+)\s*a\s*(\d+)", t)
    for a, b in ranges:
        a = int(a); b = int(b)
        if b < a:
            ok = False
        else:
            total += (b - a + 1)

    # remove intervalos e pega números soltos
    t2 = re.sub(r"\d+\s*a\s*\d+", "", t)
    singles = re.findall(r"\b\d+\b", t2)
    total += len(set(int(x) for x in singles))

    # se ainda sobrar letra além do 'a' (já usado), é suspeito
    # (ex.: texto, palavras)
    if re.search(r"[a-z]", t):
        # ainda pode ser ok em alguns casos, mas no MVP marcamos como não-ok
        ok = False

    return total, ok

tmp = fact_lote["naves"].apply(count_naves)
fact_lote["n_naves_lote"] = tmp.apply(lambda x: x[0])
fact_lote["parse_ok"] = tmp.apply(lambda x: x[1])

In [60]:
# -------------------------
# 6) tipos e limpeza final (NaN/NaT -> None)
# -------------------------
# idade e semana_plantio como numérico seguro
fact_lote["idade"] = pd.to_numeric(fact_lote["idade"], errors="coerce")
fact_lote["semana_plantio"] = pd.to_numeric(fact_lote["semana_plantio"], errors="coerce")

# cortes simples
fact_lote.loc[(fact_lote["idade"].notna()) & ((fact_lote["idade"] < 0) | (fact_lote["idade"] > 500)), "idade"] = pd.NA
fact_lote.loc[(fact_lote["semana_plantio"].notna()) & ((fact_lote["semana_plantio"] < 1) | (fact_lote["semana_plantio"] > 53)), "semana_plantio"] = pd.NA

# converte para int nullable
fact_lote["ano"] = fact_lote["ano"].astype("Int64")
fact_lote["semana"] = fact_lote["semana"].astype("Int64")
fact_lote["bloco_id"] = fact_lote["bloco_id"].astype("Int64")
fact_lote["cultura_id"] = fact_lote["cultura_id"].astype("Int64")
fact_lote["idade"] = fact_lote["idade"].round().astype("Int64")
fact_lote["semana_plantio"] = fact_lote["semana_plantio"].round().astype("Int64")

# garantia de existência (não quebra bind)
fact_lote["n_naves_lote"] = pd.to_numeric(fact_lote["n_naves_lote"], errors="coerce").fillna(0).astype(int)
fact_lote["parse_ok"] = fact_lote["parse_ok"].fillna(False).astype(bool)


In [61]:
# -------------------------
# 7) LOAD (INSERT)
# -------------------------
sql_insert = text("""
INSERT INTO silver.fact_inventario_lote (
  ano_semana, ano, semana, bloco_id, naves, cultura_id,
  idade, semana_plantio, data_plantio,
  n_naves_lote, parse_ok
)
VALUES (
  :ano_semana, :ano, :semana, :bloco_id, :naves, :cultura_id,
  :idade, :semana_plantio, :data_plantio,
  :n_naves_lote, :parse_ok
)
ON CONFLICT (ano_semana, bloco_id, naves, cultura_id) DO NOTHING;
""")

records = fact_lote.to_dict("records")

# limpa NaN/NaT/etc no dict
for r in records:
    for k, v in list(r.items()):
        if isinstance(v, float) and (math.isnan(v) or math.isinf(v)):
            r[k] = None
        elif pd.isna(v):
            r[k] = None

with engine.begin() as conn:
    conn.execute(sql_insert, records)

print("✅ Inserção concluída. Linhas tentadas:", len(records))

✅ Inserção concluída. Linhas tentadas: 1850
