In [70]:
import pandas as pd
from sqlalchemy import create_engine, text
import re
import unicodedata



CONN_STR = "postgresql+psycopg2://estufas_user:estufas_pass_123@localhost:5432/estufas_kibala"
engine = create_engine(CONN_STR)

with engine.begin() as conn: 
    print(conn.execute(text("SELECT 1")).scalar())

1


# Silver DIM - Tempo


In [26]:
sql_bronze_tempo = """
SELECT DISTINCT
    ano,
    semana_inventario AS semana
FROM bronze.inventario_estufas_bronze
WHERE ano IS NOT NULL
  AND semana_inventario IS NOT NULL
ORDER BY ano, semana;
"""

tempo = pd.read_sql(sql_bronze_tempo, engine)

In [27]:
tempo["ano"] = tempo["ano"].astype(int)
tempo["semana"] = tempo["semana"].astype(int)

tempo["ano_semana"] = (
    tempo["ano"].astype(str) + "-" +
    tempo["semana"].astype(str).str.zfill(2)
)

tempo = tempo[["ano_semana", "ano", "semana"]]

In [28]:
rows = tempo.to_dict("records")

sql_insert = text("""
INSERT INTO silver.dim_tempo (ano_semana, ano, semana)
VALUES (:ano_semana, :ano, :semana)
ON CONFLICT (ano_semana) DO NOTHING;
""")

with engine.begin() as conn:
    conn.execute(sql_insert, rows)

print(f"✅ dim_tempo alimentada com {len(rows)} semanas")

✅ dim_tempo alimentada com 47 semanas


# Silver DIM - Cultura


In [71]:
sql_culturas = """
SELECT DISTINCT TRIM(cultura) AS cultura
FROM bronze.inventario_estufas_bronze
WHERE cultura IS NOT NULL AND TRIM(cultura) <> ''

UNION

SELECT DISTINCT TRIM(cultura) AS cultura
FROM bronze.colheitas_bronze
WHERE cultura IS NOT NULL AND TRIM(cultura) <> ''
;
"""

cult = pd.read_sql(sql_culturas, engine)

In [72]:
# -----------------------------
# 1) Limpeza base (raw)
# -----------------------------
cult["cultura"] = cult["cultura"].astype(str)

# remove 'None' literal e vazios disfarçados
cult["cultura"] = cult["cultura"].replace({"None": None, "nan": None, "NaN": None})
cult = cult[cult["cultura"].notna()]

cult["cultura"] = cult["cultura"].str.strip()
cult["cultura"] = cult["cultura"].str.replace(r"\s+", " ", regex=True).str.strip()
cult["cultura"] = cult["cultura"].str.replace(r"\s*\(.*\)\s*$", "", regex=True)  # remove (....) no fim
cult["cultura"] = cult["cultura"].str.replace(r"\.\s*$", "", regex=True)         # remove ponto final
cult = cult.drop_duplicates().sort_values("cultura").reset_index(drop=True)

In [73]:
# -----------------------------
# 2) Funções de normalização
# -----------------------------
def strip_accents(s: str) -> str:
    # remove acentos para facilitar matching
    return "".join(
        c for c in unicodedata.normalize("NFKD", s)
        if not unicodedata.combining(c)
    )

# dicionário de correções de digitação (mínimo e cirúrgico)
# você vai evoluindo isso ao longo do tempo
CORRECOES_EXATAS = {
    "Alface Roxp": "Alface Roxa",
    "Alface Roxo": "Alface Roxa",
    "feijão-Verde": "Feijão-Verde",
    "Feijão Verde": "Feijão-Verde",
    "Praparado para plantio de Alface": "Preparo de Solo",
    "Preparo de Solo finalizado. Aguardando Mudas": "Preparo de Solo",
    "Sem ultilização - Não há plástico": "Vazias",
}

def cultura_corrigida(nome: str) -> str:
    x = str(nome).strip()
    x = re.sub(r"\s+", " ", x)

    # remove sufixos operacionais frequentes
    x = re.sub(r"\bTeste\b", "", x, flags=re.IGNORECASE).strip()

    # se depois disso ficou vazio, devolve original
    if not x:
        return str(nome).strip()

    # correção exata (primeiro)
    if x in CORRECOES_EXATAS:
        return CORRECOES_EXATAS[x]

    # normalizações comuns
    # padroniza hífen
    x = x.replace("Feijão Verde", "Feijão-Verde").replace("feijão-Verde", "Feijão-Verde")

    # “Em limpeza” / “Em preparo de Solo” / “Operações ...”
    # mantém capitalização consistente
    xl = x.lower()
    if xl.startswith("em limpeza"):
        return "Em limpeza"
    if xl.startswith("em preparo"):
        return "Em preparo de Solo"
    if xl.startswith("operações"):
        return "Operações Campo Aberto e Café"
    if xl.startswith("flores"):
        return "Flores"
    if xl.startswith("vazias"):
        return "Vazias"

    return x

def cultura_grupo(nome_corrigido: str) -> str:
    x = strip_accents(str(nome_corrigido)).lower()

    # não produtiva / operacional (grupo separado)
    if x.startswith("em limpeza"):
        return "Operacional"
    if x.startswith("em preparo"):
        return "Operacional"
    if x.startswith("operacoes"):
        return "Operacional"
    if x.startswith("flores"):
        return "Flores"
    if x.startswith("vazias"):
        return "Operacional"

    # grupos produtivos
    if "alface" in x:
        return "Alface"
    if "tomate" in x:
        return "Tomate"
    if "pimento" in x:
        return "Pimento"
    if "pepino" in x:
        return "Pepino"
    if "courgette" in x:
        return "Courgette"
    if "feijao" in x or "feij" in x:
        return "Feijão-Verde"
    if "phisallis" in x or "physalis" in x:
        return "Phisallis"
    if "chuchu" in x:
        return "Chuchu"
    if "gindungo" in x:
        return "Gindungo"
    if "salada do cacho" in x:
        return "Tomate"  # se isso na prática é tomate (ajuste se for outra cultura)

    # fallback: usa a própria cultura corrigida (pra não perder info)
    return str(nome_corrigido)

def tipo_ocupacao(nome: str) -> str:
    x = strip_accents(str(nome)).lower()
    if x.startswith("em limpeza") or x.startswith("em preparo") or x.startswith("operacoes") or x.startswith("flores") or x.startswith("vazias"):
        return "NAO_PRODUTIVA"
    return "PRODUTIVA"


In [74]:
# -----------------------------
# 3) Aplicar regras
# -----------------------------
dim_cultura = pd.DataFrame({"cultura_raw": cult["cultura"]})
dim_cultura["cultura_corrigida"] = dim_cultura["cultura_raw"].apply(cultura_corrigida)
dim_cultura["cultura_grupo"] = dim_cultura["cultura_corrigida"].apply(cultura_grupo)
dim_cultura["tipo_ocupacao"] = dim_cultura["cultura_corrigida"].apply(tipo_ocupacao)

# Deduplicação final (pra dim ficar enxuta)
# aqui você escolhe o que quer registrar como "cultura_nome" na tabela:
# - usar corrigida (recomendado)
# - ou usar grupo (mais agressivo)
dim_insert = (
    dim_cultura[["cultura_corrigida", "tipo_ocupacao"]]
    .rename(columns={"cultura_corrigida": "cultura_nome"})
    .drop_duplicates()
    .sort_values("cultura_nome")
    .reset_index(drop=True)
)

rows = dim_insert.to_dict("records")

sql_insert = text("""
INSERT INTO silver.dim_cultura (cultura_nome, tipo_ocupacao)
VALUES (:cultura_nome, :tipo_ocupacao)
ON CONFLICT (cultura_nome) DO NOTHING;
""")

with engine.begin() as conn:
    conn.execute(sql_insert, rows)

print(f"✅ dim_cultura alimentada (enviadas {len(rows)} culturas)")

✅ dim_cultura alimentada (enviadas 49 culturas)


In [76]:
dim_cultura

Unnamed: 0,cultura_raw,cultura_corrigida,cultura_grupo,tipo_ocupacao
0,Adubação Verde,Adubação Verde,Adubação Verde,PRODUTIVA
1,Alface,Alface,Alface,PRODUTIVA
2,Alface Caipira,Alface Caipira,Alface,PRODUTIVA
3,Alface Caipira Gama,Alface Caipira Gama,Alface,PRODUTIVA
4,Alface Iceberg,Alface Iceberg,Alface,PRODUTIVA
5,Alface Roxa,Alface Roxa,Alface,PRODUTIVA
6,Alface Roxo,Alface Roxa,Alface,PRODUTIVA
7,Alface Roxp,Alface Roxa,Alface,PRODUTIVA
8,Chuchu Claro,Chuchu Claro,Chuchu,PRODUTIVA
9,Chuchu Escuro,Chuchu Escuro,Chuchu,PRODUTIVA


# Silver DIM - Estufas/Bloco

In [41]:
# -----------------------------
# 1) montar tabela fixa em pandas
# -----------------------------
rows = []

for bloco in range(1, 26):
    # area_total por grupo
    if bloco == 1:
        area_total = 1.30
    elif bloco in [2, 3, 4]:
        area_total = 1.08
    elif bloco in [5, 6, 7]:
        area_total = 1.32
    else:  # 8..25
        area_total = 1.20

    # area_nave por grupo
    if bloco <= 4:
        area_nave = 0.057
    else:
        area_nave = 0.06

    # n_naves calculado
    n_naves = int(round(area_total / area_nave))

    rows.append({
        "bloco_id": bloco,
        "n_naves": n_naves,
        "area_nave": area_nave,
        "area_total": area_total
    })

df_bloco = pd.DataFrame(rows)

In [34]:
sql_upsert = text("""
INSERT INTO silver.dim_estufa_bloco (bloco_id, n_naves, area_nave, area_total)
VALUES (:bloco_id, :n_naves, :area_nave, :area_total)
ON CONFLICT (bloco_id) DO UPDATE SET
  n_naves   = EXCLUDED.n_naves,
  area_nave = EXCLUDED.area_nave,
  area_total= EXCLUDED.area_total;
""")

with engine.begin() as conn:
    conn.execute(sql_upsert, df_bloco[["bloco_id","n_naves","area_nave","area_total"]].to_dict("records"))

print("✅ dim_estufa_bloco atualizada com regra fixa (blocos 1..25)")

✅ dim_estufa_bloco atualizada com regra fixa (blocos 1..25)
