# Análise Exploratória dos Dados
---

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.style.use("seaborn-v0_8")
pd.set_option("display.max_columns", 100)

BASE_DIR = Path("data_ons")

def find_latest_file(base_dir: Path, pattern: str, recursive: bool = False) -> Path:
    
    globber = base_dir.rglob if recursive else base_dir.glob
    matches = list(globber(pattern))
    if not matches:
        raise FileNotFoundError(f"Nenhum arquivo encontrado para o padrão: {pattern}")
    latest = max(matches, key=lambda p: p.stat().st_mtime)
    return latest

# Usar padrões com wildcard para lidar com sufixos de data
df_carga_v = pd.read_parquet(find_latest_file(BASE_DIR, "carga_verificada_SECO*.parquet"))
df_carga_p = pd.read_parquet(find_latest_file(BASE_DIR, "carga_programada_SECO*.parquet"))
df_balanco = pd.read_parquet(find_latest_file(BASE_DIR, "balanco_subsistemas*.parquet"))
df_cmo = pd.read_parquet(find_latest_file(BASE_DIR, "cmo_semi_horario_SECO*.parquet"))
df_gtm = pd.read_parquet(find_latest_file(BASE_DIR, "geracao_termica_motivo*.parquet"))

print("Arquivos carregados:")
print("df_carga_v:", find_latest_file(BASE_DIR, "carga_verificada_SECO*.parquet"))
print("df_carga_p:", find_latest_file(BASE_DIR, "carga_programada_SECO*.parquet"))
print("df_balanco:", find_latest_file(BASE_DIR, "balanco_subsistemas*.parquet"))
print("df_cmo:", find_latest_file(BASE_DIR, "cmo_semi_horario_SECO*.parquet"))
print("df_gtm:", find_latest_file(BASE_DIR, "geracao_termica_motivo*.parquet"))

In [None]:
def fix_datetime(df, col):
    df[col] = pd.to_datetime(df[col], utc=True, errors="coerce")
    df = df.dropna(subset=[col])
    df = df.sort_values(col)
    return df

df_carga_v = fix_datetime(df_carga_v, "din_referenciautc")
df_carga_p = fix_datetime(df_carga_p, "din_referenciautc")
df_balanco = fix_datetime(df_balanco, "din_instante")
df_cmo = fix_datetime(df_cmo, "din_instante") if "din_instante" in df_cmo.columns else fix_datetime(df_cmo, "din_referenciautc")
df_gtm = fix_datetime(df_gtm, "din_instante")

## Visão geral das bases
---

In [None]:
dfs = {
    "Carga Verificada": df_carga_v,
    "Carga Programada": df_carga_p,
    "Balanço dos Subsistemas": df_balanco,
    "CMO": df_cmo,
    "Geração Térmica por Motivo de Despacho": df_gtm,
}

for name, df in dfs.items():
    print(f"Dataset: {name}")
    print(f"Shape do Dataframe: {df.shape}")
    print(f"Colunas:\n{df.columns.tolist()[:12]}" + ("..." if len(df.columns) > 12 else ""), end="\n\n")

## Estatísticas Descritivas das Variáveis Principais
---

In [None]:
df_balanco.describe().T

In [None]:
df_carga_v.describe().T

In [None]:
df_cmo.describe().T

## Carga Verificada
---

In [None]:
fig, ax = plt.subplots(figsize=(14, 4))
ax.plot(df_carga_v["din_referenciautc"], df_carga_v["val_cargaglobal"], linewidth=0.8)
ax.set_title("Carga Global Verificada - Série Temporal SE/CO (2023 - 2025)")
ax.set_ylabel("MW")
plt.show()

In [None]:
df = df_carga_v.copy()
df['year'] = df['din_referenciautc'].dt.year
df['month'] = df['din_referenciautc'].dt.month
df['val_cargaglobal'] = pd.to_numeric(df['val_cargaglobal'], errors='coerce')

pivot = df.groupby(['year', 'month'])['val_cargaglobal'].mean().unstack(level=0)

pivot = pivot.reindex(range(1, 13))

fig, ax = plt.subplots(figsize=(14, 6))
pivot.plot(ax=ax, marker='o', linewidth=1)

ax.set_xticks(range(1, 13))
ax.set_xlabel('Mês')
ax.set_ylabel('MW')
ax.set_title('Carga Global Verificada - Média Mensal por Ano (SE/CO) (2023-2025)')
ax.legend(title='Ano', bbox_to_anchor=(1.02, 1), loc='upper left')
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
df = df_carga_v.copy()
df['year'] = df['din_referenciautc'].dt.year
df['doy'] = df['din_referenciautc'].dt.dayofyear
df['val_cargaglobal'] = pd.to_numeric(df['val_cargaglobal'], errors='coerce')

pivot = df.groupby(['year', 'doy'])['val_cargaglobal'].mean().unstack(level=0)
pivot = pivot.reindex(range(1, 367))

fig, ax = plt.subplots(figsize=(16, 6))
pivot.plot(ax=ax, linewidth=0.8)

first_of_month = pd.to_datetime([f'2020-{m:02d}-01' for m in range(1, 13)]).dayofyear  # 2020: ano bissexto
ax.set_xticks(first_of_month)
ax.set_xticklabels(range(1, 13))
ax.set_xlabel('Mês')
ax.set_ylabel('MW')
ax.set_title('Carga Global Verificada - Média Diária por Dia do Ano (SE/CO) (2023-2025)')
ax.set_ylim(30000, 58000)
ax.legend(title='Ano', bbox_to_anchor=(1.02, 1), loc='upper left')
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## Algo diferenciado
---

In [None]:
df_carga_v

In [None]:
df_carga = (
    df_carga_v[["din_referenciautc", "val_cargaglobalcons"]]
    .merge(
        df_carga_p[["din_referenciautc", "val_cargaglobalprogramada"]]
        .rename(columns={"val_cargaglobalprogramada": "val_carga_prog"}),
        on="din_referenciautc",
        how="inner"
    ).rename(columns={"val_cargaglobalcons": "val_carga_cons"})
)
df_carga["erro_prog"] = df_carga["val_carga_cons"] - df_carga["val_carga_prog"]
df_carga.head()

In [None]:
from matplotlib.dates import MonthLocator, DateFormatter

df = df_carga.copy()
df['din_referenciautc'] = pd.to_datetime(df['din_referenciautc'], utc=True, errors='coerce')
df = df.dropna(subset=['din_referenciautc']).sort_values('din_referenciautc').set_index('din_referenciautc')

err_30min = df['erro_prog']
err_hour = err_30min.resample('h').mean()
err_day = err_30min.resample('D').mean()
err_roll_24h = err_30min.rolling(window=48, min_periods=1).mean()  # 48 x 30min = 24h

# Plot principal: 30min (fino), hora (média) e rolling 24h (suavizada)
fig, ax = plt.subplots(figsize=(14, 4))
ax.plot(err_hour.index, err_hour, color='C1', alpha=0.5, linewidth=0.7, label='Média hora')
ax.plot(err_roll_24h.index, err_roll_24h, color='C2', alpha=0.95, linewidth=1.5, label='Rolling 24h')
ax.plot(err_30min.index, err_30min, color='C0', alpha=0.8, linewidth=0.5, label='30 min')
ax.axhline(0, color='black', linewidth=0.8)
ax.set_ylabel('MW')
ax.set_title('Erro entre carga verificada e programada - 30min / Hora / Rolling 24h (SE/CO) (2023-2025)')
ax.legend(title=None, bbox_to_anchor=(1.02, 1), loc='upper left')

# Formatação do eixo X por mês
ax.xaxis.set_major_locator(MonthLocator())
ax.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
plt.xticks(rotation=45)
ax.grid(axis='y', alpha=0.3)
ax.set_ylim(-5000, 10000)
plt.tight_layout()
plt.show()

# Plot opcional: média diária (bom para tendências mais longas)
fig, ax = plt.subplots(figsize=(14, 3.5))
ax.plot(err_day.index, err_day, color='C3', linewidth=1)
ax.axhline(0, color='black', linewidth=0.8)
ax.set_title('Erro médio diário (SE/CO) (2023-2025)')
ax.set_ylabel('MW')
ax.set_ylim(-5000, 5000)
ax.xaxis.set_major_locator(MonthLocator())
ax.xaxis.set_major_formatter(DateFormatter('%Y-%m'))
plt.xticks(rotation=45)
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## Análise da oferta (hidráulica, térmica, eólica, solar)
---

In [None]:
cols_oferta = ["val_gerhidraulica", "val_gertermica", "val_gereolica", "val_gersolar"]

df_balanco[cols_oferta + ["val_carga"]].describe()


## Séries temporais das fontes:
---

In [None]:
fig, ax = plt.subplots(figsize=(14,5))
for col in cols_oferta:
    ax.plot(df_balanco["din_instante"], df_balanco[col], label=col, alpha=0.7)
ax.set_title("Geração por Fonte - SE/CO")
ax.legend()
plt.show()


## Análise da geração térmica por motivo (variável-alvo ligada ao despacho)
---

In [None]:
df_gtm.describe()

In [None]:
df_gtm.columns

In [None]:
df_gtm

In [None]:
def pick(cols):
    for c in cols:
        if c in df.columns:
            return c
    return None

df = df_gtm.copy()

# padroniza nomes para minúsculo (isso é pelo problema do 0E-8 vindo como texto)
df.columns = [c.strip() for c in df.columns]

rename_map = {}
candidates_total_prog = ["val_proggeracao", "val_programada", "val_prog", "geracao_programada"]
candidates_total_verif = ["val_verifgeracao", "val_verificada", "val_verif", "geracao_verificada"]
candidates_dt = ["din_instante", "datahora", "datetime", "dt_ref", "instante"]

col_dt = pick(candidates_dt)
col_prog = pick(candidates_total_prog)
col_verif = pick(candidates_total_verif)

if col_dt and col_dt != "din_instante":
    rename_map[col_dt] = "din_instante"
if col_prog and col_prog != "val_proggeracao":
    rename_map[col_prog] = "val_proggeracao"
if col_verif and col_verif != "val_verifgeracao":
    rename_map[col_verif] = "val_verifgeracao"

df = df.rename(columns=rename_map)

# datetime
df["din_instante"] = pd.to_datetime(df["din_instante"], errors="coerce")

# limpeza de numéricos (resolve casos tipo "0E-8" vindo como texto)
val_cols = [c for c in df.columns if c.startswith("val_")]
df[val_cols] = (
    df[val_cols]
      .replace({"0E-8": "0", "0e-8": "0"})
      .apply(lambda s: pd.to_numeric(s, errors="coerce"))
)

# inteiros com suporte a NA
for c in ["cod_usinaplanejamento", "val_atendsatisfatoriorpo", "tip_restricaoeletrica"]:
    if c in df.columns:
        df[c] = pd.to_numeric(df[c], errors="coerce").astype("Int64")

df.shape, df.columns[:20]


## Checagem de cobertura temporal
---

In [None]:
df_sc = df.copy()
if "nom_subsistema" in df_sc.columns:
    df_sc = df_sc[df_sc["nom_subsistema"].astype(str).str.contains("SUDESTE", case=False, na=False)].copy()

print("Linhas:", len(df_sc))
print("Período:", df_sc["din_instante"].min().date(), "até", df_sc["din_instante"].max().date())
print("Usinas (nom_usina):", df_sc["nom_usina"].nunique() if "nom_usina" in df_sc.columns else None)
print("Patamares:", df_sc["nom_tipopatamar"].unique() if "nom_tipopatamar" in df_sc.columns else None)

df_sc.head()


In [None]:
key_cols = [c for c in ["val_proggeracao", "val_verifgeracao"] if c in df_sc.columns]
qc = []

for c in key_cols:
    s = df_sc[c]
    qc.append({
        "col": c,
        "n": s.size,
        "n_na": int(s.isna().sum()),
        "pct_na": float(s.isna().mean()),
        "n_zero": int((s == 0).sum()),
        "pct_zero": float((s == 0).mean()),
        "n_neg": int((s < 0).sum()),
        "min": float(np.nanmin(s.values)),
        "max": float(np.nanmax(s.values)),
        "mean": float(np.nanmean(s.values)),
    })

pd.DataFrame(qc)


## Decomposição por motivo (ranking) usando colunas val_verif* (verificadas)
---

In [None]:
verif_cols_all = [c for c in df_sc.columns if c.startswith("val_verif") and c != "val_verifgeracao"]

# remove colunas que tendem a ser "subclassificações" (não somatórias) para análises de participação
exclude_kw = ["acimadainflex", "embut", "pura"]  # existem no dicionário como detalhamento adicional
verif_cols = [c for c in verif_cols_all if not any(k in c for k in exclude_kw)]

rank_verif = (
    df_sc[verif_cols]
      .sum(numeric_only=True)
      .sort_values(ascending=False)
      .to_frame("mwmed_soma")
)

rank_verif["participacao"] = rank_verif["mwmed_soma"] / rank_verif["mwmed_soma"].sum()
rank_verif.head(15)


## Soma de motivos vs total verificado e outliers
---

In [None]:
# total verificado é val_verifgeracao.

df_chk = df_sc.copy()
df_chk["verif_soma_motivos"] = df_chk[verif_cols].sum(axis=1, skipna=True)
df_chk["verif_residuo"] = df_chk["val_verifgeracao"] - df_chk["verif_soma_motivos"]

df_chk["verif_residuo"].describe(percentiles=[.01, .05, .5, .95, .99])


## Histograma do resíduo e top divergências
---

In [None]:
plt.figure()
df_chk["verif_residuo"].dropna().clip(lower=df_chk["verif_residuo"].quantile(0.01),
                                      upper=df_chk["verif_residuo"].quantile(0.99)).hist(bins=60)
plt.title("Resíduo: total verificado - soma(val_verif* por motivo)")
plt.xlabel("MWmed")
plt.ylabel("frequência")
plt.show()

cols_show = ["din_instante", "nom_usina", "nom_tipopatamar", "val_verifgeracao", "verif_soma_motivos", "verif_residuo"]
cols_show = [c for c in cols_show if c in df_chk.columns]

df_chk.loc[df_chk["verif_residuo"].abs().nlargest(20).index, cols_show]


## Programado vs verificado (erro operacional) e sazonalidade mensal
---

In [None]:
# programado total é val_proggeracao.

df_ev = df_sc.dropna(subset=["din_instante"]).copy()
df_ev["erro_mwmed"] = df_ev["val_verifgeracao"] - df_ev["val_proggeracao"]
df_ev["erro_pct"] = np.where(df_ev["val_proggeracao"] > 0, df_ev["erro_mwmed"] / df_ev["val_proggeracao"], np.nan)

df_ev[["erro_mwmed", "erro_pct"]].describe(percentiles=[.01, .05, .5, .95, .99])


## Evolução mensal (total verificado, total programado, erro)
---

In [None]:
m = (
    df_ev.set_index("din_instante")[["val_verifgeracao", "val_proggeracao", "erro_mwmed"]]
        .resample("MS").sum(min_count=1)
)

plt.figure()
m[["val_verifgeracao", "val_proggeracao"]].plot()
plt.title("Geração térmica: verificada vs programada (mensal, soma MWmed)")
plt.xlabel("mês")
plt.ylabel("MWmed (soma no mês)")
plt.show()

plt.figure()
m["erro_mwmed"].plot()
plt.title("Erro: verificada - programada (mensal, soma MWmed)")
plt.xlabel("mês")
plt.ylabel("MWmed (soma no mês)")
plt.show()

m.tail(12)
