In [14]:
# ==============================================================================
# NOTEBOOK DE TESTES METAM√ìRFICOS - N√çVEL 1: AN√ÅLISE DE SENSIBILIDADE
# ==============================================================================
# Objetivo: Avaliar a estabilidade e a sensibilidade do sistema a perturba√ß√µes,
# aus√™ncias e valores extremos nos dados de entrada (caixa-preta estrita).
# ------------------------------------------------------------------------------

# üì¶ Imports
import pandas as pd
import numpy as np
import joblib
import plotly.graph_objects as go
from sklearn.metrics import mean_squared_error
from scipy.stats import pearsonr
from pathlib import Path

# ==============================================================================
# üìÅ ETAPA 1: SETUP DO AMBIENTE
# ==============================================================================

ethanol_path = Path(
    r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/data/[Etanol] Trajeto Casa-Escola-UFRN/trackLog-2023-Feb-13_06-38-49_seg.csv"
)
gasoline_path = Path(
    r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/data/[Gasolina] Trajeto Casa-Escola-UFRN/trackLog-2022-Dec-01_06-43-57_qui.csv"
)

df_ethanol = pd.read_csv(ethanol_path)
df_gasoline = pd.read_csv(gasoline_path)

print("Arquivos de dados carregados com sucesso.")

# ==============================================================================
# üîß PREPARA√á√ÉO DOS DADOS
# ==============================================================================

def preparar_dados(df):
    df = df.copy()
    df.columns = df.columns.str.strip()

    col_map = {
        "Speed (OBD)(km/h)": "Speed(OBD)(km/h)",
        "Latitude ": "Latitude",
        "Longitude ": "Longitude"
    }
    df.rename(columns={k: v for k, v in col_map.items() if k in df.columns}, inplace=True)

    if "Speed(OBD)(km/h)" in df.columns:
        speed_ms = df["Speed(OBD)(km/h)"].fillna(0).values * 1000 / 3600
        df["Acceleration"] = np.diff(speed_ms, prepend=speed_ms[0])

    return df

df_ethanol = preparar_dados(df_ethanol)
df_gasoline = preparar_dados(df_gasoline)

# ==============================================================================
# ü§ñ CARREGAMENTO DOS MODELOS
# ==============================================================================

modelos = {
    "ethanol": {
        "afr": joblib.load(
            Path(r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/models/LGBMRegressor_ethanol_afr.pkl")
        ),
        "maf": joblib.load(
            Path(r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/models/XGBRegressor_ethanol_maf.pkl")
        ),
    },
    "gasoline": {
        "afr": joblib.load(
            Path(r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/models/LGBMRegressor_gasoline_afr.pkl")
        ),
        "maf": joblib.load(
            Path(r"C:/Users/Paulo Eduardo/Documents/Disserta√ß√£o/ModelosML/Conect2ai/MDPI2023-pollution/models/XGBRegressor_gasoline_maf.pkl")
        ),
    }
}

print("Modelos carregados com sucesso.")

# ==============================================================================
# üßÆ FUN√á√ïES AUXILIARES
# ==============================================================================

def compute_co2(afr, maf, fuel):
    afr = np.asarray(afr)
    maf = np.asarray(maf)
    carbon_fraction = {"ethanol": 0.5217, "gasoline": 0.8571}
    fuel_rate = np.divide(maf, afr, out=np.zeros_like(maf), where=afr != 0)
    return fuel_rate * carbon_fraction[fuel] * (44.0 / 12.0)

def encontrar_coluna(df, nomes):
    for n in nomes:
        if n in df.columns:
            return df[n]
    return None

def pearson_safe(x, y):
    x, y = np.asarray(x), np.asarray(y)
    mask = ~np.isnan(x) & ~np.isnan(y)
    if mask.sum() < 2:
        return np.nan
    return pearsonr(x[mask], y[mask])[0]

# ==============================================================================
# üî¨ TESTE METAM√ìRFICO NUM√âRICO
# ==============================================================================

def executar_teste_plotly(df_original, df_modificado, modelo_afr, modelo_maf, fuel, nome_ct):
    features = ["Latitude", "Longitude", "Speed(OBD)(km/h)", "Acceleration"]

    for f in features:
        if f not in df_original.columns:
            df_original[f] = 0
        if f not in df_modificado.columns:
            df_modificado[f] = 0

    afr_real = encontrar_coluna(
        df_original,
        ["AirFuelRatio(Commanded)(:1)", "Air Fuel Ratio(Commanded)(:1)"]
    )
    maf_real = encontrar_coluna(
        df_original,
        ["MassAirFlowRate(g/s)", "Mass Air Flow Rate(g/s)"]
    )

    co2_real = (
        compute_co2(afr_real, maf_real, fuel)
        if afr_real is not None and maf_real is not None
        else None
    )

    co2_orig = compute_co2(
        modelo_afr.predict(df_original[features]),
        modelo_maf.predict(df_original[features]),
        fuel
    )

    co2_mod = compute_co2(
        modelo_afr.predict(df_modificado[features]),
        modelo_maf.predict(df_modificado[features]),
        fuel
    )

    rmse = mean_squared_error(co2_orig, co2_mod, squared=False)
    pearson_rm = pearson_safe(co2_orig, co2_mod)
    pearson_real = pearson_safe(co2_real, co2_mod)

    # ======================================================
    # üì¢ BLOCO INFORMATIVO (ANTES DO GR√ÅFICO)
    # ======================================================
    print("\n" + "=" * 80)
    print(f"üß™ {nome_ct} ({fuel.upper()})")
    print("Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade")
    print(f"RMSE Orig√óRM = {rmse:.4f}")
    print(f"Pearson Orig√óRM = {pearson_rm:.3f}")
    print(f"Pearson Real√óRM = {pearson_real:.3f}")
    print("=" * 80)

    # ======================================================
    # üìà GR√ÅFICO
    # ======================================================
    fig = go.Figure()

    if co2_real is not None:
        fig.add_trace(go.Scatter(
            y=co2_real[:200],
            name="Real",
            line=dict(dash="dot", color="gray")
        ))

    fig.add_trace(go.Scatter(
        y=co2_orig[:200],
        name="Predi√ß√£o Original",
        line=dict(dash="dash", color="blue")
    ))

    fig.add_trace(go.Scatter(
        y=co2_mod[:200],
        name="Predi√ß√£o com RM",
        line=dict(color="red")
    ))

    fig.update_layout(
        title=dict(
            text=(
                f"{nome_ct} ‚Äì Compara√ß√£o Metam√≥rfica ({fuel.upper()})<br>"
                f"RMSE={rmse:.3f} | Pearson Orig√óRM={pearson_rm:.3f}"
            ),
            x=0.5
        ),
        xaxis_title="Amostras",
        yaxis_title="Vari√°vel de Sa√≠da (CO‚ÇÇ)",
        template="plotly_white"
    )

    fig.show()


# ==============================================================================
# üß™ TESTE DE ROBUSTEZ (NULL)
# ==============================================================================

def executar_teste_null(df_original, df_modificado, modelo_afr, modelo_maf, fuel, nome_ct):
    features = ["Latitude", "Longitude", "Speed(OBD)(km/h)", "Acceleration"]

    for f in features:
        if f not in df_original.columns:
            df_original[f] = 0
        if f not in df_modificado.columns:
            df_modificado[f] = 0

    afr_real = encontrar_coluna(
        df_original,
        ["AirFuelRatio(Commanded)(:1)", "Air Fuel Ratio(Commanded)(:1)"]
    )
    maf_real = encontrar_coluna(
        df_original,
        ["MassAirFlowRate(g/s)", "Mass Air Flow Rate(g/s)"]
    )

    co2_real = (
        compute_co2(afr_real, maf_real, fuel)
        if afr_real is not None and maf_real is not None
        else None
    )

    co2_orig = compute_co2(
        modelo_afr.predict(df_original[features]),
        modelo_maf.predict(df_original[features]),
        fuel
    )

    co2_null = compute_co2(
        modelo_afr.predict(df_modificado[features]),
        modelo_maf.predict(df_modificado[features]),
        fuel
    )

    rmse = mean_squared_error(co2_orig, co2_null, squared=False)
    pearson_null = pearson_safe(co2_orig, co2_null)
    pearson_real = pearson_safe(co2_real, co2_null)

    status = "‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita"

    # ======================================================
    # üì¢ BLOCO INFORMATIVO (ANTES DO GR√ÅFICO)
    # ======================================================
    print("\n" + "=" * 80)
    print(f"üß™ {nome_ct} ({fuel.upper()})")
    print("Tipo de Teste: Robustez ‚Äì Valor NULL")
    print(f"Status do Teste: {status}")
    print(f"RMSE Orig√óNULL = {rmse:.4f}")
    print(f"Pearson Orig√óNULL = {pearson_null:.3f}")
    print(f"Pearson Real√óNULL = {pearson_real:.3f}")
    print("=" * 80)

    # ======================================================
    # üìà GR√ÅFICO
    # ======================================================
    fig = go.Figure()

    if co2_real is not None:
        fig.add_trace(go.Scatter(
            y=co2_real[:200],
            name="Real",
            line=dict(dash="dot", color="gray")
        ))

    fig.add_trace(go.Scatter(
        y=co2_orig[:200],
        name="Predi√ß√£o Original",
        line=dict(dash="dash", color="blue")
    ))

    fig.add_trace(go.Scatter(
        y=co2_null[:200],
        name="Predi√ß√£o com NULL",
        line=dict(color="red")
    ))

    fig.update_layout(
        title=dict(
            text=(
                f"{nome_ct} ‚Äì Compara√ß√£o com NULL ({fuel.upper()})<br>"
                f"{status}<br>"
                f"RMSE={rmse:.3f} | Pearson Null={pearson_null:.3f} | Pearson Real√óNULL={pearson_real:.3f}"
            ),
            x=0.5
        ),
        xaxis_title="Amostras",
        yaxis_title="Vari√°vel de Sa√≠da (CO‚ÇÇ)",
        template="plotly_white"
    )

    fig.show()


# ==============================================================================
# üîÅ CASOS DE TESTE ‚Äì N√çVEL 1
# ==============================================================================

testes_exclusivos = {
    "CT_N1_001 ‚Äì Zerar A": lambda df: df.assign(**{"Speed(OBD)(km/h)": 0.0}),
    "CT_N1_002 ‚Äì Zerar B": lambda df: df.assign(Acceleration=0.0),
    "CT_N1_003 ‚Äì Zerar C": lambda df: df.assign(Latitude=0.0),
    "CT_N1_004 ‚Äì Zerar D": lambda df: df.assign(Longitude=0.0),
}

testes_null = {
    "CT_N1_005 ‚Äì A = null": lambda df: df.assign(**{"Speed(OBD)(km/h)": np.nan}),
    "CT_N1_006 ‚Äì B = null": lambda df: df.assign(Acceleration=np.nan),
    "CT_N1_007 ‚Äì C = null": lambda df: df.assign(Latitude=np.nan),
    "CT_N1_008 ‚Äì D = null": lambda df: df.assign(Longitude=np.nan),
}

# ==============================================================================
# ‚ñ∂Ô∏è EXECU√á√ÉO
# ==============================================================================

print("\n=== TESTES METAM√ìRFICOS NUM√âRICOS ===")
for nome, t in testes_exclusivos.items():
    for fuel, df in [("ethanol", df_ethanol), ("gasoline", df_gasoline)]:
        executar_teste_plotly(df, t(df.copy()), modelos[fuel]["afr"], modelos[fuel]["maf"], fuel, nome)

print("\n=== TESTES DE ROBUSTEZ (NULL) ===")
for nome, t in testes_null.items():
    for fuel, df in [("ethanol", df_ethanol), ("gasoline", df_gasoline)]:
        executar_teste_null(df, t(df.copy()), modelos[fuel]["afr"], modelos[fuel]["maf"], fuel, nome)


Arquivos de dados carregados com sucesso.
Modelos carregados com sucesso.

=== TESTES METAM√ìRFICOS NUM√âRICOS ===

üß™ CT_N1_001 ‚Äì Zerar A (ETHANOL)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.4900
Pearson Orig√óRM = 0.395
Pearson Real√óRM = 0.406



üß™ CT_N1_001 ‚Äì Zerar A (GASOLINE)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.8179
Pearson Orig√óRM = 0.639
Pearson Real√óRM = 0.537



üß™ CT_N1_002 ‚Äì Zerar B (ETHANOL)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.1847
Pearson Orig√óRM = 0.919
Pearson Real√óRM = 0.779



üß™ CT_N1_002 ‚Äì Zerar B (GASOLINE)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.2673
Pearson Orig√óRM = 0.941
Pearson Real√óRM = 0.733



üß™ CT_N1_003 ‚Äì Zerar C (ETHANOL)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.3941
Pearson Orig√óRM = 0.480
Pearson Real√óRM = 0.458



üß™ CT_N1_003 ‚Äì Zerar C (GASOLINE)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 1.0747
Pearson Orig√óRM = 0.030
Pearson Real√óRM = 0.020



üß™ CT_N1_004 ‚Äì Zerar D (ETHANOL)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.4241
Pearson Orig√óRM = 0.385
Pearson Real√óRM = 0.351



üß™ CT_N1_004 ‚Äì Zerar D (GASOLINE)
Tipo de Teste: Metam√≥rfico ‚Äì An√°lise de Sensibilidade
RMSE Orig√óRM = 0.7443
Pearson Orig√óRM = 0.456
Pearson Real√óRM = 0.398



=== TESTES DE ROBUSTEZ (NULL) ===

üß™ CT_N1_005 ‚Äì A = null (ETHANOL)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.9639
Pearson Orig√óNULL = 0.391
Pearson Real√óNULL = 0.347



üß™ CT_N1_005 ‚Äì A = null (GASOLINE)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 1.2611
Pearson Orig√óNULL = 0.493
Pearson Real√óNULL = 0.391



üß™ CT_N1_006 ‚Äì B = null (ETHANOL)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.1949
Pearson Orig√óNULL = 0.900
Pearson Real√óNULL = 0.752



üß™ CT_N1_006 ‚Äì B = null (GASOLINE)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.3328
Pearson Orig√óNULL = 0.906
Pearson Real√óNULL = 0.712



üß™ CT_N1_007 ‚Äì C = null (ETHANOL)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.3941
Pearson Orig√óNULL = 0.480
Pearson Real√óNULL = 0.458



üß™ CT_N1_007 ‚Äì C = null (GASOLINE)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 1.0747
Pearson Orig√óNULL = 0.030
Pearson Real√óNULL = 0.020



üß™ CT_N1_008 ‚Äì D = null (ETHANOL)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.4241
Pearson Orig√óNULL = 0.385
Pearson Real√óNULL = 0.351



üß™ CT_N1_008 ‚Äì D = null (GASOLINE)
Tipo de Teste: Robustez ‚Äì Valor NULL
Status do Teste: ‚ùå FALHA ‚Äì NULL processado sem rejei√ß√£o expl√≠cita
RMSE Orig√óNULL = 0.7443
Pearson Orig√óNULL = 0.456
Pearson Real√óNULL = 0.398
