# 03 ‚Äî MART Comuni: RD% vs Rifiuti (ISPRA)

## Domanda civica
**Ci sono comuni che migliorano la raccolta differenziata (%) ma aumentano i rifiuti totali?**

## Cosa fa questo notebook
A partire dal dataset **clean** (output del notebook 02), il notebook produce **due output**:

1) **MART ‚Äúsnapshot‚Äù 2020‚Äì2023** (1 riga = 1 comune)  
   - RD% 2020 e 2023, variazione in punti percentuali  
   - RU totali 2020 e 2023 (t), variazione  
   - RU pro capite 2020 e 2023 (kg/ab), variazione (supporto interpretativo)  
   - classificazione in quadranti + flag *RD‚Üë & RU‚Üë* (risposta diretta alla domanda civica)

2) **Serie storica 2019‚Äì2023** (formato ‚Äúlong‚Äù, 1 riga = comune-anno)  
   - utile per una **seconda pagina Power BI** con trend e approfondimenti temporali

## Output
- `data/mart/mart_comuni_delta_2020_2023_dashboard_IT.csv`
- `data/mart/serie_comuni_rd_ru_2019_2023_powerbi_IT.csv`

Output Drive: https://drive.google.com/drive/folders/1Y1CCmyshifHTIQ1TT0jpNl-9C_HzLDgP?usp=drive_link

## Autori

- Matteo Cavo ‚Äì Progettazione modello MART, definizione indicatori, classificazione quadranti
- Gabriele Sala ‚Äì Revisione metodologica, validazione e integrazione nel progetto


In [1]:
import os
from pathlib import Path
import pandas as pd
import numpy as np
import unicodedata

# --- GOOGLE COLAB SUPPORT ---
IN_COLAB = False
try:
    from google.colab import drive
    drive.mount('/content/drive')
    IN_COLAB = True
    print("Google Drive montato.")
except Exception:
    print("Esecuzione in ambiente locale (Drive non montato).")

# ======================
# PATHS (DataCivicLab / Lab standard)
# ======================
# Regola Lab: tutto sotto .../DataCivicLab/data/
#
# Colab (Drive-first): /content/drive/MyDrive/DataCivicLab/data
# Locale: imposta DCL_DATA_PATH oppure modifica BASE_PATH_LOCAL

BASE_PATH_DRIVE = Path("/content/drive/MyDrive/DataCivicLab/data")
BASE_PATH_LOCAL = Path("..").resolve() / "data"   # se notebook dentro /notebooks nella repo

# Override opzionale (consigliato): export DCL_DATA_PATH=".../DataCivicLab/data"
BASE_PATH = Path(os.getenv("DCL_DATA_PATH", str(BASE_PATH_DRIVE if IN_COLAB else BASE_PATH_LOCAL)))

# --- Directory standard ---
RAW_DIR   = BASE_PATH / "raw"
CLEAN_DIR = BASE_PATH / "clean"
MART_DIR  = BASE_PATH / "mart"

# --- Progetto specifico (qui: rifiuti) ---
MART_DOMAIN_DIR = MART_DIR / "ispra_catasto_rifiuti"
META_DIR = MART_DOMAIN_DIR / "_meta"

# --- File clean input (standard Lab) ---
CLEAN_FILE_DEFAULT = CLEAN_DIR / "ispra_catasto_rifiuti" / "ispra_catasto_rifiuti_clean.parquet"
CLEAN_FILE = Path(os.getenv("CLEAN_FILE", str(CLEAN_FILE_DEFAULT)))

# --- Output dir (default: mart/rifiuti) ---
OUTPUT_DIR = Path(os.getenv("OUTPUT_DIR", str(MART_DOMAIN_DIR)))

# --- Creazione cartelle ---
OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
META_DIR.mkdir(parents=True, exist_ok=True)

print("BASE_PATH  :", BASE_PATH)
print("CLEAN_FILE :", CLEAN_FILE)
print("OUTPUT_DIR :", OUTPUT_DIR)
print("META_DIR   :", META_DIR)


Mounted at /content/drive
Google Drive montato.
BASE_PATH  : /content/drive/MyDrive/DataCivicLab/data
CLEAN_FILE : /content/drive/MyDrive/DataCivicLab/data/clean/ispra_catasto_rifiuti/ispra_catasto_rifiuti_clean.parquet
OUTPUT_DIR : /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti
META_DIR   : /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/_meta


In [2]:
# ======================
# CARICA DATI PULITI
# ======================
df = pd.read_parquet(CLEAN_FILE)

print("Shape:", df.shape)
print("Colonne:", df.columns.tolist())
df.head()

Shape: (39530, 26)
Colonne: ['codice_comune_istat', 'regione', 'provincia', 'comune', 'popolazione', 'dato_riferito_a', 'frazione_umida1_t', 'verde_t', 'carta_e_cartone_t', 'vetro_t', 'legno_t', 'metallo_t', 'plastica_t', 'raee_t', 'tessili_t', 'selettiva_t', 'rifiuti_da_c_e_d_t', 'pulizia_stradale_a_recupero_t', 'ingombranti_misti_a_recupero_t', 'altro_t', 'raccolta_differenziata_tonnellate', 'ingombranti_a_smaltimento_t', 'indifferenziato_t', 'rifiuti_urbani_tonnellate', 'raccolta_differenziata_perc', 'anno']


Unnamed: 0,codice_comune_istat,regione,provincia,comune,popolazione,dato_riferito_a,frazione_umida1_t,verde_t,carta_e_cartone_t,vetro_t,...,rifiuti_da_c_e_d_t,pulizia_stradale_a_recupero_t,ingombranti_misti_a_recupero_t,altro_t,raccolta_differenziata_tonnellate,ingombranti_a_smaltimento_t,indifferenziato_t,rifiuti_urbani_tonnellate,raccolta_differenziata_perc,anno
0,1001001,Piemonte,Torino,AGLIE',2621.0,Comune,255.275,363.247,92.683,95.948,...,6.643,2.86,34.28,1.995,,,549.186,,64.73,2019
1,1001002,Piemonte,Torino,AIRASCA,3598.0,Comune,174.489,140.355,239.377,100.73,...,10.801,7.76,110.507,,,,734.18,,62.75,2019
2,1001003,Piemonte,Torino,ALA DI STURA,441.0,Comune,3.24,13.45,23.636,26.368,...,0.159,,30.587,0.005,112.624,,172.96,285.584,39.44,2019
3,1001004,Piemonte,Torino,ALBIANO D'IVREA,1644.0,Comune,175.768,23.606,67.644,59.639,...,15.276,2.775,12.448,3.355,503.335,,192.089,695.424,72.38,2019
4,1001006,Piemonte,Torino,ALMESE,6426.0,Comune,465.505,,352.661,268.956,...,64.082,63.484,96.568,5.621,,,704.745,,80.74,2019


In [3]:
# ======================
# NORMALIZZAZIONI MINIME
# ======================

def norm_istat6(x):
    """Normalizza codice ISTAT a 6 cifre (string)."""
    if pd.isna(x):
        return np.nan
    s = str(x).strip().replace(".0", "")
    s = "".join(ch for ch in s if ch.isdigit())
    if len(s) >= 8:
        s = s.zfill(8)[-6:]
    else:
        s = s.zfill(6)
    return s

def clean_comune_name(s):
    """Nome comune leggibile per Power BI (title case + unicode normalize)."""
    if pd.isna(s):
        return s
    s = str(s).strip()
    s = unicodedata.normalize("NFKC", s)
    s = s.replace("'", "‚Äô")
    # se capita roba tipo '??' (encoding rotto), la eliminiamo
    s = s.replace("??", "")
    return s.title()

# ---- mapping colonne (supporta naming diversi) ----
# Cerca una colonna ISTAT
istat_col = None
for c in ["istat_comune_6", "codice_comune_istat", "istat_comune", "IstatComune"]:
    if c in df.columns:
        istat_col = c
        break
if istat_col is None:
    raise KeyError("Non trovo una colonna ISTAT (istat_comune_6 / codice_comune_istat / ...).")

# RU totali (t)
if "totale_ru_t" not in df.columns:
    if "rifiuti_urbani_tonnellate" in df.columns:
        df = df.rename(columns={"rifiuti_urbani_tonnellate": "totale_ru_t"})
    elif "Totale RU (t)" in df.columns:
        df = df.rename(columns={"Totale RU (t)": "totale_ru_t"})

# RD%
if "percentuale_rd" not in df.columns:
    if "raccolta_differenziata_perc" in df.columns:
        df = df.rename(columns={"raccolta_differenziata_perc": "percentuale_rd"})
    elif "Percentuale RD (%)" in df.columns:
        df = df.rename(columns={"Percentuale RD (%)": "percentuale_rd"})

needed = ["anno","comune","provincia","regione","popolazione","totale_ru_t","percentuale_rd"]
missing = [c for c in needed if c not in df.columns]
if missing:
    raise KeyError(f"Colonne mancanti nel CLEAN: {missing}")

df["istat_comune_6"] = df[istat_col].map(norm_istat6)
df["comune"] = df["comune"].map(clean_comune_name)

# RU pro capite (kg/abitante)
df["ru_pro_capite_kg"] = (df["totale_ru_t"] * 1000) / df["popolazione"]

df.head()


Unnamed: 0,codice_comune_istat,regione,provincia,comune,popolazione,dato_riferito_a,frazione_umida1_t,verde_t,carta_e_cartone_t,vetro_t,...,ingombranti_misti_a_recupero_t,altro_t,raccolta_differenziata_tonnellate,ingombranti_a_smaltimento_t,indifferenziato_t,totale_ru_t,percentuale_rd,anno,istat_comune_6,ru_pro_capite_kg
0,1001001,Piemonte,Torino,Aglie‚Äô,2621.0,Comune,255.275,363.247,92.683,95.948,...,34.28,1.995,,,549.186,,64.73,2019,1001,
1,1001002,Piemonte,Torino,Airasca,3598.0,Comune,174.489,140.355,239.377,100.73,...,110.507,,,,734.18,,62.75,2019,1002,
2,1001003,Piemonte,Torino,Ala Di Stura,441.0,Comune,3.24,13.45,23.636,26.368,...,30.587,0.005,112.624,,172.96,285.584,39.44,2019,1003,647.582766
3,1001004,Piemonte,Torino,Albiano D‚ÄôIvrea,1644.0,Comune,175.768,23.606,67.644,59.639,...,12.448,3.355,503.335,,192.089,695.424,72.38,2019,1004,423.007299
4,1001006,Piemonte,Torino,Almese,6426.0,Comune,465.505,,352.661,268.956,...,96.568,5.621,,,704.745,,80.74,2019,1006,


## Approfondimento: serie storica 2019‚Äì2023 (per Power BI)

Questo output **non sostituisce** il MART 2020‚Äì2023: lo affianca.
Serve per visualizzare l‚Äôevoluzione annuale di RD% e rifiuti (totali e pro capite),
per capire se i cambiamenti sono **graduali**, **discontinui** o legati a specifici anni.


In [4]:
# ======================
# SERIE STORICA 2019‚Äì2023 (LONG) ‚Äî Esportazione  POWER BI
# ======================
YEARS_SERIES = [2019, 2020, 2021, 2022, 2023]

series = df[df["anno"].isin(YEARS_SERIES)].copy()

keys = ["istat_comune_6", "regione", "provincia", "comune"]

# consolidiamo eventuali duplicati (1 riga per comune-anno)
series = series.groupby(keys + ["anno"], as_index=False).agg({
    "popolazione": "mean",
    "totale_ru_t": "sum",
    "percentuale_rd": "mean",
    "ru_pro_capite_kg": "mean",
})

# rinomina colonne ‚Äúfriendly‚Äù
series = series.rename(columns={
    "percentuale_rd": "percentuale_rd",
    "totale_ru_t": "totale_ru_t",
    "ru_pro_capite_kg": "ru_pro_capite_kg",
})

# Rimuove NaN e infiniti (se ci sono) ‚Äî> Power BI non li gestisce bene
series["rd_disponibile"] = series["percentuale_rd"].notna()
series["ru_disponibile"] = series["totale_ru_t"].notna()
series["percentuale_rd"] = series["percentuale_rd"].fillna(0)
series["totale_ru_t"] = series["totale_ru_t"].fillna(0)
series["ru_pro_capite_kg"] = series["ru_pro_capite_kg"].fillna(0)

# QA rapido serie
print("Serie storica righe:", series.shape[0])
print("Anni presenti:", sorted(series["anno"].unique().tolist()))
print("Duplicati (istat, anno):", int(series.duplicated(subset=["istat_comune_6","anno"]).sum()))
print("NaN% RD:", round(series["percentuale_rd"].isna().mean()*100, 2))
print("NaN% RU:", round(series["totale_ru_t"].isna().mean()*100, 2))

# ======================
# EXPORT SERIE STORICA 2019‚Äì2023 (Drive CSV & Parquet)
# ======================

OUT_SERIE_CSV = os.path.join(
    MART_DOMAIN_DIR,
    "serie_comuni_rd_ru_2019_2023.csv"
)

OUT_SERIE_PARQUET = os.path.join(
    MART_DOMAIN_DIR,
    "serie_comuni_rd_ru_2019_2023.parquet"
)

# sicurezza extra Power BI
series = series.replace([np.inf, -np.inf], np.nan).fillna(0)

# --- CSV (Power BI friendly) ---
series.to_csv(
    OUT_SERIE_CSV,
    index=False,
    sep=";",
    decimal=",",
    encoding="utf-8"
)

# --- Parquet (riuso tecnico) ---
series.to_parquet(
    OUT_SERIE_PARQUET,
    index=False
)

# ======================
# META SERIE STORICA 2019‚Äì2023
# ======================

import json
from datetime import datetime

meta_series = {
    "dataset": "serie_comuni_rd_ru_2019_2023",
    "years_series": YEARS_SERIES,
    "generated_at": datetime.now().isoformat(),
    "input_file": str(CLEAN_FILE), # Converted PosixPath to string
    "output_csv": OUT_SERIE_CSV,
    "output_parquet": OUT_SERIE_PARQUET,
    "rows": int(series.shape[0]),
    "columns": list(series.columns)
}

META_SERIE_FILE = os.path.join(
    META_DIR,
    "serie_comuni_rd_ru_2019_2023.meta.json"
)

with open(META_SERIE_FILE, "w") as f:
    json.dump(meta_series, f, indent=4)

print("‚úÖ Saved SERIE CSV:", OUT_SERIE_CSV)
print("‚úÖ Saved SERIE Parquet - 4 files:", OUT_SERIE_PARQUET)
print("üìù Saved META SERIE:", META_SERIE_FILE)

series.head()

Serie storica righe: 39525
Anni presenti: [2019, 2020, 2021, 2022, 2023]
Duplicati (istat, anno): 0
NaN% RD: 0.0
NaN% RU: 0.0
‚úÖ Saved SERIE CSV: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/serie_comuni_rd_ru_2019_2023.csv
‚úÖ Saved SERIE Parquet - 4 files: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/serie_comuni_rd_ru_2019_2023.parquet
üìù Saved META SERIE: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/_meta/serie_comuni_rd_ru_2019_2023.meta.json


Unnamed: 0,istat_comune_6,regione,provincia,comune,anno,popolazione,totale_ru_t,percentuale_rd,ru_pro_capite_kg,rd_disponibile,ru_disponibile
0,1001,Piemonte,Torino,Aglie‚Äô,2019,2621.0,0.0,64.73,0.0,True,True
1,1001,Piemonte,Torino,Aglie‚Äô,2020,2548.0,0.0,66.64,0.0,True,True
2,1001,Piemonte,Torino,Aglie‚Äô,2021,2549.0,0.0,62.21,0.0,True,True
3,1001,Piemonte,Torino,Aglie‚Äô,2022,2558.0,0.0,65.68,0.0,True,True
4,1001,Piemonte,Torino,Aglie‚Äô,2023,2603.0,0.0,62.61,0.0,True,True


In [5]:
# ======================
# FILTRO ANNI E AGGREGAZIONE (1 riga per comune-anno)
# ======================
Y0 = 2020
Y1 = 2023
d = df[df["anno"].isin([Y0, Y1])].copy()

keys = ["istat_comune_6","regione","provincia","comune"]

# In caso di duplicati (pu√≤ capitare per frazioni / righe non-comune), consolidiamo
d = d.groupby(keys + ["anno"], as_index=False).agg({
    "popolazione": "mean",
    "totale_ru_t": "sum",
    "percentuale_rd": "mean",
    "ru_pro_capite_kg": "mean",
})

print("Shape after groupby:", d.shape)
d.head()


Shape after groupby: (15804, 9)


Unnamed: 0,istat_comune_6,regione,provincia,comune,anno,popolazione,totale_ru_t,percentuale_rd,ru_pro_capite_kg
0,1001,Piemonte,Torino,Aglie‚Äô,2020,2548.0,0.0,66.64,
1,1001,Piemonte,Torino,Aglie‚Äô,2023,2603.0,0.0,62.61,
2,1002,Piemonte,Torino,Airasca,2020,3569.0,0.0,61.69,
3,1002,Piemonte,Torino,Airasca,2023,3686.0,0.0,72.24,
4,1003,Piemonte,Torino,Ala Di Stura,2020,448.0,369.621,38.5,825.046875


In [6]:
# ======================
# WIDE 2020 vs 2023 + DELTA
# ======================
w = d.pivot_table(
    index=keys,
    columns="anno",
    values=["percentuale_rd","totale_ru_t","ru_pro_capite_kg","popolazione"],
    aggfunc="first"
).reset_index()

# flatten columns
w.columns = [
    f"{a}_{b}" if isinstance(b, (int, np.integer)) else a
    for a, b in w.columns
]

# rename convenience
w = w.rename(columns={
    f"percentuale_rd_{Y0}": f"percentuale_rd_{Y0}",
    f"percentuale_rd_{Y1}": f"percentuale_rd_{Y1}",
    f"totale_ru_t_{Y0}": f"totale_ru_t_{Y0}",
    f"totale_ru_t_{Y1}": f"totale_ru_t_{Y1}",
    f"ru_pro_capite_kg_{Y0}": f"ru_pro_capite_kg_{Y0}",
    f"ru_pro_capite_kg_{Y1}": f"ru_pro_capite_kg_{Y1}",
    f"popolazione_{Y0}": f"popolazione_{Y0}",
    f"popolazione_{Y1}": f"popolazione_{Y1}",
})

# deltas
w["delta_rd_pp"] = w[f"percentuale_rd_{Y1}"] - w[f"percentuale_rd_{Y0}"]
w["delta_ru_totali_t"] = w[f"totale_ru_t_{Y1}"] - w[f"totale_ru_t_{Y0}"]
w["delta_ru_pro_capite"] = w[f"ru_pro_capite_kg_{Y1}"] - w[f"ru_pro_capite_kg_{Y0}"]

w.head()


Unnamed: 0,istat_comune_6,regione,provincia,comune,percentuale_rd_2020,percentuale_rd_2023,popolazione_2020,popolazione_2023,ru_pro_capite_kg_2020,ru_pro_capite_kg_2023,totale_ru_t_2020,totale_ru_t_2023,delta_rd_pp,delta_ru_totali_t,delta_ru_pro_capite
0,1001,Piemonte,Torino,Aglie‚Äô,66.64,62.61,2548.0,2603.0,,,0.0,0.0,-4.03,0.0,
1,1002,Piemonte,Torino,Airasca,61.69,72.24,3569.0,3686.0,,,0.0,0.0,10.55,0.0,
2,1003,Piemonte,Torino,Ala Di Stura,38.5,44.92,448.0,473.0,825.046875,732.786469,369.621,346.608,6.42,-23.013,-92.260406
3,1004,Piemonte,Torino,Albiano D‚ÄôIvrea,70.82,80.69,1650.0,1619.0,411.358788,437.741198,678.742,708.703,9.87,29.961,26.38241
4,1006,Piemonte,Torino,Almese,79.49,77.32,6448.0,6323.0,,,0.0,0.0,-2.17,0.0,


In [7]:
# ======================
# CLASSIFICAZIONE (quadranti) + FLAG DOMANDA CIVICA
# ======================

def quadrante(delta_rd_pp, delta_ru_tot):
    if pd.isna(delta_rd_pp) or pd.isna(delta_ru_tot):
        return "Dati mancanti"
    if delta_rd_pp > 0 and delta_ru_tot <= 0:
        return "Virtuosi (RD‚Üë, RU‚Üì)"
    if delta_rd_pp > 0 and delta_ru_tot > 0:
        return "Migliora RD ma aumenta RU (RD‚Üë, RU‚Üë)"
    if delta_rd_pp <= 0 and delta_ru_tot <= 0:
        return "Riduce RU ma non RD (RD‚Üì, RU‚Üì)"
    return "Peggiora entrambi (RD‚Üì, RU‚Üë)"

w["quadrante"] = w.apply(lambda r: quadrante(r["delta_rd_pp"], r["delta_ru_totali_t"]), axis=1)

# Flag che risponde direttamente alla domanda civica:
w["rd_su_rifiuti_su"] = (w["delta_rd_pp"] > 0) & (w["delta_ru_totali_t"] > 0)

# (Opzionale) Virtuoso strutturale: RD‚Üë e RU pro capite ‚Üì
w["virtuoso_strutturale"] = (w["delta_rd_pp"] > 0) & (w["delta_ru_pro_capite"] < 0)

w[["comune","delta_rd_pp","delta_ru_totali_t","rd_su_rifiuti_su","quadrante"]].head(10)


Unnamed: 0,comune,delta_rd_pp,delta_ru_totali_t,rd_su_rifiuti_su,quadrante
0,Aglie‚Äô,-4.03,0.0,False,"Riduce RU ma non RD (RD‚Üì, RU‚Üì)"
1,Airasca,10.55,0.0,False,"Virtuosi (RD‚Üë, RU‚Üì)"
2,Ala Di Stura,6.42,-23.013,False,"Virtuosi (RD‚Üë, RU‚Üì)"
3,Albiano D‚ÄôIvrea,9.87,29.961,True,"Migliora RD ma aumenta RU (RD‚Üë, RU‚Üë)"
4,Almese,-2.17,0.0,False,"Riduce RU ma non RD (RD‚Üì, RU‚Üì)"
5,Alpette,-1.38,1.821,False,"Peggiora entrambi (RD‚Üì, RU‚Üë)"
6,Alpignano,2.15,0.0,False,"Virtuosi (RD‚Üë, RU‚Üì)"
7,Andezeno,4.69,-32.255,False,"Virtuosi (RD‚Üë, RU‚Üì)"
8,Andrate,5.4,3.301,True,"Migliora RD ma aumenta RU (RD‚Üë, RU‚Üë)"
9,Angrogna,-0.58,0.045,False,"Peggiora entrambi (RD‚Üì, RU‚Üë)"


In [8]:
# ======================
# DEDUPLICAZIONE (1 riga per istat_comune_6)
# ======================
# In alcuni casi ISPRA pu√≤ avere pi√π righe con lo stesso codice ISTAT.
# Per il MART Power BI vogliamo 1 riga = 1 comune.
# Regola: teniamo la riga con popolazione 2023 pi√π alta (pi√π "affidabile" nei merge).

before = len(w)

pop_col = f"popolazione_{Y1}"
if pop_col not in w.columns:
    # fallback: se manca (non dovrebbe), deduplica senza criterio
    w_dedup = w.drop_duplicates(subset=["istat_comune_6"], keep="first").copy()
else:
    w_dedup = (
        w.sort_values(by=["istat_comune_6", pop_col], ascending=[True, False])
         .drop_duplicates(subset=["istat_comune_6"], keep="first")
         .reset_index(drop=True)
    )

after = len(w_dedup)
print("Righe prima:", before)
print("Righe dopo :", after)
print("Duplicati rimossi:", before - after)

# Da qui in avanti usiamo SEMPRE w_final
w_final = w_dedup


Righe prima: 7926
Righe dopo : 7908
Duplicati rimossi: 18


In [9]:
# ======================
# QA MINIMO
# ======================
print("Comuni (righe):", len(w_final))
print("Quota RD‚Üë & RU‚Üë (totali):", round(w_final["rd_su_rifiuti_su"].mean()*100, 3), "%")
print("N RD‚Üë & RU‚Üë:", int(w_final["rd_su_rifiuti_su"].sum()))
print("N virtuosi strutturali (RD‚Üë & RU_pc‚Üì):", int(w_final["virtuoso_strutturale"].sum()))

# Duplicati chiave
dup = w_final.duplicated(subset=["istat_comune_6"]).sum()
print("Duplicati per istat_comune_6:", int(dup))

# Range RD
print("RD% min/max 2020:", float(w_final[f"percentuale_rd_{Y0}"].min()), float(w_final[f"percentuale_rd_{Y0}"].max()))
print("RD% min/max 2023:", float(w_final[f"percentuale_rd_{Y1}"].min()), float(w_final[f"percentuale_rd_{Y1}"].max()))


Comuni (righe): 7908
Quota RD‚Üë & RU‚Üë (totali): 14.036 %
N RD‚Üë & RU‚Üë: 1110
N virtuosi strutturali (RD‚Üë & RU_pc‚Üì): 917
Duplicati per istat_comune_6: 0
RD% min/max 2020: 0.18 100.0
RD% min/max 2023: 0.06 99.92


In [10]:
# ======================
# EXPORT MART DELTA 2020‚Äì2023 (Drive)
# ======================

out_cols = [
    "istat_comune_6","regione","provincia","comune",
    f"percentuale_rd_{Y0}", f"percentuale_rd_{Y1}", "delta_rd_pp",
    f"totale_ru_t_{Y0}", f"totale_ru_t_{Y1}", "delta_ru_totali_t",
    f"ru_pro_capite_kg_{Y0}", f"ru_pro_capite_kg_{Y1}", "delta_ru_pro_capite",
    "rd_su_rifiuti_su","virtuoso_strutturale","quadrante"
]

mart = w_final[out_cols].copy()

# Sicurezza Power BI
mart = mart.replace([np.inf, -np.inf], np.nan).fillna(0)

OUT_DASHBOARD_CSV = os.path.join(
    MART_DOMAIN_DIR,
    "mart_comuni_delta_2020_2023_dashboard.csv"
)

OUT_DASHBOARD_PARQUET = os.path.join(
    MART_DOMAIN_DIR,
    "mart_comuni_delta_2020_2023_dashboard.parquet"
)

# --- CSV (Power BI ITA-friendly) ---
mart.to_csv(
    OUT_DASHBOARD_CSV,
    index=False,
    sep=";",
    decimal=",",
    encoding="utf-8"
)

# --- Parquet (riuso tecnico / BigQuery / analytics) ---
mart.to_parquet(
    OUT_DASHBOARD_PARQUET,
    index=False
)

# ======================
# META MART DELTA 2020‚Äì2023
# ======================

META_DIR = os.path.join(MART_DOMAIN_DIR, "_meta")
os.makedirs(META_DIR, exist_ok=True)

meta_mart = {
    "dataset": "mart_comuni_delta_2020_2023_dashboard",
    "years_delta": [Y0, Y1],
    "generated_at": datetime.now().isoformat(),
    "input_file": str(CLEAN_FILE), # Convert PosixPath to string
    "output_csv": OUT_DASHBOARD_CSV,
    "output_parquet": OUT_DASHBOARD_PARQUET,
    "rows": int(mart.shape[0]),
    "columns": list(mart.columns)
}

META_MART_FILE = os.path.join(
    META_DIR,
    "mart_comuni_delta_2020_2023_dashboard.meta.json"
)

with open(META_MART_FILE, "w") as f:
    json.dump(meta_mart, f, indent=4)


print("‚úÖ Saved MART CSV:", OUT_DASHBOARD_CSV)
print("‚úÖ Saved MART Parquet - 4 files:", OUT_DASHBOARD_PARQUET)
print("üìù Saved META MART:", META_MART_FILE)

mart.head()


‚úÖ Saved MART CSV: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/mart_comuni_delta_2020_2023_dashboard.csv
‚úÖ Saved MART Parquet - 4 files: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/mart_comuni_delta_2020_2023_dashboard.parquet
üìù Saved META MART: /content/drive/MyDrive/DataCivicLab/data/mart/ispra_catasto_rifiuti/_meta/mart_comuni_delta_2020_2023_dashboard.meta.json


Unnamed: 0,istat_comune_6,regione,provincia,comune,percentuale_rd_2020,percentuale_rd_2023,delta_rd_pp,totale_ru_t_2020,totale_ru_t_2023,delta_ru_totali_t,ru_pro_capite_kg_2020,ru_pro_capite_kg_2023,delta_ru_pro_capite,rd_su_rifiuti_su,virtuoso_strutturale,quadrante
0,1001,Piemonte,Torino,Aglie‚Äô,66.64,62.61,-4.03,0.0,0.0,0.0,0.0,0.0,0.0,False,False,"Riduce RU ma non RD (RD‚Üì, RU‚Üì)"
1,1002,Piemonte,Torino,Airasca,61.69,72.24,10.55,0.0,0.0,0.0,0.0,0.0,0.0,False,False,"Virtuosi (RD‚Üë, RU‚Üì)"
2,1003,Piemonte,Torino,Ala Di Stura,38.5,44.92,6.42,369.621,346.608,-23.013,825.046875,732.786469,-92.260406,False,True,"Virtuosi (RD‚Üë, RU‚Üì)"
3,1004,Piemonte,Torino,Albiano D‚ÄôIvrea,70.82,80.69,9.87,678.742,708.703,29.961,411.358788,437.741198,26.38241,True,False,"Migliora RD ma aumenta RU (RD‚Üë, RU‚Üë)"
4,1006,Piemonte,Torino,Almese,79.49,77.32,-2.17,0.0,0.0,0.0,0.0,0.0,0.0,False,False,"Riduce RU ma non RD (RD‚Üì, RU‚Üì)"


## Risposta alla domanda civica

**Ci sono comuni che migliorano la raccolta differenziata (%) ma aumentano i rifiuti totali?**

S√¨.  

L‚Äôanalisi dei dati ISPRA a livello comunale mostra che il miglioramento della raccolta
differenziata **non implica automaticamente** una riduzione dei rifiuti prodotti.

---

### Risultati principali (2020‚Äì2023)

- **Comuni analizzati:** 7.926  
- **Comuni con RD in aumento e rifiuti totali in aumento:** **1.110**
- **Quota sul totale:** **14,0%** (circa **1 comune su 7**)

Questi comuni mostrano un miglioramento della percentuale di raccolta differenziata,
ma **continuano a produrre pi√π rifiuti complessivi**.  
Si tratta quindi di un miglioramento **solo parziale**, che non incide sulla quantit√†
totale di rifiuti generati.

### Note metodologiche

- Il confronto 2020‚Äì2023 √® scelto per una classificazione ‚Äúinizio‚Äìfine‚Äù chiara e adatta a dashboard.
- La serie 2019‚Äì2023 aggiunge contesto e consente analisi pi√π approfondite senza introdurre rumore nel messaggio civico.

---

### Approfondimento temporale (2019‚Äì2023)
Oltre al MART 2020‚Äì2023, viene prodotto un dataset in formato ‚Äúlong‚Äù (comune‚Äìanno)
per analisi di trend e confronti temporali in Power BI. La serie storica non presenta
duplicati sulla chiave (istat, anno) e ha copertura completa dei rifiuti totali; la RD%
presenta una quota limitata di valori mancanti (~2%).

---

### I ‚Äúvirtuosi strutturali‚Äù

- **Comuni con RD in aumento e rifiuti pro capite in diminuzione:** **917**

Questi comuni rappresentano il gruppo realmente virtuoso:
riescono a differenziare di pi√π **e** a ridurre i rifiuti prodotti per abitante.

Il confronto tra i due gruppi evidenzia che:
- i comuni ‚Äúvirtuosi strutturali‚Äù sono **meno** di quelli che migliorano solo la RD
- l‚Äôaumento della RD, da solo, **non √® sufficiente** a ridurre i rifiuti

---

### Lettura civica dei risultati

L‚Äôanalisi suggerisce che:
- le politiche basate esclusivamente sull‚Äôaumento della raccolta differenziata
  rischiano di **non incidere sulla produzione di rifiuti**
- la prevenzione, la riduzione dei consumi e il riuso restano elementi centrali
- la raccolta differenziata √® uno strumento necessario, ma **non risolutivo**

---

### Come usare gli output in Power BI

**Pagina 1 ‚Äî Risposta civica (snapshot 2020‚Äì2023)**  
- Scatter: `delta_rd_pp` (X) vs `delta_ru_totali_t` (Y)  
- Evidenzia i comuni con flag `rd_su_rifiuti_su = TRUE` (*RD‚Üë & RU‚Üë*)  
- KPI: quota e numero di comuni *RD‚Üë & RU‚Üë* + numero di ‚Äúvirtuosi strutturali‚Äù (RD‚Üë & RU pro capite‚Üì)

**Pagina 2 ‚Äî Approfondimento (serie 2019‚Äì2023)**  
- Line chart / trend: `percentuale_rd` e `ru_pro_capite_kg` per anno  
- Filtri: regione, provincia, comune  
- Obiettivo: capire se i cambiamenti sono progressivi o concentrati in specifici anni