# Silver layer
# Passaggio 0: Verifica e caricamento dei dati
Questo primo blocco carica i dati e stampa a schermo la data più vecchia e quella più recente che trova

In [1]:
import pandas as pd
from deltalake import DeltaTable, write_deltalake
import os
from dotenv import load_dotenv


load_dotenv()

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print("Inizio Fase 1: Caricamento e Preparazione...")


storage_options = {
    "AWS_ACCESS_KEY_ID": os.getenv("AWS_ACCESS_KEY_ID"),
    "AWS_SECRET_ACCESS_KEY": os.getenv("AWS_SECRET_ACCESS_KEY"),
    "AWS_ENDPOINT_URL": os.getenv("AWS_ENDPOINT_URL"),
    "AWS_ALLOW_HTTP": "true"
}

IS_REMOTE = os.getenv("IS_REMOTE", 'false').lower() == 'true'

TABLE_MISURE = "qualita_aria_bronze"
TABLE_STAZIONI = "anagrafica_stazioni_bronze"
TABLE_PARAMETRI = "anagrafica_parametri_bronze"

# Definisci i percorsi base
REMOTE_BASE_PATH = "s3a://external/"
LOCAL_BASE_PATH = "../delta_tables/" # Assumiamo una cartella 'data' nella stessa directory dello script

# Inizializza i dataframe a None
df_misure_raw = None
df_stazioni_anagrafica = None
df_parametri_anagrafica = None


try:
    if IS_REMOTE:
        print(f"Modalità Remota: Caricamento dati da S3 ({REMOTE_BASE_PATH})...")
        df_misure_raw = DeltaTable(f"{REMOTE_BASE_PATH}{TABLE_MISURE}", storage_options=storage_options).to_pandas()
        df_stazioni_anagrafica = DeltaTable(f"{REMOTE_BASE_PATH}{TABLE_STAZIONI}", storage_options=storage_options).to_pandas()
        df_parametri_anagrafica = DeltaTable(f"{REMOTE_BASE_PATH}{TABLE_PARAMETRI}", storage_options=storage_options).to_pandas()
    else:
        print(f"Modalità Locale: Caricamento dati da cartella locale ({LOCAL_BASE_PATH})...")
        df_misure_raw = DeltaTable(f"{LOCAL_BASE_PATH}{TABLE_MISURE}").to_pandas()
        df_stazioni_anagrafica = DeltaTable(f"{LOCAL_BASE_PATH}{TABLE_STAZIONI}").to_pandas()
        df_parametri_anagrafica = DeltaTable(f"{LOCAL_BASE_PATH}{TABLE_PARAMETRI}").to_pandas()
        
    print("Tabelle Bronze caricate con successo.")

except Exception as e:
    print(f"ERRORE CRITICO: Impossibile caricare le tabelle. Dettagli: {e}")
    sys.exit(1) # Esce dallo script se il caricamento fallisce
    
df_misure_raw.rename(columns={'COD_STAZ': 'id_stazione', 'ID_PARAM': 'id_parametro'}, inplace=True)
df_parametri_anagrafica.rename(columns={'IdParametro': 'id_parametro'}, inplace=True)
df_stazioni_anagrafica.rename(columns={'Cod_staz': 'id_stazione'}, inplace=True)
df_lavoro = pd.merge(df_misure_raw, df_parametri_anagrafica[['id_parametro', 'PARAMETRO']], on='id_parametro', how='left')
df_lavoro['DATA_INIZIO'] = pd.to_datetime(df_lavoro['DATA_INIZIO'])
df_lavoro['VALORE'] = pd.to_numeric(df_lavoro['VALORE'], errors='coerce')
df_lavoro.dropna(subset=['VALORE', 'PARAMETRO'], inplace=True)
df_stazioni_anagrafica['id_stazione'] = pd.to_numeric(df_stazioni_anagrafica['id_stazione'], errors='coerce')


print("df_misure_raw------------------------------------------------------")
df_misure_raw.info()
print("df_parametri_anagrafica------------------------------------------------------")
df_parametri_anagrafica.info()
print("df_stazioni_anagrafica------------------------------------------------------")
df_stazioni_anagrafica.info()
print("df_lavoro------------------------------------------------------")
df_lavoro.info()
print("DataFrame di lavoro pronto.")

Inizio Fase 1: Caricamento e Preparazione...
Modalità Locale: Caricamento dati da cartella locale (../delta_tables/)...
Tabelle Bronze caricate con successo.
df_misure_raw------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20695998 entries, 0 to 20695997
Data columns (total 6 columns):
 #   Column        Dtype         
---  ------        -----         
 0   id_stazione   int64         
 1   id_parametro  int64         
 2   DATA_INIZIO   datetime64[us]
 3   DATA_FINE     datetime64[us]
 4   VALORE        float64       
 5   VALIDAZIONE   object        
dtypes: datetime64[us](2), float64(1), int64(2), object(1)
memory usage: 947.4+ MB
df_parametri_anagrafica------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id_parametro  21 non-null     int64 

# Passaggio 1: Preparazione del DataFrame di Lavoro
Ora che abbiamo verificato i dati, li prepariamo per la trasformazione. Questo include la pulizia dei nomi, l'unione delle informazioni e la conversione dei tipi di dato.


In [2]:
print("Inizio Fase 1: Preparazione DataFrame di Lavoro...")

# Standardizziamo i nomi delle colonne chiave per unire i dati in modo affidabile
df_misure_raw.rename(columns={'COD_STAZ': 'id_stazione', 'ID_PARAM': 'id_parametro'}, inplace=True)
df_parametri_anagrafica.rename(columns={'IdParametro': 'id_parametro'}, inplace=True)
df_stazioni_anagrafica.rename(columns={'Cod_staz': 'id_stazione'}, inplace=True)

# Uniamo le misurazioni con il nome del parametro per avere un contesto
df_lavoro = pd.merge(df_misure_raw, df_parametri_anagrafica[['id_parametro', 'PARAMETRO']], on='id_parametro', how='left')

# Convertiamo il valore in numerico, gestendo eventuali errori
df_lavoro['VALORE'] = pd.to_numeric(df_lavoro['VALORE'], errors='coerce')
# Rimuoviamo righe dove il valore non è valido o il nome del parametro è mancante
rows_before = len(df_lavoro)
df_lavoro.dropna(subset=['VALORE', 'PARAMETRO'], inplace=True)
rows_after = len(df_lavoro)
print(f"Rimossi {rows_before - rows_after} record con date o valori non validi.")
df_lavoro.info()

print("DataFrame di lavoro pronto per la Feature Engineering.")

Inizio Fase 1: Preparazione DataFrame di Lavoro...
Rimossi 0 record con date o valori non validi.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20695998 entries, 0 to 20695997
Data columns (total 7 columns):
 #   Column        Dtype         
---  ------        -----         
 0   id_stazione   int64         
 1   id_parametro  int64         
 2   DATA_INIZIO   datetime64[us]
 3   DATA_FINE     datetime64[us]
 4   VALORE        float64       
 5   VALIDAZIONE   object        
 6   PARAMETRO     object        
dtypes: datetime64[us](2), float64(1), int64(2), object(2)
memory usage: 1.1+ GB
DataFrame di lavoro pronto per la Feature Engineering.


# Passaggio 2: Feature Engineering (Costruzione del Profilo Stazione)
Questa è la fase centrale, dove creiamo le 6 feature che descrivono ogni stazione. Ogni blocco di codice calcola una o più feature specifiche.
è stato dei


### Feature 1 & 2: Media e Variabilità Generale

**Obiettivo:** Calcolare le due statistiche più fondamentali per ogni inquinante misurato da una stazione.
- **Media (`mean`):** Rappresenta il "livello di base" di inquinamento. Ci dice se una stazione si trova, in media, in una zona più o meno inquinata.
- **Deviazione Standard (`std`):** Rappresenta la "variabilità" o "nervosismo" della stazione. Ci dice se i livelli di inquinamento sono stabili o se tendono ad avere forti picchi e crolli.

**Risultato:** Il DataFrame `df_stats` conterrà una riga per ogni stazione e una colonna per la media e la deviazione standard di *ciascun* inquinante (es. `mean_PM10`, `std_PM10`, `mean_NO2_Biossido_di_azoto`, ecc.).

In [3]:
print("1, 2. Calcolo di Media e Deviazione Standard...")
df_stats = df_lavoro.pivot_table(index='id_stazione', columns='PARAMETRO', values='VALORE', aggfunc=['mean', 'std'])
df_stats.columns = [f'{stat}_{param.replace(" ", "_").replace("(", "").replace(")", "")}' for stat, param in df_stats.columns]
df_stats.info()
#print(df_stats)
print("1, 2. Calcolo di Media e Deviazione Standard completato")
# il risultato: ci saranno una colonna per media e dev std per ogni inquinante registrato e una entry per ogni stazione. Il codice stazione non è più una colonna ma l'indice di accesso ad una riga


1, 2. Calcolo di Media e Deviazione Standard...
<class 'pandas.core.frame.DataFrame'>
Index: 54 entries, 2000003 to 10000074
Data columns (total 22 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   mean_C6H4CH32_o-xylene         3 non-null      float64
 1   mean_C6H5-CH3_Toluene          5 non-null      float64
 2   mean_C6H6_Benzene              12 non-null     float64
 3   mean_CO_Monossido_di_carbonio  14 non-null     float64
 4   mean_NO_Monossido_di_azoto     38 non-null     float64
 5   mean_NO2_Biossido_di_azoto     53 non-null     float64
 6   mean_NOX_Ossidi_di_azoto       38 non-null     float64
 7   mean_O3_Ozono                  35 non-null     float64
 8   mean_PM10                      51 non-null     float64
 9   mean_PM2.5                     31 non-null     float64
 10  mean_SO2_Biossido_di_zolfo     1 non-null      float64
 11  std_C6H4CH32_o-xylene          3 non-null      float64
 1

### Feature 3: Ciclo Settimanale (Impronta Umana)

**Obiettivo:** Quantificare l'impatto delle attività umane (come traffico e lavoro) su ogni inquinante. Lo facciamo calcolando il rapporto tra la concentrazione media nei giorni feriali (Lunedì-Venerdì) e quella nei giorni festivi (Sabato-Domenica).

- Un valore **> 1** suggerisce una forte influenza delle attività settimanali (tipico delle stazioni "da traffico").
- Un valore **~ 1** suggerisce un'influenza scarsa o nulla (tipico delle stazioni "di fondo" o rurali).

**Risultato:** Il DataFrame `df_rapporto_settimanale` conterrà una riga per ogni stazione e una colonna per questo rapporto, calcolato per ogni inquinante (es. `rapporto_feriale_festivo_NO2_Biossido_di_azoto`).

In [4]:
print("3. Calcolo del Ciclo Settimanale per tutti gli inquinanti...")
df_lavoro['feriale'] = df_lavoro['DATA_INIZIO'].dt.dayofweek < 5
df_medie_periodo = df_lavoro.pivot_table(index='id_stazione', columns=['PARAMETRO', 'feriale'], values='VALORE', aggfunc='mean')
df_rapporto_settimanale = pd.DataFrame(index=df_medie_periodo.index)
for param in df_lavoro['PARAMETRO'].unique():
    if (param, True) in df_medie_periodo.columns and (param, False) in df_medie_periodo.columns:
        nome_colonna = f'rapporto_feriale_festivo_{param.replace(" ", "_").replace("(", "").replace(")", "")}'
        df_rapporto_settimanale[nome_colonna] = df_medie_periodo[(param, True)] / df_medie_periodo[(param, False)]

df_medie_periodo.info()
print("------------------------------------------------------")
df_rapporto_settimanale.info()


print("3. Calcolo del Ciclo Settimanale per NO2 completato")


3. Calcolo del Ciclo Settimanale per tutti gli inquinanti...
<class 'pandas.core.frame.DataFrame'>
Index: 54 entries, 2000003 to 10000074
Data columns (total 22 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   (C6H4(CH3)2 (o-xylene), False)       3 non-null      float64
 1   (C6H4(CH3)2 (o-xylene), True)        3 non-null      float64
 2   (C6H5-CH3 (Toluene), False)          5 non-null      float64
 3   (C6H5-CH3 (Toluene), True)           5 non-null      float64
 4   (C6H6 (Benzene), False)              12 non-null     float64
 5   (C6H6 (Benzene), True)               12 non-null     float64
 6   (CO (Monossido di carbonio), False)  14 non-null     float64
 7   (CO (Monossido di carbonio), True)   14 non-null     float64
 8   (NO (Monossido di azoto), False)     38 non-null     float64
 9   (NO (Monossido di azoto), True)      38 non-null     float64
 10  (NO2 (Biossido di azoto), False)

### Feature 4: Ciclo Stagionale (Impronta Climatica)

**Obiettivo:** Capire come il profilo di ogni inquinante cambia con le stagioni. Calcoliamo la concentrazione media per ciascuna delle quattro stagioni (inverno, primavera, estate, autunno). Questo ci permette di identificare pattern legati al clima, come l'accumulo di PM10 in inverno a causa delle condizioni meteorologiche o i picchi di Ozono in estate.

**Risultato:** Il DataFrame `df_medie_stagionali` conterrà una riga per ogni stazione e quattro colonne per ogni inquinante, una per la media di ogni stagione (es. `media_inverno_PM10`, `media_primavera_PM10`, ecc.).

In [5]:
print("4. Calcolo del Ciclo Stagionale a 4 stagioni per tutti gli inquinanti...")

# 1. Definiamo i mesi per ogni stagione come da te specificato
stagioni_mapping = {
    1: 'inverno', 2: 'inverno', 3: 'primavera',
    4: 'primavera', 5: 'primavera', 6: 'estate',
    7: 'estate', 8: 'estate', 9: 'autunno',
    10: 'autunno', 11: 'autunno', 12: 'inverno'
}

# 2. Creiamo una colonna 'stagione' nel DataFrame di lavoro
df_lavoro['mese'] = df_lavoro['DATA_INIZIO'].dt.month
df_lavoro['stagione'] = df_lavoro['mese'].map(stagioni_mapping)

# 3. Calcoliamo la media per ogni inquinante in ciascuna delle 4 stagioni.
#    pivot_table è perfetto per questo: creerà una colonna per ogni combinazione
#    di inquinante e stagione (es. PM10-inverno, PM10-primavera, etc.).
df_medie_stagionali = df_lavoro.pivot_table(
    index='id_stazione', 
    columns=['PARAMETRO', 'stagione'], 
    values='VALORE', 
    aggfunc='mean'
)

# 4. Rinominiamo le colonne per renderle pulite e utilizzabili,
#    ad esempio ('PM10', 'inverno') diventa 'media_inverno_PM10'.
df_medie_stagionali.columns = [
    f'mean_{stagione}_{param.replace(" ", "_").replace("(", "").replace(")", "")}' 
    for param, stagione in df_medie_stagionali.columns
]

# Il DataFrame 'df_medie_stagionali' ora contiene le feature che ci servono
# e andrà a sostituire il vecchio 'df_rapporto_stagionale' nell'unione finale.
print("4. Calcolo delle medie per 4 stagioni completato.")

4. Calcolo del Ciclo Stagionale a 4 stagioni per tutti gli inquinanti...
4. Calcolo delle medie per 4 stagioni completato.


### Feature 5: Eventi Estremi (Rischio Sanitario)

**Obiettivo:** Misurare non solo il comportamento medio, ma anche la frequenza degli eventi ad alto inquinamento. Calcoliamo il numero totale di giorni in cui la media giornaliera di PM10 ha superato la soglia di legge di 50 µg/m³. Questa feature è un indicatore diretto del rischio per la salute in quella zona.

**Risultato:** Il DataFrame `df_superamenti` conterrà una riga per ogni stazione e una singola colonna, `giorni_superamento_soglia_PM10`, con il conteggio totale.

In [6]:
print("5. Calcolo dei Superamenti Soglia per PM10...")
param_pm10 = 'PM10' # Assicurati che questo nome sia corretto
soglia_pm10 = 50
df_pm10 = df_lavoro[df_lavoro['PARAMETRO'] == param_pm10]

# --- INIZIO DELLA CORREZIONE ---
# Metodo robusto con .apply() per evitare l'errore di indicizzazione

# 1. Definiamo una funzione che opera su un piccolo DataFrame (i dati di una singola stazione)
def count_daily_exceedances(group):
    # Se il gruppo è vuoto, non ci sono superamenti
    if group.empty:
        return 0
    # Impostiamo la data come indice per poter usare resample
    group = group.set_index('DATA_INIZIO')
    # Calcoliamo la media giornaliera
    daily_mean = group['VALORE'].resample('D').mean()
    # Contiamo quante di queste medie giornaliere superano la soglia
    return (daily_mean > soglia_pm10).sum()

# 2. Applichiamo questa funzione a ogni gruppo di stazioni
#anche se lancia warning non ci interessa perchè non tocco la colonna di raggruppamento
df_superamenti = df_pm10.groupby('id_stazione').apply(count_daily_exceedances, include_groups=False).to_frame(name='giorni_superamento_soglia_PM10')
# --- FINE DELLA CORREZIONE ---

print("5. Calcolo dei Superamenti Soglia per PM10 completato")

5. Calcolo dei Superamenti Soglia per PM10...
5. Calcolo dei Superamenti Soglia per PM10 completato


### Feature 6: Tipo di Area (Contesto Urbanistico)

**Obiettivo:** Classificare ogni stazione in base al contesto urbano in cui si trova. Abbiamo definito una feature categorica che distingue tra stazioni situate in un **Capoluogo di provincia** e quelle in altri comuni (**Provincia**). Questa distinzione ci aiuta a separare i pattern delle grandi aree metropolitane da quelli delle zone meno densamente popolate.

Per rendere questa informazione utilizzabile dal modello di machine learning, è stata trasformata in colonne numeriche (es. `Tipo_Area_Capoluogo` con valore 1 o 0) tramite One-Hot Encoding.

**Risultato:** Il DataFrame `df_area_tipo` contiene, per ogni stazione, queste nuove colonne binarie che ne descrivono il contesto urbanistico.

In [7]:
print("--- Calcolo Feature 6: Tipo di Area ---")

# 1. Definiamo i capoluoghi di provincia dell'Emilia-Romagna, basandoci sulla lista fornita
capoluoghi = [
    'BOLOGNA', 'FERRARA', 'FORLI\'', 'CESENA', 'MODENA', 'PARMA', 
    'PIACENZA', 'RAVENNA', 'REGGIO NELL\'EMILIA', 'RIMINI'
    # Nota: Cesena è capoluogo insieme a Forlì, ma potrebbe apparire come comune a sé
]

# 2. Creiamo una tabella pulita con le informazioni anagrafiche, se non già esistente
if 'df_stazioni_info' not in locals():
    colonne_anagrafiche = ['id_stazione', 'Stazione', 'COMUNE', 'PROVINCIA', 'Altezza','Coord_X', 'Coord_Y', 'LON_GEO', 'LAT_GEO']
    df_stazioni_info = df_stazioni_anagrafica[colonne_anagrafiche].drop_duplicates(subset=['id_stazione'])

# 3. Creiamo la feature categorica 'Tipo_Area'
# Usiamo .str.upper() per rendere il confronto insensibile a maiuscole/minuscole
df_stazioni_info['Tipo_Area'] = df_stazioni_info['COMUNE'].str.upper().apply(
    lambda comune: 'Capoluogo' if comune in capoluoghi else 'Provincia'
)

# 4. Applichiamo One-Hot Encoding
df_area_tipo = pd.get_dummies(
    df_stazioni_info[['id_stazione', 'Tipo_Area']], 
    columns=['Tipo_Area'], 
    prefix='Tipo_Area'
).astype(int)

print("Calcolo 'Tipo di Area' completato.")
print("Anteprima del nuovo DataFrame di feature:")
display(df_area_tipo.head())

--- Calcolo Feature 6: Tipo di Area ---
Calcolo 'Tipo di Area' completato.
Anteprima del nuovo DataFrame di feature:


Unnamed: 0,id_stazione,Tipo_Area_Capoluogo,Tipo_Area_Provincia
0,7000014,1,0
4,7000015,1,0
11,7000041,1,0
14,7000002,0,1
19,7000027,0,1


### Feature 7: Densità di Stazioni Vicine (Contesto della Rete)

**Obiettivo:** Misurare il grado di "isolamento" di una stazione all'interno della rete di monitoraggio. Per ogni stazione, abbiamo calcolato quante altre stazioni si trovano entro un **raggio di 20 km**, utilizzando le loro coordinate geografiche (`LON_GEO`, `LAT_GEO`).

- Un valore **alto** indica che la stazione fa parte di una rete fitta, tipicamente in un'area di grande interesse o criticità (es. un'area urbana).
- Un valore **basso (o zero)** indica una stazione più isolata, probabilmente con funzione di monitoraggio di fondo, rurale o montano.

**Risultato:** Il DataFrame `df_densita` contiene, per ogni stazione, la colonna `stazioni_vicine_20km` con il conteggio delle stazioni limitrofe.

In [8]:
from sklearn.metrics.pairwise import haversine_distances
import numpy as np

print("--- Calcolo Feature 7: Densità di Stazioni Vicine ---")

# 1. Usiamo le coordinate geografiche pulite dal nostro DataFrame anagrafico
df_coords = df_stazioni_info[['id_stazione', 'LAT_GEO', 'LON_GEO']].dropna()

# 2. Convertiamo i gradi in radianti per il calcolo matematico
df_coords['lat_rad'] = np.radians(df_coords['LAT_GEO'])
df_coords['lon_rad'] = np.radians(df_coords['LON_GEO'])

# 3. Calcoliamo la matrice delle distanze (in km) tra ogni coppia di stazioni
dist_matrix_km = haversine_distances(df_coords[['lat_rad', 'lon_rad']]) * 6371  # Raggio medio della Terra in km

# 4. Per ogni stazione (riga della matrice), contiamo quante altre sono nel raggio definito
raggio_km = 20
# La condizione (row > 0) è fondamentale per escludere la distanza di una stazione con se stessa.
stazioni_vicine = [np.sum((row > 0) & (row <= raggio_km)) for row in dist_matrix_km]

# 5. Creiamo il DataFrame finale con i risultati
df_densita = pd.DataFrame({
    'id_stazione': df_coords['id_stazione'],
    f'stazioni_vicine_{raggio_km}km': stazioni_vicine
})

print("Calcolo 'Densità di Stazioni Vicine' completato.")
print("Anteprima del nuovo DataFrame di feature:")
display(df_densita.head())

--- Calcolo Feature 7: Densità di Stazioni Vicine ---
Calcolo 'Densità di Stazioni Vicine' completato.
Anteprima del nuovo DataFrame di feature:


Unnamed: 0,id_stazione,stazioni_vicine_20km
0,7000014,4
4,7000015,4
11,7000041,4
14,7000002,1
19,7000027,2


### Fase Finale: Unione, Pulizia e Salvataggio del Silver Layer

**Obiettivo:** Assemblare tutti i DataFrame di feature calcolati in un'unica, grande tabella `df_silver_profiles`. Questo passaggio finale include:
1.  **Concatenazione** di tutte le feature (statistiche, cicli temporali, correlazioni e geografiche).
2.  **Gestione dei valori nulli (`NaN`)** che possono emergere durante i calcoli.
3.  **Arricchimento** con i metadati anagrafici (nomi delle stazioni, comuni, province).
4.  **Pulizia finale** per rimuovere eventuali stazioni per cui non sono state trovate informazioni anagraf

In [9]:
# ===================================================================
# FASE FINALE: UNIONE COMPLETA, PULIZIA E SALVATAGGIO
# ===================================================================
print("--- Inizio Fase Finale: Unione, Pulizia e Salvataggio ---")

# --- 1. Unione di TUTTE le 8 categorie di feature calcolate ---
print("\n[Passaggio 1] Unione di tutti i DataFrame di feature...")
# Mettiamo tutti i DataFrame (inclusi quelli geografici) nella lista
df_list = [
    df_stats, 
    df_rapporto_settimanale, 
    df_medie_stagionali, 
    df_superamenti, 
    df_area_tipo.set_index('id_stazione'), 
    df_densita.set_index('id_stazione')
]
df_silver_profiles = pd.concat(df_list, axis=1)
print(f"Tabella concatenata creata con {df_silver_profiles.shape} colonne di feature.")

# --- 2. Gestione dei valori NaN (numerici) ---
print("[Passaggio 2] Gestione dei valori nulli nelle feature numeriche...")
# Riempiamo i valori mancanti come prima
df_silver_profiles.fillna(0, inplace=True)
for col in df_silver_profiles.columns:
    if 'rapporto' in col:
        df_silver_profiles[col] = df_silver_profiles[col].replace(0, 1)
    if 'corr' in col:
        if '_vs_' in col and col.split('_vs_') == col.split('_vs_'):
            df_silver_profiles[col] = df_silver_profiles[col].replace(0, 1)
        else:
            df_silver_profiles[col] = df_silver_profiles[col].replace(0, 0)
print("Valori nulli numerici gestiti.")

# --- 3. Arricchimento con i metadati anagrafici ---
print("[Passaggio 3] Unione con i metadati anagrafici...")
# Trasformiamo l'indice 'id_stazione' in una colonna per il merge
df_silver_profiles.reset_index(inplace=True)

# Eseguiamo il merge con le informazioni delle stazioni
df_silver_profiles = pd.merge(df_silver_profiles, df_stazioni_info, on='id_stazione', how='left')
print("Merge con anagrafica completato.")

# --- 4. Pulizia finale: gestione delle stazioni senza anagrafica ---
print("[Passaggio 4] Pulizia delle stazioni con anagrafica mancante e colonne inutili...")
righe_con_nan_anagrafica = df_silver_profiles['COMUNE'].isnull().sum()


if righe_con_nan_anagrafica > 0:
    print(f"Trovate {righe_con_nan_anagrafica} stazioni con metadati mancanti. Verranno rimosse dall'analisi finale.")
    df_silver_profiles.dropna(subset=['COMUNE'], inplace=True)
    print(f"Stazioni rimosse. La tabella finale ora contiene {len(df_silver_profiles)} stazioni.")
    
else:
    print("Nessuna stazione con anagrafica mancante. Ottimo.")

# Considerando che c'è già la colonna di metadato Tipo_Area con la stringa Capoluogo o Provincia, rimuovo le colonne ridondanti
if 'Tipo_Area_Capoluogo' in df_silver_profiles.columns:
    df_silver_profiles.drop(columns=['Tipo_Area_Capoluogo'], inplace=True)
    print("Colonna 'Tipo_Area_Capoluogo' rimossa.")

if 'Tipo_Area_Provincia' in df_silver_profiles.columns:
    df_silver_profiles.drop(columns=['Tipo_Area_Provincia'], inplace=True)
    print("Colonna 'Tipo_Area_Provincia' rimossa.")

display(df_silver_profiles)

--- Inizio Fase Finale: Unione, Pulizia e Salvataggio ---

[Passaggio 1] Unione di tutti i DataFrame di feature...
Tabella concatenata creata con (56, 81) colonne di feature.
[Passaggio 2] Gestione dei valori nulli nelle feature numeriche...
Valori nulli numerici gestiti.
[Passaggio 3] Unione con i metadati anagrafici...
Merge con anagrafica completato.
[Passaggio 4] Pulizia delle stazioni con anagrafica mancante e colonne inutili...
Trovate 2 stazioni con metadati mancanti. Verranno rimosse dall'analisi finale.
Stazioni rimosse. La tabella finale ora contiene 54 stazioni.
Colonna 'Tipo_Area_Capoluogo' rimossa.
Colonna 'Tipo_Area_Provincia' rimossa.


Unnamed: 0,id_stazione,mean_C6H4CH32_o-xylene,mean_C6H5-CH3_Toluene,mean_C6H6_Benzene,mean_CO_Monossido_di_carbonio,mean_NO_Monossido_di_azoto,mean_NO2_Biossido_di_azoto,mean_NOX_Ossidi_di_azoto,mean_O3_Ozono,mean_PM10,mean_PM2.5,mean_SO2_Biossido_di_zolfo,std_C6H4CH32_o-xylene,std_C6H5-CH3_Toluene,std_C6H6_Benzene,std_CO_Monossido_di_carbonio,std_NO_Monossido_di_azoto,std_NO2_Biossido_di_azoto,std_NOX_Ossidi_di_azoto,std_O3_Ozono,std_PM10,std_PM2.5,std_SO2_Biossido_di_zolfo,rapporto_feriale_festivo_PM10,rapporto_feriale_festivo_O3_Ozono,rapporto_feriale_festivo_NO2_Biossido_di_azoto,rapporto_feriale_festivo_PM2.5,rapporto_feriale_festivo_NOX_Ossidi_di_azoto,rapporto_feriale_festivo_C6H6_Benzene,rapporto_feriale_festivo_NO_Monossido_di_azoto,rapporto_feriale_festivo_CO_Monossido_di_carbonio,rapporto_feriale_festivo_C6H5-CH3_Toluene,rapporto_feriale_festivo_C6H4CH32_o-xylene,rapporto_feriale_festivo_SO2_Biossido_di_zolfo,mean_autunno_C6H4CH32_o-xylene,mean_estate_C6H4CH32_o-xylene,mean_inverno_C6H4CH32_o-xylene,mean_primavera_C6H4CH32_o-xylene,mean_autunno_C6H5-CH3_Toluene,mean_estate_C6H5-CH3_Toluene,mean_inverno_C6H5-CH3_Toluene,mean_primavera_C6H5-CH3_Toluene,mean_autunno_C6H6_Benzene,mean_estate_C6H6_Benzene,mean_inverno_C6H6_Benzene,mean_primavera_C6H6_Benzene,mean_autunno_CO_Monossido_di_carbonio,mean_estate_CO_Monossido_di_carbonio,mean_inverno_CO_Monossido_di_carbonio,mean_primavera_CO_Monossido_di_carbonio,mean_autunno_NO_Monossido_di_azoto,mean_estate_NO_Monossido_di_azoto,mean_inverno_NO_Monossido_di_azoto,mean_primavera_NO_Monossido_di_azoto,mean_autunno_NO2_Biossido_di_azoto,mean_estate_NO2_Biossido_di_azoto,mean_inverno_NO2_Biossido_di_azoto,mean_primavera_NO2_Biossido_di_azoto,mean_autunno_NOX_Ossidi_di_azoto,mean_estate_NOX_Ossidi_di_azoto,mean_inverno_NOX_Ossidi_di_azoto,mean_primavera_NOX_Ossidi_di_azoto,mean_autunno_O3_Ozono,mean_estate_O3_Ozono,mean_inverno_O3_Ozono,mean_primavera_O3_Ozono,mean_autunno_PM10,mean_estate_PM10,mean_inverno_PM10,mean_primavera_PM10,mean_autunno_PM2.5,mean_estate_PM2.5,mean_inverno_PM2.5,mean_primavera_PM2.5,mean_autunno_SO2_Biossido_di_zolfo,mean_estate_SO2_Biossido_di_zolfo,mean_inverno_SO2_Biossido_di_zolfo,mean_primavera_SO2_Biossido_di_zolfo,giorni_superamento_soglia_PM10,stazioni_vicine_20km,Stazione,COMUNE,PROVINCIA,Coord_X,Coord_Y,LON_GEO,LAT_GEO,Tipo_Area
0,2000003,0.0,0.0,0.0,0.0,0.0,22.437266,0.0,48.415908,30.988562,18.63197,0.0,0.0,0.0,0.0,0.0,0.0,16.471274,0.0,40.022994,18.155375,15.084762,0.0,1.009829,0.936675,1.198516,0.983267,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,24.273767,11.466511,36.76228,17.767966,0.0,0.0,0.0,0.0,32.777959,86.470027,14.156083,59.012172,32.879245,23.310801,43.00942,24.993759,19.078818,10.470313,31.873328,13.470194,0.0,0.0,0.0,0.0,678.0,6.0,CITTADELLA,PARMA,PR,605202.8081,4960646.0,10.329985,44.79147,Capoluogo
1,2000004,0.0,0.0,1.26683,0.576071,23.22266,34.960309,70.461833,0.0,32.82386,0.0,0.0,0.0,0.0,1.254883,0.355627,38.355806,21.579031,76.03283,0.0,19.575356,0.0,0.0,1.052561,1.0,1.196122,1.0,1.33653,1.161578,1.500937,1.091927,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.374508,0.473637,2.373702,0.872826,0.571167,0.32097,0.901222,0.51749,27.165732,4.786466,50.22959,11.151033,37.705643,22.266062,48.766026,31.262725,79.256257,29.565251,125.562923,48.299242,0.0,0.0,0.0,0.0,35.424265,22.350697,47.737599,25.948718,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,867.0,6.0,MONTEBELLO,PARMA,PR,605647.7945,4960011.0,10.335478,44.785689,Capoluogo
2,2000214,0.0,0.0,0.0,0.0,0.0,12.69223,0.0,60.243845,19.953866,13.223706,0.0,0.0,0.0,0.0,0.0,0.0,10.544768,0.0,38.841158,12.779741,10.524234,0.0,1.005474,0.959023,1.209915,0.978033,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,13.312654,6.257743,21.720591,9.585709,0.0,0.0,0.0,0.0,45.575319,95.471418,27.855988,70.740515,20.64648,16.338921,26.463683,16.572829,13.499619,9.173147,20.003658,10.337781,0.0,0.0,0.0,0.0,163.0,2.0,BADIA,LANGHIRANO,PR,602146.6249,4945686.0,10.288366,44.657269,Provincia
3,2000219,0.0,0.0,0.0,0.0,7.75449,18.729459,30.670067,45.17007,28.067987,19.502072,0.0,0.0,0.0,0.0,0.0,14.043368,12.418194,30.449901,39.344639,16.342715,13.869229,0.0,0.998481,0.954189,1.196163,0.986428,1.293264,1.0,1.474772,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.823108,1.844736,18.626901,2.913055,19.56127,11.134295,29.681141,14.752347,31.444848,13.969971,58.402924,19.357319,30.860125,78.713945,13.708985,55.760155,29.781991,20.116531,40.26405,22.306299,20.348684,12.195848,31.654356,14.449821,0.0,0.0,0.0,0.0,437.0,5.0,SARAGAT,COLORNO,PR,608189.9804,4975535.0,10.370915,44.92502,Provincia
4,2000229,0.0,0.0,0.0,0.0,0.0,19.087045,0.0,0.0,29.272364,19.753922,0.0,0.0,0.0,0.0,0.0,0.0,12.716073,0.0,0.0,16.553044,12.934635,0.0,1.011189,1.0,1.255799,0.976482,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,19.821583,11.952613,31.379075,14.429225,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,32.111524,21.506518,39.285106,24.747807,21.732342,13.449541,29.010638,15.689938,0.0,0.0,0.0,0.0,195.0,5.0,MALCANTONE,MEZZANI,PR,610442.9141,4971681.0,10.398613,44.88999,Provincia
5,2000230,0.0,0.0,0.0,0.0,0.0,27.16047,0.0,0.0,27.712813,19.272905,0.0,0.0,0.0,0.0,0.0,0.0,19.449806,0.0,0.0,16.969883,13.421065,0.0,1.012269,1.0,1.28144,0.985334,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,28.116014,17.817391,40.733575,23.332719,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,30.774436,18.972376,39.675159,22.586558,21.363296,12.145221,29.46822,15.095723,0.0,0.0,0.0,0.0,191.0,5.0,BOGOLESE,SORBOLO,PR,609922.833,4964806.0,10.390539,44.828198,Provincia
6,2000232,0.0,0.0,0.699858,0.0,0.0,31.835557,0.0,0.0,28.202264,19.278785,0.0,0.0,0.0,0.780533,0.0,0.0,20.989573,0.0,0.0,16.606724,13.179834,0.0,1.06247,1.0,1.381876,1.006424,1.0,1.118284,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.681019,0.183433,1.636578,0.445864,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,32.870994,23.579447,43.291217,28.932456,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,31.673546,19.611321,39.174004,23.058943,21.425094,12.378731,28.968619,15.060852,0.0,0.0,0.0,0.0,186.0,5.0,PARADIGNA,PARMA,PR,606187.8848,4966091.0,10.343573,44.840328,Capoluogo
7,3000001,0.0,0.0,0.0,0.0,5.962973,18.703239,27.750042,50.783808,26.100019,18.112313,0.0,0.0,0.0,0.0,0.0,12.386615,13.378588,29.274143,39.898507,16.381568,14.192211,0.0,1.0464,0.933793,1.264505,0.993804,1.36267,1.0,1.599242,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.859344,1.297827,14.325463,2.53048,19.79625,9.294231,29.880356,15.982891,28.620923,11.224234,51.719019,19.822419,37.001166,87.154981,19.500076,58.442742,27.947581,18.031177,38.309524,20.313146,18.739001,10.206946,30.605511,13.168858,0.0,0.0,0.0,0.0,437.0,3.0,CASTELLARANO,CASTELLARANO,RE,637727.4852,4930568.0,10.732918,44.515287,Provincia
9,3000007,0.0,0.0,0.0,0.0,11.693842,22.947082,40.679696,46.092798,28.271765,19.087838,0.0,0.0,0.0,0.0,0.0,24.484311,16.390711,48.983152,39.364288,16.892722,14.073978,0.0,1.02903,0.926095,1.234419,0.985764,1.380929,1.0,1.607097,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12.560831,1.816564,28.098317,4.501631,24.511323,13.14836,35.358949,18.88383,43.599511,15.797866,78.239004,25.588351,32.704765,80.698452,15.294993,54.900031,30.186584,20.09017,40.20361,22.773546,19.704388,11.503682,30.93314,14.374913,0.0,0.0,0.0,0.0,556.0,3.0,S. LAZZARO,REGGIO NELL'EMILIA,RE,631747.5665,4949647.0,10.6626,44.688092,Capoluogo
10,3000018,0.0,0.0,0.0,0.0,1.100005,3.704601,5.288701,77.782697,9.444486,0.0,0.0,0.0,0.0,0.0,0.0,0.880487,3.156238,3.903109,22.150989,7.806046,0.0,0.0,0.919786,0.995226,0.915439,1.0,0.924756,1.0,0.95529,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.090468,1.029484,1.174882,1.105173,3.3253,3.112975,4.780514,3.588024,4.915493,4.516291,6.520265,5.209888,64.9096,90.165807,67.489857,87.859042,9.090417,12.295593,6.714702,9.766197,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,15.0,0.0,FEBBIO,VILLA MINOZZO,RE,614074.4384,4906160.0,10.430049,44.299744,Provincia


### Fase Finale: Test di Qualità e Coerenza del Silver Layer

**Obiettivo:** Eseguire una serie di controlli approfonditi sulla tabella finale `df_silver_profiles` per validarne la qualità prima di procedere con il machine learning. Questi test vanno oltre la semplice presenza di dati, verificando:
- **Completezza:** Assenza di valori nulli non gestiti.
- **Integrità Strutturale:** Unicità degli identificativi delle stazioni.
- **Coerenza Logica:** I valori calcolati rispettano vincoli logici (es. deviazioni standard non negative).
- **Validità di Dominio:** I valori rientrano in range plausibili (es. correlazioni tra -1 e 1).
- **Coerenza Geografica:** Le coordinate delle stazioni sono plausibili per la regione di studio.

Superare questi test ci dà un'alta fiducia nella qualità del dataset che useremo per il clustering.

In [10]:
print("--- INIZIO DEI TEST SULLA TABELLA SILVER FINALE ---")

# Assicurati che df_silver_profiles sia il tuo DataFrame finale e completo
# (già unito con tutte le feature, inclusi i metadati)

# Test 1: Controllo dei Valori Nulli (Completezza)
print("\n[Test 1] Controllo Valori Nulli...")
valori_nulli = df_silver_profiles.isnull().sum().sum()
if valori_nulli == 0:
    print("PASSATO: La tabella non contiene valori nulli (NaN). Il dataset è completo.")
else:
    print(f"FALLITO: Sono stati trovati {valori_nulli} valori nulli. Ispezionare le seguenti colonne:")
    print(df_silver_profiles.isnull().sum()[df_silver_profiles.isnull().sum() > 0])

# Test 2: Unicità delle Stazioni (Integrità Strutturale)
print("\n[Test 2] Controllo Unicità Stazioni...")
if df_silver_profiles['id_stazione'].is_unique:
    print(f"PASSATO: Ogni riga rappresenta una stazione unica. L'ID è una chiave primaria valida.")
else:
    print(f"FALLITO: Sono presenti ID di stazione duplicati. Questo è un problema critico.")
    duplicati = df_silver_profiles[df_silver_profiles['id_stazione'].duplicated()]['id_stazione']
    print(f"ID duplicati: {duplicati.tolist()}")

# Test 3: Coerenza Logica dei Valori Calcolati
print("\n[Test 3] Controllo Coerenza Logica (Valori Non Negativi)...")
# Deviazioni standard, rapporti e conteggi non possono essere negativi.
colonne_da_testare = [c for c in df_silver_profiles.columns if c.startswith('std_') or c.startswith('rapporto_') or c.startswith('giorni_')]
min_valori = df_silver_profiles[colonne_da_testare].min()
if (min_valori >= 0).all():
    print("PASSATO: Tutte le deviazioni standard, i rapporti e i conteggi sono correttamente maggiori o uguali a zero.")
else:
    print("FALLITO: Trovati valori negativi dove non dovrebbero esserci. Dettaglio:")
    print(min_valori[min_valori < 0])

# Test 5: Coerenza tra Feature Correlate
print("\n[Test 5] Controllo Coerenza tra Media e Deviazione Standard...")
# Se la media di un inquinante è 0, anche la sua deviazione standard deve essere 0.
colonne_mean = [c for c in df_silver_profiles.columns if c.startswith('mean_')]
incoerenze = 0
for col_mean in colonne_mean:
    col_std = col_mean.replace('mean_', 'std_')
    if col_std in df_silver_profiles.columns:
        # Trova le righe dove la media è 0 ma la std non lo è
        stazioni_incoerenti = df_silver_profiles[(df_silver_profiles[col_mean] == 0) & (df_silver_profiles[col_std] != 0)]
        if not stazioni_incoerenti.empty:
            incoerenze += 1
            print(f"  - FALLITO per {col_mean}: {len(stazioni_incoerenti)} stazioni hanno media 0 ma std != 0.")
if incoerenze == 0:
    print("PASSATO: La deviazione standard è coerente con la media per tutte le feature.")

# Test 6: Coerenza Geografica (Bounding Box)
print("\n[Test 6] Controllo Coerenza Geografica delle Coordinate...")
# Definiamo un "recinto" geografico approssimativo per l'Emilia-Romagna
lat_min, lat_max = 43.7, 45.1
lon_min, lon_max = 9.2, 12.7
lat_fuori_range = df_silver_profiles[(df_silver_profiles['LAT_GEO'] < lat_min) | (df_silver_profiles['LAT_GEO'] > lat_max)]
lon_fuori_range = df_silver_profiles[(df_silver_profiles['LON_GEO'] < lon_min) | (df_silver_profiles['LON_GEO'] > lon_max)]
if lat_fuori_range.empty and lon_fuori_range.empty:
    print("PASSATO: Tutte le coordinate delle stazioni rientrano nei confini geografici attesi per l'Emilia-Romagna.")
else:
    print("FALLITO: Trovate stazioni con coordinate geografiche non plausibili.")
    if not lat_fuori_range.empty:
        print(f"Stazioni con latitudine fuori range: {lat_fuori_range['id_stazione'].tolist()}")
    if not lon_fuori_range.empty:
        print(f"Stazioni con longitudine fuori range: {lon_fuori_range['id_stazione'].tolist()}")


# Test 7 (Finale): Ispezione Manuale delle Statistiche
print("\n[Test 7] Analisi Statistiche Descrittive (Campione) per Ispezione Manuale...")
print("Controllare manualmente la colonna 'std' (deviazione standard) per valori molto alti che potrebbero indicare anomalie o outlier.")
colonne_campione = [
    'mean_PM10', 'std_PM10', 
    'rapporto_feriale_festivo_NO2_Biossido_di_azoto',
    'media_inverno_PM10', 'media_estate_PM10',
    'giorni_superamento_soglia_PM10',
    f'stazioni_vicine_20km',
    'Tipo_Area_Capoluogo'
]
colonne_campione_esistenti = [col for col in colonne_campione if col in df_silver_profiles.columns]
display(df_silver_profiles[colonne_campione_esistenti].describe().T)

print("\n--- TEST COMPLETATI ---")

--- INIZIO DEI TEST SULLA TABELLA SILVER FINALE ---

[Test 1] Controllo Valori Nulli...
PASSATO: La tabella non contiene valori nulli (NaN). Il dataset è completo.

[Test 2] Controllo Unicità Stazioni...
PASSATO: Ogni riga rappresenta una stazione unica. L'ID è una chiave primaria valida.

[Test 3] Controllo Coerenza Logica (Valori Non Negativi)...
PASSATO: Tutte le deviazioni standard, i rapporti e i conteggi sono correttamente maggiori o uguali a zero.

[Test 5] Controllo Coerenza tra Media e Deviazione Standard...
PASSATO: La deviazione standard è coerente con la media per tutte le feature.

[Test 6] Controllo Coerenza Geografica delle Coordinate...
PASSATO: Tutte le coordinate delle stazioni rientrano nei confini geografici attesi per l'Emilia-Romagna.

[Test 7] Analisi Statistiche Descrittive (Campione) per Ispezione Manuale...
Controllare manualmente la colonna 'std' (deviazione standard) per valori molto alti che potrebbero indicare anomalie o outlier.


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
mean_PM10,54.0,23.487345,9.5228,0.0,22.852172,26.338626,28.873242,35.806288
std_PM10,54.0,14.428793,5.46278,0.0,14.025476,16.249068,17.813116,20.517914
rapporto_feriale_festivo_NO2_Biossido_di_azoto,54.0,1.187426,0.085246,0.915439,1.161695,1.197339,1.233104,1.381876
giorni_superamento_soglia_PM10,54.0,377.648148,253.169356,0.0,170.25,391.0,557.5,867.0
stazioni_vicine_20km,54.0,2.962963,1.769372,0.0,2.0,3.0,4.0,7.0



--- TEST COMPLETATI ---


## FASE FINALE: SALVATAGGIO LOCALE DEL SILVER LAYER

In [11]:
# ===================================================================
# FASE FINALE: SALVATAGGIO LOCALE DEL SILVER LAYER
# ===================================================================
print("--- Inizio Fase di Salvataggio Locale ---")

# 1. Definiamo il percorso locale dove salvare la tabella Silver
#    Assicurati che la cartella 'delta_tables_silver' esista allo stesso livello di 'scripts' e 'notebooks'
#    Se non esiste, creala con il comando 'mkdir delta_tables_silver' dal terminale.
local_silver_path = "../delta_tables/profili_stazioni_silver"

# 2. Ci assicuriamo che l'indice sia una colonna normale, come richiesto da Delta Lake
#    Se df_silver_profiles ha ancora 'id_stazione' come indice, questa riga è necessaria.
#    Se è già una colonna, non darà errore.
if 'id_stazione' not in df_silver_profiles.columns:
    df_silver_profiles.reset_index(inplace=True)

# 3. Salviamo il DataFrame in formato Delta Lake nella cartella locale
try:
    write_deltalake(
        local_silver_path,
        df_silver_profiles,
        mode="overwrite"
    )
    print(f"\nTabella Silver salvata con successo nel percorso locale:")
    print(local_silver_path)
    print("\nOra puoi eseguire lo script di upload per caricarla su MinIO.")

except Exception as e:
    print(f"\nERRORE durante il salvataggio locale: {e}")

--- Inizio Fase di Salvataggio Locale ---

Tabella Silver salvata con successo nel percorso locale:
../delta_tables/profili_stazioni_silver

Ora puoi eseguire lo script di upload per caricarla su MinIO.
