<a href="https://colab.research.google.com/github/MrWou/Calcolo-Matrici-e-Distanze-Comuni-Emilia-Romagna/blob/main/Calcolo_matrici_e_distanze_Comuni_ER.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Import localities from ERT

Questo script Python utilizza l'API di Emilia Romagna Turismo (ERT) per estrarre un elenco di località.

Viene effettuata una richiesta paginata all'endpoint `/opendata/v1/localities` dell'API per recuperare tutte le località disponibili, con un limite di 100 record per pagina.

I dati estratti vengono poi elaborati e organizzati in un DataFrame Pandas (`df_comuni`) contenente le seguenti informazioni per ciascuna località:

- `id`: ID univoco della località
- `title`: Nome della località
- `lat`: Latitudine della località
- `lng`: Longitudine della località
- `istat`: Codice ISTAT del comune di appartenenza
- `city_name`: Nome del comune di appartenenza
- `province_short`: Sigla della provincia

Il DataFrame viene pulito rimuovendo i duplicati basati sulle coordinate (latitudine e longitudine) per garantire l'unicità di ogni punto geografico.

Infine, viene creata una lista di coordinate (`ors_coordinates`) nel formato `[Longitudine, Latitudine]`, pronta per essere utilizzata con servizi di routing come OpenRouteService (ORS).

Il conteggio finale dei comuni unici viene stampato, insieme a un avviso se l'estrazione non ha recuperato il numero atteso di record, suggerendo che l'API potrebbe non supportare completamente la paginazione.

In [None]:
import requests
import pandas as pd
import math
import sys

# --- Configurazione API ---
BASE_URL = "https://emiliaromagnaturismo.it/opendata/v1/localities"
# Usiamo il limite massimo che l'API accetta senza errore 400
API_LIMIT = 100
TOTAL_RECORDS = 406

# Calcolo del numero di pagine (anche se l'API potrebbe ignorare 'page')
num_pages = math.ceil(TOTAL_RECORDS / API_LIMIT)

all_localities_data = []

print("=" * 60)
print(f"FASE 1: Estrazione Località da Emilia Romagna Turismo")
print(f"Totale record teorici: {TOTAL_RECORDS}, Richieste: {num_pages} (limit={API_LIMIT})")
print("=" * 60)

# --- Estrazione Dati tramite Paginazione ---
for page in range(1, num_pages + 1):
    params = {
        'page': page,
        'limit': API_LIMIT # Parametro corretto per la dimensione della pagina
    }

    print(f"Richiesta Pagina {page}/{num_pages}...")

    try:
        response = requests.get(BASE_URL, params=params, timeout=30)
        response.raise_for_status()
        data = response.json()

        localities = data.get('data', [])

        # Estrazione dei campi
        for item in localities:
            # Controllo di sicurezza per coordinate e dati di città
            if (item.get('location') and item['location'].get('lat') is not None and
                item['location'].get('lng') is not None and item['location'].get('city')):

                locality_data = {
                    'id': item.get('id'),
                    'title': item.get('title'),
                    'lat': item['location']['lat'],
                    'lng': item['location']['lng'],
                    'istat':item['location']['city'].get('istat'),
                    'city_name': item['location']['city'].get('city'),
                    'province_short': item['location']['city'].get('province_short'),
                }
                all_localities_data.append(locality_data)

    except requests.exceptions.RequestException as e:
        print(f"Errore CRITICO nella richiesta per la Pagina {page}: {e}")
        # Termina il programma se c'è un errore di rete o server
        sys.exit(1)

print("-" * 60)
print(f"Estrazione completata. Totale record grezzi estratti: {len(all_localities_data)}")

# --- Pulizia e Preparazione del DataFrame ---
df_comuni = pd.DataFrame(all_localities_data)

# Il passo di rimozione dei duplicati è CRUCIALE se l'API ignora 'page'
df_comuni = df_comuni.drop_duplicates(subset=['id', 'istat', 'title', 'lat', 'lng']).reset_index(drop=True)

final_count = len(df_comuni)
print(f"Conteggio finale dei comuni unici pronti per ORS: {final_count}")

if final_count < 400:
    print(f"\nAVVISO: L'estrazione è incompleta (solo {final_count} su 406).")
    print("Probabilmente l'API ignora il parametro 'page' e restituisce solo i primi 100 record.")
    print("La matrice delle distanze verrà calcolata solo tra questi comuni.")

# --- Creazione della lista finale di coordinate per ORS ---

# OSRM/ORS richiede le coordinate nel formato [Longitudine, Latitudine]
ors_coordinates = df_comuni[['lng', 'lat']].values.tolist()

# Salviamo il DataFrame in CSV per riferimento futuro
# df_comuni.to_csv('comuni_emilia_romagna_per_ors.csv', index=False)

print("\n" + "=" * 60)
print("Risultato: Lista 'ors_coordinates' pronta per il calcolo Matrice.")
print(f"Esempio (primi 3 punti): {ors_coordinates[:3]}")
print("=" * 60)

FASE 1: Estrazione Località da Emilia Romagna Turismo
Totale record teorici: 406, Richieste: 5 (limit=100)
Richiesta Pagina 1/5...
Richiesta Pagina 2/5...
Richiesta Pagina 3/5...
Richiesta Pagina 4/5...
Richiesta Pagina 5/5...
------------------------------------------------------------
Estrazione completata. Totale record grezzi estratti: 406
Conteggio finale dei comuni unici pronti per ORS: 406

Risultato: Lista 'ors_coordinates' pronta per il calcolo Matrice.
Esempio (primi 3 punti): [[9.593987999999968, 45.087877], [9.8698319, 45.0496283], [9.4390093, 45.0596156]]


# Script per il calcolo delle distanze con OpenRouteService

Questo script calcola la matrice delle distanze stradali tra un insieme di località utilizzando l'API di OpenRouteService (ORS).

**Prerequisiti:**

- Un token API valido per OpenRouteService. Assicurati di averlo memorizzato nelle Colab Secrets con il nome `ORS`.
- Un DataFrame Pandas chiamato `df_comuni` e una lista di coordinate `ors_coordinates`, ottenuti ad esempio eseguendo lo script di importazione delle località da Emilia Romagna Turismo.

**Funzionamento:**

1. **Configurazione ORS:** Viene inizializzato il client ORS utilizzando il token API fornito.
2. **Inizializzazione Matrice:** Viene creato un DataFrame vuoto (`distance_matrix_df`) con gli stessi nomi delle località sia per gli indici di riga che per le colonne. Questo DataFrame verrà popolato con le distanze.
3. **Calcolo Distanze:** Lo script itera su ogni località (origine). Per ciascuna origine, effettua una richiesta all'API ORS per calcolare la distanza stradale verso tutte le altre località (destinazioni). Viene utilizzato il profilo di routing 'driving-car' e richiesta la metrica di distanza in metri.
4. **Gestione Limiti API:** Viene introdotta una pausa (`SLEEP_TIME`) tra le richieste per rispettare i limiti di rate dell'API pubblica di ORS (solitamente 40 richieste al minuto). In caso di errori API (ad es. superamento del limite di richieste), viene fatta una pausa più lunga.
5. **Post-Elaborazione:** Una volta completato il calcolo, la matrice viene convertita da metri a chilometri (`distance_matrix_km`). I valori mancanti (NaN) vengono riempiti assumendo che la distanza A->B sia uguale alla distanza B->A, e la diagonale (distanza di un punto da se stesso) viene impostata a 0.
6. **Output e Salvataggio:** La matrice delle distanze finale (in Km) viene stampata in anteprima e salvata in un file CSV (`matrice_distanze_XXX_comuni.csv`, dove XXX è il numero di comuni).

**Nota:** La quota massima giornaliera dell'API gratuita di ORS è di 500 richieste. Questo script, calcolando una matrice completa per 404 comuni, consumerà circa 404 richieste, esaurendo quasi tutta la quota giornaliera. Sarà necessario attendere 24 ore per poter eseguire nuovamente lo script completo con lo stesso token API.

In [None]:
from google.colab import userdata
import pandas as pd
import requests # useremo requests direttamente al posto di openrouteservice.Client
import time
import sys
import math

# --- 🛠️ CONFIGURAZIONE API ---
# La variabile 'ORS_API_KEY' è assunta essere recuperata correttamente qui
ORS_API_KEY = userdata.get('ORS')
if ORS_API_KEY is None:
    print("\nERRORE: Chiave ORS non trovata o non valida. Controlla il Secret in Colab.")
    sys.exit(1)

# Impostazione degli header necessari per l'autenticazione e il formato JSON
HEADERS = {
    'Accept': 'application/json, application/geo+json, application/gpx+xml, img/png; charset=utf-8',
    'Authorization': ORS_API_KEY,
    'Content-Type': 'application/json; charset=utf-8'
}
ORS_URL = 'https://api.openrouteservice.org/v2/matrix/driving-car'

# --- ⚙️ PREPARAZIONE DATI E MATRICE ---
# Assumi che 'df_comuni' e 'ors_coordinates' siano state caricate nella FASE 1
final_count = len(df_comuni)
title_labels = df_comuni['title'].tolist()

# Inizializza il DataFrame per memorizzare le distanze (in metri)
distance_matrix_df = pd.DataFrame(
    index=title_labels,
    columns=title_labels,
    dtype=float
)

print("\n" + "=" * 60)
print(f"FASE 2: Inizio Calcolo Matrice DISTANZE ({final_count}x{final_count}) con Batching & Retry...")

# --- 📊 CONFIGURAZIONE BATCHING E RESILIENZA ---
BATCH_SIZE = 6 # Dimensione del batch ottimizzata per mitigare gli errori 502/429
MAX_RETRIES = 3 # Numero massimo di tentativi per ogni richiesta fallita
total_batches = math.ceil(final_count / BATCH_SIZE)
SLEEP_TIME_BETWEEN_BATCHES = 10 # Pausa in secondi tra un batch riuscito e il successivo

print(f"Dividendo in {total_batches} richieste batch (size: {BATCH_SIZE}).")
print(f"Pausa di {SLEEP_TIME_BETWEEN_BATCHES} secondi tra i batch. Max tentativi per batch: {MAX_RETRIES}")
print("=" * 60)

# --- LOOP ESTERNO: Gestione dei Batch ---
for batch_num, start_index in enumerate(range(0, final_count, BATCH_SIZE)):

    end_index = min(start_index + BATCH_SIZE, final_count)
    batch_sources_indices = list(range(start_index, end_index))

    print(f"Richiesta Batch {batch_num + 1}/{total_batches}: indici origine da {start_index} a {end_index-1}...")

    # 1. Costruzione del Payload JSON per il batch
    payload = {
        "locations": ors_coordinates,
        "sources": batch_sources_indices,
        "destinations": list(range(final_count)),
        "profile": "driving-car",
        "metrics": ["distance"] # CAMBIATO: Richiedi la distanza
    }

    retries = 0
    success = False

    # --- LOOP INTERNO: Meccanismo di Retry ---
    while retries < MAX_RETRIES:
        try:
            # 2. Chiama l'API con requests (Timeout a 60s per calcoli Matrix)
            response = requests.post(ORS_URL, json=payload, headers=HEADERS, timeout=180)
            response.raise_for_status()

            success = True
            break

        except requests.exceptions.HTTPError as e:
            # Gestisce 429, 502, 504 e altri errori HTTP recuperabili
            status_code = response.status_code if 'response' in locals() else 'N/A'
            retries += 1

            if retries < MAX_RETRIES:
                print(f"!!! Errore recuperabile (Codice {status_code}). Tentativo {retries}/{MAX_RETRIES} in corso...")
                time.sleep(15 * retries)
            else:
                print(f"!!! Errore CRITICO non recuperabile (Codice {status_code}) nel Batch {batch_num + 1}: {e} !!!")
                break

        except requests.exceptions.RequestException as e:
            # Gestisce errori di connessione o timeout
            retries += 1

            if retries < MAX_RETRIES:
                print(f"!!! Errore di Connessione/Timeout. Tentativo {retries}/{MAX_RETRIES} in corso...")
                time.sleep(15 * retries)
            else:
                print(f"!!! Errore CRITICO di Connessione/Timeout nel Batch {batch_num + 1}: {e} !!!")
                break

    # --- Elaborazione Risultati ---
    if success:
        try:
            # 4. Decodifica la risposta JSON
            result = response.json()
            # Il campo è 'distances' quando si richiede la distanza
            distances_for_batch = result['distances']

            for i, row_distances in enumerate(distances_for_batch):
                global_index = start_index + i
                distance_matrix_df.iloc[global_index, :] = row_distances
        except Exception as e:
            print(f"\n!!! Errore CRITICO nel parsing o salvataggio dei dati nel Batch {batch_num + 1}: {e} !!!")
            distance_matrix_df.iloc[start_index:end_index, :] = float('nan')

    else:
        # Se tutti i tentativi sono falliti
        distance_matrix_df.iloc[start_index:end_index, :] = float('nan')


    # 6. Pausa di sicurezza tra i BATCH (solo se non è l'ultimo)
    if batch_num < total_batches - 1:
        time.sleep(SLEEP_TIME_BETWEEN_BATCHES)

print("=" * 60)
print("Calcolo Matrice Completato.")

# --- 💾 FASE 3: Post-Elaborazione e Salvataggio ---

# 1. Converti le distanze da Metri a Chilometri
distance_matrix_km = distance_matrix_df / 1000

# 2. Simmetrizza e pulisci la diagonale
# Riempi i valori non calcolati (NaN) assumendo che Distanza A->B = B->A. Inserisce 0 sulla diagonale.
distance_matrix_km = distance_matrix_km.combine_first(distance_matrix_km.T).fillna(0)

# 3. Visualizzazione e Salvataggio
print("\nMatrice delle Distanze Finali (in Km - primi 5):\n")
print(distance_matrix_km.head())
print(f"\nMatrice creata, dimensione {distance_matrix_km.shape[0]}x{distance_matrix_km.shape[1]}")

# Salvataggio su file CSV
distance_matrix_km.to_csv(f'matrice_distanze_{final_count}_comuni.csv')
print(f"File salvato: matrice_distanze_{final_count}_comuni.csv")

# Script per il calcolo delle durate con OpenRouteService

Questo script è molto simile al precedente, ma invece di calcolare le distanze stradali, calcola le **durate** stimate di viaggio tra le stesse località utilizzando l'API di OpenRouteService (ORS).

**Prerequisiti:**

- Un client ORS inizializzato (variabile `client`), ottenuto fornendo un token API valido.
- Un DataFrame Pandas chiamato `df_comuni` e una lista di coordinate `ors_coordinates`.

**Funzionamento:**

1. **Inizializzazione Matrice:** Viene creato un DataFrame vuoto (`duration_matrix_df`) per memorizzare le durate, utilizzando i nomi delle località come indici e colonne.
2. **Calcolo Durate:** Similmente allo script delle distanze, viene effettuato un loop che per ogni località di origine, richiede all'API ORS la durata di viaggio verso tutte le altre destinazioni. Viene sempre utilizzato il profilo 'driving-car', ma la metrica richiesta è 'duration'.
3. **Gestione Limiti API:** Anche qui è presente una pausa (`SLEEP_TIME`) per rispettare i limiti di rate dell'API.
4. **Post-Elaborazione:** Una volta ottenute tutte le durate (inizialmente in secondi), la matrice viene convertita in **minuti** (`duration_matrix_min`). Anche questa matrice viene resa simmetrica e la diagonale impostata a zero.
5. **Output e Salvataggio:** La matrice delle durate finale (in minuti) viene stampata in anteprima e salvata in un file CSV (`matrice_durate_XXX_comuni.csv`).

Questo script completa il set di dati necessario per analisi basate sia sulla distanza che sul tempo di viaggio tra le località.

In [None]:
 import pandas as pd
import requests
import time
import sys
import math

# --- 🛠️ CONFIGURAZIONE API ---
ORS_API_KEY = userdata.get('ORS') # Recupera la chiave API (Controlla il nome del tuo Secret!)
if ORS_API_KEY is None:
    print("\nERRORE: Chiave ORS non trovata o non valida. Controlla il Secret in Colab.")
    sys.exit(1)

# Impostazione degli header necessari per l'autenticazione e il formato JSON
HEADERS = {
    'Accept': 'application/json, application/geo+json, application/gpx+xml, img/png; charset=utf-8',
    'Authorization': ORS_API_KEY,
    'Content-Type': 'application/json; charset=utf-8'
}
ORS_URL = 'https://api.openrouteservice.org/v2/matrix/driving-car'

# --- ⚙️ PREPARAZIONE DATI E MATRICE (Assumi che df_comuni e ors_coordinates siano caricate) ---
final_count = len(df_comuni)
title_labels = df_comuni['title'].tolist()

# Inizializza il DataFrame per memorizzare le durate (in secondi)
duration_matrix_df = pd.DataFrame(
    index=title_labels,
    columns=title_labels,
    dtype=float
)

print("\n" + "=" * 60)
print(f"FASE 2B: Inizio Calcolo Matrice DURATE ({final_count}x{final_count}) con metodo requests...")

# --- 📊 CONFIGURAZIONE BATCHING E RESILIENZA ---
BATCH_SIZE = 6 # Dimensione del batch ottimizzata per ridurre i 502 (6 origini * 406 destinazioni)
MAX_RETRIES = 3 # Numero massimo di tentativi per ogni richiesta fallita
total_batches = math.ceil(final_count / BATCH_SIZE)
SLEEP_TIME_BETWEEN_BATCHES = 10 # Pausa in secondi tra un batch riuscito e il successivo

print(f"Dividendo in {total_batches} richieste batch (size: {BATCH_SIZE}).")
print(f"Pausa di {SLEEP_TIME_BETWEEN_BATCHES} secondi tra i batch. Max tentativi per batch: {MAX_RETRIES}")
print("=" * 60)

# --- LOOP ESTERNO: Gestione dei Batch ---
for batch_num, start_index in enumerate(range(0, final_count, BATCH_SIZE)):

    end_index = min(start_index + BATCH_SIZE, final_count)
    batch_sources_indices = list(range(start_index, end_index))

    print(f"Richiesta Batch {batch_num + 1}/{total_batches}: indici origine da {start_index} a {end_index-1}...")

    # 1. Costruzione del Payload JSON per il batch
    payload = {
        "locations": ors_coordinates,
        "sources": batch_sources_indices,
        "destinations": list(range(final_count)),
        "profile": "driving-car",
        "metrics": ["duration"]
    }

    retries = 0
    success = False

    # --- LOOP INTERNO: Meccanismo di Retry ---
    while retries < MAX_RETRIES:
        try:
            # 2. Chiama l'API con requests (Timeout a 60s per calcoli Matrix)
            response = requests.post(ORS_URL, json=payload, headers=HEADERS, timeout=60)
            response.raise_for_status() # Solleva eccezione per codici 4xx/5xx

            # Se siamo qui, la richiesta ha avuto successo
            success = True
            break

        except requests.exceptions.HTTPError as e:
            # Gestisce errori HTTP recuperabili (429 Rate Limit, 502 Bad Gateway, 504 Timeout)
            status_code = response.status_code if 'response' in locals() else 'N/A'
            retries += 1

            if retries < MAX_RETRIES:
                print(f"!!! Errore recuperabile (Codice {status_code}). Tentativo {retries}/{MAX_RETRIES} in corso...")
                # Pausa esponenziale per Rate Limit o attesa server (15s, 30s, ...)
                time.sleep(15 * retries)
            else:
                # Ultimo tentativo fallito: registra l'errore completo
                print(f"!!! Errore CRITICO non recuperabile (Codice {status_code}) nel Batch {batch_num + 1}: {e} !!!")
                break

        except requests.exceptions.RequestException as e:
            # Gestisce errori di connessione o timeout
            retries += 1

            if retries < MAX_RETRIES:
                print(f"!!! Errore di Connessione/Timeout. Tentativo {retries}/{MAX_RETRIES} in corso...")
                time.sleep(15 * retries)
            else:
                print(f"!!! Errore CRITICO di Connessione/Timeout nel Batch {batch_num + 1}: {e} !!!")
                break

    # --- Elaborazione Risultati ---
    if success:
        try:
            # 4. Decodifica la risposta JSON
            result = response.json()
            # 5. Estrazione e salvataggio dei risultati nel DataFrame
            durations_for_batch = result['durations']

            for i, row_durations in enumerate(durations_for_batch):
                global_index = start_index + i
                duration_matrix_df.iloc[global_index, :] = row_durations
        except Exception as e:
            # Errore interno se il JSON non è quello atteso (molto raro ora)
            print(f"\n!!! Errore CRITICO nel parsing o salvataggio dei dati nel Batch {batch_num + 1}: {e} !!!")
            duration_matrix_df.iloc[start_index:end_index, :] = float('nan')

    else:
        # Se tutti i tentativi sono falliti, marca le righe del batch come non calcolate
        duration_matrix_df.iloc[start_index:end_index, :] = float('nan')


    # 6. Pausa di sicurezza tra i BATCH (solo se non è l'ultimo)
    if batch_num < total_batches - 1:
        time.sleep(SLEEP_TIME_BETWEEN_BATCHES)

print("=" * 60)
print("Calcolo Matrice Completato.")

# --- 💾 FASE 3: Post-Elaborazione e Salvataggio ---

# 1. Converti le durate da Secondi a Minuti
duration_matrix_min = duration_matrix_df / 60

# 2. Simmetrizza e pulisci la diagonale
# Utilizza il risultato della trasposta per riempire i valori non calcolati (NaN)
duration_matrix_min = duration_matrix_min.combine_first(duration_matrix_min.T).fillna(0)

# 3. Visualizzazione e Salvataggio
print("\nMatrice delle Durate Finali (in Minuti - primi 5):\n")
print(duration_matrix_min.head())
print(f"\nMatrice creata, dimensione {duration_matrix_min.shape[0]}x{duration_matrix_min.shape[1]}")

# Salvataggio su file CSV
duration_matrix_min.to_csv(f'matrice_durate_{final_count}_comuni.csv')
print(f"File salvato: matrice_durate_{final_count}_comuni.csv")


FASE 2B: Inizio Calcolo Matrice DURATE (406x406) con metodo requests...
Dividendo in 68 richieste batch (size: 6).
Pausa di 10 secondi tra i batch. Max tentativi per batch: 3
Richiesta Batch 1/68: indici origine da 0 a 5...
Richiesta Batch 2/68: indici origine da 6 a 11...
Richiesta Batch 3/68: indici origine da 12 a 17...
!!! Errore recuperabile (Codice 502). Tentativo 1/3 in corso...
Richiesta Batch 4/68: indici origine da 18 a 23...
Richiesta Batch 5/68: indici origine da 24 a 29...
Richiesta Batch 6/68: indici origine da 30 a 35...
Richiesta Batch 7/68: indici origine da 36 a 41...
Richiesta Batch 8/68: indici origine da 42 a 47...
Richiesta Batch 9/68: indici origine da 48 a 53...
!!! Errore recuperabile (Codice 502). Tentativo 1/3 in corso...
Richiesta Batch 10/68: indici origine da 54 a 59...
Richiesta Batch 11/68: indici origine da 60 a 65...
Richiesta Batch 12/68: indici origine da 66 a 71...
Richiesta Batch 13/68: indici origine da 72 a 77...
Richiesta Batch 14/68: indici or