<a href="https://colab.research.google.com/github/dataciviclab/progetto-pilota/blob/11-pipeline-dati---01_source_raw/notebooks/01_source_raw.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üì• Fonte ‚Üí RAW | Catasto Rifiuti ISPRA

Questo notebook gestisce la fase **Fonte ‚Üí RAW** della pipeline DataCivicLab.

## üéØ Obiettivo
Scaricare i file **originali (CSV)** dal Catasto Rifiuti ISPRA e salvarli su **Google Drive** come **RAW**, senza alcuna trasformazione.

## üì¶ Cosa fa
- scarica i CSV per ciascun anno (es. 2022, 2023)
- salva i file in `data/raw/<fonte>/<dataset>/<anno>/`
- salva i metadati di download in `metadata.json`

## üö´ Cosa NON fa
- non rinomina colonne
- non pulisce dati
- non converte formati
- non unisce file

## üß± Output
- RAW immutabile su Drive
- tracciabilit√† completa della fonte
- base stabile per la fase successiva (**RAW ‚Üí CLEAN**)

## üìö Fonte
ISPRA ‚Äì Catasto Rifiuti Comunali  
https://www.catasto-rifiuti.isprambiente.it/


In [None]:
from google.colab import drive
drive.mount('/content/drive')

import requests
from pathlib import Path
import json
from datetime import datetime


Mounted at /content/drive


In [None]:
BASE_DIR = Path("/content/drive/MyDrive/dataciviclab/data/raw/ispra_catasto_rifiuti")

URL_TEMPLATE = (
    "https://www.catasto-rifiuti.isprambiente.it/"
    "get/getDettaglioComunale.csv.php?&aa={year}"
)

ANNI = list(range(2019, 2024))  # ‚Üê scegli anni


In [None]:
def download_year(year: int):
    year_dir = BASE_DIR / str(year)
    year_dir.mkdir(parents=True, exist_ok=True)

    url = URL_TEMPLATE.format(year=year)
    out_file = year_dir / f"dettaglio_comunale_{year}.csv"

    r = requests.get(url)
    r.raise_for_status()

    out_file.write_bytes(r.content)
    print(f"‚úÖ Scaricato {year}")


In [None]:
for year in ANNI:
    try:
        download_year(year)
    except Exception as e:
        print(f"‚ùå Errore {year}: {e}")


‚úÖ Scaricato 2019
‚úÖ Scaricato 2020
‚úÖ Scaricato 2021
‚úÖ Scaricato 2022
‚úÖ Scaricato 2023


In [None]:
metadata = {
    "dataset": "ISPRA ‚Äì Catasto Rifiuti ‚Äì Dettaglio Comunale",
    "source": "https://www.catasto-rifiuti.isprambiente.it/",
    "years": ANNI,
    "downloaded_at": datetime.now().isoformat(),
    "files": {
        str(y): f"{y}/dettaglio_comunale_{y}.csv"
        for y in ANNI
    }
}

with open(BASE_DIR / "metadata.json", "w") as f:
    json.dump(metadata, f, indent=2)
