# ETL ‚Äî Accidents de la route

Ce notebook montre, pas √† pas, comment :
1) se connecter √† l‚ÄôAPI publique Opendatasoft,
2) r√©cup√©rer un petit √©chantillon,
3) paginer pour extraire un volume plus grand,
4) sauvegarder les donn√©es brutes en CSV,
5) poser les bases du nettoyage (√† faire en √©quipe).

> **Pourquoi ce format ?**  
> Un notebook est id√©al pour apprendre : on alterne **explications** (Markdown) et **code** (Python), et on voit les r√©sultats imm√©diatement.

In [None]:
# Imports
import pandas as pd
import requests
import time
from pathlib import Path

# Dossiers de sortie
RAW_DIR = Path("../data/raw")
CLEAN_DIR = Path("../data/cleaned")
RAW_DIR.mkdir(parents=True, exist_ok=True)
CLEAN_DIR.mkdir(parents=True, exist_ok=True)


BASE_URL = "https://public.opendatasoft.com/api/explore/v2.1/catalog/datasets/accidents-corporels-de-la-circulation-millesime/records"

SELECT_PARTS = [
    "num_acc",
    "datetime",
    "an",
    "mois",
    "jour",
    "hrmn",
    "lum",
    "agg",
    '"int" as intersection',   # <= r√©serv√© ‚Üí cit√© + alias
    "atm",
    "col",
    "dep",
    "com",
    "insee",
    "adr",
    "lat",
    '"long" as lon',           # <= r√©serv√© ‚Üí cit√© + alias
    "surf",
    "circ",
    "nbv",
    "catr",
    "plan",
    "prof",
    "infra",
    "situ",
    "gps",
    "year_georef",
    "dep_name",
    "reg_name",
    "epci_name"
]
SELECT = ", ".join(SELECT_PARTS)


In [None]:
def fetch_page(offset=0, limit=1000):
    params = {
        "select": SELECT,
        "limit": limit,
        "offset": offset,
        "order_by": "datetime"   # champ 'safe' pour trier
    }
    r = requests.get(BASE_URL, params=params, timeout=60)
    r.raise_for_status()
    return r.json().get("results", [])

# Test rapide
sample = fetch_page(0, 10)
df = pd.DataFrame(sample)
df.head(3)

In [None]:
TARGET = 1000
PAGE = 100
DELAY = 0.3

all_rows = []
offset = 0
while offset < TARGET:
    chunk = fetch_page(offset, PAGE)
    if not chunk:
        break
    all_rows.extend(chunk)
    offset += PAGE
    time.sleep(DELAY)

# Sauvegarder un export "brut" pour tra√ßabilit√©
df_raw = pd.DataFrame(all_rows)
df_raw.to_csv(RAW_DIR / "accidents_sample_raw.csv", index=False)
print(f"{len(df_raw)} lignes enregistr√©es")


### Chargement des donn√©es sources

Jusqu‚Äôici, nous avons vu comment interagir avec l‚ÄôAPI publique d‚ÄôOpendatasoft pour r√©cup√©rer les donn√©es dont nous avons besoin.  
Un fichier d‚Äôexemple de 1 000 lignes a permis d‚Äôillustrer le principe de pagination et de test de l‚ÄôAPI.

Cependant, l‚ÄôAPI limite les extractions √† des paquets de 100 enregistrements, et le jeu complet (plus de 500 000 lignes) aurait demand√© un temps de traitement trop important.  

Pour la suite du brief, nous utiliserons donc directement le fichier CSV complet, d√©j√† t√©l√©charg√© et pr√©par√© √† partir de la source officielle :  
üëâ [Accidents corporels de la circulation mill√©sim√© ‚Äî Opendatasoft](https://public.opendatasoft.com/explore/assets/accidents-corporels-de-la-circulation-millesime/export/)

Ce fichier servira de base √† toutes les √©tapes suivantes de notre pipeline (nettoyage, transformation et analyse).

# # Nettoyage du jeu de donn√©es brut
# Ce bloc charge le fichier CSV brut t√©l√©charg√© depuis Opendatasoft,
# garde uniquement les colonnes utiles √† notre mod√®le, puis √©crit un CSV nettoy√© dans `data/raw`.

In [None]:
import pandas as pd

# 1) Lire (essaie UTF-8 puis fallback latin1 si besoin)
try:
    df = pd.read_csv("../data/raw/accidents-corporels-de-la-circulation-millesime.csv",
                     sep=";", dtype=str, encoding="utf-8-sig")
except UnicodeDecodeError:
    df = pd.read_csv("../data/raw/accidents-corporels-de-la-circulation-millesime.csv",
                     sep=";", dtype=str, encoding="latin1")

print("Colonnes d√©tect√©es:", list(df.columns)[:8], "...")

# 2) Garder seulement les colonnes utiles (sans renommage)
cols = [
    "Identifiant de l'accident","Date et heure","Commune","Ann√©e","Mois","Jour","Heure minute",
    "Lumi√®re","Localisation","Intersection","Conditions atmosph√©riques","Collision",
    "D√©partement","Code commune","Code Insee","Adresse","Latitude","Longitude",
    "Surface","Circulation","Nombre de voies","Cat√©gorie route","Plan","Profil",
    "Infrastructure","Situation","Gps","year_georef",
    "Nom Officiel D√©partement","Nom Officiel R√©gion","Nom Officiel EPCI","Nom Officiel Commune",
]
df_filtered = df[cols]

# 3) √âcrire pour Excel ‚Üí UTF-8 avec BOM + pas d‚Äôindex
out_path = "../data/raw/accidents-corporels-de-la-circulation-millesime_raw.csv"
df_filtered.to_csv(out_path, sep=";", index=False, encoding="utf-8-sig")

print("‚úÖ CSV cr√©√© (compatible Excel) :", out_path)


### Nettoyage de base

Nous allons maintenant proc√©der √† un premier nettoyage des donn√©es.  
L‚Äôobjectif ici est d‚Äôobtenir un fichier exploitable et coh√©rent avant d‚Äôentamer les transformations plus avanc√©es.

Ce nettoyage de base consiste √† :
- supprimer les doublons √©ventuels,
- √©liminer les lignes sans identifiant d‚Äôaccident,
- pr√©parer un fichier CSV propre dans le dossier `data/cleaned`.

Cette √©tape garantit que les traitements suivants (analyse, enrichissement, agr√©gations) reposeront sur un jeu de donn√©es unique et fiable.


A PAUFINER

In [None]:

import pandas as pd
from pathlib import Path

# Charger le fichier d√©j√† filtr√©
df_raw = pd.read_csv(
    "../data/raw/accidents-corporels-de-la-circulation-millesime_raw.csv",
    sep=";",
    dtype=str,
    encoding="utf-8-sig"
)

print("‚úÖ Fichier charg√© :", len(df_raw), "lignes")
print("Colonnes :", list(df_raw.columns)[:8], "...")

# R√®gles minimales : garder une cl√©, d√©doublonner
df_clean = df_raw.copy()

# supprimer les lignes sans identifiant d'accident
# le nom exact de la colonne est "Identifiant de l'accident"
if "Identifiant de l'accident" in df_clean.columns:
    df_clean = (
        df_clean.dropna(subset=["Identifiant de l'accident"])
                .drop_duplicates(subset=["Identifiant de l'accident"])
    )

print("‚úÖ Apr√®s nettoyage :", len(df_clean), "lignes")

# Sauvegarde du jeu nettoy√©
CLEAN_DIR = Path("../data/cleaned")
CLEAN_DIR.mkdir(parents=True, exist_ok=True)

clean_csv = CLEAN_DIR / "accidents_clean.csv"
df_clean.to_csv(clean_csv, sep=";", index=False, encoding="utf-8-sig")

print("üíæ Fichier nettoy√© enregistr√© :", clean_csv)


## Prochaines √©tapes 

- G√©n√©rer `dim_time` √† partir des dates (ou d‚Äôun calendrier)  
- Cr√©er `dim_location` (distinct de `codeinsee`, `departement`, lat/lon si dispo)  
- Cr√©er `dim_conditions` (distinct de `lumiere`, `meteo`, `type_route`, `type_de_collision`)  
- Mapper les IDs (cl√© naturelle ‚Üí cl√© de substitution)  
- Remplir `fact_accident` avec les mesures (`ttue`, `tbg`, `tbl`, `tindm`, `grav`)  
- √âcrire `sql/schema.sql` et (option) charger via SQLAlchemy dans SQLite/MySQL/PostgreSQL
