# Imports

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import requests
import json
# import logging

In [3]:
import pandas as pd

## Extraction parquet


In [6]:
import requests

# URL Parquet de ton dataset
dataset_id = "accidents-corporels-de-la-circulation-millesime"
parquet_url = f"https://public.opendatasoft.com/api/explore/v2.1/catalog/datasets/{dataset_id}/exports/parquet"

# Télécharger le Parquet directement
response = requests.get(parquet_url, timeout=60)
if response.status_code != 200:
    raise Exception(f"Erreur téléchargement Parquet: {response.status_code}")

In [16]:
import io
# Lire le contenu Parquet en DataFrame directement depuis le flux mémoire
parquet_data = response.content
raw_dataframe = pd.read_parquet(io.BytesIO(parquet_data))

## Extraction Paginée: Abort mission


In [14]:
import requests
import pandas as pd
import time

def fetch_accidents_paginated(limit=500):
    """
    Récupère les données de l'API OpenDataSoft en JSON,
    en utilisant une pagination via 'start' et 'rows'.
    Chaque chunk est stocké dans une liste de DataFrames.
    Gère automatiquement le rate limit (429) avec pause.
    """
    url = "https://public.opendatasoft.com/api/records/1.0/search/"
    dataset_slug = "accidents-corporels-de-la-circulation-millesime@public"

    offset = 0
    all_chunks = []

    while True:
        params = {
            "dataset": dataset_slug,
            "rows": limit,       # nombre de lignes par chunk
            "start": offset,     # offset pour pagination
            "timezone": "Europe/Paris"
        }

        try:
            response = requests.get(url, params=params, timeout=30)

            # Gestion du rate limit
            if response.status_code == 429:
                print("⏳ Rate limit atteint, pause 10 secondes...")
                time.sleep(10)
                continue  # recommence la même requête

            if response.status_code != 200:
                print(f"❌ Erreur API: {response.status_code}")
                break

            data = response.json().get("records", [])
            if not data:
                print("🔹 Plus de données à récupérer.")
                break

            # Convertir le chunk JSON en DataFrame
            df_chunk = pd.json_normalize(data)
            all_chunks.append(df_chunk)

            print(f"🔹 Chunk récupéré: {len(df_chunk)} lignes (offset {offset})")

            # Pause courte pour éviter le rebuke du serveur
            time.sleep(1)

            # Avancer l'offset pour le prochain chunk
            offset += len(df_chunk)

        except Exception as e:
            print(f"❌ Erreur lors de la récupération du chunk: {e}")
            break

    return all_chunks

# Utilisation
print("🔍 Pagination API des accidents corporels...")
chunks_list = fetch_accidents_paginated(limit=10000)

print("Nombre de chunks récupérés :", len(chunks_list))

# Optionnel : concaténer tous les chunks en un seul DataFrame
# df_accidents = pd.concat(chunks_list, ignore_index=True)


🔍 Pagination API des accidents corporels...
🔹 Chunk récupéré: 10000 lignes (offset 0)
❌ Erreur API: 400
Nombre de chunks récupérés : 1


# Chargement en DB - V1

In [31]:
from sqlalchemy import create_engine

# Connexion PostgreSQL
engine = create_engine("postgresql+psycopg2://postgres:password@localhost:5432/postgres")

# Sauvegarder localement en fichier Parquet (optionnel)
raw_dataframe.to_parquet("accidents.parquet", index=False)

# Nettoyage
if "datetime" in raw_dataframe.columns:
    raw_dataframe.drop(columns=["datetime"], inplace=True)
if "int" in raw_dataframe.columns:
    raw_dataframe.rename(columns={"int": "intsect"}, inplace=True)
    
# Lecture chunk par chunk pour insertion PostgreSQL
chunksize = 50000
for start in range(0, len(raw_dataframe), chunksize):
    chunk = raw_dataframe.iloc[start:start+chunksize]
    chunk.to_sql("raw_accidents", engine, schema="accidents_bronze", if_exists="append", index=False)
    print(f"Chunk {start//chunksize + 1} inséré ({len(chunk)} lignes)")

print("✅ Conversion CSV → Parquet et insertion terminée.")

Chunk 1 inséré (50000 lignes)
Chunk 2 inséré (50000 lignes)
Chunk 3 inséré (50000 lignes)
Chunk 4 inséré (50000 lignes)
Chunk 5 inséré (50000 lignes)
Chunk 6 inséré (50000 lignes)
Chunk 7 inséré (50000 lignes)
Chunk 8 inséré (50000 lignes)
Chunk 9 inséré (50000 lignes)
Chunk 10 inséré (25911 lignes)
✅ Conversion CSV → Parquet et insertion terminée.


# Autres

In [None]:
df_accidents.shape

(50, 52)

In [None]:
L = df_accidents.columns.tolist().sort()
L

In [None]:
df_accidents.head(3)

Unnamed: 0,org,lum,agg,int,atm,col,dep,catr,infra,voie,...,intersection,condition_atmospherique,type_de_collision,categorie_de_route,regime_de_circulation,voie_speciale,profil_en_long,trace_en_plan,situation_de_l_accident,departement
0,1,1,3,1,1,7,890,3,0,112,...,Hors intersection,Normale,Sans collision,Route Départementale,Bidirectionnelle,,,Partie rectiligne,Sur chaussée,89
1,5,1,7,3,2,3,900,4,0,0,...,Intersection en T,Pluie légère,Deux véhicules – par le coté,Voie Communale,Bidirectionnelle,,Plat,Partie rectiligne,Sur chaussée,90
2,1,1,1,1,1,3,910,1,0,10,...,Hors intersection,Normale,Deux véhicules – par le coté,Autoroute,A sens unique,Voie réservée,Pente,En courbe à droite,Sur chaussée,91


## ✅ Instructions d'Utilisation - Version Simplifiée

### 1. **Configuration PostgreSQL**

Modifiez le fichier `.env` avec vos paramètres PostgreSQL existants :

```bash
# Votre PostgreSQL existant
POSTGRES_HOST=localhost          # Ou IP de votre serveur
POSTGRES_PORT=5432              # Port PostgreSQL
POSTGRES_DB=nom_votre_db        # Nom de votre base
POSTGRES_USER=votre_user        # Votre utilisateur
POSTGRES_PASSWORD=votre_mdp     # Votre mot de passe
```

### 2. **Installation Rapide**

```bash
pip install requests pandas sqlalchemy psycopg2-binary python-dotenv jupyter matplotlib seaborn
```

### 3. **Exécution**

Exécutez les cellules ci-dessus dans l'ordre :
1. **Configuration** (cellule 2)
2. **Test PostgreSQL** (cellule 3)
3. **Test API** (cellule 4)

### 4. **Prochaines Étapes**

Une fois que les tests passent, nous pourrons :
- Explorer les données d'accidents disponibles
- Créer une table simple dans PostgreSQL
- Ingérer quelques données de test

---

**🎯 Version MVP fonctionnelle en 5 minutes !**