<img src="https://raw.githubusercontent.com/fbxyz/pratik/refs/heads/main/geodata.svg" style="margin-left:auto; margin-right:auto; width:500px; height:auto;"/>


<center> 
    <h1>Géodata Paris : statistiques appliquées en cartographie</h1>
    <h2>TD 4 : discrétisation et comparaison de méthodes</h2> 
    <h3>Florian Bayer, Sami Guembour, Janvier 2026</h3>
</center> 

<hr style="height: 2px; color:  #2c378f ; background-color:  #2c378f; width: 100%; border: none;">

## Objectifs
- Comparer l'impact des différentes méthodes de discrétisation sur la représentation cartographique
- Analyser l'évolution de l'artificialisation des sols en France entre 1990 et 2020

## Contexte
L'artificialisation des sols est un enjeu majeur en France. Vous disposez de données départementales sur l'occupation des sols entre 1982 et 2020.

Vous allez être répartis en **4 groupes**, chaque groupe devant produire des cartes avec une méthode de discrétisation attribuée :
- Groupe 1 : **Quantiles**
- Groupe 2 : **Q6**
- Groupe 3 : **Amplitudes égales**
- Groupe 4 : **Seuils naturels (Jenks)**

<hr style="height: 2px; color:  #2c378f ; background-color:  #2c378f; width: 100%; border: none;">

# 1. Données

## 1.1 Chargement des données

Les données proviennent du fichier `occupation_sol.csv` et contiennent par département :
- **Sols artificiels** : surfaces artificialisées (hectares)
- **Sols agricoles** : surfaces agricoles (hectares)
- **Sols naturels** : surfaces naturelles (hectares)

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/occupation_sol.csv")
df.head()

Unnamed: 0,Département,Année de référence,Sols artificiels,Sols agricoles,Sols naturels
0,75 - Ville de Paris,1982,55702,5813,14747
1,75 - Ville de Paris,1983,55314,5978,14969
2,75 - Ville de Paris,1984,55362,5957,14943
3,75 - Ville de Paris,1985,55402,5911,14949
4,75 - Ville de Paris,1986,55353,5912,14997


## 1.2 Préparation des données

On extrait les données pour 1990 et 2020, puis on calcule :
- Le **taux d'artificialisation** (% de sols artificiels)
- L'**évolution** du taux entre 1990 et 2020

In [2]:
# Extraction du code département (ex: "75 - Ville de Paris" -> "75")
df["COD_GEO"] = df["Département"].str.split(" - ").str[0]

# Extraction des années 1990 et 2020
df_1990 = df[df["Année de référence"] == 1990].copy()
df_2020 = df[df["Année de référence"] == 2020].copy()

# Calcul de la surface totale et du taux d'artificialisation
df_1990["Surface_totale"] = df_1990["Sols artificiels"] + df_1990["Sols agricoles"] + df_1990["Sols naturels"]
df_1990["Taux_artif_1990"] = (df_1990["Sols artificiels"] / df_1990["Surface_totale"] * 100).round(2)

df_2020["Surface_totale"] = df_2020["Sols artificiels"] + df_2020["Sols agricoles"] + df_2020["Sols naturels"]
df_2020["Taux_artif_2020"] = (df_2020["Sols artificiels"] / df_2020["Surface_totale"] * 100).round(2)

# Fusion des données
df_analyse = df_1990[["COD_GEO", "Département", "Taux_artif_1990"]].merge(
    df_2020[["COD_GEO", "Taux_artif_2020"]], 
    on="COD_GEO"
)

df_analyse.head(10)

Unnamed: 0,COD_GEO,Département,Taux_artif_1990,Taux_artif_2020,Evolution_pts
0,75,75 - Ville de Paris,73.77,78.03,4.26
1,77,77 - Seine-et-Marne,9.1,12.79,3.69
2,78,78 - Yvelines,15.87,21.52,5.65
3,91,91 - Essonne,17.9,23.35,5.45
4,95,95 - Val-d'Oise,21.52,26.05,4.53
5,18,18 - Cher,4.53,6.32,1.79
6,28,28 - Eure-et-Loir,5.82,7.58,1.76
7,36,36 - Indre,3.83,6.08,2.25
8,37,37 - Indre-et-Loire,6.48,10.17,3.69
9,41,41 - Loir-et-Cher,7.05,8.02,0.97


<hr style="height: 2px; color:  #2c378f ; background-color:  #2c378f; width: 100%; border: none;">

# 2. Analyse univariée

<blockquote style="color:#bc4749">

Analysez la distribution des indicateurs

Pour chaque indicateur :
- Calculez les valeurs centrales et paramètres de dispersion
- Réalisez un graphique pour visualiser la forme de la distribution
- Interprétez les résultats

</blockquote>

In [None]:
# Votre code ici


<hr style="height: 2px; color:  #2c378f ; background-color:  #2c378f; width: 100%; border: none;">

# 3. Cartographie par groupe

<blockquote style="color:#bc4749">

Chaque groupe doit produire **deux cartes choroplèthes** avec sa méthode de discrétisation attribuée :
1. Carte du **taux d'artificialisation en 2020**
2. Carte de l'**évolution du taux entre 1990 et 2020**

Utilisez l'outil de votre choix (Magrit, QGIS, Python...).

Le fond de carte départemental est disponible ici :
[DEP_GEN3_3857.geojson](https://raw.githubusercontent.com/fbxyz/ENSG_L1_cartostat/main/td/data/DEP_GEN3_3857.geojson)

La jointure se fait sur le champ `COD_GEO`.

</blockquote>

## 3.1 Export des données pour la cartographie

In [None]:
# Export en CSV pour utilisation dans QGIS/Magrit
df_export = df_analyse[["COD_GEO", "Département", "Taux_artif_1990", "Taux_artif_2020", "Evolution_pts"]]
df_export.to_csv("data/artificialisation_1990_2020.csv", index=False)
print("Fichier exporté : data/artificialisation_1990_2020.csv")

<hr style="height: 2px; color:  #2c378f ; background-color:  #2c378f; width: 100%; border: none;">

# 4. Rendu

<blockquote style="color:#bc4749">

Chaque groupe devra :
- Analyser la distribution statistique des données (histogramme, valeurs centrales, dispersion)
- Présenter les **avantages et inconvénients** de la méthode de discrétisation attribuée
- **Argumenter** en faveur de votre méthode avec des arguments scientifiques
- **Illustrer** avec vos cartes

</blockquote>

## Vos cartes

Insérez vos cartes ci-dessous :

```html
<img src="chemin_vers_votre_carte.png">
```

## Votre argumentation