## Comment évolue la richesse spécifique des espèces de poissons d'eau douce en France sur les 3 dernières décennies ?

**Richesse spécifique** : nombre d’espèces observées par bassin et par station de mesures

# Panneau 1
Richesse spécifique, graphe, sur toute la période, info visuelle en plus : l’ensemble des espèces par année


*Ce notebook liste des prototypes, des remarques sur l'analyse de données, c'est un travail en cours.
Il a pour but de montrer les explorations réalisés, d'expliquer pourquoi telles ou telles représentations pourrait être pertinente ou non. Il n'y a pas eu d'effort particulier sur les titres, annotations, explicitation des termes dans ce périmètre de prototypage*

Il comprend du texte, du code commenté et des représentations graphiques. Vous pouvez vous focaliser sur le texte et les représentations.

In [1]:
# import des librairies
import numpy as np
import pandas as pd
import geopandas as gpd
from shapely.geometry import Point
import plotly.express as px
import json
import math
import plotly.graph_objects as go

In [2]:
# chargement des données préparées
df_regions = pd.read_csv("./../data-preparation/richness-by-regions.csv")
df_sectors = pd.read_csv("./../data-preparation/richness-by-sectors.csv")
df_stations = pd.read_csv("./../data-preparation/richness-by-stations.csv")

In [3]:
# apeçu des données stations
df_stations.head(5)

Unnamed: 0,nom_station,periode,esp_nom_commun,esp_nom_commun_nb,pop_coordonnees_x,pop_coordonnees_y,secteur_hydro_ope,region_hydro_ope
0,01000477 - Rinxent,1999,"Chabot, Vairon, Anguille d'Europe, Lamproie ma...",9,611011,7078271,E5,E
1,01000477 - Rinxent,2001,"Chabot, Vairon, Anguille d'Europe, Truite de r...",5,611011,7078271,E5,E
2,01000477 - Rinxent,2003,"Vairon, Chabot, Anguille d'Europe, Lamproie de...",10,611011,7078271,E5,E
3,01000477 - Rinxent,2005,"Vairon, Anguille d'Europe, Chabot, Lamproie de...",10,611011,7078271,E5,E
4,01000477 - Rinxent,2007,"Chabot, Vairon, Anguille d'Europe, Truite de r...",8,611011,7078271,E5,E


In [11]:
# apeçu des données régions
df_regions.head(5)

Unnamed: 0,region_hydro_ope,periode,esp_nom_commun,esp_nom_commun_nb
0,A,1991,"Chevaine, Goujon, Gardon, Anguille d'Europe, S...",30
1,A,1993,"Vandoise, Gardon, Chevaine, Anguille d'Europe,...",34
2,A,1995,"Goujon, Chevaine, Ablette, Vairon, Anguille d'...",33
3,A,1997,"Vairon, Loche franche, Epinoche, Barbeau fluvi...",36
4,A,1999,"Barbeau fluviatile, Vairon, Anguille d'Europe,...",39


### Évolution de la richesse spécifique par station
Si l'on visualise seulement l'évolution par station, sans autre traitement préalable, c'est peu lisibile compte tenu du nombre de stations.
Il est également peu lisible de proposer une sélection par secteur ou région, car soit leur liste serait top longue à parcourir, soit la liste de stations associée reste trop importante à afficher.

In [24]:
fig = px.line(df_stations, x="periode", y="esp_nom_commun_nb", color="region_hydro_ope",
              line_group="nom_station", hover_name="nom_station")
fig.show()

### Évolution de la richesse spécifique par région
Que ce soit au niveau des secteurs et des régions, nous avons aggrégé la richesse spécifique pour tester d'autres manière de représenter l'évolution de la richesse spécifique

In [6]:
# Vue de la richesse spécifique des régions, période par période
fig = px.bar(
    df_regions, 
    x="region_hydro_ope", 
    y="esp_nom_commun_nb", 
    facet_col='periode', 
    facet_col_wrap=4)
fig.show()

In [7]:
# Evolution de la richesse spécifique des régions au court du temps, régions par régions
fig = px.line(
    df_regions, 
    x="periode", 
    y="esp_nom_commun_nb", 
    facet_col='region_hydro_ope', 
    facet_col_wrap=4)
fig.show()

In [9]:
# Evolution de la richesse spécifique des régions au court du temps, combiné
fig = px.line(
    df_regions, x="periode", y="esp_nom_commun_nb", color="region_hydro_ope",
    line_shape="spline", render_mode="svg")
fig.show()

Le problème avec ces représentations, que ce soit au niveau secteurs ou régions hydrographiques, 
est qu'elle "cache" un élément clé des données : au fil du temps, il y a de plus en plus de 
nouvelles stations où des prélèvement on eu lieu.
On a donc l'impression d'une évolution, cela est peut-être le cas, mais cette représentation est 
biaisée car ces niveaux d'aggrégation ne tiennent pas compte de l'évolution du nombre de stations

### Retour à l'évolution de la richesse spécifique par station, avec un traitement spécifique
Tenant compte du nombre de station, nous devons retraiter les données pour les agréger et les catégoriser
afin de représenter quelque chose de lisible.
Nous expérimentons de compter le nombre de stations par années, ainsi que le nombre de stations par années ayant une richesse spécifique appartenant à une catégorie (pour en simplifier la lecture).

Catégories "arbitraires" : ['0-5','5-10','10-15','15-20','20-25', '25-30']

In [12]:
# traitement des données stations
df_sta = df_stations[["nom_station", "periode", "esp_nom_commun_nb"]]

In [13]:
# nombre de station par période
df_sta_sum = df_sta.groupby(['periode']).agg({'nom_station': "count"}).reset_index()
df_sta_sum.columns = ['periode','nb_stations_periode']
df_sta_sum.head()

Unnamed: 0,periode,nb_stations_periode
0,1991,119
1,1993,216
2,1995,465
3,1997,518
4,1999,541


In [15]:
# creation d'une categorie pour la richesse spécifique
def getRichnessCategorye(richness):
    if richness > 0 and richness <= 5:
        return "0-5"
    elif richness > 5 and richness <= 10:
        return "5-10"
    elif richness > 10 and richness <= 15:
        return "10-15"
    elif richness > 15 and richness <= 20:
        return "15-20"
    elif richness > 20 and richness <= 25:
        return "20-25"
    elif richness > 25 and richness <= 30:
        return "25-30"
    
df_sta["richness_category"] = df_sta.apply(
    lambda x: getRichnessCategorye(x['esp_nom_commun_nb']), 
    axis=1)
df_sta.head(5)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,nom_station,periode,esp_nom_commun_nb,richness_category
0,01000477 - Rinxent,1999,9,5-10
1,01000477 - Rinxent,2001,5,0-5
2,01000477 - Rinxent,2003,10,5-10
3,01000477 - Rinxent,2005,10,5-10
4,01000477 - Rinxent,2007,8,5-10


In [18]:
# comptage des stations par periode et catégorie de richesse spécifique
df_stations_count = df_sta[["nom_station", "periode", "richness_category"]].groupby(
    ['periode','richness_category']
    ).agg('count').reset_index()
df_stations_count.columns = ['periode','richness_category','count_stations']

richness_categories = ['0-5','5-10','10-15','15-20','20-25', '25-30']

df_stations_count['richness_category'] = pd.Categorical(
    df_stations_count['richness_category'], 
    richness_categories
)
df_stations_count_sorted = df_stations_count.sort_values("richness_category")
df_stations_count_sorted.head(5)

Unnamed: 0,periode,richness_category,count_stations
0,1991,0-5,28
30,2003,0-5,129
19,1999,0-5,114
36,2005,0-5,255
42,2007,0-5,375


In [19]:
# fusion avec le nb de stations par periode
df_sta_merge = pd.merge(df_stations_count_sorted, df_sta_sum, on='periode', how='left')
df_sta_merge["percentage"] = round(
    df_sta_merge["count_stations"] / df_sta_merge["nb_stations_periode"] * 100,
    1)
# ajout d'un pourcentage pour chaque couple [ periode, richness_category ]

### Vue par pourcentage de stations qui appartienne à une catégorie de riche spécifique chaque année
Au fil du temps, on peux mieux observer la répartition des stations :
- apparition de la catégorie 25-30 sur la période 2003
- c'est dans la période 1999 qu'on a le plus grand % de stations dans les catégories supérieures à 10
- on voit une baisse de 1991 à 1999 du nombre de stations à la richesse spécifique 0-10, puis une légère remontée

In [21]:
# vue verticale
fig = px.bar(df_sta_merge, x="periode", y="percentage", color="richness_category",
            color_discrete_sequence = ['#edf8fb','#bfd3e6','#9ebcda','#8c96c6','#8856a7','#810f7c'])

fig.show()

In [22]:
# vue horizontale
fig = px.bar(df_sta_merge, x="percentage", y="periode", color="richness_category", orientation='h',
             color_discrete_sequence = ['#edf8fb','#bfd3e6','#9ebcda','#8c96c6','#8856a7','#810f7c'])
fig.show()

On peut vouloir également représenter cela en valeur absolue du nombre de stations pour expliciter l'augmentation de leur nombre.
Avec la représentation ci-dessous, il est plus difficile de se rendre compte de l'évolution relative, mais on communique mieux l'évolution du périmètre de mesure, tout en ayant un ordre d'idée de leur répartition dans les catégories.

*Attention, dans ce graphique, la catégories 35-30 apparait même si sa valeur est nulle, cela sera corrigé si ce type de graphique est retenu*

In [23]:
fig = px.area(df_sta_merge, x="periode", y="count_stations", color="richness_category",
              color_discrete_sequence = ['#edf8fb','#bfd3e6','#9ebcda','#8c96c6','#8856a7','#810f7c'])
fig.show()