# Spatialisation des naissances: analyse des données

## Introduction

Dans ce carnet nous expérimentons différentes méthodes de spatialisation de l'information:
* la projection de points avec diamètre de longueur proportionnelle à l'effectif des objets représentés
* la représentation de polygones correspondants aux États contemporains avec gradient de couleur en fonction de l'effectif des individus nés dans cette région: [cartes choroplèthes](https://fr.wikipedia.org/wiki/Carte_choropl%C3%A8the)
* un affichage dynamique de l'évolution dans le temps utilisant la librairie [Plotly Express](https://plotly.com/python/plotly-express/)


## Remarque importante

ATTENTION: ce carnet devient très lourd lorsque les cartes sont affichées. Il est __impératif de vider les résultats__ du carnet _entièrement_ avant d'effectuer un commit. Si le carnet (ou tout autre fichier dans le dépôt) dépasse les 200 MB, le _push_ vers Github sera impossible, et il sera compliqué de revenir en arrière.


NB En cas d'erreur si carnet trop de volume trop important on a l'[option décrite sur cette page](https://hkim-dev.github.io/programming/Managing-Large-Files-in-Git-Removing-Files-from-History/).

 
Le mieux, si on travaille seul, est de procéder ainsi:
* identifier le commit qui a créé le problème
* créer une copie locale dans un autre dossier des fichiers modifiés depuis, dans leur dernière version corrigée et allégée
* revenir au commit précédent: cf. [ces instructions](https://www.freecodecamp.org/news/git-reverting-to-previous-commit-how-to-revert-to-last-commit/)
* remettre les fichiers modifié dans le dossier tout en veillant à ce qu'il n'y ait aucun fichier de plus de 200 MB et pas de dépòt globalement de plus de 2 GB
* refaire un _commit_ et un _push_


## Les SIG


* L’[information géographique](https://fr.wikipedia.org/wiki/Information_g%C3%A9ographique) (attributs, relations spatiales, géométries)
* Les [systèmes d'information géographique](https://fr.wikipedia.org/wiki/Syst%C3%A8me_d%27information_g%C3%A9ographique) ou SIG : formes des géométries (du point à la 3D)
* Représentation de la réalité spatiale: géométries et données attributaires
   * Exemple: [Corine Land Cover](https://fr.wikipedia.org/wiki/Corine_Land_Cover), base de données européenne d'occupation du sol, financée par la communauté européenne


In [2]:
### Noter qu'il faudra avoir installé toutes les librairies nécessaires
# dans l'environnement conda utilisé pour exécuter ce carnet
import pandas as pd
import geopandas as gpd
#from shapely.geometry import LineString
from geopandas.tools import sjoin
from geodatasets import get_path
#import networkx as nx
import matplotlib.pyplot as plt
import plotly.express as px
from itables import init_notebook_mode, show
import numpy as np
#import seaborn as sns
import json
import IPython

ModuleNotFoundError: No module named 'geodatasets'

In [None]:
### Librairies déjà installées avec Python
import pprint
import sqlite3 as sql
import sys
from importlib import reload


## Un premier affichage exploratoire

On utilise la librairie GeoPandas qui apporte de nombreuses fonctionnalités SIG


[Introduction à GeoPandas](https://geopandas.org/en/stable/getting_started/introduction.html)


Noter que les données de Wikidata sont stockées au format [WKT (Well Known Text)](https://en.wikipedia.org/wiki/Well-known_text_representation_of_geometry), par ex. POINT (37.61778 55.75583), et que la librairie GeoPanas va les transformer en géométries (type de valeur Python spécifique)

In [None]:
### Se connecter à la base de données
cn = sql.connect('../../data/astronomers_import.db')
cn

In [None]:
### Préparer les données à afficher
# Il est plus simple d'effecture cette requête en SQL que dans Pandas
cur = cn.cursor()
l = cur.execute("""
SELECT placeUri, placeLabel, COUNT(*) eff, MAX(placeCoord) geo_coord
FROM wdt_person_birth_place wpbp
-- il y a des erreurs dans Wikidata
WHERE placeCoord LIKE 'Point(%'
GROUP BY placeUri, placeLabel
-- exclut les valeurs vides
HAVING LENGTH(MAX(placeCoord)) > 7
ORDER BY eff DESC
""").fetchall()
print(len(l))
l[:2]

In [None]:
### Créer un dataframe contenant le résultat
df_l = pd.DataFrame(l, columns=['placeUri', 'placeLabel', 'effectif', 'geoCoord'])
df_l.head()

In [None]:
### Tester la fonction qui exécute la conversion en géométrie
# Cf. excursus concernant le nettoyage ci-dessous
s = gpd.GeoSeries.from_wkt(df_l.geoCoord[:5])
s

In [None]:
### Créer un dataframe geopandas avec une colonne contenant une géométrie 
# https://geopandas.org/en/stable/gallery/create_geopandas_from_pandas.html
birth_gdf = gpd.GeoDataFrame(
    df_l[['placeUri', 'placeLabel', 'effectif']],\
    geometry=gpd.GeoSeries.from_wkt(df_l.geoCoord.to_list()), crs="EPSG:4326"
)

# On dispose ainsi du DataFrame GeoPandas avec la colonne indispensable 'geometry'
birth_gdf.head(3)

### Excursus concernant le nettoyage des données

Les fonctions de conversion entre Well Known Text (WKT) et géométries ne marchent que si les données sont propres et conformes.


Il y a donc tout un travail de nettoyage à effectuer sur les données de wikidata.
* Avec les stratégies qui suivent on a identifé les lignes erronées, puis on les a exclues en amont dans la requête SQL de départ.
* On aurait pu aussi passer un peu de temps pour nettoyer les données mais, vu l'approche heuristique, on a renoncé dans ce cas

In [None]:
### Avec cette stratégie, on peu inspecter les lignes qui posent problème
rl = []
i = 0
for e in df_l.geoCoord.to_list():
    try:
        a = gpd.GeoSeries.from_wkt([e])
    except Exception as e:
        print(i, e)
        print(df_l.iloc[i])
    rl.append(a)
    i += 1
#rl[:5]


In [None]:
### Avec stratégie on crée une fonction pour attribuer un code,
# ici le 999, aux lignes qui posent problème
def coord_split(c, i):
    try:
        a = round(float((c.split(' ')[i])), 4)
    except Exception as e:
        a = 999
    finally:
        pass
    #a = 999 
    return a       

In [None]:
### On applique ici la fonction

# ATTENTION : on illustre ici une stratégie dont
# on n'a pas besoin si les données sont propres en amont

df_l['longitudeBirth'] = df_l['geoCoord'].apply(lambda x: coord_split(x, 0))
df_l['latitudeBirth'] = df_l['geoCoord'].apply(lambda x : coord_split(x, 1))

## On cherche ensuite les lignes qui posent problème
df_l[df_l.longitudeBirth==999].sort_values(by='effectif', ascending=False)

## Réalisation de la première carte

In [None]:
### Inspection des données à afficher
birth_gdf.info()

In [None]:
### Datasets Geopandas pour la couche de base
gpd.datasets.available

FutureWarning:

The geopandas.dataset module is deprecated and will be removed in GeoPandas 1.0. You can get the original 'naturalearth_lowres' data from https://www.naturalearthdata.com/downloads/110m-cultural-vectors/.

In [None]:
### Récupérer la carte de base, qui est aussi un DataFrame GeoPandas
world_filepath = gpd.datasets.get_path('naturalearth_lowres')
world = gpd.read_file(world_filepath)
world.head()

### La question du géoréférencement des géométries

* Le [géoide](https://fr.wikipedia.org/wiki/G%C3%A9o%C3%AFde#%C3%80_quoi_sert_un_g%C3%A9o%C3%AFde_?)
* Le [système géodésique](https://fr.wikipedia.org/wiki/Syst%C3%A8me_g%C3%A9od%C3%A9sique)
* Le [système géodésique mondial WGS 84](https://fr.wikipedia.org/wiki/WGS_84)

In [None]:
### Types de géométries
pprint.pp(world.crs)
print('-------\n')
pprint.pp(birth_gdf.crs)



In [None]:
### Cartographier de toutes les naissances de personnes
# projection géographique

ax = world.plot(color="white", edgecolor="black", figsize=(15,10))

#ax.set_xlim([-0.1, 2])
ax.set_ylim([-60, 90])

# Noter que le diamètre du marqueur est fixe
birth_gdf.plot(ax=ax, color="red", markersize=0.5)

plt.show()

In [None]:
### Focus sur l'Europe à partir de la même carte
# On restreint les degrés longitude, latitude

ax = world.plot(color="white", edgecolor="black", figsize=(15,10))

# lon
ax.set_xlim([-10, 50])
# lat
ax.set_ylim([25, 75])

# Noter que le diamètre du marqueur est proportionnel aux effectifs du lieu
birth_gdf.plot(ax=ax, color="red", markersize=birth_gdf.effectif)

plt.show()

In [None]:
### Transformation de la géographie
# vers une géométrie projetée: Web Mercator (EPSG 3857)
# Google Maps Global Mercator (EPGS 900913)

## Démarche effectuée à titre illustratif ici:
# indispensable si on utilise des données spatiales nationales 
# qui sont dans des coordonnées et projections spatiales propres 



### https://en.wikipedia.org/wiki/Web_Mercator_projection 

prj_world = world.copy(deep=True)
prj_world.geometry = prj_world.geometry.to_crs(900913)
pprint.pp(prj_world.crs)
print('------')
prj_birth_gdf = birth_gdf.copy(deep=True)
prj_birth_gdf.geometry = prj_birth_gdf.geometry.to_crs(900913)
pprint.pp(prj_birth_gdf.crs)

In [None]:
### Cartographier toutes les naissances de personnes
# avec deux systèmes de projection différents:
# géographique à gauche, Global Mercator à droite

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(30,20))

ax1 = world.plot(color="white", ax=axes[0], edgecolor="black")
#ax.set_xlim([-0.1, 2])
ax1.set_ylim([-60, 90])

birth_gdf.plot(ax=axes[0], color="red", markersize=2)

ax2 = prj_world.plot(color="white", ax=axes[1], edgecolor="black")
#ax.set_xlim([-0.1, 2])
ax2.set_ylim([-8.5*10e5, 1.5*10e6])

prj_birth_gdf.plot(ax=axes[1], color="red", markersize=2)

plt.show()

## Affichage dynamique en relation avec les périodes


On teste ici un affichage dynamique avec la librairie Plotly express

In [None]:
### Préparer les données à afficher:
# on ne les regroupe pas encore afin de coder les périodes
cur = cn.cursor()
l = cur.execute("""
SELECT birthYear,placeUri, placeLabel, placeCoord AS geo_coord
FROM wdt_person_birth_place wpbp
-- il y a des erreurs dans Wikidata
WHERE placeCoord LIKE 'Point(%'
""").fetchall()

df_all = pd.DataFrame(l, columns=['birthYear','placeUri', 'placeLabel', 'geo_coord'])
print(len(df_all))
df_all.head()

### Coder les données avec les périodes

In [None]:
### Préparer la liste des périodes
l1 = [1351,1451,1551,1651,1701,1751]
l2 = list(range(1801, 2002, 25))
l_p = l1 + l2
print(l_p)

In [None]:
### fonction pd.cut : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html
# On ajoute une nouvelle colonne qui contient la période sur la base de la liste précédente
# et de la valeur de l'année

df_all['birthYear'] = df_all['birthYear'].astype(int)
df_all['generations'] = pd.cut(df_all['birthYear'], l_p, right=False)

### Transformer le code ajouté pour qu'il soit plus lisible
# noter qu'on a arrondi les valeurs
df_all['generations'] = df_all['generations'].apply(lambda x : str(int(x.left))+'-'+ str(int(x.right)-1))

# Inspection
df_all.head(3)

In [None]:
ax = df_all.groupby(by='generations', observed=True).size().plot(kind='bar',
                                            rot=60, fontsize=9, figsize=(8,7))
ax.bar_label(ax.containers[0], fontsize=9)
plt.ylabel('Effectif')
plt.xlabel('Périodes')
plt.title('Naissances par générations')
plt.show()

In [None]:
### Créer une nouvelle table contenant le DataFrame
# Si on tente de la recréer, alor qu'elle existe déjà,
# un message d'erreur est renvoyé
try:
    l = df_all[['generations', 'placeUri', 'placeLabel', 'geo_coord']]\
             .to_sql(name='wdt_generations_birth_place', con=cn, if_exists='fail')
except Exception as e:
    print('Erreur: ',  e)

### Grouper et compter

On passe par la base de données parce que c'est plus simple qu'utiliser directement Pandas.


Noter que désormais ce sont les naissances (regroupées en périodes), et leur effectif, qui sont la variable étudiée 


In [None]:
q1 = """
SELECT generations, placeLabel, geo_coord, COUNT(*) as effectif
FROM wdt_generations_birth_place wgbp
GROUP BY generations, placeUri, placeLabel, geo_coord
"""
### Préparer les données à afficher
cur = cn.cursor()
l = cur.execute(q1).fetchall()
print(len(l))
l[:2]

In [None]:
### Préparation des données à afficher dans Plotly Express
# ici on utilisé les coordonnées géographiques
df_gen_gr = pd.DataFrame(l, columns=['periode', 'lieu', 'geo_coord', 'eff'])
df_gen_gr.geo_coord = df_gen_gr.geo_coord.apply(lambda x: x.replace('Point(', '')\
                                .replace(')',''))
df_gen_gr['long'] = df_gen_gr.geo_coord\
    .apply(lambda x: round(float((x.split(' ')[0])), 4))
df_gen_gr['lat'] = df_gen_gr.geo_coord\
    .apply(lambda x: round(float((x.split(' ')[1])), 4))

df_gen_gr.head()

In [None]:
### Création de la carte interactive
# https://plotly.com/python/animations/
# https://plotly.com/python/scatter-plots-on-maps/

# np.log(s) * 1000
size = [s if s != 0 else 0 for s in df_gen_gr.eff]

fig = px.scatter_geo(
    df_gen_gr,
    lat="lat",
    lon="long",
    size=size,
    hover_name = "lieu",
    animation_frame="periode",
    width=1400, height=600,
    color_discrete_sequence=['red'],
    title="Evolution des lieux de naissance"
).update_layout(
        margin={"l": 0, "r": 20, "t": 30, "b": 0}
)

# On peut ici augmenter la durée des étapes
fig.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 1500

### Noter qu'on enregistre l'image afin de pouvoir l'ouvrir dans un navigateur
# et l'inspecter sans exécuter le code Python du carnet
f_address = "images/birth_places_points.html"
fig.write_html(f_address)
fig.show()

## Grouper et compter les naissances par État contemporain

In [None]:
### Polygones des États contemporains
print(len(world))
world.head()

In [None]:
world_s = world[['name','geometry']].copy(deep=True)
world_s

In [None]:
### Transformer les coordonnées géogr. en points
df_gen_gr_gdf = gpd.GeoDataFrame(
    df_gen_gr[['periode', 'lieu', 'eff']],\
    geometry=gpd.points_from_xy(df_gen_gr.long, df_gen_gr.lat), crs="EPSG:4326"
)

df_gen_gr_gdf.head(3)


In [None]:
### Vérification
df_gen_gr_gdf.loc[df_gen_gr_gdf['lieu']=='Neuchâtel']

### Préparation de la fonction qui va créer les données à afficher

In [None]:

# https://geopandas.org/en/stable/docs/reference/api/geopandas.sjoin.html
# https://stackoverflow.com/questions/69644523/count-points-in-polygon-and-write-result-to-geodataframe


dfa = world_s.copy(deep=True)
dfb = df_gen_gr_gdf[df_gen_gr_gdf.periode == '1701-1750']

### jointure spatiale
dfc =  gpd.sjoin(dfb, dfa).groupby("name").sum(numeric_only=True)
dfa = dfa.join(dfc, on='name', how="left")
dfa.eff.fillna(value=0, inplace=True)
dfa['eff'] = dfa['eff'].astype(int)

dfa = dfa.assign(periode = '1701-1750')

dfa[dfa.eff > 0].sort_values(by='eff', ascending=False).head()



In [None]:
### Transformer en json pour afficher dans Plotly Express
countries_polygons = dfa[['name', 'geometry']]
countries_polygons.index = countries_polygons['name']
countries_polygons = countries_polygons.drop(['name'], axis=1)
countries_polygons_json = json.loads(countries_polygons.to_json())

In [None]:
### Représenter la densité de naissances de mathématiciens par pays
# uniteuemnt pour une période données
# https://plotly.com/python/animations/
# https://plotly.com/python-api-reference/generated/plotly.express.choropleth_mapbox.html
# https://medium.com/@lucas_bromerchenkel/choropleth-maps-with-time-sliders-using-plotly-df6e19e5f90c

# np.log(s) * 1000
size = [s if s != 0 else 0 for s in dfa.eff]

fig = px.choropleth_mapbox(
    dfa,
    geojson=countries_polygons_json,
    locations="name",
    color="eff",
    mapbox_style='white-bg',
    zoom=1,
    color_continuous_scale='blues',
    ### valeur 20 définie en fonction de la distribution par pays
    # expérimenter en changeant la valeur
    range_color=(1, 20),
    width=1000, height=600,
    title="Evolution des lieux de naissance"
)


fig.show()

In [None]:
### Créer la liste des périodes
lp = df_gen_gr.groupby(by='periode').size().index.to_list()
lp

In [None]:
### Préparer les données, un DataFrame avec jointure spatiale
# par période 
frames=[]
for e in lp:
    
    dfa = world_s.copy(deep=True)
    dfb = df_gen_gr_gdf[df_gen_gr_gdf.periode == e]
    
    ### jointure spatiale
    dfc =  gpd.sjoin(dfb, dfa).groupby("name").sum(numeric_only=True)
    dfa = dfa.join(dfc, on='name', how="left")
    dfa.eff.fillna(value=0, inplace=True)
    dfa['eff'] = dfa['eff'].astype(int)

    dfa = dfa.assign(periode = e)

    frames.append(dfa)


### Concaténation des DataFrames
df_result = pd.concat(frames)
df_result=df_result.reset_index()
df_result.tail()


In [None]:
### inspection des données pour un pays
df_result[df_result.name=='France']

In [None]:
### Transformer en json pour affichage dans Plotly
countries_polygons = df_result[['name', 'geometry']]
countries_polygons.index = countries_polygons['name']
countries_polygons = countries_polygons.drop(['name'], axis=1)
countries_polygons_json = json.loads(countries_polygons.to_json())

In [None]:
### Représenter la densité de naissances de mathématiciens par pays
# carte interactive.
# Noter que l'exécution peutprendre quelques minutes

# https://plotly.com/python/animations/
# https://plotly.com/python-api-reference/generated/plotly.express.choropleth_mapbox.html
# https://medium.com/@lucas_bromerchenkel/choropleth-maps-with-time-sliders-using-plotly-df6e19e5f90c

# np.log(s) * 1000
size = [s if s != 0 else 0 for s in df_result.eff]

fig = px.choropleth_mapbox(
    df_result,
    geojson=countries_polygons_json,
    locations="name",
    color="eff",
    mapbox_style='white-bg',
    zoom=1,
    color_continuous_scale='blues',
    ### valeur 20 définie en fonction de la distribution par pays
    # expérimenter en changeant la valeur
    range_color=(1, 200),
    animation_frame="periode",
    width=1000, height=600,
    title="Evolution des lieux de naissance"
).update_layout(
    #mapbox={"style": "carto-positron", "zoom":10},
    margin={"l": 0, "r": 0, "t": 30, "b": 0}
)

fig.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 1000

### Noter qu'on enregistre l'image afin de pouvoir l'ouvrir dans un navigateur
# et l'inspecter sans exécuter le code Python du carnet
f_address = "images/birth_places_choropleth.html"
fig.write_html(f_address)

fig.show()