# Exercice Formation

1. Télécharger le fichier arrondissements.geojson et le fichier p2-arbres-fr.csv.
2. Installer un environnement virtuel avec anaconda, conda install -c conda-forge missingno -y, conda install -c conda-forge altair -y, conda install -c plotly plotly -y, conda install -c conda-forge folium -y, pip install vega
3. Associer cet environnement à un kernel Jupyter python -m ipykernel install --user --name=dataval --display-name="DataValue"
4. Créer un dataframe à partir du fichier csv p2-arbres-fr
5. Afficher la taille, un describe, un info, les données manquantes avec missingno et le % de données manquantes par colonnes
6. Uniformiser la casse des caractères, enelever la ponctuation pour les chaines de caractères, 
7. Convertir à la même unité le diamètre et la hauteur des arbres (m), enlever la taille des arbres > 40 m et le diamètre supérieur > 30m
8. Avec Plotly Express, tracer la taille des arbres en fonction du diamètre, couleur va être par espèce
9. Faire un bar plot par arrondissement de la taille des arbres et pareil avec le diamètre
10. Faire un pie chart avec plotly sur les espèces arbres (top 10)
11. Faire un sunburst sur la hauteur des arbres, arrondissement et les top 10 des espèces (filtrer le jeu de données)
12. Tracer des violinplots sur les distributions des diamètres et des hauteurs
13. Tracer une carte choroplèthe sur la taille des arbres par arrondissement (folium)

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import missingno as msn
import matplotlib.pyplot as plt
import plotly.express as px
import folium

In [None]:
arbres = pd.read_csv("data/p2-arbres-fr.csv", sep=";")

In [None]:
arbres.head()

In [None]:
arbres.shape

In [None]:
arbres.info()

In [None]:
arbres.isna().mean()

In [None]:
msn.matrix(arbres)

In [None]:
arbres = arbres.drop(columns="numero")

In [None]:
msn.matrix(arbres)

In [None]:
dict(arbres.dtypes)

In [None]:
def select_quantitative(df):
    """fonction qui permet de sélectionner les variables quantitatives"""
    dict_type = dict(df.dtypes)
    quant_cols = [key for key, value in dict_type.items() if value in ["float64", "int64", "float32", "int32"]]
    return quant_cols

In [None]:
cols_quant = select_quantitative(arbres)
cols_quant

In [None]:
def select_object(df):
    """fonction qui permet de sélectionner les variables catégorielles"""
    dict_type = dict(df.dtypes)
    cols = [key for key, value in dict_type.items() if value not in ["float64", "int64", "float32", "int32"]]
    return cols

In [None]:
cols_object = select_object(arbres)
cols_object

In [None]:
for col in cols_object:
    arbres[col] = arbres[col].astype("string")
arbres.info()

In [None]:
arbres = arbres.applymap(lambda s:s.upper() if type(s) == str else s)
arbres.head()

In [None]:
arbres["circonference_cm"] /= 100

In [None]:
arbres = arbres.rename(columns={"circonference_cm": "circonference_m"})

In [None]:
arbres.info()

In [None]:
arbres.describe(include="all")

In [None]:
#traitement des outliers
arbres_tri = arbres[(arbres["hauteur_m"]< 40) & (arbres["circonference_m"] < 20)].reset_index(drop=True)


In [None]:
arbres_tri.shape

In [None]:
arbres_tri.info()

In [None]:
msn.matrix(arbres_tri)

8. Avec Plotly Express, tracer la taille des arbres en fonction du diamètre, couleur va être par espèce
9. Faire un bar plot par arrondissement de la taille des arbres et pareil avec le diamètre
10. Faire un pie chart avec plotly sur les espèces arbres (top 10)
11. Faire un sunburst sur la hauteur des arbres, arrondissement et les top 10 des espèces (filtrer le jeu de données)
12. Tracer des violinplots sur les distributions des diamètres et des hauteurs
13. Tracer une carte choroplèthe sur la taille des arbres par arrondissement (folium)

In [None]:
arbres_tri["genre"] = arbres_tri["genre"].fillna(value="UNKNOWN")

In [None]:
px.scatter(arbres_tri,
          x="hauteur_m",
          y="circonference_m",
          color="genre")

9. Faire un bar plot par arrondissement de la taille des arbres et pareil avec le diamètre
10. Faire un pie chart avec plotly sur les espèces arbres (top 10)
11. Faire un sunburst sur la hauteur des arbres, arrondissement et les top 10 des espèces (filtrer le jeu de données)
12. Tracer des violinplots sur les distributions des diamètres et des hauteurs
13. Tracer une carte choroplèthe sur la taille des arbres par arrondissement (folium)

In [None]:
sns.boxenplot(data=arbres_tri, 
             x="circonference_m",
             scale="linear")

In [None]:
sns.boxenplot(data=arbres_tri, 
             x="hauteur_m",
             scale="linear")

In [None]:
arbres_tri["remarquable"] = arbres_tri["remarquable"].fillna(value=0).astype(int)
msn.matrix(arbres_tri)

In [None]:
arbres_tri["remarquable"].nunique()

In [None]:
fig = px.bar(arbres_tri,
      x="arrondissement",
      y="circonference_m")
fig.update_layout(plot_bgcolor="white")
fig.show()

10. Faire un pie chart avec plotly sur les espèces arbres (top 10)
11. Faire un sunburst sur la hauteur des arbres, arrondissement et les top 10 des espèces (filtrer le jeu de données)
12. Tracer des violinplots sur les distributions des diamètres et des hauteurs
13. Tracer une carte choroplèthe sur la taille des arbres par arrondissement (folium)

In [None]:
top_10_genre = arbres_tri["genre"].value_counts(ascending=False).reset_index()
top_10 = top_10_genre.loc[:10, "index"].values
print(top_10)

In [None]:
px.pie(top_10_genre[:10], values="genre", names="index")

10.Faire un sunburst sur la hauteur des arbres, arrondissement et les top 10 des espèces (filtrer le jeu de données)
11.Tracer des violinplots sur les distributions des diamètres et des hauteurs
12.Tracer une carte choroplèthe sur la taille des arbres par arrondissement (folium)

In [None]:
top_10_arbre = arbres_tri[arbres_tri["genre"].isin(top_10)]
top_10_arbre.head()                          

In [None]:
msn.matrix(top_10_arbre)

In [None]:
px.sunburst(top_10_arbre, 
            values="hauteur_m", 
            path=["genre", "arrondissement"])

In [None]:
px.sunburst(top_10_arbre, 
            values="hauteur_m", 
            path=["domanialite", "arrondissement"])

In [None]:
px.violin(top_10_arbre, x="domanialite", y="circonference_m")

In [None]:
px.violin(top_10_arbre, x="domanialite", y="hauteur_m")

In [None]:
import json

In [None]:
geo = json.load(open("data/arrondissements.geojson"))

In [None]:
geo

In [None]:
arbres_tri["arrondissement"].unique()

In [None]:
arr_paris = [str(arr) for arr in arbres_tri["arrondissement"].unique() if "PARIS" in str(arr)]
print(arr_paris)

In [None]:
import re

In [None]:
re.sub(r"\D","", 'PARIS 7E ARRDT')

In [None]:
arbres_paris = arbres_tri[arbres_tri["arrondissement"].isin(arr_paris)]
arbres_paris.shape

In [None]:
arbres_tri["arrondissement_num"] = arbres_paris["arrondissement"].str.replace(r"\D", "", regex=True)
arbres_tri["arrondissement_num"].unique()

In [None]:
arbres_map = arbres_tri.groupby(['arrondissement_num']).mean().reset_index()

In [None]:
arbres_map.head()

In [None]:
fig = px.choropleth(arbres_map,
             geojson=geo,
              locations="arrondissement_num",
              featureidkey="properties.c_ar",
             color="circonference_m",
             hover_name="arrondissement_num",
             range_color = (0, 2),
             projection="mercator",
             color_continuous_scale=px.colors.sequential.Plasma)
fig.update_geos(fitbounds="locations", visible=True)
fig.show()

In [None]:
fig = px.choropleth(arbres_map,
             geojson=geo,
              locations="arrondissement_num",
              featureidkey="properties.c_ar",
             color="hauteur_m",
             hover_name="arrondissement_num",
             range_color = (0, 15),
             projection="mercator",
             color_continuous_scale=px.colors.sequential.Plasma)
fig.update_geos(fitbounds="locations", visible=True)
fig.show()