-----
# Data Science pour Ingénieur.e.s avec Python
## Project d'Examen Final
#### ENG 209 - Automne 2020

Date limite de soumission du projet: **11.12.2020 23:59:59**

----

### Description du projet

Dans cette série d'exercices vous allez étudier les données d'emission de $CO_2$.

----

#### **Question 1**: Import des paquets python (0.2/5 pt)

Veuillez importer les paquets pythons suivants sous les alias indiqués entre parenthèse.

- pandas (pd)
- numpy (np)
- matplotlib.pyplot (plt)
- geopandas (gp)

In [None]:
# import des paquets python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import geopandas as gp
import plotly.express as px

!git lfs pull

----
#### **Question 2**: Lecture des fichiers de données en DataFrames panda (0.2/5 pt)

a. Créer une DataFrame pandas `df` à partir du fichier de données `../data/co2-emission/co-emissions-per-capita.csv`

b. Vérifier ensuite la DataFrame _df_
* La structure: variables et leur types
* Statistiques sommaires: min, max, std des variables numériques
* Aperçu du contenu: les 5 premières entrées de la DataFrames _df_


In [None]:
# Lecture de la donnée dans la DataFrame df (1 ligne)
df = pd.read_csv('../data/co2-emission/co-emissions-per-capita.csv')

In [None]:
# Afficher la structure de df (1 ligne)
df.info()

In [None]:
# Afficher les statistiques sommaires de df (1 ligne)
df.describe()

In [None]:
# Aperçu du contenu des données (1 ligne)
df.head(5)

----
#### **Question 3**: Comprendre la donnée (0.6/5pt)

La donnée indique pour chaque année et chaque pays (ou région) les emissions de $CO_2$ par capita.

a À quelle année remontent les première données de $CO_2$, et jusqu'à quelle année (0.2pt)

b. Visualiser l'évolution au cours des années du nombre de pays (ou régions) pour lesquelles les mesures de $CO_2$ sont disponibles dans un pandas plot (0.2pt, +0.1 bonus pour style)

c. Afficher un numpy.ndarray de deux colonnes contenant le Code pays et l'Entité correspondante par ligne (0.2pt):
- Pas de duplicats
- Par ordre croissant de Code
- Voir [pandas.DataFrame.to_numpy](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy)
- Pour vérification, la _shape_ de l'array est de (231,2) 

In [None]:
# Année des premières mesures (1 ligne)
df.Year.min()

In [None]:
# Année des dernières mesures (1 ligne)
df.Year.max()

In [None]:
# Visualisation de l'évolution annuelle du nombre de pays et regions avec mesures de CO2/par capita
df.groupby('Year').Entity.count().plot(figsize=(10,5),
                                         title = "Évolution annuelle du nombre de pays et regions avec mesures de CO2/par capita",
                                         xlabel='Année', ylabel='Nombre de pays avec des mesures'
                                         )

In [None]:
# Afficher un array de deux colonnes (1 à 4 lignes)
# Colonne 0: les code pays
# Colonne 1: les noms d'entités correspondantes
columns_titles = ['Code','Entity']
df.reindex(columns=columns_titles).drop_duplicates().sort_values(by='Code', ascending=True).to_numpy()

----
#### **Question 4**: Préparer la donnée $CO_2$ (2/5pt)

Notez la forme de la courbe affichée dans l'exercice précédent.

Ceci peut être expliqué du fait que d'après nos [informations](https://github.com/owid/co2-data) ces données proviennent de la combinaison de deux sources - les données du [Carbon Dioxide Information Analysis Center (CDIAC)](https://cdiac.ess-dive.lbl.gov/trends/emis/meth_reg.html) jusqu'en 1958, et celles du [Global Carbon Project](http://www.globalcarbonproject.org/carbonbudget) à partir de 1959. 

a. Aidez vous des fonctions pandas pour créer une DataFrame _dx_ à partir de _df_ telle que (0.8pt):
- Les données de _dx_ sont limitées aux mesures produites par le Global Carbon Project uniquement
- _dx_ ne contient pas d'entrées nulles
- _dx_ ne contient que des entrées par pays - exclure les continents, regroupements economiques etc.

b. Visualiser la donnée _dx_ sous forme de boxplot (0.2pt + 0.1pt bonus pour style)
- Un box par année montrant les interquartiles des mesures de tous les pays pour cette années
- Utiliser l'option `showfliers=False` pour une meilleur vue

c. Créer une DataFrame _dp_ qui est un pivot de _dx_, avec (1pt):
- Une ligne par année
- Une variable (colonne) par Entity (pays), contenant la valeur d'emission CO2 par capita du pays
- Retirer les colonnes de pays qui ont au moins une valeur mesure d'emission CO2 manquante (NaN ou None, ou Null)

In [None]:
# Créer la DataFrame dx (max 3 lignes)

dx = df.drop(df[(df['Year'] < 1959) | (df['Code'] == 'OWID_WRL')].index).dropna() # Drop entries with no code or with year before 1959, and the specific "World" entry with code "OWID_WRL"

#### Vérification des résultats

Vérifier que la DataFrame _dx_ soit bien conforme aux détails indiqués ci-dessous

* **Structure de _dx_**

> Int64Index: 12530 entries, 10 to 20530 \
Data columns (total 4 columns): \
\#    Column                    Non-Null Count  Dtype  \
---  ------                    --------------  -----  \
 0   Entity                    12530 non-null  object \
 1   Code                      12530 non-null  object \
 2   Year                      12530 non-null  int64  \
 3   Per capita CO2 emissions  12530 non-null  float64 \
 dtypes: float64(1), int64(1), object(2)\
 memory usage: 489.5+ KB


* **Statistiques sommaires de _dx_**

||Year|Per capita $CO_2$ emissions|
|:---:|:---:|:---:|
|count|12530.000000|12530.000000|
|mean|1989.098244|5.411322|
|std|17.218113|12.762818|
|min|1959.000000|0.000000|
|25%|1974.000000|0.467862|
|50%|1990.000000|2.194300|
|75%|2004.000000|6.769325|
|max|2018.000000|403.350848|



In [None]:
# Vérification de la structure
dx.info()

In [None]:
# Vérification des statistiques sommaires
dx.describe()

----

In [None]:
# Visualiser l'emission de CO2/par capita dans un boxplot
dx.boxplot(column='Per capita CO2 emissions', by='Year', showfliers=False, figsize=(30,15))

In [None]:
# Pivot pour créer la DataFrame dp (1 à 2 lignes max)
dp = dx.pivot(index='Year', columns='Entity', values='Per capita CO2 emissions').dropna(axis=1, how='any') #Drop any column (axis=1) containing one or more NA

----
#### Vérification des résultats

* **Structure de _dp_**

> Int64Index: 60 entries, 1959 to 2018 \
Columns: 184 entries, Afghanistant to Zimbabwe \
dtypes: float64(184)\
 memory usage: 89.7+ KB

In [None]:
# Verifier la structure de dp (1 ligne)
dp.info()

----
#### Question 5: Visualisation cartographique (.5/5pt)

Nous allons utiliser le paquet geopandas pour visualiser la moyenne des emissions CO2 par pays à l'aide d'une visualisation de choropleth.

Nous vous aidons dans la première partie de ce code pour les shape files dans une GeoDataFrame _countries_ et pour la fonction de visualisation.

Il faudra par contre créer une GeoDataFrame _geo_df_ qui join les shape files (GeoDataFrame) de _countries_ avec une DataFrame des valeurs de $CO2$ moyennes par capita max de chaque pays de _dx_ (.5pt)
- Pour celà il faut faire une aggrégation _dx_avg_ de _dx_ et bien choisir les colonne clés de chaque DataFrame pour faire la jointure

In [None]:
# Rien à faire, lecture des shape files dans une GeoDataFrame pandas
countries=gp.read_file('zip://../data/countries-shp/ne_10m_admin_0_countries.zip')

In [None]:
# Rien à faire, visualisation choropleth
from mpl_toolkits.axes_grid1 import make_axes_locatable

def viz_choropleth(geo_df):
    fig, ax = plt.subplots(1, 1, figsize=(20,20))
    div = make_axes_locatable(ax)
    cax = div.append_axes("right", size="5%", pad=0.1)
    geo_df.plot(column='Per capita CO2 emissions',ax=ax, cax=cax, legend=True)

In [None]:
# À vous de jouer, 1. créer une DataFrame avec les valeurs moyennes par pays de 1959 à mainenant (1 ligne)
dx_avg = dx.groupby(['Entity','Code']).agg('mean')[['Per capita CO2 emissions']]

In [None]:
# À vous de jouer, 2. utiliser les fonctions reset_index et set_index pour
# indexer la GeoDataFrame countries et la DataFrame dx_avg sur les bonnes colonnes pour la jointure
countries=countries.reset_index().set_index('ADM0_A3_US')
dx_avg=dx_avg.reset_index().set_index('Code')

In [None]:
# Rien à faire, création d'une GeoDataFrame geo_df en joignant les données dx_avg avec countries
geo_def=countries.join(dx_avg['Per capita CO2 emissions'],how='inner')
viz_choropleth(geo_def)

----
#### Pour vous amuser (remarque sans points)

La figure ci dessus n'est pas très informative, vous pouvez avoir une visualisation plus détaillée en utilisant le code ci dessous, qui est par contre gourmant en RAM.

In [None]:
#fig = px.choropleth_mapbox(dx_avg,
#                           geojson=countries.reset_index(),
#                           locations=dx_avg.index,
#                           featureidkey="properties.ADM0_A3",
#                           color="Per capita CO2 emissions",
#                           center={"lat": 48, "lon": -5 },
#                           #mapbox_style="open-street-map",
#                           mapbox_style="carto-positron",
#                           zoom=3,
#                           width=800, height=800)
#fig.show()

----
#### Question 6: Modelisation (1.5/5pt)

Appliquer la méthode de [sklearn.neighbors.NearestNeighbors](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.NearestNeighbors.html) (KNN), qui sera vue le 7.12.2020, sur la DataFrame _dp_ que nous venons de créer, pour grouper avec chaque pays les deux autres pays (donc N=3) qui ont des emissions de $CO_2$ par capita comparables depuis 1959.

a. Créez un model de nearest neighbors, avec l'agorithm `ball_tree` de NearestNeighbors (1pt)
- Nommez le model _knn_co2_ 
- Il est possible d'utiliser la DataFrame _dp_ directement pour faire un fit du NearestNeighbors, mais notez qu'il faut transposer _dp_
- Utilisez le model _knn_co2_ sur _dp_ pour retourner les nearest neighbors de chaque pays (avec des emissions CO2 comparables, et non pas géographique), sous forme d'un arrays numpy _distances_ et _indices_ tous deux de shape (184,N). Les arrays correspondant respectivements aux distances et aux indices (0 à 183) des pays groupés ensemble par KNN.
    - Vous pouvez vérifier les pays correspondants à un index _i_ avec _dp.iloc_

b. Utiliser la fonction de visualisation _plot_knn_ pour fournir une interface voilà (vue le 7.12.2020) à votre notebook, qui permet d'afficher les KNN neigbhors à partir d'un pull down menu de pays (Entity) - (0.5pt)
- Voir les [exemples](https://blog.jupyter.org/and-voil%C3%A0-f6a2c08a4a93)


In [None]:
# Rien à faire, cette fonction est utilisée pour visualiser les résultats.
def plot_knn(entity):
    index_of_entity = dp.columns.get_loc(entity)
    dp.iloc[:,indices[index_of_entity]].plot(figsize=(10,10))

In [None]:
# appliquer le NearestNeighbors sur dp (2 à 3 lignes max)
from sklearn.neighbors import NearestNeighbors
knn_co2 = NearestNeighbors(n_neighbors=3, algorithm='ball_tree').fit(dp.transpose())

In [None]:
# Calculer les N nearest neighbors pour chaque pays de DP (1 ligne)
# créer deux arrays (184,N), distances et indices
distances,indices= knn_co2.kneighbors(dp.transpose())

In [None]:
# Vérifier vos résultats avec quelques courbes
plot_knn('France')

In [None]:
# Utiliser le code ci dessus pour créer une visualisation Voilà

In [None]:
import ipywidgets as widgets
from ipywidgets import interact
from sklearn.neighbors import NearestNeighbors


@interact(country=dp.transpose().index, N=(1,6,1))
def widget_knn_plot(country, N):
    knn_co2 = NearestNeighbors(n_neighbors=N, algorithm='ball_tree').fit(dp.transpose())
    distances,indices= knn_co2.kneighbors(dp.transpose())
    
    index_of_entity = dp.columns.get_loc(country)
    dp.iloc[:,indices[index_of_entity]].plot(figsize=(10,10))