# ***Project 5 : Dataframe***

**nous allons utiliser deux sources de données :**

* **Les émissions de gaz à effet de serre estimées au niveau communal par l’ADEME. Le jeu de données est disponible sur data.gouv et requêtable directement dans Python avec cet url.**
* **Idéalement, on utiliserait directement les données disponibles sur le site de l’Insee mais celles-ci nécessitent un peu de travail de nettoyage qui n’entre pas dans le cadre de ce TP. Pour faciliter l’import de données Insee, il est recommandé d’utiliser le package pynsee qui simplifie l’accès aux données de l’Insee disponibles sur le site web insee.fr ou via des API.**

### **Découverte des verbes de Pandas pour manipuler des données*

**L’URL d’accès aux données :**

**url = "https://koumoul.com/s/data-fair/api/v1/datasets/igt-pouvoir-de-rechauffement-global/convert"**

**En premier lieu, on propose de se familiariser avec les opérations sur les colonnes.***

1. **Créer un dataframe emissions_copy ne conservant que les colonnes "INSEE commune" , "Commune" , "Autres transports" et "Autres transports international"**

In [141]:
import pandas as pd

In [142]:
df = pd.read_csv("IGT - Pouvoir de réchauffement global.csv")

In [143]:
emissions_copy = df[["INSEE commune","Commune","Autres transports","Autres transports international"]]

In [144]:
emissions_copy

Unnamed: 0,INSEE commune,Commune,Autres transports,Autres transports international
0,01001,L'ABERGEMENT-CLEMENCIAT,,
1,01002,L'ABERGEMENT-DE-VAREY,,
2,01004,AMBERIEU-EN-BUGEY,212.577908,
3,01005,AMBERIEUX-EN-DOMBES,,
4,01006,AMBLEON,,
...,...,...,...,...
35793,95676,VILLERS-EN-ARTHIES,,
35794,95678,VILLIERS-ADAM,,
35795,95680,VILLIERS-LE-BEL,,
35796,95682,VILLIERS-LE-SEC,,


2. **Comme les noms de variables sont peu pratiques, les renommer de la manière suivante :**

* **INSEE commune -> code_insee**

* **Autres transports -> transports**

* **Autres transports international -> transports_international**

In [145]:
emissions_copy.columns = ['code_insee', 'Commune' , 'transports' , 'transports_international']

In [146]:
emissions_copy

Unnamed: 0,code_insee,Commune,transports,transports_international
0,01001,L'ABERGEMENT-CLEMENCIAT,,
1,01002,L'ABERGEMENT-DE-VAREY,,
2,01004,AMBERIEU-EN-BUGEY,212.577908,
3,01005,AMBERIEUX-EN-DOMBES,,
4,01006,AMBLEON,,
...,...,...,...,...
35793,95676,VILLERS-EN-ARTHIES,,
35794,95678,VILLIERS-ADAM,,
35795,95680,VILLIERS-LE-BEL,,
35796,95682,VILLIERS-LE-SEC,,


4. **On propose, pour simplifier, de remplacer les valeurs manquantes (NA) par la valeur 0. Utiliser la méthode fillna pour transformer les valeurs manquantes en 0.**

In [147]:
df1 = emissions_copy.fillna(value = 0)
df1

Unnamed: 0,code_insee,Commune,transports,transports_international
0,01001,L'ABERGEMENT-CLEMENCIAT,0.000000,0.0
1,01002,L'ABERGEMENT-DE-VAREY,0.000000,0.0
2,01004,AMBERIEU-EN-BUGEY,212.577908,0.0
3,01005,AMBERIEUX-EN-DOMBES,0.000000,0.0
4,01006,AMBLEON,0.000000,0.0
...,...,...,...,...
35793,95676,VILLERS-EN-ARTHIES,0.000000,0.0
35794,95678,VILLIERS-ADAM,0.000000,0.0
35795,95680,VILLIERS-LE-BEL,0.000000,0.0
35796,95682,VILLIERS-LE-SEC,0.000000,0.0


4. **Créer les variables suivantes :**

**dep: le département. Celui-ci peut être créé grâce aux deux premiers caractères de code_insee en appliquant la méthode str**

**transports_total: les émissions du secteur transports (somme des deux variables)**

In [148]:
df1["dep"] = df1["code_insee"].str[:2]
df1["transports_total"] = df1["transports"] + df1["transports_international"]
df1

Unnamed: 0,code_insee,Commune,transports,transports_international,dep,transports_total
0,01001,L'ABERGEMENT-CLEMENCIAT,0.000000,0.0,01,0.000000
1,01002,L'ABERGEMENT-DE-VAREY,0.000000,0.0,01,0.000000
2,01004,AMBERIEU-EN-BUGEY,212.577908,0.0,01,212.577908
3,01005,AMBERIEUX-EN-DOMBES,0.000000,0.0,01,0.000000
4,01006,AMBLEON,0.000000,0.0,01,0.000000
...,...,...,...,...,...,...
35793,95676,VILLERS-EN-ARTHIES,0.000000,0.0,95,0.000000
35794,95678,VILLIERS-ADAM,0.000000,0.0,95,0.000000
35795,95680,VILLIERS-LE-BEL,0.000000,0.0,95,0.000000
35796,95682,VILLIERS-LE-SEC,0.000000,0.0,95,0.000000


5. **Ordonner les données du plus gros pollueur au plus petit puis ordonner les données du plus gros pollueur au plus petit par département (du 01 au 95).**

* **Ordonner les données du plus gros pollueur au plus petit :**

In [149]:
df2 = df1.sort_values(by = ["transports_total"] , ascending = [False])
df2

Unnamed: 0,code_insee,Commune,transports,transports_international,dep,transports_total
31108,77291,LE MESNIL-AMELOT,133834.090767,3.303394e+06,77,3.437228e+06
31099,77282,MAUREGARD,133699.072712,3.303394e+06,77,3.437093e+06
31111,77294,MITRY-MORY,89815.529858,2.202275e+06,77,2.292090e+06
30438,76351,LE HAVRE,17358.962736,2.109460e+06,76,2.126819e+06
35426,91479,PARAY-VIEILLE-POSTE,513140.971691,7.858782e+05,91,1.299019e+06
...,...,...,...,...,...,...
13562,35012,BAIN-DE-BRETAGNE,0.000000,0.000000e+00,35,0.000000e+00
13561,35011,BAILLE,0.000000,0.000000e+00,35,0.000000e+00
13558,35008,AVAILLES-SUR-SEICHE,0.000000,0.000000e+00,35,0.000000e+00
13557,35007,AUBIGNE,0.000000,0.000000e+00,35,0.000000e+00


* **Les données de plus gros pollueur au plus petit par département (du 01 au 95) :**

In [150]:
df3 = df1.sort_values(by = ["dep", "transports_total"], ascending = [True, False])
df3

Unnamed: 0,code_insee,Commune,transports,transports_international,dep,transports_total
160,01179,GRIEGES,617.281080,21.826353,01,639.107433
14,01016,ARBIGNY,382.957621,22.094924,01,405.052545
382,01427,TREVOUX,361.901404,20.880076,01,382.781480
307,01348,SAINT-DIDIER-SUR-CHALARONNE,363.104704,19.215886,01,382.320590
358,01402,SERMOYER,340.973268,19.672617,01,360.645885
...,...,...,...,...,...,...
35793,95676,VILLERS-EN-ARTHIES,0.000000,0.000000,95,0.000000
35794,95678,VILLIERS-ADAM,0.000000,0.000000,95,0.000000
35795,95680,VILLIERS-LE-BEL,0.000000,0.000000,95,0.000000
35796,95682,VILLIERS-LE-SEC,0.000000,0.000000,95,0.000000


6. **Ne conserver que les communes appartenant aux départements 13 ou 31. Ordonner ces communes du plus gros pollueur au plus petit.**

In [151]:
# Filtrer les départements 13 ou 31
df4 = df3[(df3["dep"] == '13') | (df3["dep"] == '31')]

In [152]:
# Trier les pollueurs dans un ordre décroissant (du plus gros au plus petit)
df5 = df4.sort_values(by = ["transports_total"], ascending = [False])

In [153]:
# Conserver les communes appartenant aux départements 13 ou 31 dans un ordre décroissant (du plus gros au plus petit)
#df5[["Commune"]]
print('Les Communes appartenant aux départements 13 ou 31 du plus gros au plus petit sont :',df5[["Commune"]])


Les Communes appartenant aux départements 13 ou 31 du plus gros au plus petit sont :                         Commune
4397                  MARIGNANE
11684                   BLAGNAC
4438   SAINTES-MARIES-DE-LA-MER
4347                      ARLES
4398                  MARTIGUES
...                         ...
11756                   CIADOUX
11755              CHEIN-DESSUS
11753                   CHARLAS
11752                  CESSALES
12205                     CAZAC

[723 rows x 1 columns]


In [154]:
df5[["Commune"]]

Unnamed: 0,Commune
4397,MARIGNANE
11684,BLAGNAC
4438,SAINTES-MARIES-DE-LA-MER
4347,ARLES
4398,MARTIGUES
...,...
11756,CIADOUX
11755,CHEIN-DESSUS
11753,CHARLAS
11752,CESSALES


7.**Calculer les émissions totales par départements.**

In [155]:
emissions_par_departement = df1.groupby("dep").agg({"transports_total": "sum"})
emissions_par_departement

Unnamed: 0_level_0,transports_total
dep,Unnamed: 1_level_1
01,1.590606e+04
02,6.135648e+04
03,2.023143e+04
04,5.851620e+03
05,6.216002e+03
...,...
91,2.097139e+06
92,1.255091e+04
93,1.161017e+06
94,5.336207e+05


8. **Trouver le département le plus pollueur**

In [156]:
print("Le département le plus pollueur est :",df1.groupby("dep")["transports_total"].sum().idxmax())

Le département le plus pollueur est : 77
