# Les gaz à effet de serre au Québec
---

<div style="text-align: center;">
    <img src="./img/_cc50555b-1857-4a03-a71b-744befcfb323.jpeg" alt="Drawing" style="width: 300px;"/>
</div>

Les données de l'inventaire québécois des émissions de gaz à effet de serre, sont disponibles chez [Données Québec](https://www.donneesquebec.ca/recherche/dataset/inventaire-quebecois-des-emissions-de-gaz-a-effet-de-serre "https://www.donneesquebec.ca/recherche/dataset/inventaire-quebecois-des-emissions-de-gaz-a-effet-de-serre"):

> "L’inventaire des émissions de gaz à effet de serre (GES) produits par l’activité humaine au Québec est tenu à jour annuellement depuis 1990 
par le ministère de l’Environnement, de la Lutte contre les changements climatiques, de la Faune et des Parcs. Cet inventaire est établi à partir de données recueillies auprès d’entreprises et d’institutions et se base sur des données obtenues principalement de Statistique Canada, d’Environnement et Changement climatique Canada (ECCC) et de ministères et organismes du Québec." 

Dernière modification du jeux de données pour ce notebook : 2022-12-21 

---
# Objectifs:

L'objectif de ce notebook est d'utiliser la méthode `groupby`
 relative aux dataframes afin d'obtenir le total des GES émis par secteur d'activité.

---
# Importation des données

Afin de lire et d'explorer les données, nous utilisons la librairie pandas avec toutes les fonctionnalités des Dataframes. 

In [218]:
# Initialisation de la librairie Pandas.
import pandas as pd

# Importation des données. Le fichier csv (coma-separated-value) se nomme "inventaire-ges.csv" 
# et les données sont séparées par des points-virgules (;).
df = pd.read_csv('./fichiers_input/inventaire-ges.csv',sep = ';')
df

Unnamed: 0,Annee,Secteur,Sous-secteur,Categorie,Emissions(t_eq_CO2)
0,1990,Transports,Transport routier,Automobiles,1.085804e+07
1,1990,Transports,Transport routier,Camions légers,3.636960e+06
2,1990,Transports,Transport routier,Véhicules lourds,3.602432e+06
3,1990,Transports,Transport routier,Autres transports routiers,1.824648e+04
4,1990,Transports,Autres transports,Véhicules hors route - Agriculture et foresterie,9.985400e+05
...,...,...,...,...,...
1445,2020,Matières résiduelles,Lieux d'enfouissement réservés aux usines de p...,Lieux d'enfouissement réservés aux usines de p...,6.994292e+04
1446,2020,Matières résiduelles,Traitement biologique des matières résiduelles,Traitement biologique des matières résiduelles,7.126235e+04
1447,2020,Matières résiduelles,Traitement et rejet des eaux usées municipales,Traitement et rejet des eaux usées municipales,4.134772e+05
1448,2020,Matières résiduelles,Incinération des matières résiduelles,Incinération des matières résiduelles,2.124926e+05


---
# Informations de base sur le jeu de données:

Pour bien comprendre les données dans un DataFrame pandas, vous devez examiner plusieurs aspects clés pour en tirer le meilleur parti. Voici une liste d'informations de base à prendre en compte :

1. La structure du DataFrame :
   - Le nombre de lignes (observations) et de colonnes (variables) dans le DataFrame.
   - Les noms des colonnes, qui représentent les différentes variables.


2. Les types de données :
   - Vérifiez les types de données de chaque colonne à l'aide de `dtypes` pour vous assurer qu'ils sont corrects.

3. Les valeurs uniques :
   - Pour comprendre la variabilité des données catégoriques, utilisez `unique()` pour obtenir les valeurs uniques d'une colonne.

```python
df['colonne'].unique()
```

4. Les données manquantes :
   - Utilisez `isna()` ou `isnull()` pour identifier les données manquantes dans le DataFrame.

```python
df.isna().sum()
```

  





In [140]:
# Le nombre de ligne (rows) et de colonne (columns) est: 
df.shape

(1450, 5)

In [64]:
# Le nom des colonnes. Sous forme d'une array numpy. 
df.columns

Index(['Annee', 'Secteur', 'Sous-secteur', 'Categorie', 'Emissions(t_eq_CO2)'], dtype='object')

In [78]:
# Le nom des colonnes, sous forme d'une liste normale.
df.columns.tolist()

['Annee', 'Secteur', 'Sous-secteur', 'Categorie', 'Emissions(t_eq_CO2)']

In [87]:
# Le types de variables dans chaque colonne: 
df.dtypes

Annee                    int64
Secteur                 object
Sous-secteur            object
Categorie               object
Emissions(t_eq_CO2)    float64
dtype: object

In [88]:
# L'index du dataframe: 
df.index

RangeIndex(start=0, stop=1450, step=1)

In [66]:
# Pour travailler les éléments d'une seule colonne, il faut travailler avec les Séries:
df['Annee'];

In [184]:
# Élements uniques de la colonne Secteur. Sous forme d'une liste normale.
secteurs = df['Secteur'].unique().tolist()
secteurs

['Transports',
 'Industries',
 'Résidentiel, commercial et institutionnel',
 'Agriculture',
 'Matières résiduelles',
 'Électricité']

In [62]:
# Élements uniques de la colonne Sous-secteur. Sous forme d'une liste normale.
df['Sous-secteur'].unique().tolist();

In [61]:
# Élements uniques de la colonne 'Categorie'. Sous forme d'une liste normale.
df['Categorie'].unique().tolist();

In [215]:
# Élements absents
df.isna().sum()

Annee                  0
Secteur                0
Sous-secteur           0
Categorie              0
Emissions(t_eq_CO2)    0
dtype: int64

In [216]:
df.isnull().sum()

Annee                  0
Secteur                0
Sous-secteur           0
Categorie              0
Emissions(t_eq_CO2)    0
dtype: int64

---
# Constructions de la nouvelle dataframe: 

Les étapes pour construire df_secteurs_total sont:

---
## Construction 1: obtention du total par année:

In [159]:
df[['Annee','Emissions(t_eq_CO2)']]

Unnamed: 0,Annee,Emissions(t_eq_CO2)
0,1990,1.085804e+07
1,1990,3.636960e+06
2,1990,3.602432e+06
3,1990,1.824648e+04
4,1990,9.985400e+05
...,...,...
1445,2020,6.994292e+04
1446,2020,7.126235e+04
1447,2020,4.134772e+05
1448,2020,2.124926e+05


In [160]:
df[['Annee','Emissions(t_eq_CO2)']].groupby('Annee')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x12022eae0>

In [131]:
df_total = df[['Annee','Emissions(t_eq_CO2)']].groupby('Annee').sum()
df_total;

In [161]:
df_total.columns

Index(['Emissions(t_eq_CO2)'], dtype='object')

In [174]:
df_total = df_total.rename(columns={"Emissions(t_eq_CO2)": "Emissions(t_eq_CO2)-Total"})

In [175]:
df_total.describe()

Unnamed: 0,Emissions(t_eq_CO2)-Total
count,31.0
mean,82765380.0
std,3345179.0
min,74015630.0
25%,81002270.0
50%,82742140.0
75%,84627490.0
max,89587430.0


In [210]:
# df_total.plot()

---
## Construction 2: obtention du total par année pour le secteur 'Transports':

In [202]:
#Pour les transports seulement
df_transports = df[df['Secteur']=='Transports']
df_transports_total = df_transports[['Annee','Emissions(t_eq_CO2)']].groupby('Annee').sum()
df_transports_total = df_transports_total.rename(columns={"Emissions(t_eq_CO2)": "Emissions(t_eq_CO2)-Transports"})
df_transports_total;

In [206]:
df_merge = pd.merge(df_total, df_transports_total, on=["Annee"])
# df_merge

In [208]:
df_merge = df_total.merge(df_transports_total,on=["Annee"])
# df_merge

---
## Construction 3: obtention du total par année pour tous les secteurs:

In [191]:
secteurs

['Transports',
 'Industries',
 'Résidentiel, commercial et institutionnel',
 'Agriculture',
 'Matières résiduelles',
 'Électricité']

In [201]:
# Initialisation du DataFrame résultant avec le premier DataFrame
df_secteurs_total = df_total

for secteur in secteurs:
    df_secteur = df[df['Secteur']==secteur]
    df_secteur_total = df_secteur[['Annee','Emissions(t_eq_CO2)']].groupby('Annee').sum()
    df_secteur_total = df_secteur_total.rename(columns={"Emissions(t_eq_CO2)": f'Emissions(t_eq_CO2)-{secteur}'})
    df_secteurs_total = df_secteurs_total.merge(df_secteur_total, on=["Annee"])

df_secteurs_total  

Unnamed: 0_level_0,Emissions(t_eq_CO2)-Total,Emissions(t_eq_CO2)-Transports,Emissions(t_eq_CO2)-Industries,"Emissions(t_eq_CO2)-Résidentiel, commercial et institutionnel",Emissions(t_eq_CO2)-Agriculture,Emissions(t_eq_CO2)-Matières résiduelles,Emissions(t_eq_CO2)-Électricité
Annee,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1990,85250460.0,27205490.0,32076670.0,11215350.0,7117844.0,6242370.0,1392747.0
1991,80962320.0,25625060.0,31148130.0,10487910.0,6986795.0,6356778.0,357649.6
1992,80119360.0,26172080.0,29461680.0,11191210.0,6920532.0,5544630.0,829230.2
1993,81316940.0,27105870.0,30497410.0,11312670.0,6845626.0,5414277.0,141092.5
1994,82742140.0,28468250.0,30575620.0,11301350.0,6903481.0,5293982.0,199463.6
1995,82931500.0,28882830.0,30130290.0,11256060.0,6973976.0,5541953.0,146386.6
1996,82984100.0,29058950.0,30038760.0,11597120.0,7075151.0,5082511.0,131607.3
1997,83838580.0,29781850.0,30307410.0,11343310.0,7309203.0,4913877.0,182926.5
1998,85172110.0,30463140.0,30540830.0,10137460.0,7413943.0,5058890.0,1557845.0
1999,84655400.0,31048530.0,28947970.0,10498100.0,7522661.0,5699894.0,938249.6


In [209]:
# df_secteurs_total.plot()

---
# Exportation de la nouvelle dataframe:

In [198]:
df_secteurs_total.to_excel("./fichiers_output/df_secteurs_total.xlsx",sheet_name='Emissions(t_eq_CO2) par secteur') 

In [212]:
df_secteurs_total.to_csv("./fichiers_output/df_secteurs_total.csv") 
