# Matrices de corrélation

Deux matrices de corrélations vont être faites : pour la France entière et par région. Le but est de les comparer et de vérifier le choix des variables sélectionnées avec la consommation de gaz et d'électricité.

## Librairies

In [1]:
from matplotlib import pyplot
from sklearn import preprocessing

import pandas as pd

## Pour la France entière

Nous commençons pas lire notre dataset :

In [2]:
df = pd.read_csv('https://raw.githubusercontent.com/Axelvel/DS50/main/Datasets/Datasets_Region_France_2016_2020.csv')

display (df)

Unnamed: 0,Regions,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
0,Auvergne Rhone-Alpes,01/01/2016,00:00,8114,2226,2.96,10.56,6.76,31
1,Auvergne Rhone-Alpes,01/01/2016,00:30,8012,2227,2.96,10.56,6.76,31
2,Auvergne Rhone-Alpes,01/01/2016,01:00,7789,2205,2.96,10.56,6.76,32
3,Auvergne Rhone-Alpes,01/01/2016,01:30,7749,2212,2.96,10.56,6.76,32
4,Auvergne Rhone-Alpes,01/01/2016,02:00,7724,2209,2.96,10.56,6.76,32
...,...,...,...,...,...,...,...,...,...
1052347,Pays de la Loire,31/12/2020,21:30,3629,5712,2.40,7.60,5.00,35
1052348,Pays de la Loire,31/12/2020,22:00,3583,5583,2.40,7.60,5.00,35
1052349,Pays de la Loire,31/12/2020,22:30,3734,5573,2.40,7.60,5.00,35
1052350,Pays de la Loire,31/12/2020,23:00,4206,5731,2.40,7.60,5.00,35


Il est nécessaire d'encoder les colonnes Régions, Dates et Heures car chaque cellule est un string. Cela empêche la fonction suivante de les prendre en considération.

In [3]:
labelEncoder = preprocessing.LabelEncoder()

df.Regions = labelEncoder.fit_transform(df.Regions)
df.Dates = labelEncoder.fit_transform(df.Dates)
df.Heures = labelEncoder.fit_transform(df.Heures)

display (df)

Unnamed: 0,Regions,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
0,0,0,0,8114,2226,2.96,10.56,6.76,31
1,0,0,2,8012,2227,2.96,10.56,6.76,31
2,0,0,4,7789,2205,2.96,10.56,6.76,32
3,0,0,6,7749,2212,2.96,10.56,6.76,32
4,0,0,8,7724,2209,2.96,10.56,6.76,32
...,...,...,...,...,...,...,...,...,...
1052347,11,1826,86,3629,5712,2.40,7.60,5.00,35
1052348,11,1826,88,3583,5583,2.40,7.60,5.00,35
1052349,11,1826,90,3734,5573,2.40,7.60,5.00,35
1052350,11,1826,92,4206,5731,2.40,7.60,5.00,35


Enfin, nous calculons la matrice de corrélation :

In [4]:
df.corr().style.format("{:.2}").background_gradient(cmap=pyplot.get_cmap('coolwarm'))

Unnamed: 0,Regions,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
Regions,1.0,0.0,-0.00061,-0.034,-3.7e-19,0.13,0.088,0.11,7e-19
Dates,0.0,1.0,-8.3e-07,-0.0085,0.012,0.026,0.036,0.033,0.027
Heures,-0.00061,-8.3e-07,1.0,0.09,0.13,-3.1e-05,-0.00013,-9.4e-05,0.053
Electricite,-0.034,-0.0085,0.09,1.0,0.36,-0.32,-0.33,-0.34,0.24
Gaz,-3.7e-19,0.012,0.13,0.36,1.0,-0.55,-0.56,-0.58,0.79
Tmin,0.13,0.026,-3.1e-05,-0.32,-0.55,1.0,0.85,0.95,-0.35
Tmax,0.088,0.036,-0.00013,-0.33,-0.56,0.85,1.0,0.97,-0.34
Tmoy,0.11,0.033,-9.4e-05,-0.34,-0.58,0.95,0.97,1.0,-0.36
Taux de Co2,7e-19,0.027,0.053,0.24,0.79,-0.35,-0.34,-0.36,1.0


La matrice de corrélation nous contre un certain lien entre certaines colonnes. Nous ne nous attarterons pas sur la corrélation entre Tmin, Tmoy et Tmax.

1. Corrélation entre Gaz et Taux de CO2 : 0.79
- Forte corrélation, lien important entre ces colonnes

2. Corrélation entre Gaz et Electricité : 0.36
- Faible corrélation, lien a surveiller et à prendre en considération cependant

# Par région

Nous allons maintenant faire la même chose pour une région. Le choix de la région est modifiable entre les guillements. Aussi, nous n'encoderons plus le paramètre Régions car il n'est plus nécessaire étant unique.

In [5]:
df = pd.read_csv('https://raw.githubusercontent.com/Axelvel/DS50/main/Datasets/Datasets_Region_France_2016_2020.csv')

# Auvergne Rhone-Alpes - Bourgogne Franche-Comte - Bretagne - Centre Val de Loire - Grand Est - Hauts-de-France 
# Ile-de-France - Normandie - Nouvelle-Aquitaine - Occitanie - PACA - Pays de la Loire

df = df[df['Regions'] == 'PACA']

display(df)

Unnamed: 0,Regions,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
876960,PACA,01/01/2016,00:00,5858,2226,5.30,12.77,9.03,31
876961,PACA,01/01/2016,00:30,5477,2227,5.30,12.77,9.03,31
876962,PACA,01/01/2016,01:00,5278,2205,5.30,12.77,9.03,32
876963,PACA,01/01/2016,01:30,5262,2212,5.30,12.77,9.03,32
876964,PACA,01/01/2016,02:00,5154,2209,5.30,12.77,9.03,32
...,...,...,...,...,...,...,...,...,...
964651,PACA,31/12/2020,21:30,6109,5712,-1.05,6.80,2.88,35
964652,PACA,31/12/2020,22:00,6024,5583,-1.05,6.80,2.88,35
964653,PACA,31/12/2020,22:30,6079,5573,-1.05,6.80,2.88,35
964654,PACA,31/12/2020,23:00,6212,5731,-1.05,6.80,2.88,35


In [6]:
labelEncoder = preprocessing.LabelEncoder()

df.Dates = labelEncoder.fit_transform(df.Dates)
df.Heures = labelEncoder.fit_transform(df.Heures)

display (df)

Unnamed: 0,Regions,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
876960,PACA,0,0,5858,2226,5.30,12.77,9.03,31
876961,PACA,0,1,5477,2227,5.30,12.77,9.03,31
876962,PACA,0,2,5278,2205,5.30,12.77,9.03,32
876963,PACA,0,3,5262,2212,5.30,12.77,9.03,32
876964,PACA,0,4,5154,2209,5.30,12.77,9.03,32
...,...,...,...,...,...,...,...,...,...
964651,PACA,1826,43,6109,5712,-1.05,6.80,2.88,35
964652,PACA,1826,44,6024,5583,-1.05,6.80,2.88,35
964653,PACA,1826,45,6079,5573,-1.05,6.80,2.88,35
964654,PACA,1826,46,6212,5731,-1.05,6.80,2.88,35


In [7]:
from matplotlib import pyplot
df.corr().style.format("{:.2}").background_gradient(cmap=pyplot.get_cmap('coolwarm'))

Unnamed: 0,Dates,Heures,Electricite,Gaz,Tmin,Tmax,Tmoy,Taux de Co2
Dates,1.0,0.0,-0.017,0.012,0.022,0.043,0.034,0.027
Heures,0.0,1.0,0.25,0.13,1.9e-18,-1.4e-18,6.7e-18,0.053
Electricite,-0.017,0.25,1.0,0.69,-0.64,-0.65,-0.66,0.43
Gaz,0.012,0.13,0.69,1.0,-0.57,-0.57,-0.58,0.79
Tmin,0.022,1.9e-18,-0.64,-0.57,1.0,0.93,0.98,-0.32
Tmax,0.043,-1.4e-18,-0.65,-0.57,0.93,1.0,0.99,-0.33
Tmoy,0.034,6.7e-18,-0.66,-0.58,0.98,0.99,1.0,-0.33
Taux de Co2,0.027,0.053,0.43,0.79,-0.32,-0.33,-0.33,1.0


Tout d'abord, les corrélations les plus importantes sont :

1. Corrélation entre Gaz et Taux de CO2 : 0.79
- Identique que pour la France entière, cela confirme l'importance de le prendre en considération

2. Corrélation entre Gaz et Electricité : 0.69
- Plus importante corrélation que pour la France entière, c'est un point sur lequel il peut être intéressant de se pencher.

D'autres corrélations sont aussi importantes et seront expliquées plus en détail dans le rapport.

Nous pouvons remarquer des différences entre les deux matrices : sans la région, les corrélations se sont accentuées.