# Hydro

Cet exercice vise à explorer les opérations de base de Pandas avec des données personnelles de consommation d'électricité fournies par Hydro-Québec.

Le but de l'exercice est de vérifier la correlation entre 
* la consommation électrique (en kWh) et 
* la température.

Au besoin, se référer au [Guide de base Pandas](https://colab.research.google.com/drive/193iDeAjPXpwVoSZAHaZG_wQleAie7wrq?usp=sharing) de Montréal-Python.

## Récupérer vos données

Pour cet exercice, vous pouvez
* soit prendre vos données personnelles fournies par Hydro-Québec
* soit prendre le jeu de données fourni par Montréal-Python

Hydro-Québec fournit les données au format CSV.
* apparemment il n'y a pas de documentation des données
* mais les données sont assez intuitives

### Vos données d'Hydro-Québec

1. Allez sur le site d'Hydro-Québec: https://www.hydroquebec.com
1. Cliquez sur `Me connecter` en haut à droite
1. Ouvrez une session en fournissant votre Adresse courriel et votre mot de passe
1. Dans votre Espace client, cliquez sur l'onglet `Consommation` et choisissez l'item `Portrait de ma consommation` dans le menu
1. En bas de page après les visualisations, cliquez sur `Téléchargement`
1. Téléchargez le CSV des données par **jour** pour la période sélectionnée

Hydro-Québec vous fournit vos données de consommation électrique pour les deux dernières années.

La **période** des données à télécharger peut être modifiée en haut de page, en cliquant sur les flèches à côté de la période actuellement sélectionnée.

Pour cette période, vous avez 3 options de téléchargement
* télécharger les données totales (vue d'ensemble) pour la **période**
* télécharger les données par **jour**
* télécharger les données par **heure**

Pour cet exercice, téléchargez les données par **jour** pour un maximum de **périodes** (au moins 2 car on va s'exercer à fusionner les données).

### Jeu de données Montréal-Python

Montréal-Python met à votre disposition des données réelles anonymisées provenant d'un Pythoneux de votre communauté.

Ces données sont celles d'une maison unifamiliale dans le quartier Villeray à Montréal (2 adultes et un enfant en bas âge). Des travaux d'amélioration de l'isolation ont été faits à divers moments dans les périodes couvertes dans le jeu de données. Aussi, depuis le début de septembre 2020, une voiture électrique est presqu'exclusivement rechargée à domicile et principalement la nuit.

Le jeu de données n'est pas continu (trous dans les données au début) mais plusieurs années sont complètes. Pour toutes les périodes disponibles, les données totales (vue d'ensemble) pour la **période**, par **jour** et par **heure** sont fournies.

Les données sont hébergées sur le compte GitHub de Montréal-Python
* https://github.com/mtlpy/mtlpy-exercises/tree/main/hydro/data

## Charger vos données

Première étape, chargez vos données à l'aide de la _librarie_ Pandas.



### Import

D'abord, dans Colab, importez la _librarie_ `pandas` en suivant la convention de nommage habituelle.



In [1]:
import pandas as pd

### Charger

Finalement, chargez vos données CSV dans une variable nommée `data` à l'aide de la fonction appropriée. (Indice: la fonction se trouve au premier niveau du _namespace_ de la _librairie_ `pandas`... introspectez le namespace à la racine.)

Si vous travaillez avec vos données personnelles
* téléversez vos données CSV sur votre Drive personnel puis récupérez le lien Google du fichier.

Si vous travaillez avec le jeu de données de Montréal-Python
* prenez le fichier https://raw.githubusercontent.com/mtlpy/mtlpy-exercises/main/hydro/data/jours/0123456789_jour_2018-06-19_au_2018-08-20.csv

#### Encodage

Pas impossible que l'encodage de données pose problème... Hydro-Québec fournit ses données au format `ISO-8859-1` (O.o). La fonction d'import des données a un paramètre pour gérez ça, cherchez le bon paramètre et la bonne valeur à lui fournir dans la documentation en ligne (ou en introspectant la doc avec `?`). 

(En fait un fichier dans le répertoire `periodes` est en `UTF-8`, probablement la manière la plus robuste de charger les données serait en essayant d'ouvrir le CSV comme si il était en `UTF-8` et de gérer l'exception si il ne l'est pas.)



#### Séparateur

Pas impossible non plus que le séparateur des données dans le CSV ne soit pas une virgule comme on pourrait s'y attendre. Pareil, vérifiez la doc pour trouver le bon paramètre à utiliser et la bonne valeur à lui passer.

## Explorer et préparer les données



### Vue d'ensemble

Prenez connaissance de manière générale des données chargées
* volumétrie des colonnes et rangées
* noms des colonnes
* aperçu des types et des valeurs des données



### Renommer les colonnes

Les colonnes ont souvent des noms formattés lisibles pour les humains mais pas toujours commodes à manipuler dans du code.

Renommez les colonnes avec des mots-clés en minuscules.

### Vérifier les valeurs

Il est utile de vérifier les valeurs de toutes les colonnes (surtout quand les données ne sont pas documentées) afin d'avoir une meilleure idée de leur sémantique et de leurs relations.

Vérifiez
* les valeurs uniques de chaque colonne
    * y a-t-il des valeurs nulles?
    * y a-t-il des erreurs ou des valeurs mal formattées (à transformer)?
* le nombre d'occurence de chaque valeur
    * les valeurs nulles ou erronées sont-elles marginales?


### Transformez les valeurs

Les valeurs des kWh sont formattées en français : elles prennent la forme d'un string où les décimales sont séparées par une virgule
* difficilement utilisable pour des traitements statistiques

Les dates sont aussi en string... à garder en tête si on souhaite faire des manipulations sur les dates.

Transformez
* les kWh en float
* (les dates en date)

### Modifier l'index

Identifiez la colonne qui aurait vocation à devenir l'index des rangées: la colonne doit avoir des valeurs uniques par rangée qui vont pouvoir identifier cette rangée. Dit autrement, les valeurs par rangées sont les valeurs "de quoi", "par quoi"?

Modifiez l'index des rangées.

## Analyser les données

Maintenant, vous connaissez votre jeu de données, les colonnes et les rangées sont bien identifiées et les valeurs ont un type exploitable.

Identifiez les colonnes qui sont nécessaires pour l'analyse de la corrélation entre la consommation électrique et la température.

Conservez dans la variable `data` que ces colonnes.

Vérifiez, pour la consommation électrique et la température
* le minimum
* le maximum
* la moyenne

Pour apprécier la correlation entre la consommation électrique et la température, il est plus aisé d'avoir recours à un graphe.

## Visualiser les données

Sur le tableau de données, identifiez la méthode qui va vous permettre de représenter le jeu de données sous forme de graphe. Utilisez l'introspection et/ou la documentation pour trouvez la méthode. (Indice: "faire le graphique" peut se dire en anglais "to plot".)

Générez le graphe.
* les index des rangées devraient être en abscisses (axe des "x")
* les colonnes devraient être en ordonnées (axe des "y")
* les valeurs des colonnes pour chaque index devraient faire les courbes

La représentation visuelle des données est un monde en soi à explorer. Mais vous devriez pouvoir maintenant avoir une première idée de la corrélation entre la consommation électrique et la température.

Sûrement que vous pourriez avoir de meilleures conclusions en chargeant **toutes** les données quotidiennes que Hydro-Québec peut vous donner (donc données sur 2 ans).

## Fusionner les données

De toutes les méthodes possibles pour fusionner des DataFrames ensemble, identifiez celle qui vous apparaît la plus appropriée sachant que notre jeu de données devrait avoir une et une seule rangée par jour (peu importe le nombre de fichiers, devraient pas y avoir de redondance).

Explorez manuellement la fusion de 2 DataFrames dans Pandas
* en chargeant un 2e jeu de données dans une variable `data2`
* en fusionnant `data` et `data2` dans une variable `test`

Si vous êtes satisfait du résulat de votre fusion, réorganisez votre code pour pouvoir fusionner tous les CSV d'un répertoire
* vous mettrez tous vos CSV quotidiens dans un même répertoire
* vous voulez, en une seule opération, générer un seul DataFrame qui aura tous le nettoyage de données que vous avez déjà codé

Vous serez alors en mesure de grapher ce DataFrame ayant 2 ans de données pour vérifier si la consommation d'électricité est corrélée à la température.


## Aller plus loin

Vous pouvez vous inspirer des visualisations faites par Hydro-Québec pour aller plus loin dans vos propres visualisations ou pour vous inspirer pour des analyses à faire
* ex.: comparez les années entre elles (une ligne par année... faut donc que les abscisses soit les jours de l'année)

Vous pouvez faire une requête (`query`) pour repérer toutes les dates en-dessous ou au-dessus d'une certaine consommation.

Vous pouvez identifiez les jours de la semaine associés aux dates pour analyser les habitudes de consommation hebdomadaires.

Vous pouvez explorer les jeux de données par heures pour voir si vos heures de pointe correspondent aux heures de pointe nationales (matin et soir).

Vous pouvez explorez les notions de statistiques implémentées dans pandas, telles que `data.corr()`

## Solutionnaire

Voici le [solutionnaire](https://colab.research.google.com/drive/1-mW-AAyGg3Eib9ewfMlmt9eCRvYJMVv0?usp=sharing).

# Licence

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
