# Introduction à la Data Analyse avec Python

## Objectifs

A la fin de ce notebook, tu seras capable, à l'aide de Python, de :
* charger des données et voir les N premières lignes
* faire des explorations préliminaires des données (avoir des infos sur les colonnes et des statistiques sur les colonnes dont les valeurs sont numériques)

Pour ce notebook, tu utiliseras la librairie Pandas, dont la documentation tu peux trouver [ici](https://pandas.pydata.org/docs/user_guide/index.html).

## Chargement des librairies

Il convient au début de chaque code Python d'importer les libraires que l'on va utiliser dans son code.
Pour ce notebook, on va utiliser seulement Pandas.

In [None]:
import pandas as pd

## Chargement des données

Pour charger des données, on va utiliser les fonctions de Pandas. Il existe plusieurs fonctions pour lire des fichiers contenant des données, en fonction de l'extension du fichier ([read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), [read_excel](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html), [read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html)).

Voyons ensemble un exemple de chargement de fichier.

Dans ce url ('https://github.com/jbrownlee/Datasets/blob/master/airline-passengers.csv?raw=true'), il y les informations sur le nombre des passagers dans les routes internationales aux US de 1949 à 1960 en milliers. Il y a seulement une colonne dans base de données (que l'on va appeler dorénavant de _dataframe_ pour suivre le vocabulaire de Pandas). L'indice de chaque ligne fait référence au mois.

Voici un exemple de comment charger ce dataframe avec la fonction [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). On doit passer url comme argument. L'argument `index_col` indique quelle colonne dans le csv d'origine sera utilisée comme indice (rappelle-toi que dans Python, on commence à compter à partir de 0. Ainsi la première colonne est la colonne 0). L'argument `parse_date` est paramétré pour que toutes les colonnes "ressemblant" à des dates soient interprétées comme telle.

In [None]:
passenger_df = pd.read_csv('https://github.com/jbrownlee/Datasets/blob/master/airline-passengers.csv?raw=true', 
                           index_col=0,
                           parse_dates=True)

On peut voir les premières N lignes du dataframe en utilisant la méthode [.head(n=N)](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html).

In [None]:
passenger_df.head(n=10)

### A toi de jouer

Dans cet url ('https://github.com/mauriciohbc/energy-data-in-france/blob/main/energy_production_and_consumption_monthly.csv?raw=true'), il y a des informations mensuelles sur la consommation et production électrique en France de 2012 à 2022. Toutes les colonnes sont en TWh (unité d'énergie). Les dates de chaque ligne sont dans la première colonne.

Charge ce dataframe read_csv.

In [None]:
### Tu peux rentrer ton code ici.



### Fin de ton code.

Pour voir si tu as bien chargé les données, montre les 12 premières lignes du dataframe (les lignes concernant l'année de 2012).

In [None]:
### Tu peux rentrer ton code ici.



### Fin de ton code.

Maintenant tu es capable de répondre aux questions suivantes :
* Quelle était la consommation d'énergie en France en août 2012 en TWh ?
* Combien d'énergie renouvelable a été produite en France en avril 2012 en TWh ?

## Explorations préliminaires des données

On peut avoir plus d'informations sur le dataframe avec la méthode [.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html). Cette méthode nous dit les informations suivantes sur le dataframe :
* le nombre de lignes
* le nombre et les noms de colonnes
* le type de valeur que chaque colonne prend (entière, décimale ou autre)
* le nombre de lignes dans chaque colonne avec une valeur

In [None]:
passenger_df.info()

Pour `passenger_df`, on voit qu'il y a 144 entrées (lignes), de janvier 1949 à décembre 1960. Il y a une colonne (Passengers), toutes les lignes sont remplies pour cette colonnes et elle prend des valeurs du type int64 (des nombres entiers représentés avec 64 bits).

On peut aussi avoir plus d'information sur chaque colonne dont les valeurs sont numériques avec la méthode [.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html). 

In [None]:
passenger_df.describe()

Pour la colonne `Passengers` de `passenger_df`, on a les informations suivantes :
* il y a 144 valeurs dans la colonne
* la moyenne des valeurs c'est 280,298611, avec un écart type de 119,966317
* la valeur minimale est de 104 et la valeur maximale est de 622
* 25% des valeurs sont plus petites de 180
* 50% des valeurs sont plus petites de 265,5 (c'est la définition de la médiane)
* 75% des valeurs sont plus petites de 360.5

### A toi de jouer

Trouve des informations générales sur le dataframe d'énergie en France à l'aide de la méthode `.info()`.

Tip : float64 signifie que la donnée est du type décimale, stockée dans la mémoire à l'aide de 64 bits.

In [None]:
### Tu peux rentrer ton code ici.



### Fin de ton code.

Trouve plus d'information sur les colonnes dont les valeurs sont numériques à l'aide de la fonction `.describe()`.

In [None]:
### Tu peux rentrer ton code ici.



### Fin de ton code.

Maintenant tu es capable de répondre aux questions suivantes :
* Combien de lignes il y a dans le dataframe d'énergie ?
* Y a-t-il des colonnes avec des valeurs manquantes dans le dataframe d'énergie ?
* Quelle est la valeur maximale de consommation mensuelle en France de 2012 à 2022 en TWh ?
* Quelle est la valeur moyenne de production d'énergie solaire mensuelle en France de 2012 à 2022 en TWh ?
* Quelle est la valeur médiane de la production d'énergie par gas mensuelle en France de 2012 à 2022 en TWh ?