---
Introduction à Python et Statistiques Descriptives

---

Ce premier TP vise à s'approprier les commandes de bases en Python, et à apprendre les premières étapes d'importation, de représentation et de traitement de données.

Les données utilisées sont issues de [éCO2mix](https://www.rte-france.com/eco2mix), le site de l'entreprise RTE (le gestionnaire du Réseau de Transport d’Electricité français) qui répertorie les données de l'électricité en France. 

Les notions abordées sont les suivantes :

1. [Des outils pour coder en Python et rédiger des comptes rendus propres](#section_1)
2. [Importer des données, nettoyer des données, simuler des jeux de données](#section_2)
3. [Afficher des données (nuages de points, courbes, diagrammes en bâtons, histogrammes, estimation de densité avec l'estimateur à noyau de Nadaraya Watson)](#section_3)
4. [Réduction de dimension des données (ACP) et représentation.](#section_4)
5. [Statistiques bivariées](#section_5)

Les bibliothèques standard de Python que nous allons utiliser dans ce TP sont numpy, matplotlib et pandas.

- Documentation [Pandas](https://pandas.pydata.org/docs/), [Numpy](https://numpy.org/doc/stable/), [Matplotlib](https://matplotlib.org/stable/index.html), [Pyplot](https://matplotlib.org/stable/tutorials/introductory/pyplot.html).
- Antisèche [Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf), [Numpy](https://images.datacamp.com/image/upload/v1676302459/Marketing/Blog/Numpy_Cheat_Sheet.pdf), [Matplotlib](https://matplotlib.org/cheatsheets/)

Nous commençons par importer ces bibliothèques.

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

<a id='section_1'></a>

## 1) Des outils pour coder en Python et rédiger des comptes rendus propres

**Jupyter et Anaconda**

Les notebook [Jupyter](<https://docs.jupyter.org/en/latest/>) permettent de coder dans les langages : Julia, Python ou R (JuPytR), et de rédiger des comptes rendus en html ou pdf etc. L'extension de ces fichiers est .ipynb.

Dans ce cours, on téléchargera [Anaconda](<https://www.anaconda.com/>) puis utilisera JupyterLab à partir de Anaconda, cf. [Page Maxime Sangnier](https://perso.lpsm.paris/~msangnier/pythonM2.html).

**Quarto**

Plus récent, [Quarto](<https://quarto.org/>) permet de créer des documents (HTML, PDF, MS Word, Markdown), des présentations (PowerPoint, Beamer), des livres ou des sites internet, mais aussi des comptes rendus avec le code intégré.
Avec Quarto, on peut intégrer du code en Python, R, Julia...
Il est conseillé d'utiliser un éditeur. Par exemple : JupyterLab (.ipynb), RStudio IDE (maintenant [Posit](<https://posit.co/>), pour R), [VS Code](<https://code.visualstudio.com/>) (pour les trois langages, exécute un document .ipynb (Notebook Jupyter, auparavant Notebook IPython) ou .qmd (Quarto Markdown))... Pour Quarto : [Bases de Markdown](<https://quarto.org/docs/authoring/markdown-basics.html>), [Options de Jupyter Notebooks](<https://quarto.org/docs/reference/formats/ipynb.html#citation>).

On peut aussi prévisualiser un fichier .ipynb avec quarto, ou le transformer en un fichier .html.

Exemple :
Si vous le souhaitez, après avoir installé quarto, écrire dans un terminal :
- `quarto preview TP1_Introduction_Python_Statistiques_Descriptives.ipynb`
- `quarto convert TP1_Introduction_Python_Statistiques_Descriptives.ipynb`

> **Exercice 1 :**
Créer un document `loi_normale.ipynb` qui donne la même sortie que le document `loi_normale.qmd`

<a id='section_2'></a>

## 2) Importer des données, nettoyer des données, simuler des jeux de données

De nombreux jeux de données sont disponibles librement : http://www.data.gouv.fr/, https://data.sncf.com/, https://archive.ics.uci.edu/, etc.

### 2-1) Importer les données 

> **Exercice 2 :** Importer les données `Annuel définitif 2019` sur la page https://www.rte-france.com/eco2mix/telecharger-les-indicateurs, à l'aide de la fonction `read_csv` de la bibliothèque `pandas`.

In [None]:
puissance_2019 = pd.read_csv(#ToDo, sep=#ToDo,encoding='latin-1',index_col=#ToDo, skipfooter=#ToDo, engine = "python")

> **Exercice 3 :** Afficher les premières informations sur les données à l'aide des méthodes `info()` et `describe()` du DataFrame `puissance_2019`, puis lancer les commandes suivantes, observer les sorties.

In [None]:
#ToDo

On peut ensuite extraires des parties des données ou des informations avec les commandes ci-dessous.

In [None]:
puissance_2019.index
puissance_2019.columns
puissance_2019.head(n = 4)
puissance_2019.tail(n = 4)
puissance_2019.values
puissance_2019[['Ech. physiques', 'Taux de Co2']]
puissance_2019.iloc[range(2),:]

### 2-2) Nettoyer les données

On peut gérer les données manquantes à l'aide des fonctions suivantes :

- Retirer les lignes avec des données manquantes

In [None]:
puissance_2019.copy().dropna().head()

- Remplacer les données manquantes à partir de celles de la ligne précédente

In [None]:
puissance_2019.copy().fillna(method='ffill').head()

- Remplacer les données manquantes à partir de celles de la ligne suivante

In [None]:
puissance_2019.copy().fillna(method='bfill').head()

- Vérifier s'il y a des données manquantes

In [None]:
puissance_2019.isnull().any()

On voit que les variables Périmètre, Nature, Date, Heures, Prévision J-1 et Prévision J n'ont jamais de données manquantes. Ce n'est pas le cas des autres variables (sauf Stockage batterie et Déstockage batterie, mais elles ont la même valeur ND). En réalité, une ligne sur deux possède des données manquantes.

> **Exercice 4 :** Créer un DataFrame `puiss_2019` à partir du DataFrame `puissance_2019` en extrayant seulement les lignes d'indice pair.

*On pourra utiliser la fonction `np.arange`, et la méthode `.iloc[]` des DataFrame*

In [None]:
puiss_2019 = #ToDo

> **Exercice 5 :**  Comparer la somme par ligne des colonnes `'Ech. comm. Angleterre'`, `'Ech. comm. Espagne'`, `'Ech. comm. Italie'`, `'Ech. comm. Suisse'`, `'Ech. comm. Allemagne-Belgique'` à la colonne `'Ech. physiques'` de `puiss_2019`:

In [None]:
#ToDo

> **Exercice 6:** Créer un DataFrame `moyen_production` à partir du DataFrame `puiss_2019` en extrayant seulement les colonnes correspondant aux productions de  Fioul, Charbon, Gaz, Nucléaire, Éolien, Solaire, Hydraulique, Bioénergies. La colonne Hydraulique sera la somme de la colonne Hydraulique et de la colonne Pompage. 

In [None]:
moyen_production = puiss_2019[['Fioul', #ToDo]]

In [None]:
moyen_production = moyen_production.copy()

In [None]:
moyen_production['Hydraulique'] = puiss_2019.loc[:,['Hydraulique','Pompage']].sum(axis=1).values

In [None]:
moyen_production

> **Exercice 7:**  Construire la colonne `import-export` de valeur nominale "import" ou "export", qui indique si la France a importé ou exporté de l'électricité de l'Espagne. Ajouter au DataFrame `puiss_2019` la colonne `import-export` avec la valeur `import` si la France a importé plus d'électricité qu'elle n'en a exporté et `export`sinon.

In [None]:
import_export = pd.DataFrame(#ToDo)

In [None]:
puiss_2019 = pd.concat(#ToDo)

> **Exercice 9:**  Construire la colonne `consommation_mille_TWh` d'entiers, qui indiquent la consommation en milliers de Térawatt-heure. 

In [None]:
consommation_mille_TWh = pd.DataFrame(data = #ToDo, columns = #ToDo, index = #ToDo)

In [None]:
puiss_2019 = pd.concat([puiss_2019,consommation_mille_TWh],axis=1)

In [None]:
puiss_2019

In [None]:
conso_effectif = pd.crosstab(index=#ToDo, columns='count')

In [None]:
conso_freq = conso_effectif/conso_effectif.sum()

In [None]:
conso_effectif.head()

In [None]:
conso_freq.head()

### 2-3) Simuler des données

Il est possible de générer des données de lois connues en utilisant par exemple les fonctions de `numpy.random`. Pour connaître les fonctions de `numpy.random` (on rappelle que `numpy` a été importée sous le nom ̀`np`), on utilise la fonction `dir`.

In [None]:
dir(np.random)

> **Exercice 8 :** Générer 4 $n$-échantillons de variables aléatoires des lois suivantes (avec $n = 2000$)
>- La loi normale de même moyenne et écart-type que la variable `Consommation`de `puiss_2019`.
>- La loi uniforme sur l'intervalle $[\min(Conso),\max(Conso)]$ de la variable `Consommation`de `puiss_2019`.
>- La loi uniforme sur l'intervalle d'entiers $[\min(Conso\_1000),\max(Conso\_1000)]$ de la variable `consommation_mille_TWh`de `puiss_2019`.
>- La loi binomiale $\mathcal{B}(N,0.5)$, avec $N$ choisi de sorte que l'espérance de la loi soit aussi proche que possible de la moyenne de la variable `consommation_mille_TWh`de `puiss_2019`. Renormaliser ces données pour qu'elles soient de même variance que la variable `consommation_mille_TWh`de `puiss_2019`, sans que cela n'affecte la moyenne.

*On utilisera les fonctions `np.std` et `np.mean` pour calculer l'écart-type et la moyenne d'un échantillon.*

In [None]:
import numpy.random as rdm

n = 2000

# Échantillon 1:
moyenne = np.mean(puiss_2019[['Consommation']],axis = 0)[0]
ecart_type = np.std(puiss_2019[['Consommation']])[0]

ech_1 = [#ToDo for x in rdm.randn(n)]

# Échantillon 2:
min_conso = #ToDo
max_conso = #ToDo

ech_2 = [#ToDo for x in rdm.rand(n)]

# Échantillon 3:
min_conso_1000 = #ToDo
max_conso_1000 = #ToDo

ech_3 = rdm.randint(#ToDo)

# Échantillon 4:
moyenne_1000 = #ToDo
ecart_type_1000 = #ToDo
N = np.floor(2*moyenne_1000)
p = 0.5

ech_aux = rdm.binomial(N,p,n)

ecart_type_aux = #ToDo
moyenne_aux = #ToDo

ech_4 = [#ToDo for x in ech_aux]

<a id='section_3'></a>

## 3) Afficher des données

### 3-1) Données simulées

> **Exercice 9 :** Afin de vérifier la justesse de la méthode de simulation précédente, pour les quatre méthodes, comparer l'histogramme ou diagramme en bâtons des observations à la densité ou au diagramme de la vraie loi ayant servi à générer les données.

In [None]:
from scipy.stats import norm, binom

# Échantillon 1:

x_1 = np.sort(ech_1)

fig, ax = plt.subplots(1,1)
(hist_plt, bins_plt, patches) = ax.hist(ech_1, bins="auto", density=True, label = "Échantillon simulé")
ax.plot(x_1,norm.pdf(x_1, loc = moyenne, scale = ecart_type), color="red", alpha = 0.6, linewidth=2, label=r"Densité de la loi $\mathcal{N}(0,1)$")

plt.legend()

# Échantillon 2:

fig, ax = plt.subplots(1,1)
(hist_plt, bins_plt, patches) = #ToDo
ax.plot(#ToDo)

plt.legend()

# Échantillon 3:

A = pd.Series(ech_3).value_counts() # On peut aussi utiliser np.bincount(ech_3) 

fig, ax = plt.subplots()
markerline, stemline, baseline, = ax.stem(np.arange(min_conso_1000,max_conso_1000+1),1/(max_conso_1000 + 1 - min_conso_1000)*np.ones(max_conso_1000+1 - min_conso_1000), label = "Vraie loi")
plt.setp(stemline, linewidth = 1.25, color = 'r')
plt.setp(markerline, markersize = 4, color = 'r')

markerline, stemline, baseline, = ax.stem(A.index,A.values/(A.values.sum()), label = "Échantillon simulé", use_line_collection=True)
plt.setp(stemline, linewidth = 1.25, color = 'b')
plt.setp(markerline, markersize = 4, color = 'b')

plt.legend()

# Échantillon 4:

rv = binom(N, p)

#ToDo

### 3-1) Données réelles

> **Exercice 10:** Après avoir calculé les fréquences pour les différents moyens de production sur l'année 2019 :
> - Représenter ces fréquences sur un diagramme en barres.
> - Représenter les productions totales par an pour les différents moyens de production sur un diagramme en barres.
> - Représenter ces informations à l'aide d'un diagramme circulaire.
>
> Quel diagramme est-il préférable d'utiliser ?

In [None]:
# On calcule le tableau des fréquences pour les différents moyens de production, sur toute l'année 2019

moyen_prod_freq = pd.DataFrame({'moyen' :  ['Fioul', 'Charbon', 'Gaz', 'Nucléaire',
       'Eolien', 'Solaire', 'Hydraulique', 'Bioénergies'], 'fréquence' : #ToDo})

In [None]:
import seaborn as sns
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(x = #ToDo,y = #ToDo,data = #ToDo)

In [None]:
moyen_prod_total = pd.DataFrame({'moyen' :  ['Fioul', 'Charbon', 'Gaz', 'Nucléaire',
       'Eolien', 'Solaire', 'Hydraulique', 'Bioénergies'], 'production totale (MWh)' : #ToDo})

fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(#ToDo)

In [None]:
fig, ax = plt.subplots()
explode = 0.1*np.ones(8)
ax.pie(#ToDo, explode=explode, labels=#ToDo, autopct='%1.1f%%', shadow=False, startangle=90);

Quel diagramme est-t-il préférable d'utiliser ?

> **Exercice 11:** Représenter l'histogramme associé à la variable `Consommation` de `puiss_2019`.

In [None]:
fig, ax = plt.subplots(1,1)
ax.hist(#ToDo)

> **Exercice 12:** Afficher les observations de la variable `consommation_mille_TWh` à l'aide d'un diagramme en bâtons.
>
> Tracer le diagramme d'effectifs cumulés (ou fonction de répartition) pour les consommations en milliers de MWh
>
> Retrouver la valeur de la médiane et des 1er et 3ème quartiles (quantiles d'ordre 25%, 50%, 75%).
>
> Représenter la courbe représentant les quantiles. Il s'agit de l'inverse du diagramme d'effectifs cumulés.

In [None]:
#ToDo

> **Exercice 13:** Représenter le facteur d'émission de CO2 au cours du temps : variable
    `Taux de Co2` en fonction de l'heure, la première journée.
> 
> Effectuer une régression linéaire. On pourra utiliser la fonction `LinearRegression` de `sklearn.linear_model`.
> Est-ce adapté ici ?
>
> Même question en considérant l'ensemble des journées de l'année 2019.

In [None]:
from sklearn.linear_model import LinearRegression

#ToDo

<a id='section_4'></a>

## 4) Réduction de dimension des Données par l'Analyse en Composantes Principales


> **Exercice 14:**
>- Extraire les données associées aux colonnes `Fioul`à `Énergie` et les lignes correspondantes à la première journée pour le DataFrame `puiss_2019`. On appellera ce nouveau DataFrame `jour_1`.
>- Renormaliser les données en faisant en sorte que les colonnes soient toutes de moyenne 0 et de variance 1, on note `jour_1_std` le nouveau DataFrame.
>- À l'aide d'une Analyse en composantes principales, pour les lignes correspondant à la première journée, réduire la dimension des données à 2 et les afficher. On donnera une couleur aux points en fonction de l'heure de la journée, selon un dégradé.

In [None]:
jour_1 = puiss_2019.loc[puiss_2019['Date'] == '2019-01-01'][['Fioul', 'Charbon', 'Gaz', 'Nucléaire', 'Eolien', 'Solaire', 'Hydraulique', 'Bioénergies']]

In [None]:
jour_1.head()

In [None]:
jour_1_std = #ToDo
print(jour_1_std.mean(), jour_1_std.std())

In [None]:
jour_1_std.head()

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=#ToDo)
print(pca)

pca.fit(#ToDo)   # ajuste l'ACP sur les données jour_1_std
DataExtract = pca.transform(#ToDo) # transforme (projette) les données sur les axes retenus

ACP0 = DataExtract[:,0]
ACP1 = DataExtract[:,1]

acp = pd.DataFrame({"ACP0" : ACP0, "ACP1" : ACP1, "Heure" : 24*np.arange(np.shape(jour_1_std)[0])/np.shape(jour_1_std)[0]})
sns.scatterplot(data=acp, x="ACP0", y="ACP1", hue="Heure")

In [None]:
import plotly.express as px

fig = px.scatter(x = acp['ACP0'],y = acp['ACP1'])
variables = jour_1_std.columns
pca_variables = pca.transform(np.eye(8))

for i, variable in enumerate(variables):
    fig.add_annotation(
        ax=0, ay=0,
        axref="x", ayref="y",
        x=pca_variables[i, 0],
        y=pca_variables[i, 1],
        showarrow=True,
        arrowsize=2,
        arrowhead=2,
        xanchor="right",
        yanchor="top"
    )
    fig.add_annotation(
        x=pca_variables[i, 0],
        y=pca_variables[i, 1],
        ax=0, ay=0,
        xanchor="center",
        yanchor="bottom",
        text=variable,
        yshift=5,
    )
fig.show()

<a id='section_5'></a>

## 5) Statistiques bivariées

On remarque qu'afficher les données en fonction de leurs coordonnées selon des deux premiers axes principaux de l'ACP permet de mettre en avant 3 groupes distincts correspondants à 3 périodes distinctes de la journée : matin, mileu de journée, soir.

> **Exercice 15:** Tracer le boxplot associé aux données de `jour_1_std` et commenter.
>
> Calculer la variance inter, la variance intra, le rapport de corrélation. Conclure

In [None]:
#ToDo

> **Exercice 16:** Tracer les points selon les variables `Solaire` et `Charbon`. Ces deux variables vous semblent-elles corrélées (positivement ou négativement) ? Le vérifier en affichant la corrélation entre les deux variables.

> Même question avec les variables ̀`Solaire` et `Nucléaire` ; `Gaz` et `Eolien`; `Charbon` et `Gaz`.

In [None]:
fig = px.scatter(#ToDo)
fig.show()

print("Corrélation = ",#ToDo)

In [None]:
#ToDo

In [None]:
#ToDo

In [None]:
#ToDo

> **Exercice 17:** À l'aide d'un QQplot. Observer si les lois de la production nucléaire est similaire lorsque la production solaire est supérieure ou inférieure à 1000TWh. Les échantillons étant de taille différente, on utilisera la fonction `np.interp`.
>
> Que peut-on conclure ?

In [None]:
nucleaire_peu_solaire = puiss_2019.loc[#ToDo][#ToDo]

In [None]:
nucleaire_bcp_solaire = #ToDo

In [None]:
test1 = nucleaire_peu_solaire.values
test2 = nucleaire_bcp_solaire.values

#Calcul des quantiles
test1.sort()
quantile_levels1 = #ToDo

test2.sort()
quantile_levels2 = #ToDo

# the smaller set of quantile levels to create the plot
quantile_levels = quantile_levels2

#We already have the set of quantiles for the smaller data set
quantiles2 = test2

#We find the set of quantiles for the larger data set using linear interpolation
quantiles1 = np.interp(quantile_levels,quantile_levels1,test1)

In [None]:
fig, ax = plt.subplots()

plt.plot(quantiles1,quantiles2, 'b', label = "QQ plot")
plt.plot([25000,57000],[25000,57000], 'r', label = "Droite")
plt.legend()

plt.xlabel ('Solaire < 1000')
plt.ylabel ('Solaire >= 1000')

> **Exercice 18:** On considère la variable `Ensoleillement` qui vaut `Ensoleillé` lorsque `Solaire>=1000` et `Sombre` lorsque `Solaire<1000`.
>
> Faire un tableau représentant pour la première ligne les fréquences des moyens de production pour les journées `Ensoleillement = Ensoleillé` et la seconde ligne les fréquences des moyens de production pour les journées `Ensoleillement = Sombre`. Le comparer au tableau sous hypothèse d'indépendance.
>
> Effectuer un test du Chi2 d'indépendance. 

In [None]:
# TO DO

> **Question subsidiaire :** Faire une étude descriptive d'un autre jeu de données importé du site Eco2mix.    