# Visualiser des données

Une étape importante dans tout effort d'analyse ou de modélisation des données consiste à comprendre comment les variables sont distribuées.

Les techniques de visualisation des distributions peuvent fournir des réponses rapides à de nombreuses questions importantes. Quelle est l'étendue des observations ? Quelle est leur tendance centrale ? Sont-elles fortement asymétriques dans une direction ? Existe-t-il des preuves de bimodalité ? Y a-t-il des valeurs aberrantes significatives ? Les réponses à ces questions varient-elles selon des sous-ensembles définis par d'autres variables ?

Dans la suite de ce document nous allons utiliser différentes bibliothèques pour visualiser et gérer les jeux de données:

 - *Matplotlib* [gallerie](https://matplotlib.org/stable/gallery/index.html)

    Bibliothèque très complète pour le tracé de graphiques

 - *Seaborn* [gallerie](https://seaborn.pydata.org/examples/index.html)

   Couche d'abstraction au-dessus de Matplotlib, elle offre une interface vraiment pratique pour créer une large gamme de types de graphiques, utiles en statistiques.
    Cependant, cela ne compromet pas la puissance. Seaborn permet d'accéder aux objets Matplotlib sous-jacents, permettant ainsi un contrôle total.

   
 - *Pandas*

   Pour gérer des jeux de données (importation, manipulation, ...)

In [None]:
import matplotlib as mpl
from matplotlib import pyplot as plt

import seaborn as sb
import pandas as pd

# utilisé ici pour numériser des catégories (encodage)
from sklearn import preprocessing

# Etape préliminaire

Comprendre les données est l'une des étapes les plus importantes de l'analyse des données. Nous nous proposons de d'utiliser différentes methodes de la bibliothèque Pandas pour comprendre nos données.

Le but n'étant pas de voir ici, les différentes manières de cherger un jeu de données depuis différents types de fichiers (bases de données, fichier texte, csv, excel ...), nous utiliserons de jeux de données pré-établis.
Si on cherche à charger un jeu de données spécifiques les [fonctionnalités d'entrée sortie (Input/output)](https://pandas.pydata.org/docs/reference/io.html) de *Pandas* sont utiles, par exemple:
- pandas.read_csv
- pandas.read_excel
- pandas read_table
- ...

Réferez vous à la documentation de ces fonction d'entrée/sortie.


# Nous allons analyser des pingouins

<div style="align: left; text-align:center;">
    <img src="https://github.com/Lingwiloke/EC512/blob/main/pingouins.png?raw=1" alt="Alternative text" width="1080px" height="480px"/>
    <div class="caption">Figure 1 : Données mesurées</div>
</div>

In [None]:
# nous chargeons un jeu de données
penguins = sb.load_dataset("penguins")
# nous pouvons visualiser ces données
penguins

In [None]:
# taille
penguins.shape

In [None]:
# recherche de données manquantes (fonction isnull)
penguins.isnull().sum()

Les dataframes *Pandas* sont des dictionnaires. Chaque colonne est référencée pas sa clé et chaque ligne est référencée par son index.

Nous pouvons donc accéder aux différents champs affichés ci dessus:

In [None]:
# clés
penguins.keys()

In [None]:
# valeurs de l'index
penguins.index

In [None]:
# colonne 'ile'
penguins['island']

In [None]:
# ligne 12
penguins.loc[12]

In [None]:
# combien avons nous d'espèces de pingouins différentes ?
penguins['species'].unique()

In [None]:
# Quelle est la répartition des obserations par espèces ?
Species=penguins.species.value_counts()
Species.plot(kind='pie',autopct="%.2f%%");

In [None]:
# Quelques statistiques (arrondies à une decimale)
penguins.describe().round(1)

# Nuage de points

Un tracé en nuage de points peut être utilisé pour afficher la relation entre différentes variables. Intéressons nous au nuage de points des longueurs et profondeurs des becs selon les espèces de manchots.

L'option *hue="nom_de_la_colonne"* des fonctions de tracées de *Seaborn* permets de colorier nos données en fonction des éléments uniques de la colonne choisie et ajoute une légende.

In [None]:
## Nous pouvons fixer les dimensions des différents graphiques que nous allons réaliser avec Seaborn
sb.set_theme()
sb.set(rc = {"figure.figsize": (12,8), "figure.dpi" : 100})

In [None]:
## avec seaborn
g = sb.scatterplot(x="bill_length_mm", y="bill_depth_mm", data=penguins, hue="species")
## ajout de titres et d'axes
g.get_legend().set_title("Espèces de pingouin") # modification du titre de la légende
plt.title("Longeur du bec en fonction de la hauteur")
plt.xlabel('Longueur du bec (mm)')
plt.ylabel('Hauteur du bec (mm)');

Nous voyons ici que les tailles de bec sont différenciantes pour les différentes espèces de pingouins. Si nous devions proposer un algorithme de classification des différentes espèces cette métrique serait une bonne base de départ.

# Tracé d'histogrammes monodimensionnels

L'approche la plus fréquente pour visualiser une distribution est l'histogramme. Un histogramme est un graphique à barres permettant de représenter la répartition empirique d'une variable aléatoire ou d'une série statistique en la représentant avec des colonnes correspondant chacune à une classe et dont l'aire est proportionnelle à l'effectif de la classe.

In [None]:
sb.histplot(x ="flipper_length_mm", data=penguins)
plt.title("Longueur des nageoires, toutes espèces confondues")
plt.xlabel('Longueur des nageoires (mm)')
plt.ylabel('Effectif');

L'histogramme ci-dessus affiche le nombre d'observations (effectif) qui se situent dans chaque intervalle. Nous pouvons modifier la taille de ces intervalles (classes) avec l'option *binwidth*.

In [None]:
# intervalle de taille 2
sb.histplot(x = "flipper_length_mm", data = penguins, binwidth=2)
plt.title("Longueur des nageoires, toutes espèces confondues")
plt.xlabel('Longueur des nageoires (mm)')
plt.ylabel('Effectif');

L'analyse de l'histogramme peut nous laisser supposer que nous avons deux variable aléatoires centrées sur différentes valeurs (environ 190 et 215).

Comme nous savons que nous avons plusieurs espèces de pingouins nous pouvons également tracer les histogrammes pas espèce. Nous réutilisons ici l'option *hue*

In [None]:
g = sb.histplot(x = "flipper_length_mm", data = penguins, binwidth=2, kde=False, hue = "species")
g.get_legend().set_title("Espèces de pingouin")
plt.title("Longueur des nageoires par espèces")
plt.xlabel('Longueur des nageoires (mm)')
plt.ylabel('Effectif');

# Relations entre les données (*pairplot*)

Précédement nous avons tracé les Nuages de points et les histogrammes de certaine colonnes de notre jeu de données. Si nous souhaitons analyser les relations des différentes données entre elle il est fastidieux de reproduire les étapes précédentes pour chaque variables.

Nous pouvons utiliser la méthode *pairplot* pour tracer les relations entre les paires de variables. Cette fonction nous permets d'afficher des graphiques croisés pour chaque variable numérique du jeu de données.

In [None]:
sb.pairplot(data=penguins, hue = "species", height=3);


# Nos variables sont elles correlées ?

Inspecter la corrélation entre les variables est important pour identifier les caractéristiques potentielles que nous pouvons utiliser pour une analyse plus approfondie et, par la suite, pour la création de modèles.

La methode *corr* de *Pandas* permets de calculer la corrélation entre différentes variables d'un jeu de données.

Cette methode nécessite de convertir les données non numériques en entrées numériques (encodage de ces champs)



In [None]:
# Encodeur de données textuelles en entiers
label_encoder = preprocessing.LabelEncoder()

# Encodage (fonction fit_transform)
penguins['species'] = label_encoder.fit_transform(penguins['species'])
penguins["island"] = label_encoder.fit_transform(penguins["island"])
penguins["sex"] = label_encoder.fit_transform(penguins["sex"])

In [None]:
corr = penguins.corr()

La fonction *heatmap* de *Seaborne* permets de tracer une matrice de corrélation.

In [None]:
sb.heatmap(corr, xticklabels=corr.columns.values, yticklabels=corr.columns.values, annot = True, cmap= 'crest');

Les variables (poids, longueur de nageoire), (espèce, longueur de nageoire) et (espèce, poids) sont les plus fortement corréllées, respectivement 0,87 0,85 et 0,75.

# Ressources pour aller plus loin

Manuel d'analyse et de visualisation de données avec python ([neuraldatascience](https://neuraldatascience.io/intro.html))

Beaucoup de notebook, de jeux de données et d'exemples pour l'IA et le Machine Learning ([kaggle](https://www.kaggle.com/))

Les pingouins analysés autrement [pingu1](https://www.kaggle.com/code/parulpandey/penguin-dataset-the-new-iris), [pingu2](https://www.kaggle.com/code/tirendazacademy/penguin-dataset-data-visualization-with-seaborn)

Autres bibliothèques de [visualization](https://makemeanalyst.com/top-5-python-libraries-for-data-visualization/)