# Toolbox Complète pour Seaborn en Python

## 1. Introduction à Seaborn
Seaborn est une bibliothèque de visualisation de données basée sur Matplotlib, conçue pour rendre les graphiques statistiques en Python plus attractifs et intuitifs. Elle permet de créer des visualisations statistiques rapidement avec un minimum de code.

### Avantages de Seaborn
- Simple à utiliser et intuitif.
- Parfaitement intégré avec Pandas pour manipuler les DataFrames.
- Offre une grande variété de graphiques statistiques.
- Configuration facile des palettes de couleurs et des thèmes.


## 2. Configuration de base

### a) Paramètres de style et de thème
Seaborn propose plusieurs thèmes par défaut et styles de contexte pour rendre les visualisations plus attrayantes et informatives. Voici quelques options de configuration :


In [None]:
# Importation des bibliothèques nécessaires
import seaborn as sns
import matplotlib.pyplot as plt

# Paramétrage de style et de contexte
sns.set_style('whitegrid')
sns.set_context('talk')

# Exemple d'application de style avec un simple graphique
tips = sns.load_dataset('tips')
sns.histplot(tips['total_bill'])
plt.show()

**Explication ligne par ligne :**
- `sns.set_style('whitegrid')` : Applique un style avec un fond en quadrillage blanc.
- `sns.set_context('talk')` : Ajuste le contexte de style pour une présentation.
- `sns.histplot(...)` : Crée un histogramme des valeurs de `total_bill` du dataset 'tips'.

Ces configurations permettent de donner un style cohérent à toutes les visualisations de Seaborn.


## 3. Visualisations de base

### a) Bar plot
Les bar plots sont utilisés pour représenter des données catégoriques. Voici un exemple simple :


In [None]:
# Création d'un bar plot simple
sns.barplot(x='day', y='total_bill', data=tips)
plt.show()

**Explication ligne par ligne :**
- `sns.barplot(x='day', y='total_bill', data=tips)` : Affiche un bar plot où l'axe x est la journée et l'axe y est le montant total de la facture.

Les bar plots permettent de comparer des moyennes de données catégoriques avec des barres d'erreur par défaut.


## 4. Visualisations avancées

### a) Heatmap
Les heatmaps sont idéales pour visualiser des données matricielles, comme une matrice de corrélation :


In [None]:
# Calcul de la matrice de corrélation
corr = tips.corr()

# Création de la heatmap
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()

**Explication ligne par ligne :**
- `tips.corr()` : Calcule la matrice de corrélation du dataset 'tips'.
- `sns.heatmap(...)` : Affiche la heatmap avec la colormap 'coolwarm' et les valeurs annotées.

Les heatmaps sont particulièrement utiles pour observer les relations entre plusieurs variables.


## 5. Personnalisation et annotations

Seaborn permet une grande flexibilité en termes de personnalisation des graphiques. Vous pouvez modifier les couleurs, ajouter des annotations, et ajuster les étiquettes et les titres.


In [None]:
# Exemple de personnalisation avec un scatterplot
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='day', style='time', palette='viridis')
plt.title('Scatter Plot des pourboires par montant total de facture')
plt.xlabel('Total de la Facture')
plt.ylabel('Pourboire')
plt.show()

**Explication ligne par ligne :**
- `hue='day'` : Colore les points en fonction du jour de la semaine.
- `style='time'` : Change le style des points en fonction de la période (déjeuner/dîner).
- `palette='viridis'` : Applique la palette de couleurs 'viridis'.
- `plt.title()`, `plt.xlabel()`, `plt.ylabel()` : Ajoute un titre et des labels aux axes.

Ces options permettent de personnaliser le graphique pour le rendre plus informatif.


## 6. Intégration avec Pandas et Matplotlib

Seaborn s'intègre parfaitement avec les DataFrames Pandas et les fonctions de Matplotlib, ce qui permet de manipuler facilement les données et de personnaliser les visualisations.


## 7. Exemples de cas pratiques

### Exemple 1 : Analyse des données de tips
Une analyse des pourboires par jour et par période (déjeuner/dîner) pour observer les différences en fonction du montant total de la facture :


In [None]:
# Exemple de cas pratique
sns.catplot(x='day', y='total_bill', hue='time', kind='bar', data=tips, height=5, aspect=1.5)
plt.title('Montant total de la facture par jour et par période')
plt.show()

### b) Pairplot
Le `pairplot` permet de visualiser les relations entre chaque paire de variables dans un dataset.


In [None]:
# Exemple de pairplot
sns.pairplot(tips, hue='day', palette='husl')
plt.show()

**Explication ligne par ligne :**
- `sns.pairplot(...)` : Crée une matrice de graphiques de dispersion pour chaque paire de variables numériques dans le dataset.
- `hue='day'` : Différencie les points en fonction des jours.
- `palette='husl'` : Utilise une palette de couleurs Husl.

Les `pairplots` sont utiles pour explorer les relations entre plusieurs variables d'un DataFrame.


### c) Jointplot
Le `jointplot` affiche la relation entre deux variables en ajoutant des distributions marginales pour chaque variable.


In [None]:
# Exemple de jointplot
sns.jointplot(x='total_bill', y='tip', data=tips, kind='hex', color='purple')
plt.show()

**Explication ligne par ligne :**
- `sns.jointplot(...)` : Crée un graphique combiné pour deux variables, avec des marges de distributions.
- `kind='hex'` : Utilise des hexagones pour une meilleure densité visuelle.
- `color='purple'` : Définit la couleur principale comme violet.

Le `jointplot` permet d'analyser la distribution conjointe de deux variables.


### d) Violin Plot
Les `violin plots` montrent la distribution d'une variable numérique sur des catégories.


In [None]:
# Exemple de violin plot
sns.violinplot(x='day', y='total_bill', data=tips, palette='muted')
plt.show()

**Explication ligne par ligne :**
- `sns.violinplot(...)` : Crée un `violin plot` pour comparer les distributions de `total_bill` par jour.
- `palette='muted'` : Applique une palette de couleurs adoucie.

Les `violin plots` sont une alternative aux box plots pour visualiser des distributions sur des catégories.


### e) Regplot
La fonction `regplot` de Seaborn permet d'afficher une régression linéaire pour visualiser la relation entre deux variables continues. Elle est particulièrement utile pour voir la tendance d'une relation linéaire entre une variable dépendante et une variable indépendante, ainsi que pour identifier d'éventuels points aberrants.

In [None]:
# Exemple de regplot
sns.regplot(x='total_bill', y='tip', data=tips, line_kws={'color': 'red'})
plt.show()

**Explication ligne par ligne :**
- `sns.regplot(...)` : Crée un graphique de régression montrant la relation entre `total_bill` (montant total de la facture) et `tip` (montant du pourboire).
- `x='total_bill'` : Spécifie que la variable sur l'axe x est `total_bill`.
- `y='tip'` : Spécifie que la variable sur l'axe y est `tip`.
- `data=tips` : Indique que les données proviennent du dataset `tips`.
- `line_kws={'color': 'red'}` : Paramètre optionnel pour modifier l'apparence de la ligne de régression, ici en rouge.

Le `regplot` affiche une ligne de régression linéaire avec les points de données, ce qui permet d'observer facilement la relation entre les deux variables.

### f) Boxplot
Le `boxplot` est utilisé pour visualiser la distribution d'une variable continue et repérer les outliers (valeurs atypiques). Il est particulièrement utile pour analyser la dispersion des données et observer la médiane, les quartiles et les points extrêmes.

In [None]:
# Exemple de boxplot
sns.boxplot(x='day', y='total_bill', data=tips, palette='Set3')
plt.show()

**Explication ligne par ligne :**
- `sns.boxplot(...)` : Crée un boxplot montrant la distribution de `total_bill` en fonction des jours (`day`).
- `x='day'` : Utilise les jours de la semaine comme catégories sur l'axe x.
- `y='total_bill'` : Affiche la variable `total_bill` en tant que valeur continue sur l'axe y.
- `palette='Set3'` : Applique une palette de couleurs pour différencier les catégories.

Le boxplot montre la médiane, les quartiles, et les points extrêmes (outliers) pour chaque jour.

### g) Line Chart
Un `line chart` est utilisé pour afficher l'évolution d'une variable continue au fil du temps ou par rapport à une autre variable. Il est particulièrement utile pour les séries temporelles ou pour visualiser les tendances.


In [None]:
# Exemple de line chart
sns.lineplot(x='total_bill', y='tip', data=tips, hue='day')
plt.show()

**Explication ligne par ligne :**
- `sns.lineplot(...)` : Crée un graphique en ligne montrant la relation entre `total_bill` et `tip`.
- `x='total_bill'` : Définit le montant total de la facture (`total_bill`) comme l'axe x.
- `y='tip'` : Définit le montant du pourboire (`tip`) comme l'axe y.
- `hue='day'` : Colore les lignes par jour pour différencier les catégories.

Le line chart permet d'observer la tendance des pourboires en fonction du montant des factures, en segmentant les données par jour.

### h) Histogram
Un `histogram` est utilisé pour représenter la distribution d'une variable numérique. Il permet de voir la fréquence de différentes valeurs au sein de la variable, et aide à comprendre la répartition générale des données.


In [None]:
# Exemple d'histogramme
sns.histplot(data=tips, x='total_bill', bins=20, kde=True, color='skyblue')
plt.show()

**Explication ligne par ligne :**
- `sns.histplot(...)` : Crée un histogramme de la variable `total_bill`.
- `x='total_bill'` : Indique que `total_bill` est la variable analysée.
- `bins=20` : Divise les valeurs de `total_bill` en 20 intervalles.
- `kde=True` : Ajoute une courbe de densité pour visualiser la distribution.
- `color='skyblue'` : Définit la couleur principale en bleu ciel.

L'histogramme montre la distribution des montants des factures et leur fréquence d'apparition.

### i) Radar Chart
Un `radar chart` est utilisé pour comparer plusieurs variables quantitatives en les visualisant comme des axes disposés en étoile. Bien que Seaborn ne supporte pas directement ce type de graphique, nous pouvons le créer avec Matplotlib pour comparer les valeurs de chaque catégorie.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Données d'exemple
labels = ['Service', 'Qualité', 'Ambiance', 'Propreté', 'Prix']
values = [4, 3, 5, 4, 2]

# Préparation du Radar Chart
angles = np.linspace(0, 2 * np.pi, len(labels), endpoint=False).tolist()
values += values[:1]  # Pour fermer le graphique
angles += angles[:1]

# Création du radar chart
fig, ax = plt.subplots(figsize=(6, 6), subplot_kw=dict(polar=True))
ax.fill(angles, values, color='skyblue', alpha=0.4)
ax.plot(angles, values, color='blue', linewidth=2)
ax.set_yticklabels([])
ax.set_xticks(angles[:-1])
ax.set_xticklabels(labels)
plt.show()

**Explication ligne par ligne :**
- `labels = ['Service', 'Qualité', 'Ambiance', 'Propreté', 'Prix']` : Définit les catégories à comparer.
- `values = [4, 3, 5, 4, 2]` : Valeurs pour chaque catégorie.
- `angles = np.linspace(...)` : Crée des angles pour chaque axe du radar chart.
- `values += values[:1]` et `angles += angles[:1]` : Boucle la première valeur pour fermer le graphique en étoile.
- `ax.fill(...)` : Remplit la zone couverte par les valeurs pour chaque catégorie.
- `ax.plot(...)` : Trace les lignes du radar chart.
- `ax.set_yticklabels([])` : Supprime les labels radiaux pour une meilleure lisibilité.
- `ax.set_xticks(...)` et `ax.set_xticklabels(...)` : Définit les catégories comme labels autour du graphique.

Le radar chart permet de comparer visuellement des catégories avec une valeur quantitative associée, en formant une figure en étoile.