---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="adf8bbc3" -->
# Table des matières
1. [Qu'est-ce que Seaborn?](#quest-ce-que-seaborn)
   1. [Principales différences entre Matplotlib et Seaborn](#principales-différences-entre-matplotlib-et-seaborn)
2. [Un exemple d'analyse de données avec Seaborn](#un-exemple-danalyse-de-données-avec-seaborn)
   2. [Lecture des données](#lecture-des-données)
   3. [Visualisation univariée](#visualisation-univariée)
       1. [Caractéristiques quantitatives](#caractéristiques-quantitatives)
          1. [Histogrammes et diagrammes de densité](#histogrammes-et-diagrammes-de-densité)
          2. [Box plot](#box-plot)
          3. [Diagramme en violon](#diagramme-en-violon)
          4. [describe()](#describe)
       2. [Caractéristiques catégorielles et binaires](#caractéristiques-catégorielles-et-binaires)
          1. [Table de fréquences](#table-de-fréquences)
          2. [Diagramme en bâtons](#diagramme-en-bâtons)
   4. [Visualisation de données multivariées](#visualisation-de-données-multivariées)
       1. [Quantitative versus quantitative](#quantitative-versus-quantitative)
          1. [Matrice de corrélation](#matrice-de-corrélation)
          2. [Nuages de points ou diagramme de dispersion](#nuages-de-points-ou-diagramme-de-dispersion)
       2. [Quantitative versus catégorielle](#quantitative-versus-catégorielle)
       3. [Catégorielle versus catégorielle](#catégorielle-versus-catégorielle)
          1. [Tableau de contingence](#tableau-de-contingence)
3. [Conclusion](#conclusion)
<!-- #endregion -->



In [None]:
import warnings

warnings.filterwarnings("ignore")

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import wget

sns.set()



<!-- #region id="88dd6249" -->
<div align="center">
    <img src= "../images/seaborn-logo.png"  width="300" />
    <div>
    <font size="1.5">Image Source: https://seaborn.pydata.org//</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region colab_type="text" id="790fd68a" -->
# <a id=quest-ce-que-seaborn>Qu'est-ce que Seaborn?</a>
<!-- #endregion -->

<!-- #region id="65991d32" -->
Seaborn est une librairie de visualisation de données Python basée sur Matplotlib. Elle a
une interface de haut niveau par rapport au bas niveau de Matplotlib. Ça permet
de générer des graphiques statistiques attrayants et informatifs. Il serait ardu de
générer l'équivalent avec Matplotlib, car il n'est pas aisé de
comprendre les paramètres qui rendent les tracés attrayants. Seaborn a été
conçu avec cet esthétisme fonctionnel et pédagogique dès le début.

Seaborn nous donne ainsi la possibilité de créer des données visuelles amplifiées. Cela nous aide
à comprendre les données en les affichant dans un contexte visuel mettant en évidence
les corrélations cachées entre les variables ou les tendances qui pourraient ne
pas être évidentes *a priori*.
<!-- #endregion -->

<!-- #region id="f1864143" -->
## <a id=principales-différences-entre-matplotlib-et-seaborn>Principales différences entre Matplotlib et Seaborn</a>
<!-- #endregion -->

<!-- #region id="0c0cf0e5" -->
Fonctionnalité :

- Matplotlib est principalement déployé pour le traçage de base.
- Seaborn fournit une variété de modèles de visualisation. Il utilise moins de syntaxe et a des fonctionnalités optimisées pour l'aspect visuel et pédagogique.
    

Visualisation :
    
- Matplotlib est une librairie graphique pour la visualisation de données en Python. Il est bien intégré à NumPy et Pandas. Le module pyplot reflète étroitement les fonctions d'affichage de MATLAB.
- Seaborn tire parti des fonctionnalités des tableaux de données Pandas. Ça permet de créer de superbes graphiques à l'aide d'un ensemble de méthodes plus simples. Il est spécialisé dans la visualisation statistique des données.
    
Flexibilité :
    
- Matplotlib est hautement personnalisable et puissant. C'est une qualité, mais aussi un défaut. Il arrive souvent dans un script que la section de code allouée à l'affichage des résultats occupe plus d'espace que celle allouée à la fonction d'analyse des données. C'est pourtant elle le centre d'intérêt du script!
- Seaborn évite cette prolifération de code standard, mais non trivial (*Boilerplate Code*) en fournissant des fonctions spécialisées au rendu esthétique.

Dernier point, mais non le moindre; l'ajout de la librairie Seaborn dans un script rehausse la
qualité des graphiques même si les fonctions de Seaborn ne sont pas utilisées explicitement!
<!-- #endregion -->

<!-- #region colab_type="text" id="790fd68a" -->
# <a id=un-exemple-danalyse-de-données-avec-seaborn>Un exemple d'analyse de données avec Seaborn</a>
<!-- #endregion -->

<!-- #region id="ebe6ed3f" -->
## <a id=lecture-des-données>Lecture des données</a>
<!-- #endregion -->

<!-- #region id="1c743fae" -->
Dans cet exemple, nous allons utiliser un ensemble de données public pour apprivoiser les différentes manières
d'afficher des données en Python en utilisant les librairies [`Matplotlib`](https://matplotlib.org/) et [`Seaborn`](https://seaborn.pydata.org/). Observez à quel point les tableaux de données Pandas sont bien intégrés avec les fonctions de Seaborn.

Pour cela nous allons utiliser le jeu de données de rétention de client d'une compagnie de télécommunications disponible sur [Kaggle](https://www.kaggle.com/datasets/mnassrib/telecom-churn-datasets).

Le jeu de données contient 3 333 points de données avec chacune 20 attributs et une variable réponse (`Churn`).
<!-- #endregion -->

<!-- #region colab_type="text" id="f66f1ec8" -->
Nous allons examiner les données relatives au désabonnement de la clientèle pour un opérateur de télécommunications. Nous allons charger cet ensemble de données dans un `DataFrame`:
<!-- #endregion -->



In [None]:
df = pd.read_csv("/pax/shared/GIF-U014/telecom_churn.csv")



<!-- #region colab_type="text" id="184c6a13" -->
Pour se familiariser avec nos données, regardons les 5 premières entrées en utilisant `head()`:
<!-- #endregion -->



In [None]:
df.head()



<!-- #region colab_type="text" id="3b30576e" -->
On peut déjà se débarrasser de la colonne du numéro de téléphone qui ne donnera pas plus d'information que l'ID unique.

Regardons également combien de données manquantes sont dans le jeu de données.

<!-- #endregion -->



In [None]:
df = df.drop("Phone number", axis=1)
df.isna().sum()



<!-- #region colab_type="text" id="c1690792" -->
Il n'en manque aucune. Regardons à nouveau quelques données tirées au hasard:
<!-- #endregion -->



In [None]:
df.sample(10)



<!-- #region colab_type="text" id="0609e051" -->
Voici une description des caractéristiques des colonnes du jeu de données de Kaggle:

|  Name  | Description | Value Type | Statistical Type |
|---         |---       |---     |---
| **State** | State abbreviation (like KS = Kansas) | String | Categorical |
| **Account length** | How long the client has been with the company | Numerical | Quantitative |
| **Area code** | Phone number prefix | Numerical | Categorical |
| **International plan** | International plan (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Voice mail plan** | Voicemail (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Number vmail messages** | Number of voicemail messages | Numerical | Quantitative |
| **Total day minutes** |  Total duration of daytime calls | Numerical | Quantitative |
| **Total day calls** | Total number of daytime calls  | Numerical | Quantitative |
| **Total day charge** | Total charge for daytime services | Numerical | Quantitative |
| **Total eve minutes** | Total duration of evening calls | Numerical | Quantitative |
| **Total eve calls** | Total number of evening calls | Numerical | Quantitative |
| **Total eve charge** | Total charge for evening services | Numerical | Quantitative |
| **Total night minutes** | Total duration of nighttime calls | Numerical | Quantitative |
| **Total night calls** | Total number of nighttime calls | Numerical | Quantitative |
| **Total night charge** | Total charge for nighttime services | Numerical | Quantitative |
| **Total intl minutes** | Total duration of international calls  | Numerical | Quantitative |
| **Total intl calls** | Total number of international calls | Numerical | Quantitative |
| **Total intl charge** | Total charge for international calls | Numerical | Quantitative |
| **Customer service calls** | Number of calls to customer service | Numerical | Categorical/Ordinal |
| **Churn**| The response variable | Bool | Bool|

La dernière colonne de données ci-dessus, **Churn**, représente la variable cible (c.-à-d. la réponse). Elle est binaire: `True` indique que l'entreprise a perdu un client, et `False` indique que le client a été conservé.
<!-- #endregion -->

<!-- #region colab_type="text" id="d1c5eeb5" -->
## <a id=visualisation-univariée>Visualisation univariée</a>
<!-- #endregion -->

<!-- #region id="3bb8888d" -->
L'analyse univariée examine une caractéristique à la fois. Lorsque nous analysons une entité de manière indépendante, nous nous intéressons généralement à la distribution de ses valeurs et ignorons les autres caractéristiques.

Ci-dessous, nous examinerons différents types statistiques d’entités et les outils correspondants pour leur analyse visuelle individuelle.
<!-- #endregion -->

<!-- #region id="3a6e7b41" -->
### <a id=caractéristiques-quantitatives>Caractéristiques quantitatives</a>
<!-- #endregion -->

<!-- #region id="9bb2f875" -->
Les caractéristiques quantitatives prennent des valeurs numériques ordonnées. Ces valeurs peuvent être discrètes, comme des nombres entiers, ou continues, comme des nombres réels, et expriment généralement un compte ou une mesure.
<!-- #endregion -->

<!-- #region id="69f8c7fd" -->
#### <a id=histogrammes-et-diagrammes-de-densité>Histogrammes et diagrammes de densité</a>
<!-- #endregion -->

<!-- #region id="327e9441" -->
Le moyen le plus simple d'examiner la distribution d'une variable numérique consiste à tracer son histogramme à l'aide de la méthode [`hist()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html) de la classe `DataFrame`.
<!-- #endregion -->



In [None]:
features = ["Total day minutes", "Total intl calls"]
df[features].hist(figsize=(10, 4))



<!-- #region colab_type="text" id="f9941d9f" -->
Un histogramme regroupe les valeurs dans des groupes de même plage de valeurs. La forme d'un histogramme donne souvent des indices sur le type de distribution sous-jacente: gaussienne, exponentielle, etc. Vous pouvez également repérer toute asymétrie dans sa forme lorsque la distribution est presque régulière, mais présente quelques anomalies. Il est important de connaître la distribution des valeurs des caractéristiques lorsque vous utilisez des méthodes d’apprentissage automatique qui en supposent un type particulier, le plus souvent gaussien.

Dans le graphique ci-dessus, nous voyons que la variable « *Total day minutes* » est distribuée plus normalement, c.-à-d. ressemble plus à une distribution selon la loi normale. Alors que « *Total intl calls* »  est asymétrique vers la gauche (ce qui signifie qu'il y a plus de petites données que de grandes données).

Bien qu'ils soient faciles à utiliser, il est bon de savoir que la qualité visuelle des histogrammes dépend de la taille (ou du nombre) des bacs (*bins*) utilisés. Le nombre par défaut n'est pas toujours optimal.
Il existe heureusement une autre façon, souvent plus claire et visuelle, de saisir une distribution: celle des diagrammes de densité ou, plus formellement, des diagrammes de densité du noyau. Ils peuvent être considérés comme une version [lissée](https://en.wikipedia.org/wiki/Kernel_smoother) de l'histogramme. Leur principal avantage par rapport à ces derniers est qu’ils ne dépendent pas de la taille des bacs. Créons des diagrammes de densité pour les deux mêmes variables:
<!-- #endregion -->



In [None]:
df[features].plot(
    kind="density", subplots=True, layout=(1, 2), sharex=False, figsize=(10, 4)
)



<!-- #region colab_type="text" id="2744f1ec" -->
Il est également possible de tracer une distribution d'observations avec le
[`distplot()`](https://seaborn.pydata.org/generated/seaborn.distplot.html) de `Seaborn`. Par exemple,
regardons la distribution de *Total de minutes par jour*. Par défaut, le tracé affiche à la fois l'histogramme avec
l'[estimation de la densité du noyau](https://en.wikipedia.org/wiki/Kernel_density_estimation) en haut.
<!-- #endregion -->



In [None]:
sns.distplot(df["Total intl calls"])



<!-- #region colab_type="text" id="479f79b8" -->
La hauteur des barres de l'histogramme ici est normée et indique la densité plutôt que le nombre d'exemples dans chaque bac.
<!-- #endregion -->

<!-- #region id="4a6753b5" -->
#### <a id=box-plot>Box plot</a>
<!-- #endregion -->

<!-- #region id="f64dc4bd" -->
Une autre méthode de visualisation utile est la boîte à moustaches (*Box Plot*). `Seaborn` fait du bon travail ici:
<!-- #endregion -->



In [None]:
sns.boxplot(y="Total intl calls", data=df)



<!-- #region colab_type="text" id="7311f047" -->
Voyons comment interpréter une boîte à moustaches. Ses composants sont une boîte, les moustaches au-dessus et en dessous et un certain nombre de points individuels (des points aberrants) au-delà de celles-ci.

La boîte illustre la dispersion interquartile de la distribution; son épaisseur est déterminée par les centiles $25\% \, (\text{Q1})$ and $75\% \, (\text{Q3})$. La ligne horizontale à l'intérieur de la boîte marque la médiane ($50\%$) de la distribution.

Les moustaches sont les lignes qui sortent de la boîte. Elles représentent la dispersion des données, en particulier les points compris dans l'intervalle $(\text{Q1} - 1.5 \cdot \text{IQR}, \text{Q3} + 1.5 \cdot \text{IQR})$, où $\text{IQR} = \text{Q3} - \text{Q1}$ est la [plage interquartile](https://en.wikipedia.org/wiki/Interquartile_range).

Les valeurs aberrantes, affichées au-delà des moustaches, sont tracées individuellement sous forme de points noirs le long de l'axe central.

Nous pouvons voir qu'un grand nombre d'appels internationaux est assez rare dans nos données.
<!-- #endregion -->

<!-- #region id="d967b27a" -->
#### <a id=diagramme-en-violon>Diagramme en violon</a>
<!-- #endregion -->

<!-- #region id="25e7ca45" -->
Un dernier type de tracé de distribution que nous allons considérer est le tracé en violon.

Regardez les chiffres ci-dessous. Sur la gauche, nous voyons la boîte à moustaches déjà familière. À droite, un tracé en violon avec l'estimation de la densité du noyau des deux côtés.

<!-- #endregion -->



In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(6, 4))
sns.boxplot(data=df["Total intl calls"], ax=axes[0])
sns.violinplot(data=df["Total intl calls"], ax=axes[1])



<!-- #region colab_type="text" id="adc270e9" -->
La différence entre un diagramme de boîte et un en violon est que le premier illustre certaines statistiques concernant des exemples individuels dans un jeu de données, alors que le second se concentre davantage sur la distribution lissée dans son ensemble.

Dans notre cas, le tracé en violon ne fournit aucune information supplémentaire sur les données, car tout est clair à partir du tracé de boîte.
<!-- #endregion -->

<!-- #region id="31cd2a6d" -->
#### <a id=describe>`describe()`</a>
<!-- #endregion -->

<!-- #region id="e0361ff4" -->
En plus des outils graphiques, pour obtenir les statistiques numériques exactes de la distribution, nous pouvons utiliser la méthode [`describe()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html) de la classe `DataFrame`:
<!-- #endregion -->



In [None]:
df[features].describe()



<!-- #region colab_type="text" id="d0e174cc" -->
Sa sortie est la plupart du temps explicite. Les valeurs $25~\%$, $50~\%$ et $75~\%$ sont les [centiles](https://en.wikipedia.org/wiki/Percentile) correspondants. 
> À noter que la médiane correspond à $50~\%$.
<!-- #endregion -->

<!-- #region colab_type="text" id="c9c597ec" -->
### <a id=caractéristiques-catégorielles-et-binaires>Caractéristiques catégorielles et binaires</a>
<!-- #endregion -->

<!-- #region id="7eecd71d" -->
Les caractéristiques catégorielles prennent un nombre fixe de valeurs. Chacune de ces valeurs attribue une observation à un groupe correspondant, appelé catégorie, qui reflète une propriété qualitative de cet exemple. Les variables binaires constituent un cas particulier important de variables catégorielles lorsque le nombre de valeurs possibles est de 2. Si les valeurs d'une variable catégorielle sont ordonnées, on l'appelle ordinale.
Un exemple bien connu de variable ordinale est le niveau d'appréciation souvent utilisé dans les questionnaires; il prend les valeurs [0, 1, 2, 3, 4, 5], allant de mauvais (0) à excellent (5).
<!-- #endregion -->

<!-- #region id="b0e33e5b" -->
#### <a id=table-de-fréquences>Table de fréquences</a>
<!-- #endregion -->

<!-- #region id="198d9537" -->
Voyons l’équilibre des classes dans notre jeu de données en regardant la distribution de la variable cible: le taux de désabonnement. Tout d’abord, nous obtiendrons un tableau de fréquences indiquant la fréquence de chaque valeur de la variable catégorielle. Pour cela, nous allons utiliser la méthode [`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html):

<!-- #endregion -->



In [None]:
df["Churn"].value_counts()



<!-- #region colab_type="text" id="4ee4d7bf" -->
Par défaut, les valeurs sont affichées en ordre décroissant de fréquence.

Dans cet exemple, les données ne sont pas équilibrées; c'est-à-dire que les deux classes cibles, les clients fidèles et déloyaux, ne sont pas représentées de manière égale dans le jeu de données. Seule une petite partie des clients a annulé son abonnement au service de télécommunication.

Le débalancement des classes peut impliquer certaines restrictions quant à la mesure des performances en classification. Nous avons vu dans le module sur les données d'entraînement déséquilibrées comment éliminer le problème du débalancement.
<!-- #endregion -->

<!-- #region colab_type="text" id="c3ff1001" -->
#### <a id=diagramme-en-bâtons>Diagramme en bâtons</a>
<!-- #endregion -->

<!-- #region id="6a7609bb" -->
Le diagramme en bâtons est une représentation graphique de la table de fréquences. Le moyen le plus simple de le créer
consiste à utiliser la fonction [`countplot()`](https://seaborn.pydata.org/generated/seaborn.countplot.html) de `Seaborn`.
Il existe une autre fonction dans `Seaborn`, [`barplot()`](https://seaborn.pydata.org/generated/seaborn.barplot.html), qui est principalement utilisée pour la représentation de certaines statistiques de base sur une variable numérique regroupée par une caractéristique catégorielle.

Traçons les distributions de deux variables qualitatives:
<!-- #endregion -->



In [None]:
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x="Churn", data=df, ax=axes[0])
sns.countplot(x="Customer service calls", data=df, ax=axes[1])



<!-- #region colab_type="text" id="3f09ecc1" -->
Bien que les histogrammes, décrits ci-dessus, et les diagrammes en bâtons puissent sembler similaires, il existe plusieurs différences entre eux:
1. Les histogrammes conviennent le mieux pour examiner la distribution des variables numériques, tandis que les diagrammes en bâtons sont utilisés pour les caractéristiques catégorielles.
2. Les valeurs sur l'axe des X dans l'histogramme sont numériques; un diagramme en bâtons peut avoir n'importe quel type de valeur sur l'axe des X: nombres, chaînes, booléens.
3. L'axe X de l'histogramme est un axe de coordonnées cartésiennes le long duquel les valeurs ne peuvent pas être modifiées; l'ordre des bâtons n'est pas prédéfini. Néanmoins, il est utile de noter que les bâtons sont souvent triés par hauteur, c'est-à-dire par la fréquence des valeurs. De plus, lorsque nous considérons des variables ordinales (comme « *Customer service calls* » dans nos données), les barres sont généralement classées par valeur de variable.

Le graphique de gauche ci-dessus illustre clairement le déséquilibre de notre variable cible. Le diagramme en bâtons pour les appels de service clientèle à droite indique que la majorité des clients résolvent leurs problèmes en 2 à 3 appels maximum.
<!-- #endregion -->

<!-- #region colab_type="text" id="b8f0b56e" -->
## <a id=visualisation-de-données-multivariées>Visualisation de données multivariées</a>
<!-- #endregion -->

<!-- #region id="ac0b2219" -->
Les graphiques multivariés nous permettent de voir les relations entre deux variables différentes ou plus, le tout dans une seule figure. Tout comme dans le cas des graphiques univariés, le type spécifique de visualisation dépend des types de variables analysées.
<!-- #endregion -->

<!-- #region id="d18330f2" -->
### <a id=quantitative-versus-quantitative>Quantitative versus quantitative</a>
<!-- #endregion -->

<!-- #region id="87abde30" -->
#### <a id=matrice-de-corrélation>Matrice de corrélation</a>
<!-- #endregion -->

<!-- #region id="e8adb5f9" -->
Examinons les corrélations entre les variables numériques de notre ensemble de données. Il est important de connaître ces informations, car il existe des algorithmes d'apprentissage automatique (par exemple, la régression linéaire et logistique) qui gèrent difficilement les variables d'entrée hautement corrélées.

Premièrement, nous allons utiliser la méthode [`corr()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html) sur un `DataFrame` qui calcule la corrélation entre chaque paire de caractéristiques. Ensuite, nous passons la matrice de corrélation résultante à [`heatmap()`](https://seaborn.pydata.org/generated/seaborn.heatmap.html) de `Seaborn`, qui affiche une matrice de couleur pour les valeurs fournies:

<!-- #endregion -->



In [None]:
# On ne prend que les variables numériques. La commande suivante le fait de façon soignée.
numerical = list(
    set(df.columns)
    - set(
        [
            "State",
            "International plan",
            "Voice mail plan",
            "Area code",
            "Churn",
            "Customer service calls",
        ]
    )
)

# Voyez l'effet de la commande suivante et expliquez-la :
# numerical.sort()

# Calcul et affichage
corr_matrix = df[numerical].corr()
sns.heatmap(corr_matrix)



<!-- #region colab_type="text" id="84f2a486" -->
À partir de la matrice de corrélation colorée générée ci-dessus, nous pouvons voir qu'il existe 4 variables telles que « *Total day charge* » qui ont été calculées directement à partir du nombre de minutes passées en appels téléphoniques (« *Total day minutes* »). Celles-ci sont appelées variables dépendantes et peuvent donc être omises puisqu'elles ne fournissent aucune information supplémentaire. Débarrassons-nous d'elles:
<!-- #endregion -->



In [None]:
numerical = list(
    set(numerical)
    - set(
        [
            "Total day charge",
            "Total eve charge",
            "Total night charge",
            "Total intl charge",
        ]
    )
)


<!-- #region colab_type="text" id="d15901af" -->
#### <a id=nuages-de-points-ou-diagramme-de-dispersion>Nuages de points ou diagramme de dispersion</a>
<!-- #endregion -->

<!-- #region id="c5d1ffb3" -->
Le nuage de points affiche les valeurs de deux variables numériques sous forme de coordonnées cartésiennes (X-Y) dans un espace 2-D. Les nuages de points en 3-D sont également possibles.

Essayons la fonction [`scatter ()`](https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.scatter.html) de la bibliothèque `matplotlib`:
<!-- #endregion -->



In [None]:
plt.scatter(df["Total day minutes"], df["Total night minutes"], alpha=0.5)



<!-- #region colab_type="text" id="39a86517" -->
Nous obtenons une image sans intérêt de deux variables normalement distribuées. De plus, il semble que ces caractéristiques ne soient pas corrélées, car la forme en forme d'ellipse est alignée sur les axes.

Il existe une option un peu plus sophistiquée pour créer un nuage de points avec la bibliothèque `Seaborn`:
<!-- #endregion -->



In [None]:
sns.jointplot(
    x="Total day minutes", y="Total night minutes", alpha=0.5, data=df, kind="scatter"
)



<!-- #region colab_type="text" id="f284620f" -->
La fonction [`jointplot()`](https://seaborn.pydata.org/generated/seaborn.jointplot.html) trace deux histogrammes qui peuvent être utiles dans certains cas.

En utilisant la même fonction, nous pouvons également obtenir une version lissée de notre distribution bivariée.
Il s’agit essentiellement d’une version bivariée du tracé de densité du noyau discuté précédemment.

<!-- #endregion -->



In [None]:
sns.jointplot("Total day minutes", "Total night minutes", data=df, kind="kde")



<!-- #region colab_type="text" id="0ec5481e" -->
### <a id=quantitative-versus-catégorielle>Quantitative versus catégorielle</a>
<!-- #endregion -->

<!-- #region id="f7381fb1" -->
Dans cette section, nous allons rendre nos diagrammes quantitatifs un peu plus excitants. Nous tenterons d’obtenir de nouvelles informations sur la prévision du désabonnement grâce aux interactions entre les caractéristiques numériques et catégorielles.

Plus spécifiquement, voyons comment les variables d’entrée sont liées à la variable cible « *Churn* ».

Nous avons vu précédemment les nuages de points. Ceux-ci peuvent être codés en couleur ou en taille afin de représenter une troisième variable catégorielle sur la même figure. Nous pouvons y parvenir avec la fonction `scatter()` vue ci-dessus, mais essayons une nouvelle fonction appelée
[`lmplot()`](https://seaborn.pydata.org/generated/seaborn.lmplot.html) et utilisons le paramètre de teinte (`hue`) pour indiquer la variable cible « *Churn* ».
<!-- #endregion -->



In [None]:
sns.lmplot(
    "Total day minutes", "Total night minutes", data=df, hue="Churn", fit_reg=False
)



<!-- #region colab_type="text" id="019c9a0c" -->
Il semble que notre faible proportion de clients déloyaux se penche un peu vers le coin supérieur droit; c'est-à-dire que ces clients ont tendance à passer plus de temps au téléphone, jour et nuit. Mais cela n’est pas absolument clair et nous ne tirerons aucune conclusion définitive de ce graphique.

Créons maintenant des diagrammes en blocs pour visualiser les statistiques de distribution des variables numériques dans deux groupes disjoints: les clients fidèles (`Churn = False`) et ceux qui sont partis (`Churn = True`).
<!-- #endregion -->



In [None]:
# Parfois, vous pouvez analyser une variable ordinale comme une numérique.
numerical.append("Customer service calls")

fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))
for idx, feat in enumerate(numerical):
    ax = axes[int(idx / 4), idx % 4]
    sns.boxplot(x="Churn", y=feat, data=df, ax=ax)
    ax.set_xlabel("")
    ax.set_ylabel(feat)
fig.delaxes(axes[2, 3])  # élimine le dernier panneau qui est vide
fig.tight_layout()



<!-- #region colab_type="text" id="8857041d" -->
Sur ce graphique, nous pouvons voir que la plus grande divergence dans la distribution entre les deux groupes concerne trois variables: « *Total day minutes* », « *Customer service calls* » et « *Number vmail messages* ». Nous avons déjà vu comment déterminer l’importance des caractéristiques pour un classificateur en utilisant la méthode de forêt aléatoire; si vous l'utilisez sur ce jeu de données, vous verrez que les deux premières caractéristiques sont en effet très importantes pour la prévision du taux de désabonnement.

Examinons séparément la distribution des minutes journalières parlées pour les clients fidèles et déloyaux. Nous allons créer des tracés de boîte et en violon pour le « *Total day minutes* » regroupé selon la variable cible.
<!-- #endregion -->



In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.boxplot(x="Churn", y="Total day minutes", data=df, ax=axes[0])
sns.violinplot(x="Churn", y="Total day minutes", data=df, ax=axes[1])



<!-- #region colab_type="text" id="cdea42f9" -->
Le diagramme en violons montre une légère différence de distributions; les clients fidèles ont une distribution gaussienne alors que les clients déloyaux ont une distribution bimodale. Ces derniers forment-ils deux sous-populations ou est-ce simplement dû à des fluctuations statistiques, étant donné leur faible nombre? Une analyse statistique plus poussée pourrait le dire. Néanmoins, on voit bien que les clients déloyaux ont tendance à parler davantage au téléphone.

> **Observation** : en moyenne, les clients qui résilient leurs contrats sont parmi les plus grands utilisateurs de services de communication. Peut-être ne sont-ils pas satisfaits des tarifs, alors une mesure possible pour éviter le roulement pourrait être une réduction des tarifs d’appel. La société devra entreprendre une analyse économique supplémentaire pour déterminer si une telle mesure serait réellement bénéfique.

Lorsque nous voulons analyser une variable quantitative à la fois en deux dimensions catégoriques, il existe une fonction appropriée dans la bibliothèque `Seaborn` appelée [`catplot()`](https://seaborn.pydata.org/generated/seaborn.factorplot.html). Par exemple, visualisons l'interaction entre « *Total day minutes* » et deux variables qualitatives dans le même graphique:
<!-- #endregion -->



In [None]:
sns.catplot(
    x="Churn",
    y="Total day minutes",
    col="Customer service calls",
    data=df[df["Customer service calls"] < 8],
    kind="box",
    col_wrap=4,
    height=3,
    aspect=1,
)



<!-- #region id="47d72f81" -->
On peut en conclure qu'à partir de quatre appels, le « *Total day minutes* » peut ne plus être le principal facteur de désabonnement des clients. En plus de nos hypothèses précédentes sur les tarifs, il se peut que certains clients ne soient pas satisfaits du service en raison d'autres problèmes, ce qui pourrait réduire le nombre de minutes d'appels par jour.
<!-- #endregion -->

<!-- #region colab_type="text" id="606eefc6" -->
### <a id=catégorielle-versus-catégorielle>Catégorielle versus catégorielle</a>
<!-- #endregion -->

<!-- #region id="f46a443a" -->
La variable « *Customer service calls* » a peu de valeurs uniques et peut donc être considérée comme numérique ou ordinale. Nous avons déjà vu sa distribution avec un `countplot`. Nous nous intéressons maintenant à la relation entre cette entité ordinale et la variable cible « *Churn* ».

Regardons la distribution du nombre d'appels au service clientèle, en utilisant à nouveau un `countplot`. Cette fois, passons également le paramètre `hue = Churn` qui ajoute une dimension catégorique au tracé :
<!-- #endregion -->



In [None]:
sns.countplot(x="Customer service calls", hue="Churn", data=df)



<!-- #region colab_type="text" id="d0019a9a" -->
> **Observation** : le taux de désabonnement augmente après 4 appels ou plus au service clientèle.

Maintenant, regardons la relation entre « *Churn* » et les fonctionnalités binaires, « *International plan* » et « *Voice mail plan* ».
<!-- #endregion -->



In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x="International plan", hue="Churn", data=df, ax=axes[0])
sns.countplot(x="Voice mail plan", hue="Churn", data=df, ax=axes[1])



<!-- #region colab_type="text" id="b87e378e" -->
> **Observation** : lorsque « *International plan* » est activé, le taux de désabonnement est beaucoup plus élevé; l'utilisation du plan international par le client est un atout majeur. Nous n'observons pas le même effet avec « *Voice mail plan* ».
<!-- #endregion -->

<!-- #region id="8fc44abb" -->
#### <a id=tableau-de-contingence>Tableau de contingence</a>
<!-- #endregion -->

<!-- #region id="ba2204b4" -->
Outre l’utilisation de moyens graphiques pour l’analyse catégorique, il existe un outil traditionnel en statistiques: le tableau de contingence, également appelé tableau croisé. Il représente la distribution de fréquence multivariée des variables catégorielles sous forme de tableau. En particulier, cela nous permet de voir la distribution d'une variable conditionnellement à l'autre en regardant le long d'une colonne ou d'une ligne.

Essayons de voir comment « *Churn* » est lié à la variable catégorique « *State* » en créant une tabulation croisée:
<!-- #endregion -->



In [None]:
pd.crosstab(df["State"], df["Churn"]).T



<!-- #region colab_type="text" id="d24c2586" -->
Dans le cas de « *State* », le nombre de valeurs distinctes est plutôt élevé: 51. Nous constatons qu'il n'y a que quelques points de données disponibles pour chaque état - seuls 3 à 17 clients dans chaque état ont abandonné la compagnie. Ignorons cela un instant et calculons le taux de désabonnement pour chaque état en le triant de haut en bas:
<!-- #endregion -->



In [None]:
df.groupby(["State"])["Churn"].agg([np.mean]).sort_values(by="mean", ascending=False).T



<!-- #region colab_type="text" id="e7da3111" -->
À première vue, il semble que le taux de désabonnement dépasse $25~\%$ dans le « New Jersey » et la « Californie » et soit inférieur à $6~\%$ à « Hawaii » et en « Alaska ». Cependant, ces conclusions reposent sur trop peu d'exemples et notre observation pourrait n'être qu'une simple propriété de notre ensemble de données particulier (une fluctuation statistique).
<!-- #endregion -->

<!-- #region id="2a2017bb" -->
# <a id=conclusion>Conclusion</a>
<!-- #endregion -->

<!-- #region id="9171340c" -->
Visualiser les données est une étape et rendre les données visualisées plus agréables en est une autre. La visualisation joue un rôle essentiel dans la communication d'informations quantitatives à un public pour attirer son attention. La visualisation est l'art de représenter les données de la manière la plus efficace et la plus simple qui soit. Pour vous en convaincre, jetez un coup d'oeil aux livres de [Edward Tufte](https://en.wikipedia.org/wiki/Edward_Tufte). On y découvre les défis et les contraintes de la visualisation ainsi les solutions développées au fil de générations d'artistes et de scientifiques.

Comme on l'a vu à maintes reprises, la librairie Matplotlib prend fortement en charge la personnalisation, mais savoir quels paramètres modifier pour obtenir un tracé attrayant et anticipé est ce qu'il faut savoir pour l'utiliser. Ça demande une expertise qui n'est pas à la portée des programmeurs en herbes. Contrairement à Matplotlib, Seaborn est livré avec des thèmes personnalisés et une interface de haut niveau pour personnaliser et contrôler l'apparence des figures de Matplotlib.

Par habitude, on retourne souvent aux sources de Matplotlib pour visualiser nos résultats. Après un long moment, on finit par s'apercevoir et se désespérer de la place que prend la section de code d'affichage dans notre programme. On devrait alors faire une pause et se demander comment faire autrement avec Seaborn. Réinventer la roue à chaque fois est long et pénible; pourquoi ne pas utiliser des roues déjà toutes faites, bien polies et de toutes les couleurs? Seaborn est là pour les installer!
<!-- #endregion -->
