# Visualisation de Données : Des neurosciences à la pratique

Dans le domaine de l'apprentissage automatique, la visualisation de données ne consiste pas uniquement à créer des graphiques sophistiqués pour les rapports; il est largement utilisé dans le travail quotidien pour toutes les phases d'un projet.

Pour commencer, l'exploration visuelle des données est la première chose à faire lorsque l'on est confronté à une nouvelle tâche. Nous effectuons des contrôles et des analyses préliminaires à l'aide de graphiques et de tableaux pour résumer les données et omettre les détails les moins importants. Il est beaucoup plus pratique pour nous, humains, de saisir les points principaux de cette façon plutôt qu’en lisant de nombreuses lignes de données brutes. Il est étonnant de constater à quel point on peut tirer parti de graphiques apparemment simples créés avec les outils de visualisation disponibles.

Ensuite, lorsque nous analysons les performances d'un modèle ou que nous rapportons des résultats, nous utilisons souvent des graphiques et des images. Parfois, pour interpréter un modèle complexe, il est nécessaire de projeter des espaces de grande dimension sur des figures 2D ou 3D plus intelligibles.

Dans l’ensemble, la visualisation est un moyen relativement rapide d’apprendre quelque chose de nouveau sur vos données. Il est donc essentiel d’apprendre ses techniques les plus utiles et de les intégrer à votre boîte à outils ML quotidienne.

Dans cet atelier, nous allons acquérir une base théorique de la visualisation ainsi qu'une expérience pratique de l’exploration visuelle des données à l’aide de bibliothèques populaires telles que <code>pandas</code>, <code>matplotlib</code> et <code>seaborn</code>.



## Plan

1. [La théorie des neurosciences](#1)
    1. [Pourquoi visualiser ?](#11)
    2. [Estimation](#12)
    3. [Construction](#13)
    4. [Detection](#14)
2. [La pratique en python](#2)
    1. [Les données](#21)
    2. [Visualisation d'une variable](#22)
        1. [Quantitative](#221)
        2. [Categorie ou binaire](#222)
    3. [Visualisation Multivariée](#23)
        1. [Quantitative–Quantitative](#231)
        2. [Quantitative–Categorie](#232)
        3. [Categorie–Categorie](#233)
    4. [Dataset complet](#24)
        1. [Approche Naive](#241)
        2. [Reduction de la dimensionalité](#242)
        3. [t-SNE](#243)
3. [Exercices de plus ... Titanic](#3)

## Setup

Import de tous les packages nécessaires

In [None]:
from io import StringIO
# Matrices et manipulateurs de données
import numpy as np
import pandas as pd

# Générateurs de graphiques
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import matplotlib.style as style
import seaborn as sns

#Styling
style.use('ggplot')

pylab.rcParams['figure.figsize'] = (10,10)

# Theme
sns.set()
# pour exercises
sns.set_context("notebook")


##  Comment les humains voient les données ?<a id="1"/>
___
### Pourquoi visualiser ?<a id="11"/>

Si on présente les données de la bonne manière, leur relation est évidente de manière pré-attentive

In [None]:
# Raw data ... et illumination
raw = pd.read_csv(StringIO('''x;y
1.972;1.236
1.112;1.994
0;1.009
0.665;1.942
0.235;0.356
0.247;1.658
1.275;1.961
0.702;0.043
1.76;0.35
1.691;0.277
1.628;1.778
1.957;1.29
0.111;0.542
0.902;0.005
0.598;0.085
1.613;1.79
1.298;1.955
0.651;1.937
1.949;1.316
0.099;0.567
0.862;0.01
0.027;0.768
0.706;1.956
1.042;1.999'''), sep=';')

Présenter ces données sous un axe temporel ne donne pas grand chose :

In [None]:
sns.lineplot(x=raw.index,y='x',data=raw)
sns.lineplot(x=raw.index,y='y',data=raw)

Alors que les présenter relativement l'une à l'autre :

In [None]:
f, ax = plt.subplots(1,2,figsize=(10,5))
ax[0].axis('equal')
sns.scatterplot(x='x',y='y',data=raw, sizes=(0, 2), linewidth=0
#                )
                ,ax=ax[0])

sns.lineplot(x=raw.index,y='x',data=raw,ax=ax[1])
sns.lineplot(x=raw.index,y='y',data=raw,ax=ax[1])

De la même manière, des données qui sont **statistiquement** "identiques" : 

In [None]:
quartet = pd.read_csv(StringIO('''group;x;y
A;10;8
A;8;7
A;13;7.6
A;9;8.8
A;11;8.3
A;14;10
A;6;7.2
A;4;4.3
A;12;10.8
A;7;4.8
A;5;5.7
B;10;9.1
B;8;8.1
B;13;8.7
B;9;8.8
B;11;9.3
B;14;8.1
B;6;6.1
B;4;3.1
B;12;9.1
B;7;7.3
B;5;4.7
C;10;7.5
C;8;6.8
C;13;12.7
C;9;7.1
C;11;7.8
C;14;8.8
C;6;6.1
C;4;5.4
C;12;8.2
C;7;6.4
C;5;5.7
D;8;6.6
D;8;5.8
D;8;7.7
D;8;8.8
D;8;8.5
D;8;7
D;8;5.3
D;19;12.5
D;8;5.6
D;8;7.9
D;8;6.9'''), sep=';')

quartet.groupby('group').describe()

Peuvent présenter des relations particulières une fois affichées :

In [None]:
g = sns.FacetGrid(data=quartet,col='group')
g.map(plt.scatter, "x", "y", alpha=.7)

## Estimation <a id="12"/>

In [None]:
autos = pd.read_csv('https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv')
autos.index=autos['model']
#autos=autos.drop(columns=['model'])
autos

### Couleur

In [None]:
autos = autos.sort_index(ascending=False)
f, ax = plt.subplots(1,1,figsize=(10, 10))
sns.heatmap(autos.loc[:,['mpg']],cmap='coolwarm')

In [None]:
autos = autos.sort_values('mpg',ascending=False)
f, ax = plt.subplots(1,1,figsize=(10, 10))
sns.heatmap(autos.loc[:,['mpg']],cmap='coolwarm')

In [None]:
autos = autos.sort_values('mpg',ascending=False)
f, ax = plt.subplots(1,1,figsize=(10, 10))
sns.heatmap(autos.loc[:,['mpg']],cmap='Blues')

In [None]:
autos = autos.sort_index(ascending=False)
f, ax = plt.subplots(1,1,figsize=(10, 10))
sns.heatmap(autos.loc[:,['mpg']],cmap='Blues')

In [None]:
autos = autos.sort_values('mpg',ascending=False)
f, ax = plt.subplots(1,1,figsize=(10, 10))
img = sns.heatmap(autos.loc[:,['mpg']],cmap='Blues',vmin=0)

### Aire

In [None]:
plt.figure(figsize = (8, 8))
autos = autos.sort_values('mpg',ascending=True)

#Legend
def quantile_legend(ax,serie,mq=4,loc='right center',title='title',scale=1):
    l = []
    size_labels = []
    #mq =4 # max quantiles
    for i in range(mq):
        l.append( ax.scatter([],[], s=scale*serie.quantile(i/mq),color='#4C72B0'))
        size_labels.append(int(autos.mpg.quantile(i/mq)))
    leg = ax.legend(l, size_labels, loc=loc, title=title )


# Scatter grid
g=[]
g.append(list(range(4))*8)
g.append(np.repeat(np.array(list(range(8))),4))
ax = sns.scatterplot(g[0],g[1],s=autos['mpg']*10)

quantile_legend(ax,autos.mpg,4,'center right','MPG',10)    

# Visual preferences
ax.grid(False)
ax.set_yticklabels('')    
ax.set_xticklabels('')
ax.set_ylim(-.5, None)
ax.set_xlim(-.5, 4.8)

# Scatter Labels
def label_point(x, y, val, ax):
    for i in range(0,len(x)):
        ax.annotate(val[i],xy=(x[i],y[i]-.2),ha='center',va='top',size=9)
label_point(g[0],g[1], autos['model'][:], plt.gca())


"Bubble charts" utilise la taille d'un point pour exprimer son poids. Dans ces graphiques les données aberrantes ont un poids moindre (petite taille).

In [None]:
p = np.random.sample(100)
n = np.random.poisson(10,100)^2
y = np.random.binomial(n,p,100)

df = pd.DataFrame({'p':p,'n':n,'y':y/n})

In [None]:
fig, ax = plt.subplots(1,2,figsize = (16, 8))
quantile_legend(ax[0],df.n,2,'upper left','n',5)
ax[0].scatter(df.p,df.y,s=df.n*5, alpha=2/3)
ax[1].scatter(df.p,df.y)

In [None]:
p = list(range(1,101))
n = np.random.poisson(10,100)^2
y = np.random.binomial(n,0.5,100)/n

df = pd.DataFrame({'p':p,'n':n,'y':y/n})

In [None]:
fig, ax = plt.subplots(1,2,figsize = (16, 8))
quantile_legend(ax[0],df.n,2,'upper right','n',5)
ax[0].scatter(df.p,df.y,s=df.n*5, alpha=2/3)
ax[1].scatter(df.p,df.y)

### Angle

In [None]:
import math


autos = autos.sort_values('mpg',ascending=True)

def segment(df, low, hi):
    rge = hi-low
    fract = df.mpg.apply(lambda x : (x-low)/hi) #(df.mpg -low) / hi
    theta = fract.apply(lambda x: x*np.pi/2) #fract*np.pi/2
    angdf = pd.DataFrame()
    angdf['x'] = theta.apply(lambda x: math.cos(x))
    angdf['y'] = theta.apply(lambda x: math.sin(x))
    return angdf

fig, ax = plt.subplots(8,9,figsize = (9, 9))
angdf = segment(autos, 0, autos.mpg.max())

for i in range(8):
    for j in range(9):
        ax[i][j].set_yticklabels('')
        ax[i][j].set_xticklabels('')
        ax[i][j].set_ylim(-.05,1)
        ax[i][j].set_xlim(-.05,1)  
        
for i in range(8):
    for j in range(4):
        v = i*4+j
        ax[i][j].plot([0, angdf['x'][v]],[0,angdf['y'][v]])
        ax[i][j].set_title(autos.model[v],size=8,pad=2)

angdf = segment(autos, autos.mpg.min(), autos.mpg.max())
for i in range(8):
    for j in range(4):
        v = i*4+j
        ax[i][j+5].plot([0, angdf['x'][v]],[0,angdf['y'][v]])
        ax[i][j+5].set_title(autos.model[v],size=8,pad=2)     

To be continued ... In the meantime ...

In [None]:
random = np.random.uniform(10,0,32)
autos = autos.sort_values('mpg',ascending=True)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.barh(range(len(autos.model)),autos.mpg,left=random,align='center')
ax.set_yticklabels(autos.model)
ax.set_yticks(range(len(autos.model)))

plt.show()

In [None]:
autos = autos.sort_values('mpg',ascending=True)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.barh(range(len(autos.model)),autos.mpg,align='center')
ax.set_yticklabels(autos.model)
ax.set_yticks(range(len(autos.model)))

plt.show()

Les barres d'erreurs restent informativent même lorsqu'elles ne sont pas nécessairement alignées.

In [None]:
x = list(range(10))
y = np.random.uniform(5,0,10)
e = np.random.uniform(3,0,10)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.errorbar(x, y, yerr=e, fmt='o')
plt.show()

### Position

#### Échelle non alignée

In [None]:
autos = autos.sort_values('mpg',ascending=True)

fig, ax = plt.subplots(4,8,figsize = (20, 10))

for i in range(3):
    for j in range(8):
        ax[i][j].set_xticklabels('')

for i in range(4):
    for j in range(8):
        ax[i][j].set_yticklabels('')
        ax[i][j].set_ylim(0,1)
        ax[i][j].set_xlim(8,30)  
        
for i in range(4):
    for j in range(8):
        v = i*4+j
        ax[i][j].scatter(autos.mpg[v],0.5)
        ax[i][j].set_title(autos.model[v],size=8,pad=2)

#### Échelle alignée

In [None]:
autos = autos.sort_values('mpg',ascending=True)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.scatter(autos.mpg,range(len(autos.model)))
ax.set_yticklabels(autos.model)
ax.set_yticks(range(len(autos.model)))

plt.show()

L'ordre reste TRÈS important.

In [None]:
autos = autos.sort_index(ascending=True)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.scatter(autos.mpg,range(len(autos.model)))
ax.set_yticklabels(autos.model)
ax.set_yticks(range(len(autos.model)))

plt.show()

Et ramener l'échelle à 0 n'est pas toujours une bonne idée, on limite la capacité à faire les ratios entres les valeurs

In [None]:
autos = autos.sort_values('mpg',ascending=True)

f, ax = plt.subplots(1,1,figsize=(10, 10))
img = plt.scatter(autos.mpg,range(len(autos.model)))
ax.set_yticklabels(autos.model)
ax.set_yticks(range(len(autos.model)))
ax.set_xlim(0,35)

plt.show()

## And so on ... 

Parce qu'il y'a des choses qui sont plus faciles à faire en R qu'en Python ... on va maintenant passer à la pratique.

In [None]:
# Hot ScatterPlot
plt.figure(figsize = (12, 8))
plt.rcParams['font.size'] = 18

for cyl, mark in zip([4, 6, 8], ['d', '2', 'o']):
    sub = autos[autos['cyl'] == cyl]
    plt.scatter(sub['disp'], sub['mpg'], marker = mark, 
                s = 20 * np.square(autos['wt']), 
                c = sub['hp'], cmap = 'jet')

cbar = plt.colorbar()
cbar.ax.set_title('power (hp)')

# Just for the legens 
plt.legend()
plt.xlabel('displacement (cu in.)'); plt.ylabel('fuel efficiency (mpg)');

size_labels = ['2', '3', '4', '5']
shape_labels = ['4', '6', '8']

l = [plt.scatter([],[], s=20 * x, edgecolors='none', color = 'blue') for x in [4,9,16,25]]
s = [plt.scatter([],[], s=200, marker = m, edgecolors='none', color = 'blue') for m in 'd2o']


leg = plt.legend(l, 
                 size_labels, ncol=4, frameon=True, fontsize=12,
                handlelength=2, loc = (.4, 0.8), borderpad = 1.8,
                handletextpad=1, title='weight (1000 lbs)', scatterpoints = 1)

leg2 = plt.legend(s, 
                 shape_labels, ncol=3, frameon=True, fontsize=12,
                handlelength=2, loc = (0.4, 0.55), borderpad = 1.8,
                handletextpad=1, title='cylinders', scatterpoints = 1)

plt.gca().add_artist(leg);
plt.gca().add_artist(leg2);

Pour la suite et la fin de cette présentation (en R), les notes de J. Hauser sont [à cette adresse](http://rpubs.com/jrauser/hhsd_notes). [Avec le code ici](https://github.com/jrauser/writing/blob/master/how_humans_see_data/hhsd_notes.Rmd).

# La pratique en python <a id="2"/>

## Les données : Rétention client Telecom <a id="21"/>

Mais avant darriver aux données, initialisons notre environnement:

In [None]:
import numpy as np
import pandas as pd

# On s'épargne les warnings 
# juste à commenter les deux lignes suivantes si vous souhaitez les voir
import warnings
warnings.filterwarnings('ignore')

# Matplotlib : la base
import matplotlib.pyplot as plt

# Seaborn : quelques trucs jolis en plus
import seaborn as sns
sns.set()

# Pou rdu Web mieux vaut utiliser du SVG ... mais la on est en local on va utiliser du PNG
#%config InlineBackend.figure_format = 'svg'

Nous allons examiner les données relatives au désabonnement de la clientèle pour un opérateur de télécommunications. Nous allons charger cet ensemble de données dans un `DataFrame`:

In [None]:
df = pd.read_csv('telecom_churn.csv')

Pour se familiariser avec nos données, regardons les 5 premières entrées en utilisant `head()`:

In [None]:
df.head()

On peut déjà se débarasser de la colonne du numéro de téléphone qui ne donnera pas plus d'information que l'ID unique.

Regardons aussi combien de données manquantes nous avons dans le dataset.

In [None]:
df = df.drop('Phone number',axis=1)
df.isna().sum()

Et maintenant regardons à nouveau quelques données tirées au hasard:

In [None]:
df.sample(10)

Voici une description de nos caractéristiques (dataset Kaggle):

|  Name  | Description | Value Type | Statistical Type |
|---         |---       |---     |---
| **State** | State abbreviation (like KS = Kansas) | String | Categorical |
| **Account length** | How long the client has been with the company | Numerical | Quantitative |
| **Area code** | Phone number prefix | Numerical | Categorical |
| **International plan** | International plan (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Voice mail plan** | Voicemail (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Number vmail messages** | Number of voicemail messages | Numerical | Quantitative |
| **Total day minutes** |  Total duration of daytime calls | Numerical | Quantitative |
| **Total day calls** | Total number of daytime calls  | Numerical | Quantitative |
| **Total day charge** | Total charge for daytime services | Numerical | Quantitative |
| **Total eve minutes** | Total duration of evening calls | Numerical | Quantitative |
| **Total eve calls** | Total number of evening calls | Numerical | Quantitative |
| **Total eve charge** | Total charge for evening services | Numerical | Quantitative |
| **Total night minutes** | Total duration of nighttime calls | Numerical | Quantitative |
| **Total night calls** | Total number of nighttime calls | Numerical | Quantitative |
| **Total night charge** | Total charge for nighttime services | Numerical | Quantitative |
| **Total intl minutes** | Total duration of international calls  | Numerical | Quantitative |
| **Total intl calls** | Total number of international calls | Numerical | Quantitative |
| **Total intl charge** | Total charge for international calls | Numerical | Quantitative |
| **Customer service calls** | Number of calls to customer service | Numerical | Categorical/Ordinal |

La dernière colonne de données, **Churn**, représente notre variable cible. C'est binaire: *True* indique que l'entreprise a finalement perdu ce client, et *False* indique que le client a été conservé. Plus tard, nous construirons des modèles qui prédisent cette fonctionnalité en fonction des fonctionnalités restantes. C'est pourquoi nous l'appelons la *cible*.

## Visualisation Univariée <a id="22"/>

L'analyse *univariée* examine une caractéristique à la fois. Lorsque nous analysons une entité de manière indépendante, nous nous intéressons généralement à la *distribution de ses valeurs* et ignorons les autres fonctionnalités de l'ensemble de données.

Ci-dessous, nous examinerons différents types statistiques d’entités et les outils correspondants pour leur analyse visuelle individuelle.

### Caractéristiques Quantitatives <a id="221"/>

*Les caractéristiques quantitatives* prennent des valeurs numériques ordonnées. Ces valeurs peuvent être *discrètes*, comme des nombres entiers, ou *continues*, comme des nombres réels, et expriment généralement un compte ou une mesure.

#### Histogrammes et diagrammes de densité

Le moyen le plus simple d'examiner la distribution d'une variable numérique consiste à tracer son *histogramme* à l'aide de la méthode de `DataFrame` [`hist()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html).

In [None]:
features = ['Total day minutes', 'Total intl calls']
df[features].hist(figsize=(10, 4));

Un histogramme regroupe les valeurs dans *des groupes* de même plage de valeurs. La forme de l'histogramme peut contenir des indices sur le type de distribution sous-jacente: gaussienne, exponentielle, etc. Vous pouvez également repérer toute asymétrie dans sa forme lorsque la distribution est presque régulière mais présente quelques anomalies. Il est important de connaître la distribution des valeurs des caractéristiques lorsque vous utilisez des méthodes d’apprentissage automatique qui en supposent un type particulier, le plus souvent gaussien.

Dans le graphique ci-dessus, nous voyons que la variable *Total des minutes du jour* est normalement distribuée, alors que *Total des appels intl* est nettement en biais à droite (sa queue est plus longue à droite).

Il existe également une autre façon, souvent plus claire, de saisir la distribution: *diagrammes de densité* ou, plus formellement, *diagrammes de densité du noyau*. Ils peuvent être considérés comme une version [lissée](https://en.wikipedia.org/wiki/Kernel_smoother) de l'histogramme. Leur principal avantage par rapport à ces derniers est qu’ils ne dépendent pas de la taille des bacs. Créons des diagrammes de densité pour les deux mêmes variables:

In [None]:
df[features].plot(kind='density', subplots=True, layout=(1, 2), 
                  sharex=False, figsize=(10, 4));

Il est également possible de tracer une distribution d'observations avec le [`distplot()`](https://seaborn.pydata.org/generated/seaborn.distplot.html) de `seaborn`. Par exemple, regardons la distribution de *Total de minutes par jour*. Par défaut, le tracé affiche à la fois l'histogramme avec l'[estimation de la densité du noyau](https://en.wikipedia.org/wiki/Kernel_density_estimation) (KDE) en haut.

In [None]:
sns.distplot(df['Total intl calls']);

La hauteur des barres de l'histogramme ici est normée et indique la densité plutôt que le nombre d'exemples dans chaque casier.

#### Box plot

Un autre type de visualisation utile est le *box plot*. `seaborn` fait du bon travail ici:

In [None]:
sns.boxplot(x='Total intl calls', data=df);

Voyons comment interpréter une boîte à moustaches. Ses composants sont une *boîte* (évidemment, c’est pourquoi il s’appelle une *boîte à moustaches*), ce que l’on appelle les *moustaches* et un certain nombre de points individuels (*points aberrants*).

Le cadre à lui seul illustre la dispersion interquartile de la distribution; sa longueur est déterminée par les centiles $25e \, (\text{Q1})$ and $75e \, (\text{Q3})$. La ligne verticale à l'intérieur de la case marque la médiane ($50\%$) de la distribution.

Les moustaches sont les lignes qui sortent de la boîte. Ils représentent toute la dispersion des points de données, en particulier les points compris dans l'intervalle $(\text{Q1} - 1.5 \cdot \text{IQR}, \text{Q3} + 1.5 \cdot \text{IQR})$, où $\text{IQR} = \text{Q3} - \text{Q1}$ est la [plage interquartile](https://en.wikipedia.org/wiki/Interquartile_range).

Les valeurs aberrantes qui sortent de la plage délimitée par les moustaches sont tracées individuellement sous forme de points noirs le long de l'axe central.

Nous pouvons voir qu'un grand nombre d'appels internationaux est assez rare dans nos données.

#### Diagramme en violon

Le dernier type de tracés de distribution que nous allons considérer est un *tracé de violon*.

Regardez les chiffres ci-dessous. Sur la gauche, nous voyons la boîte à moustaches déjà familière. À droite, un *tracé de violon* avec l'estimation de la densité du noyau des deux côtés.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(6, 4))
sns.boxplot(data=df['Total intl calls'], ax=axes[0]);
sns.violinplot(data=df['Total intl calls'], ax=axes[1]);

La différence entre les diagrammes de boîte et violon est que le premier illustre certaines statistiques concernant des exemples individuels dans un jeu de données, tandis que le tracé du violon se concentre davantage sur la distribution lissée dans son ensemble.

Dans notre cas, le tracé de violon ne fournit aucune information supplémentaire sur les données, car tout est clair à partir du tracé de boîte.

#### describe()

En plus des outils graphiques, pour obtenir les statistiques numériques exactes de la distribution, nous pouvons utiliser la méthode [`describe()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas .DataFrame.describe.html) d’un `DataFrame`:

In [None]:
df[features].describe()

Sa sortie est la plupart du temps explicite. *25%*, *50%* et *75%* sont les [centiles](https://en.wikipedia.org/wiki/Percentile) correspondants.

### Caractéristiques catégorielles et binaires <a id="222" />

*Les caractéristiques catégorielles* prennent un nombre fixe de valeurs. Chacune de ces valeurs attribue une observation à un groupe correspondant, appelé *catégorie*, qui reflète une propriété qualitative de cet exemple. Les variables *binaires* constituent un cas particulier important de variables catégorielles lorsque le nombre de valeurs possibles est exactement égal à 2. Si les valeurs d'une variable catégorielle sont ordonnées, on l'appelle *ordinale*.

#### Table de fréquences

Voyons l’équilibre des classes dans notre jeu de données en regardant la distribution de la variable cible: le *taux de désabonnement*. Tout d’abord, nous obtiendrons un tableau de fréquences, qui indique la fréquence de chaque valeur de la variable catégorielle. Pour cela, nous allons utiliser la méthode [`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html):

In [None]:
df['Churn'].value_counts()

Par défaut, les entrées de la sortie sont triées des valeurs les plus fréquentes aux moins fréquentes.

Dans notre cas, les données ne sont pas *équilibrées*; c'est-à-dire que nos deux classes cibles, les clients fidèles et déloyaux, ne sont pas représentées de manière égale dans le jeu de données. Seule une petite partie des clients a annulé son abonnement au service de télécommunication. Ce fait peut impliquer certaines restrictions quant à la mesure de la performance de la classification et, à l'avenir, nous voudrons peut-être également pénaliser davantage les erreurs de modèle que nous utiliserons pour prédire la classe minoritaire de "Churn".

#### Diagramme en bâtons

Le Diagramme en bâtons est une représentation graphique de la table de fréquences. Le moyen le plus simple de le créer consiste à utiliser la fonction [`countplot()`](https://seaborn.pydata.org/generated/seaborn.countplot.html) de `Seaborn` . Il existe une autre fonction dans `seaborn` qui s'appelle quelque peu déroutant [`barplot()`](https://seaborn.pydata.org/generated/seaborn.barplot.html) et qui est principalement utilisée pour la représentation de certaines statistiques de base de une variable numérique regroupée par une caractéristique catégorielle.

Traçons les distributions de deux variables qualitatives:

In [None]:
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x='Churn', data=df, ax=axes[0]);
sns.countplot(x='Customer service calls', data=df, ax=axes[1]);

Bien que les histogrammes, décrits ci-dessus, et les diagrammes en bâtons puissent sembler similaires, il existe plusieurs différences entre eux:
1. Les *histogrammes* conviennent le mieux pour examiner la distribution des variables numériques, tandis que les *diagrammes en bâtons* sont utilisés pour les caractéristiques catégorielles.
2. Les valeurs sur l'axe des X dans *l'histogramme* sont numériques; un *diagramme en bâtons* peut avoir n'importe quel type de valeur sur l'axe des X: nombres, chaînes, booléens.
3. L'axe X de *l'histogramme* est un *axe de coordonnées cartésiennes* le long duquel les valeurs ne peuvent pas être modifiées; l'ordre des *bâtons* n'est pas prédéfini. Néanmoins, il est utile de noter que les bâtons sont souvent triées par hauteur, c'est-à-dire par la fréquence des valeurs. De plus, lorsque nous considérons des variables *ordinales* (comme *appels de service client* dans nos données), les barres sont généralement classées par valeur de variable.

Le graphique de gauche ci-dessus illustre clairement le déséquilibre de notre variable cible. Le diagramme en bâtons pour les *appels de service clientèle* à droite indique que la majorité des clients résolvent leurs problèmes en 2 à 3 appels maximum. Mais, comme nous voulons pouvoir prédire la classe minoritaire, nous pourrions être plus intéressés par le comportement de moins de clients insatisfaits. Il se peut bien que la queue de ce graphique en barres contient la plus grande partie de notre taux de désabonnement. Ce ne sont que des hypothèses pour le moment. Passons donc à des techniques visuelles plus intéressantes et plus puissantes.

## Visualisation multivariée <a id="23"/>

Les graphiques *multivariés* nous permettent de voir les relations entre deux variables différentes et plus, le tout dans une seule figure. Tout comme dans le cas des graphiques univariés, le type spécifique de visualisation dépend des types de variables analysées.

### Quantitative – Quantitative <a id="231"/>

#### Matrice de corrélation

Examinons les corrélations entre les variables numériques de notre ensemble de données. Il est important de connaître ces informations car il existe des algorithmes d'apprentissage automatique (par exemple, la régression linéaire et logistique) qui ne gèrent pas correctement les variables d'entrée hautement corrélées.

Premièrement, nous allons utiliser la méthode [`corr()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html) sur un `DataFrame` qui calcule la corrélation entre chaque paire de caractéristiques. Ensuite, nous passons la *matrice de corrélation* résultante à [`heatmap()`](https://seaborn.pydata.org/generated/seaborn.heatmap.html) de `seaborn`, qui affiche une matrice de couleur pour les valeurs fournies:

In [None]:
# On ne prends que les variables numériques
numerical = list(set(df.columns) - 
                 set(['State', 'International plan', 'Voice mail plan', 
                      'Area code', 'Churn', 'Customer service calls']))

# Voir l'effet de la ligne suivante et expliquez la : 
# numerical.sort()

# Calcul et affichage
corr_matrix = df[numerical].corr()
sns.heatmap(corr_matrix);

À partir de la matrice de corrélation colorée générée ci-dessus, nous pouvons voir qu'il existe 4 variables telles que *Total day charge* qui ont été calculées directement à partir du nombre de minutes passées en appels téléphoniques (*Total day minutes*). Celles-ci sont appelées variables *dépendantes* et peuvent donc être omises puisqu'elles ne fournissent aucune information supplémentaire. Débarrassons-nous d'elles:

In [None]:
numerical = list(set(numerical) - 
                 set(['Total day charge', 'Total eve charge', 'Total night charge', 'Total intl charge']))

#### Nuages de points ou diagramme de dispersion

Le *nuage de points* affiche les valeurs de deux variables numériques sous forme de *coordonnées cartésiennes* dans un espace 2D. Les nuages de points en 3D sont également possibles.

Essayons la fonction [`scatter ()`](https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.scatter.html) de la bibliothèque `matplotlib`:

In [None]:
plt.scatter(df['Total day minutes'], df['Total night minutes']);

Nous obtenons une image sans intérêt de deux variables normalement distribuées. De plus, il semble que ces caractéristiques ne soient pas corrélées, car la forme en forme d'ellpise est alignée sur les axes.

Il existe une option un peu plus sophistiquée pour créer un nuage de points avec la bibliothèque `seaborn`:

In [None]:
sns.jointplot(x='Total day minutes', y='Total night minutes', 
              data=df, kind='scatter');

La fonction [`jointplot()`](https://seaborn.pydata.org/generated/seaborn.jointplot.html) trace deux histogrammes qui peuvent être utiles dans certains cas.

En utilisant la même fonction, nous pouvons également obtenir une version lissée de notre distribution bivariée:

In [None]:
sns.jointplot('Total day minutes', 'Total night minutes', data=df,
              kind="kde");

Il s’agit essentiellement d’une version bivariée du *tracé de densité du noyau* (KDE) discuté précédemment.

#### Matrice de diagramme de dispersion

Dans certains cas, il peut être utile de tracer une *matrice de nuages de points* telle que celle présentée ci-dessous. Sa diagonale contient les distributions des variables correspondantes et les diagrammes de dispersion de chaque paire de variables remplissent le reste de la matrice.

In [None]:
sns.pairplot(df[numerical]);

Parfois, une telle visualisation peut aider à tirer des conclusions sur les données; mais, dans ce cas, tout est assez clair sans surprise.

### Quantitative – Categorielle <a id="232"/>

Dans cette section, nous allons rendre nos diagrammes quantitatifs simples un peu plus excitants. Nous tenterons d’obtenir de nouvelles informations sur la prévision du désabonnement grâce aux interactions entre les caractéristiques numériques et catégoriques.

Plus spécifiquement, voyons comment les variables d’entrée sont liées à la variable cible **Churn**.

Auparavant, nous avons vu les nuages de points. De plus, leurs points peuvent être codés en couleur ou en taille de sorte que les valeurs d'une troisième variable catégorielle soient également présentées sur la même figure. Nous pouvons y parvenir avec la fonction `scatter()` vue ci-dessus, mais essayons une nouvelle fonction appelée [`lmplot()`](https://seaborn.pydata.org/generated/seaborn.lmplot.html) et utilisez le paramètre `hue` pour indiquer notre particularité catégorique.

In [None]:
sns.lmplot('Total day minutes', 'Total night minutes', data=df, hue='Churn', fit_reg=False);

Il semble que notre faible proportion de clients déloyaux se penche un peu vers le coin supérieur droit; c'est-à-dire que ces clients ont tendance à passer plus de temps au téléphone, jour et nuit. Mais cela n’est pas absolument clair et nous ne tirerons aucune conclusion définitive de ce graphique.

Créons maintenant des diagrammes en blocs pour visualiser les statistiques de distribution des variables numériques dans deux groupes disjoints: les clients fidèles (`Churn = False`) et ceux qui sont partis (`Churn = True`).

In [None]:
# Parfois, vous pouvez analyser une variable ordinale comme une numérique
numerical.append('Customer service calls')

fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))
for idx, feat in enumerate(numerical):
    ax = axes[int(idx / 4), idx % 4]
    sns.boxplot(x='Churn', y=feat, data=df, ax=ax)
    ax.set_xlabel('')
    ax.set_ylabel(feat)
fig.tight_layout();

Sur ce graphique, nous pouvons voir que la plus grande divergence dans la distribution entre les deux groupes concerne trois variables: *Total day minutes*, *Customer service calls* et *Number vmail messages*. Nous avons déjà vu comment déterminer l’importance des caractéristiques dans la classification en utilisant *Random Forest* ou *Gradient Boosting*; si vous essayez de les utiliser sur ce dataset, vous verrez que les deux premières caractéristiques sont en effet très importantes pour la prévision du taux de désabonnement.

Examinons séparément la distribution des minutes journalières parlées pour les clients fidèles et déloyaux. Nous allons créer des tracés de boîte et de violon pour le *Total day minutes* regroupées par la variable cible.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.boxplot(x='Churn', y='Total day minutes', data=df, ax=axes[0]);
sns.violinplot(x='Churn', y='Total day minutes', data=df, ax=axes[1]);

Dans ce cas, la comparaison entre les violons ne fournit aucune information supplémentaire à propos de nos données car tout est clair, rien que dans les boîtes : les clients déloyaux ont tendance à parler davantage au téléphone.

**Observation intéressante** : en moyenne, les clients qui résilient leurs contrats sont des utilisateurs plus actifs de services de communication. Peut-être ne sont-ils pas satisfaits des tarifs, alors une mesure possible pour éviter le roulement pourrait être une réduction des tarifs d’appel. La société devra entreprendre une analyse économique supplémentaire pour déterminer si de telles mesures seraient bénéfiques.

Lorsque nous voulons analyser une variable quantitative à la fois en deux dimensions catégoriques, il existe une fonction appropriée dans la bibliothèque `seaborn` appelée [`catplot()`](https://seaborn.pydata.org/generated/seaborn .factorplot.html). Par exemple, visualisons l'interaction entre *Total day minutes* et deux variables qualitatives dans le même graphique:

In [None]:
sns.catplot(x='Churn', y='Total day minutes', col='Customer service calls',
               data=df[df['Customer service calls'] < 8], kind="box",
               col_wrap=4, height=3, aspect=.8);

On peut en conclure que, à partir de 4 appels, le *Total day minutes* peut ne plus être le principal facteur de désabonnement des clients. En plus de nos hypothèses précédentes sur les tarifs, il se peut que certains clients ne soient pas satisfaits du service en raison d'autres problèmes, ce qui pourrait réduire le nombre de minutes d'appels par jour.

### Categorielle – Categorielle <a id="233"/>

Comme nous l'avons vu précédemment dans cet article, la variable *Customer service calls* a peu de valeurs uniques et peut donc être considérée comme numérique ou ordinale. Nous avons déjà vu sa distribution avec un *countplot*. Nous nous intéressons maintenant à la relation entre cette entité ordinale et la variable cible *Churn*.

Regardons la distribution du nombre d'appels au service clientèle, en utilisant à nouveau un *countplot*. Cette fois, passons également le paramètre `hue = Churn` qui ajoute une dimension catégorique au tracé :

In [None]:
sns.countplot(x='Customer service calls', hue='Churn', data=df);

**Une observation** : le taux de désabonnement augmente significativement après 4 appels ou plus au service clientèle.

Maintenant, regardons la relation entre *Churn* et les fonctionnalités binaires, *International plan* et *Voice mail plan*.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x='International plan', hue='Churn', data=df, ax=axes[0]);
sns.countplot(x='Voice mail plan', hue='Churn', data=df, ax=axes[1]);

**Une observation** : lorsque *International plan* est activé, le taux de désabonnement est beaucoup plus élevé; l'utilisation du plan international par le client est un atout majeur. Nous n'observons pas le même effet avec *Voice mail plan*.

#### Tableau de contingence

Outre l’utilisation de moyens graphiques pour l’analyse catégorique, il existe un outil traditionnel de statistiques: un *tableau de contingence*, également appelé *tableau croisé*. Il représente la distribution de fréquence multivariée des variables catégorielles sous forme de tableau. En particulier, cela nous permet de voir la distribution d'une variable conditionnellement à l'autre en regardant le long d'une colonne ou d'une ligne.

Essayons de voir comment *Churn* est lié à la variable catégorique *State* en créant une tabulation croisée:

In [None]:
pd.crosstab(df['State'], df['Churn']).T

Dans le cas de *State*, le nombre de valeurs distinctes est plutôt élevé: 51. Nous constatons qu'il n'y a que quelques points de données disponibles pour chaque état - seuls 3 à 17 clients dans chaque état ont abandonné l'opérateur. Ignorons cela une seconde et calculons le taux de désabonnement pour chaque état en le triant de haut en bas:

In [None]:
df.groupby(['State'])['Churn'].agg([np.mean]).sort_values(by='mean', ascending=False).T

À première vue, il semble que le taux de désabonnement dans le *New Jersey* et la *Californie* dépasse 25% et moins de 6% à Hawaii et en Alaska. Cependant, ces conclusions reposent sur trop peu d'exemples et notre observation pourrait n'être qu'une simple propriété de notre ensemble de données particulier. Nous pouvons le confirmer avec la mesure de [Matthews](https://en.wikipedia.org/wiki/Matthews_correlation_coefficient), mais cela sortirait du cadre de ce cours.

## Dataset complet <a id="24"/>

### Approche naïve <a id="241"/>

Nous avons examiné différentes *facettes* de notre jeu de données en devinant des caractéristiques intéressantes et en sélectionnant un petit nombre à la fois pour la visualisation. Nous n’avons traité que deux ou trois variables à la fois et avons facilement pu observer la structure et les relations dans les données. Mais que se passe-t-il si nous voulons afficher toutes les fonctionnalités tout en pouvant interpréter la visualisation résultante?

Nous pourrions utiliser `hist()` ou créer une matrice de nuages de points avec `pairplot()` pour l'ensemble du jeu de données afin d'examiner simultanément toutes nos entités. Toutefois, lorsque le nombre de caractéristiques est important, ce type d'analyse visuelle devient rapidement lent et inefficace. En outre, nous analyserions toujours nos variables par paires, pas toutes en même temps.

### Réduction de la dimensionnalité <a id="242"/>

La plupart des jeux de données du monde réel comportent de nombreuses caractéristiques, parfois plusieurs milliers. Chacune d'elle peut être considérée comme une dimension dans l'espace des points de données. Par conséquent, plus souvent qu'autrement, nous traitons avec des jeux de données de grande dimension, où la visualisation entière est assez difficile.

Pour examiner un jeu de données dans son ensemble, nous devons réduire le nombre de dimensions utilisées dans la visualisation sans perdre beaucoup d'informations sur les données. Cette tâche s'appelle *réduction de dimensionnalité* et constitue un exemple de problème *d'apprentissage non supervisé*, car nous devons dériver de nouvelles caractéristiques de faible dimension à partir des données elles-mêmes, sans aucune entrée supervisée.

L'une des méthodes de réduction de dimensionnalité bien connues est *l'analyse en composantes principales* (PCA). Sa limite est qu'il s'agit d'un algorithme *linéaire* qui implique certaines restrictions sur les données.

Il existe également de nombreuses méthodes non linéaires, appelées collectivement *Manifold Learning*. L'un des plus connus d'entre eux est *t-SNE*. Nous reviendront la dessus lors de la préparation des données.

### t-SNE <a id="243"/>

Créons une représentation [t-SNE](https://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding) des mêmes données de désabonnement que nous avons utilisées.

Le nom de la méthode semble complexe et un peu intimidant: *Incorporation de voisins stohastiques t-distribués*. Ses calculs sont également impressionnants (nous ne nous en plongerons pas ici, mais si vous vous sentez courageux, voici l'[article original](http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf) de Laurens van der Maaten et Geoffrey Hinton de [JMLR](http://www.jmlr.org/)). Son idée de base est simple: trouver une projection pour un espace de grandes dimensions sur un plan (ou un hyperplan 3D, mais il est presque toujours 2D) de manière à ce que les points éloignés dans l'espace initial à n dimensions se retrouvent éloignés dans le plan. Ceux qui étaient proches à l’origine resteraient proches les uns des autres.

L'*incorporation de voisins* est essentiellement une recherche d'une nouvelle représentation de données de moindre dimension qui préserve le voisinage des exemples.

Maintenant, faisons un peu de pratique. Premièrement, nous devons importer des classes supplémentaires:

In [None]:
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

Nous allons laisser de côté les fonctionnalités *State* et *Churn* et convertir les valeurs "Oui"/"Non" des entités binaires en valeurs numériques en utilisant [`pandas.Series.map()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html):

In [None]:
X = df.drop(['Churn', 'State'], axis=1)
X['International plan'] = X['International plan'].map({'yes': 1, 'no': 0})
X['Voice mail plan'] = X['Voice mail plan'].map({'yes': 1, 'no': 0})

Nous devons également normaliser les données. Pour cela, nous allons soustraire la moyenne de chaque variable et la diviser par son écart type. Tout cela peut être fait avec `StandardScaler`. Nous en verrons plus à ce sujet au prochain cours.

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Construisons maintenant une représentation t-SNE :

In [None]:
%%time
tsne = TSNE(random_state=17)
tsne_repr = tsne.fit_transform(X_scaled)

Et affichons la : 

In [None]:
plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=.5);

Colorons cette représentation t-SNE en fonction du taux de désabonnement (bleu pour les clients fidèles et orange pour ceux qui quittent).

In [None]:
plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1],
            c=df['Churn'].map({False: 'blue', True: 'orange'}), alpha=.5);

Nous pouvons voir que les clients qui ont quitté sont concentrés dans quelques zones de l’espace des entités de dimension inférieure.

Pour mieux comprendre la photo, nous pouvons également la colorier avec les fonctions binaires restantes: *International Plan* et *Voicemail*. Les points orange ici indiquent les instances positives pour la fonction binaire correspondante.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(12, 5))

for i, name in enumerate(['International plan', 'Voice mail plan']):
    axes[i].scatter(tsne_repr[:, 0], tsne_repr[:, 1], 
                    c=df[name].map({'yes': 'orange', 'no': 'blue'}), alpha=.5);
    axes[i].set_title(name);

Il est maintenant clair que, par exemple, de nombreux clients insatisfaits qui ont résilié leur abonnement sont regroupés dans le groupe le plus au sud-ouest qui représente les utilisateurs du plan international, mais pas de messagerie vocale.

Enfin, notons quelques inconvénients du t-SNE:
- Grande complexité de calcul. Le fichier [implementation](http://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html) dans `scikit-learn` ne sera probablement pas réalisable dans une tâche réelle. Si vous avez un grand nombre d'échantillons, vous devriez plutôt essayer [Multicore-TSNE](https://github.com/DmitryUlyanov/Multicore-TSNE).
- Le résultat peut beaucoup changer en fonction de la `seed` aléatoire, ce qui complique l'interprétation. [Ici il existe](http://distill.pub/2016/misread-tsne/) un bon tutoriel sur t-SNE. En général, vous ne devriez pas tirer de conclusions de grande envergure basées sur de tels graphiques, car cela équivaudrait à une simple estimation. Bien sûr, certaines conclusions des images t-SNE peuvent inspirer une idée et être confirmées par des recherches plus poussées, mais cela n'arrive pas très souvent.

De temps en temps, en utilisant t-SNE, vous pouvez obtenir une très bonne intuition pour les données. Ce qui suit est un bon article qui en donne un exemple pour les chiffres manuscrits: [Visualiser MNIST](https://colah.github.io/posts/2014-10-Visualizing-MNIST/).

Nous reviendrons sur le *Manifold Learning* sur MNIST pendant la préparation des données.

# Analyse visuelle de données en Python <a id ="3" /> 
## Survol des bibliothèques Seaborn, Matplotlib et Plotly <a id ="31" />

### Jeu de données <a id ="311" />

Chargeons le jeu de données que nous allons utiliser dans un `DataFrame`. Nous avons choisi un ensemble de données sur les ventes de jeux vidéo et notes de [Kaggle datasets](https://www.kaggle.com/rush4ratio/video-game-sales-with-ratings).
Certains des jeux de cet ensemble de données manquent d’évaluations; Nous allons donc filtrer uniquement les exemples dont toutes les valeurs sont présentes.

In [None]:
df = pd.read_csv('video_games_sales.csv').dropna()
print(df.shape)

Ensuite, imprimez le résumé du `DataFrame` pour vérifier les types de données et pour vérifier que tout est non nul.

In [None]:
df.info()

Nous constatons que `pandas` a chargé certaines caractéristiques numériques sous le type `objet`. Nous allons explicitement convertir ces colonnes en `float` et `int`.

In [None]:
df['User_Score'] = df['User_Score'].astype('float64')
df['Year_of_Release'] = df['Year_of_Release'].astype('int64')
df['User_Count'] = df['User_Count'].astype('int64')
df['Critic_Count'] = df['Critic_Count'].astype('int64')

Le `DataFrame` résultant contient 6825 exemples et 16 colonnes. Examinons les premières entrées avec la méthode `head()` pour vérifier que tout a été correctement analysé. Pour rendre les choses plus pratiques, je n’ai répertorié que les variables que nous allons utiliser dans ce cahier.

In [None]:
useful_cols = ['Name', 'Platform', 'Year_of_Release', 'Genre', 
               'Global_Sales', 'Critic_Score', 'Critic_Count',
               'User_Score', 'User_Count', 'Rating'
              ]
df[useful_cols].head()

### 2. DataFrame.plot () <a id ="312" />

Avant de passer à Seaborn et Plotly, discutons du moyen le plus simple et souvent le plus pratique de visualiser les données d’un `DataFrame` : en utilisant sa propre méthode `plot() `.

À titre d'exemple, nous allons créer un graphique des ventes de jeux vidéo par pays et par année. Premièrement, ne gardons que les colonnes dont nous avons besoin. Ensuite, nous allons calculer le total des ventes par année et appeler la méthode `plot()` sur le `DataFrame` résultant.

In [None]:
df[[x for x in df.columns if 'Sales' in x] + 
   ['Year_of_Release']].groupby('Year_of_Release').sum().plot(figsize=(20,10));

Notez que l'implémentation de la méthode `plot()` dans `pandas` est basée sur `matplotlib`.

En utilisant le paramètre `kind`, vous pouvez changer le type du tracé en, par exemple, un *diagramme en bâtons*. `matplotlib` est généralement assez flexible pour personnaliser les tracés. Vous pouvez presque tout modifier dans le tableau, mais vous devrez peut-être consulter la [documentation](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.plot.html) pour trouver le paramètres correspondants. Par exemple, le paramètre `rot` est responsable de l'angle de rotation des graduations sur l'axe des x (pour les tracés verticaux):

In [None]:
df[[x for x in df.columns if 'Sales' in x] + 
       ['Year_of_Release']].groupby('Year_of_Release').sum().plot(kind='bar', rot=45,width=1);

### Seaborn <a id ="313" />

Passons maintenant à la bibliothèque `Seaborn`. `seaborn` est essentiellement une API de niveau supérieur basée sur la bibliothèque` matplotlib`. Entre autres choses, il diffère de ce dernier en ce qu'il contient des paramètres par défaut plus adéquats pour le traçage. Même en ajoutant simplement `import seaborn` dans votre code, les images de vos cellules deviendront beaucoup plus agréables. En outre, cette bibliothèque contient un ensemble d’outils complexes pour la visualisation qui, autrement (c’est-à-dire lorsqu’on utilise nu `matplotlib`) nécessiteraient une grande quantité de code.

#### pairplot()

Jetons un coup d'œil au premier de ces tracés complexes, un *tracé de relations par paires*, qui crée une matrice de diagrammes de dispersion par défaut. Ce type de graphique nous aide à visualiser la relation entre différentes variables dans une seule sortie.

In [None]:
sns.pairplot(df[['Global_Sales', 'Critic_Score', 'Critic_Count', 
                 'User_Score', 'User_Count']]);

Comme vous pouvez le constater, les histogrammes de distribution sont situés sur la diagonale de la matrice. Les graphiques restants sont des diagrammes de dispersion pour les paires d'entités correspondantes.

#### distplot ()

Il est également possible de tracer une distribution d'observations à l'aide de `distplot()` de `seaborn`. Par exemple, regardons la distribution des notes des critiques: `Critic_Score`. Par défaut, le tracé affiche un histogramme et le [estimation de la densité du noyau](https://en.wikipedia.org/wiki/Kernel_density_estimation).

In [None]:
sns.distplot(df['Critic_Score']);

#### jointplot ()

Pour examiner de plus près la relation entre deux variables numériques, vous pouvez utiliser `jointplot()`, qui est un croisement entre un nuage de points et un histogramme. Voyons comment les fonctionnalités `Critic_Score` et` User_Score` sont liées.

In [None]:
sns.jointplot(x='Critic_Score', y='User_Score', 
              data=df, kind='scatter');

#### boxplot ()

Un autre type de graphique utile est la *boîte à moustaches*. Comparons les évaluations des critiques pour les 5 plus grandes plateformes de jeu.

In [None]:
top_platforms = df['Platform'].value_counts().sort_values(ascending=False).head(5).index.values
sns.boxplot(y="Platform", x="Critic_Score", 
            data=df[df['Platform'].isin(top_platforms)], orient="h");

#### heatmap()

Le dernier type de parcelle que nous allons couvrir ici est une *carte thermique*. Une carte thermique vous permet de visualiser la distribution d’une variable numérique sur deux variables catégoriques. Visualisons le total des ventes de jeux par genre et par plate-forme.

In [None]:
platform_genre_sales = df.pivot_table(
                        index='Platform', 
                        columns='Genre', 
                        values='Global_Sales', 
                        aggfunc=sum).fillna(0).applymap(float)
sns.heatmap(platform_genre_sales, # La table a afficher
            annot=True, # Pour voir les valeurs 
            fmt=".1f", # Le format d'affichage (1 chiffre après la virgule)
            linewidths=.1); # pour séparer les cases noires

### 4. Plotly  <a id ="314" />

Nous avons examiné quelques outils de visualisation basés sur la bibliothèque `matplotlib`. Cependant, ce n'est pas la seule option pour tracer dans `Python`. Jetons un coup d’œil à la bibliothèque `plotly`. Plotly est une bibliothèque open-source qui permet de créer des tracés interactifs dans un bloc-notes Jupyter sans avoir à utiliser le langage Javascript.

La beauté des graphes interactifs réside dans le fait qu’ils fournissent une interface utilisateur permettant une exploration détaillée des données. Par exemple, vous pouvez voir les valeurs numériques exactes en déplaçant la souris sur des points, en masquant les séries sans intérêt de la visualisation, en effectuant un zoom avant sur une partie spécifique du tracé, etc.

Avant de commencer, importons tous les modules nécessaires et initialisons `plotly` en appelant la fonction` init_notebook_mode()`.

In [None]:
# pip install plotly
# jupyter labextension install @jupyterlab/plotly-extension

import plotly
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

init_notebook_mode(connected=True)

#### Line plot : Graphique linéaire

Tout d’abord, construisons un *graphique linéaire* indiquant le nombre de jeux sortis et leurs ventes par année.

In [None]:
years_df = df.groupby('Year_of_Release')[['Global_Sales']].sum().join(
    df.groupby('Year_of_Release')[['Name']].count())
years_df.columns = ['Global_Sales', 'Number_of_Games']

`Figure` est la classe principale et l'outil principal de la visualisation dans` plotly`. Il se compose des données (un tableau de lignes appelé `traces` dans cette bibliothèque) et du style (représenté par l'objet `layout`). Dans le cas le plus simple, vous pouvez appeler la fonction `iplot` pour ne renvoyer que les `traces`.

Le paramètre `show_link` bascule la visibilité des liens menant à la plateforme en ligne` plot.ly` dans vos graphiques. La plupart du temps, cette fonctionnalité n'est pas nécessaire, vous pouvez donc la désactiver en passant `show_link = False` pour éviter les clics accidentels sur ces liens.

In [None]:
# Créer un ligne (trace) pour les ventes globales
trace0 = go.Scatter(
    x=years_df.index,
    y=years_df['Global_Sales'],
    name='Global Sales',
    mode = 'lines+markers',
)

# Créer un ligne (trace) pour le nombre de jeu sortis
trace1 = go.Scatter(
    x=years_df.index,
    y=years_df['Number_of_Games'],
    name='Number of games released',
    mode = 'lines+markers',
)

# On définit l'ensemble de données
data = [trace0, trace1]

# Le titre et le redimensionnement
layout = go.Layout(
    autosize=False,
    title='Statistics for video games'
)

# On crée la figure et on affiche
fig = go.Figure(data=data, layout=layout)
iplot(fig, show_link=False)

#### Bar chart : diagramme en bâtons

Utilisons un *diagramme en bâtons* pour comparer la part de marché de différentes plates-formes de jeu ventilée par le nombre de nouvelles versions et par le revenu total.

In [None]:
# Faire les calculs et préparer les données
platforms_df = df.groupby('Platform')[['Global_Sales']].sum().join(
    df.groupby('Platform')[['Name']].count()
)
platforms_df.columns = ['Global_Sales', 'Number_of_Games']
platforms_df.sort_values('Global_Sales', ascending=False, inplace=True)

In [None]:
# Créer les bâtons pour les ventes gloables
trace0 = go.Bar(
    x=platforms_df.index,
    y=platforms_df['Global_Sales'],
    name='Global Sales'
)

# Créer les bâtons pour le nombre de jeu sortis
trace1 = go.Bar(
    x=platforms_df.index,
    y=platforms_df['Number_of_Games'],
    name='Number of games released'
)

# Regrouper les données et la disposition
data = [trace0, trace1]
layout = {'autosize':False,'title': 'Market share by gaming platform'}

# Création dela Figure et affichage
fig = go.FigureWidget(data=data, layout=layout)
iplot(fig, show_link=False)

#### Box plot

`plotly` prend également en charge *les boîtes à moustaches*. Considérons la répartition des notes des critiques par genre du jeu.

In [None]:
data = []

# Créons un boite pour chaque genre dans nos données
for genre in df.Genre.unique():
    data.append(
        go.Box(y=df[df.Genre == genre].Critic_Score, name=genre)
    )
    
# et affichage
iplot(data, show_link=False)

En utilisant `plotly`, vous pouvez également créer d'autres types de visualisation. Même avec les paramètres par défaut, les graphes sont plutôt beaux. De plus, la bibliothèque facilite la modification de divers paramètres: couleurs, polices, légendes, annotations, etc.

# 4. Un autre exercice : Analysons les passagers du "Titanic" <a id ="4" />

**<a href="https://www.kaggle.com/c/titanic">Compétition</a> Kaggle "Titanic: Machine Learning from Disaster".**

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
sns.set()
import matplotlib.pyplot as plt

**Read data**

 - survival: Survival (0 = No, 1 = Yes)
 - pclass: Ticket class(1 = 1st, 2 = 2nd, 3 = 3rd)
 - sex: Sex
 - Age: Age in years
 - sibsp: Number of siblings / spouses aboard the Titanic
 - parch: Number of parents / children aboard the Titanic
 - ticket: Ticket number
 - fare:Passenger fare
 - cabin:Cabin number
 - embarked:Port of Embarkation(C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
train_df = sns.load_dataset('titanic')

In [None]:
train_df.head(2)

In [None]:
train_df.describe(include='all')

In [None]:
train_df.info()

Débarrassons nous des valeurs non complètes:

In [None]:
train_df = train_df.dropna()

In [None]:
train_df.shape

Créez une image pour visualiser tous les diagrammes de dispersion pour chaque paire de caractéristiques `Age`, `Fare`, `SibSp`, `Parch` et `Survived`. (`scatter_matrix` de Pandas ou` pairplot` de Seaborn)

In [None]:
sns.pairplot(train_df[['survived', 'age', 'fare', 'sibsp', 'parch']]);

Comment le prix du billet (`Fare`) dépend-il de `Pclass`? Construire une boîte à moustaches (*boxplot*).

In [None]:
sns.boxplot(x='pclass', y='fare', data=train_df);

**Construisons le même graphe, mais limitons les valeurs de `Fare` à moins de 95% en quantiles du vecteur initial (pour supprimer les valeurs aberrantes rendant le graphe moins clair).**

(Il est possible d'éliminer *tous* les outliers avec un simple paramètres de [`boxplot()`](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.boxplot.html))

In [None]:
sns.boxplot(x='pclass', y='fare', data=train_df[train_df['fare'] < train_df['fare'].quantile(.95)]);

# Ou plus simplement 
#sns.boxplot(x='pclass', y='fare', showfliers=False, data=train_df);

**A quel point la proportion de passagers survivants dépend du sexe des passagers? Représentez-le avec `Seaborn.countplot` en utilisant l'argument `hue`.**

In [None]:
pd.crosstab(train_df['sex'], train_df['survived'])

In [None]:
sns.countplot(x="sex", hue="survived", data=train_df);

Faisons la même chose pour `Survived` et `Pclass`

In [None]:
sns.countplot(x="pclass", hue="survived", data=train_df);

**En quoi la distribution des prix des billets diffère-t-elle entre ceux qui ont survécu et ceux qui n'ont pas survécu? Le représenter avec `Seaborn.boxplot`**

In [None]:
sns.boxplot(x='survived', y='fare', data=train_df[train_df['fare'] < 500]);

Triste vérité, ceux qui ont survécu ont généralement payé beaucoup plus pour leurs billets.

**Comment la survie dépendait de l'âge des passagers? Vérifiez (graphiquement) l'hypothèse selon laquelle les jeunes (<30 ans) survivaient plus fréquemment que les personnes âgées (> 55 ans).**

Construisons d'abord la boîte à moustaches (`boxplot`)

In [None]:
sns.boxplot(x='survived', y='age', data=train_df);

Nous pouvons visualiser mieux en ajoutant de la couleur aux classes (`hue`).

In [None]:
sns.boxplot(x='survived', hue='pclass', y='age', data=train_df);

Difficile de conclure quoi que ce soit. Faisons-le d'une autre manière en catégorisant par age et en utilisant un diagramme en bâtons.

In [None]:
train_df['age_cat'] = train_df['age'].apply(lambda age: 1 if age < 30 
                                            else 3 if age > 55 else 2);

In [None]:
pd.crosstab(train_df['age_cat'], train_df['survived'])

In [None]:
sns.countplot(x='age_cat', hue='survived', data=train_df);

On aurait pu deviner que la fraction de passagers survivants est plus faible chez les personnes âgées. Cependant, il y a trop peu d'exemples pour formuler des conclusions sérieuses.

# Sources

[1] http://rpubs.com/jrauser/hhsd_notes

[2] https://mlcourse.ai/
