# Bases Seaborn

Nous nous concentrerons ici sur quelques éléments des fondamentaux de Seaborn.

## Les données

Contexte

Cette base de données contient 76 attributs, mais toutes les expériences publiées font référence à l'utilisation d'un sous-ensemble de 14 d'entre eux. En particulier, la base de données de Cleveland est la seule qui ait été utilisée par les chercheurs en Machine Learning à ce jour. Le champ "goal" fait référence à la présence d'une maladie cardiaque chez le patient. Il s'agit d'un nombre entier dont la valeur va de 0 (aucune présence) à 4.

Colonnes
* *age* : âge en années
* *sex* : sexe (1 = homme; 0 = femme)
* cp : type de douleur thoracique
* *trestbps* : tension artérielle au repos (en mm Hg lors de l'admission à l'hôpital)
* *chol* : cholestérol en mg/dl
* *fbs* : (fasting blood sugar - glycémie à jeun > 120 mg/dl) (1 = vrai; 0 = faux)
* *restecg* : résultats électrocardiographiques au repos
* *thalach* : fréquence cardiaque maximale atteinte
* *exang* : l'angine induite par l'exercice (1 = oui; 0 = non)
* *oldpeak* : ST dépression induite par l'exercice physique par rapport au repos
* *slope* : la pente du segment ST de l'exercice de pointe
* *ca* : nombre de grands vaisseaux (0-3) colorés par flourosopie
* *thal* : 3 = normal ; 6 = défaut fixe ; 7 = défaut réversible
* *target* : 1 ou 0

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
import seaborn as sns

In [None]:
df = pd.read_csv('heart.csv')

In [None]:
df.head()

## Graphiques de distribution

In [None]:
sns.distplot(df['age']);

### Redimensionner des graphiques Seaborn

In [None]:
plt.figure(figsize=(12, 8))
sns.distplot(df['age']);

In [None]:
sns.distplot(df['age'],kde=False);

In [None]:
sns.distplot(df['age'],kde=False,bins=40,color='red');

In [None]:
sns.distplot(df['age'],kde=False,bins=40)
# Remarquez la connexion avec Matplotlib !
plt.xlim(50,60);

## Graphiques de comptage

In [None]:
df.head()

In [None]:
sns.countplot(x='sex',data=df);

In [None]:
sns.countplot(x='target',data=df);

In [None]:
sns.countplot(x='cp',data=df);

In [None]:
sns.countplot(x='cp',data=df,hue='sex');

Ajout de couleurs basé sur des cartes de couleurs :
https://matplotlib.org/3.1.0/tutorials/colors/colormaps.html

In [None]:
sns.countplot(x='cp',data=df,palette='terrain');

## Boîtes à moustaches

Les diagrammes en boîtes montrent la répartition entre les différentes catégories.

<img src= 'https://drive.google.com/uc?export=view&id=1IkUrA_5DBij6u95bkGxFC6H-ZRxbsxyk' style="max-width:50%;">

In [None]:
df.head()

In [None]:
sns.boxplot(x='sex',y='age',data=df);

In [None]:
sns.boxplot(x='target',y='thalach',data=df);

In [None]:
sns.boxplot(x='target',y='thalach',data=df,hue='sex');

## Diagrammes de dispersion

Les diagrammes de dispersion montrent la relation entre deux caractéristiques continues.

https://seaborn.pydata.org/generated/seaborn.scatterplot.html

In [None]:
df.head()

In [None]:
sns.scatterplot(x='chol',y='trestbps',data=df);

In [None]:
sns.scatterplot(x='chol',y='trestbps',data=df,hue='sex');

In [None]:
sns.scatterplot(x='chol',y='trestbps',data=df,hue='sex',palette='Dark2');

In [None]:
sns.scatterplot(x='chol',y='trestbps',data=df,hue='sex',size='age');

## Diagrammes de paires

Les diagrammes de paires réalisent des diagrammes de dispersion et des histogrammes pour chaque colonne de votre ensemble de données. Cela signifie qu'il peut s'agir d'un énorme diagramme pour de grands ensembles de données ! À utiliser avec prudence, car cela peut prendre beaucoup de temps pour les grands ensembles de données et les chiffres peuvent être trop petits !

INFO: https://seaborn.pydata.org/generated/seaborn.pairplot.html

In [None]:
iris = pd.read_csv('iris.csv')

In [None]:
iris.head()

In [None]:
sns.pairplot(iris);

In [None]:
# Affiche les KDEs au lieu des histogrammes le long de la diagonale
sns.pairplot(iris, hue="species");