<a href="https://colab.research.google.com/github/A-Mahla/serda-formation-python/blob/main/exercices/google_colab/Introduction_aux_graphiques_avec_Matplotlib_et_Seaborn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction aux graphiques avec Matplotlib et Seaborn

Dans cette section, nous allons apprendre les bases de la visualisation de données avec Matplotlib et Seaborn. Ces bibliothèques sont essentielles pour représenter graphiquement les données manipulées avec Pandas.

## 1. Afficher un graphique avec Matplotlib

In [None]:
import matplotlib.pyplot as plt

# Créer des données simples
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 40]

# Créer un graphique
plt.plot(x, y)
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Graphique simple')
plt.show()

## 2. Sauvegarder un graphique dans un *fichier*

Vous pouvez sauvegarder un graphique en utilisant la méthode savefig de Matplotlib.

In [None]:
# Créer des données
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 40]

# Créer un graphique
plt.plot(x, y)
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Graphique à sauvegarder')

# Sauvegarder le graphique
plt.savefig('graphique.png')
plt.show()

## 3. Utilisation de Seaborn pour des graphiques avancés

[Seaborn](https://seaborn.pydata.org/tutorial.html) est une bibliothèque basée sur Matplotlib, qui fournit une interface de haut niveau pour dessiner des graphiques statistiques attractifs.

In [None]:
import pandas as pd
import numpy as np

# Data setup
names = ['Amina', 'Bruno', 'Chandra', 'Diego', 'Fatima', 'Elias', 'Gabriela', 'Hiro', 'Isha', 'Julia',
         'Karl', 'Luna', 'Amina', 'Nadia', 'Olivia', 'Pierre', 'Qi', 'Raj', 'Sofia', 'Tomas']

ages = np.random.randint(20, 61, size=20)
salaries = np.random.randint(40000, 120001, size=20)

# Create the DataFrame
data = {
    'Nom': names,
    'Age': ages,
    'Salaire': salaries
}
df = pd.DataFrame(data)

### Diagramme à barres

In [None]:
plt.figure(figsize=(15, 5))
sns.barplot(x='Nom', y='Salaire', data=df)
plt.xlabel('Nom')
plt.ylabel('Salaire')
plt.title('Salaire par Nom')
plt.show()

### Boxplot

In [None]:
df_box = pd.DataFrame({
    'Metier': ['Ingénieur', 'Médecin', 'Enseignant', 'Artiste', 'Ingénieur', 'Médecin', 'Enseignant', 'Artiste'],
    'Salaire': [50000, 120000, 40000, 40000, 90000, 75000, 81000, 120000]
})

plt.figure(figsize=(15, 5))
sns.boxplot(x='Metier', y='Salaire', data=df_box)
plt.xlabel('Metier')
plt.ylabel('Salaire')
plt.title('Salaire par Metier')
plt.show()

### Histogramme :

In [None]:
sns.histplot(df['Age'], kde=True)
plt.xlabel('Age')
plt.title('Distribution des Âges')
plt.show()

### Graphique en cercle (Pie Chart) :

In [None]:
# Créer un graphique en cercle
data = df['Nom'].value_counts()
plt.figure(figsize=(8, 6))
plt.pie(data, labels=data.index, autopct='%1.1f%%', startangle=140)
plt.title('Répartition des Noms')
plt.show()

### Scatter Plot (Graphique de dispersion) :

In [None]:
sns.scatterplot(x='Age', y='Salaire', data=df)
plt.xlabel('Age')
plt.ylabel('Salaire')
plt.title('Âge vs Salaire')
plt.show()

### Scatter Plot (Graphique de dispersion) avec hue :

In [None]:
sns.scatterplot(x='Age', y='Salaire', hue="Nom", data=df)
plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))  # Custom legend position
plt.xlabel('Age')
plt.ylabel('Salaire')
plt.title('Âge vs Salaire')
plt.show()

### Matrice de dispersion (Pairplot) :

In [None]:
sns.pairplot(df)
plt.suptitle('Matrice de dispersion')
plt.show()

> *And much [more](https://seaborn.pydata.org/examples/index.html) ...*

## 4. Découper la fenêtre en plusieurs graphiques

Matplotlib permet de créer plusieurs sous-graphiques dans une même fenêtre en utilisant `subplot()`.

### 4.1 Utiliser subplot pour découper la fenêtre

In [None]:
# Créer des données
x = [1, 2, 3, 4, 5]
y1 = [10, 20, 25, 30, 40]
y2 = [5, 15, 20, 25, 35]

# Créer la figure et les sous-graphiques
fig, axs = plt.subplots(1, 2, figsize=(10, 5))

# Premier graphique
axs[0].plot(x, y1, label='y1')
axs[0].set_title('Graphique 1')
axs[0].set_xlabel('X')
axs[0].set_ylabel('Y1')
axs[0].legend()

# Deuxième graphique
axs[1].plot(x, y2, label='y2', color='r')
axs[1].set_title('Graphique 2')
axs[1].set_xlabel('X')
axs[1].set_ylabel('Y2')
axs[1].legend()

plt.tight_layout()
plt.show()

### 4.2 Utiliser un subplot2grid pour un affiche graphique plus complexe

Parfois, vous voudrez peut-être qu'un graphique occupe plus d'espace dans la grille des sous-graphiques. Voici comment le faire.

In [None]:
# Créer des données
x = [1, 2, 3, 4, 5]
y1 = [10, 20, 25, 30, 40]
y2 = [5, 15, 20, 25, 35]
y3 = [15, 18, 20, 22, 30]

# Create a figure
fig = plt.figure(figsize=(10, 8))

# Premier graphique
ax1 = plt.subplot2grid((2, 2), (0, 0))
ax1.plot(x, y1, label='y1') # or "sns.lineplot(x='x', y='y1', data=df, ax=ax1)" pour utiliser seaborn à la place
ax1.set_title('Graphique 1')
ax1.set_xlabel('X')
ax1.set_ylabel('Y1')
ax1.legend()

# Deuxième graphique
ax2 = plt.subplot2grid((2, 2), (0, 1))
ax2.plot(x, y2, label='y2')
ax2.set_title('Graphique 2')
ax2.set_xlabel('X')
ax2.set_ylabel('Y2')
ax2.legend()

# Troisième graphique sur deux subplots
ax3 = plt.subplot2grid((2, 2), (1, 0), colspan=2)
ax3.plot(x, y3, label='y3')
ax3.set_title('Graphique 3')
ax3.set_xlabel('X')
ax3.set_ylabel('Y3')
ax3.legend()

plt.tight_layout()
plt.show()


## Exercice: Graphique

Pour ces exercices, nous allons utiliser la liste des chansons les plus célèbres de 2023, telles que répertoriées sur Spotify. Pour ce faire, veuillez exécuter le code ci-dessous et examiner de la même façon le jeu de données...

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les données
url = 'https://raw.githubusercontent.com/A-Mahla/serda-formation-python/main/datasets/Sleep_health_and_lifestyle_dataset.csv'
dataset = pd.read_csv(url)

print(dataset.head())
print(dataset.info())

### Exercice 1:  Visualisation Basique

Objectif : Créer un histogramme pour analyser la distribution des âges.

In [None]:
# Your code ...

### Exercice 2:  Analyse de Tendance

Objectif : Examiner la relation entre l'âge et le nombre de pas quotidiens.

In [None]:
# Your code ...

### Exercice 3:  Comparaison de Groupes

Objectif : Comparer les heures de sommeil entre les hommes et les femmes.

In [None]:
# Your code ...

### Exercice 4: Visualisation Multivariable

Objectif : Explorer les relations multiples dans un seul graphique avec un pairplot.

In [None]:
# Your code ...

### Exercice 5: Visualisation des Distributions Catégorielles

Objectif : Visualiser la répartition des niveaux de stress parmi les individus

In [None]:
# your code ...

### Exercice 6: Gestion des Sous-graphiques

Objectif : Pratique avancée avec les sous-graphiques pour comparer plusieurs variables simultanément. Vous pouvez choisir les variables que vous voulez et les graphiques qui vous semblent intéressants à afficher. La seule contrainte est d'en afficher au moins trois.

Ressources interressante : https://seaborn.pydata.org/examples/index.html

In [None]:
# your code ...