# Jour 1 - Exercice 3 : Visualisation de données avec Plotly (Introduction)

## Objectifs
- Comprendre l'importance de la visualisation de données
- Apprendre les bases de Plotly Express pour créer des graphiques interactifs
- Maîtriser les types de graphiques fondamentaux (barres, histogrammes, camemberts)
- Personnaliser simplement les visualisations
- Créer un tableau de bord simple

## Introduction

La visualisation des données est une étape cruciale dans l'analyse de données et le machine learning. Elle permet de :
- Comprendre rapidement la distribution des données
- Identifier des tendances et des relations entre variables
- Détecter des anomalies ou des valeurs aberrantes
- Communiquer efficacement les résultats d'une analyse

Dans ce notebook, nous allons découvrir les bases de la visualisation de données avec Plotly, une bibliothèque Python qui permet de créer des graphiques interactifs. Nous utiliserons principalement Plotly Express, qui est une interface simplifiée de Plotly, idéale pour débuter.

## 1. Importation des bibliothèques nécessaires

In [None]:
# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np

# Importer Plotly
import plotly
import plotly.express as px  # Interface simplifiée de Plotly
import plotly.graph_objects as go  # Interface plus complète de Plotly
from plotly.subplots import make_subplots  # Pour créer des sous-graphiques

# Afficher les versions des bibliothèques
print("Pandas version:", pd.__version__)
print("Plotly version:", plotly.__version__)

## 2. Chargement des données

Pour cet exercice, nous allons utiliser le jeu de données de satisfaction des passagers aériens, que nous avons déjà exploré dans les notebooks précédents.

In [None]:
# Charger le jeu de données
df = pd.read_csv('../../data/passenger_satisfaction/train.csv')

# Afficher les premières lignes
df.head()

## 3. Pourquoi visualiser les données ?

Avant de commencer à créer des graphiques, prenons un moment pour comprendre pourquoi la visualisation est importante. Examinons quelques statistiques descriptives de notre jeu de données :

In [None]:
# Statistiques descriptives pour l'âge des passagers
df['Age'].describe()

Ces statistiques nous donnent des informations utiles, mais elles ne nous permettent pas de visualiser la distribution complète des âges. C'est là que la visualisation entre en jeu :

In [None]:
# Créer un histogramme pour visualiser la distribution des âges
fig = px.histogram(df, x='Age', title='Distribution des âges des passagers',
                  labels={'Age': 'Âge', 'count': 'Nombre de passagers'},
                  color_discrete_sequence=['#636EFA'])
fig.update_layout(height=500, width=700)
fig.show()

Ce graphique nous permet de voir immédiatement la forme de la distribution, ce qui n'était pas évident avec les statistiques descriptives seules.

De même, pour comprendre la relation entre deux variables, une visualisation est souvent plus parlante qu'un simple coefficient de corrélation :

In [None]:
# Calculer la corrélation entre l'âge et la distance de vol
correlation = df['Age'].corr(df['Flight Distance'])
print(f"Corrélation entre l'âge et la distance de vol : {correlation:.4f}")

# Visualiser cette relation avec un nuage de points
fig = px.scatter(df, x='Age', y='Flight Distance', title='Relation entre l\'âge et la distance de vol',
                labels={'Age': 'Âge', 'Flight Distance': 'Distance de vol (km)'},
                opacity=0.6)
fig.update_layout(height=500, width=700)
fig.show()

## 4. Les bases de Plotly Express

Plotly Express (px) est une interface simplifiée pour créer des graphiques avec Plotly. Elle permet de créer rapidement des visualisations interactives avec peu de code.

La structure générale d'une commande Plotly Express est la suivante :

```python
fig = px.type_de_graphique(dataframe, x='colonne_x', y='colonne_y', color='colonne_couleur', ...)
fig.update_layout(...)  # Personnalisation optionnelle
fig.show()  # Affichage du graphique
```

Voyons les types de graphiques les plus courants :

### 4.1 Graphique à barres (Bar Chart)

Les graphiques à barres sont parfaits pour comparer des catégories.

In [None]:
# Compter le nombre de passagers par classe
class_counts = df['Class'].value_counts().reset_index()
class_counts.columns = ['Class', 'Count']

# Créer un graphique à barres
fig = px.bar(class_counts, x='Class', y='Count', 
            title='Nombre de passagers par classe',
            labels={'Class': 'Classe', 'Count': 'Nombre de passagers'},
            color='Class',  # Colorer les barres selon la classe
            color_discrete_sequence=px.colors.qualitative.Pastel)
fig.update_layout(height=500, width=700)
fig.show()

### 4.2 Histogramme (Histogram)

Les histogrammes sont utilisés pour visualiser la distribution d'une variable numérique.

In [None]:
# Créer un histogramme pour la distance de vol
fig = px.histogram(df, x='Flight Distance', 
                  title='Distribution des distances de vol',
                  labels={'Flight Distance': 'Distance de vol (km)', 'count': 'Nombre de vols'},
                  nbins=30,  # Nombre de bins (barres)
                  color_discrete_sequence=['#00CC96'])
fig.update_layout(height=500, width=700)
fig.show()

### 4.3 Graphique en camembert (Pie Chart)

Les graphiques en camembert sont utiles pour montrer les proportions d'un tout.

In [None]:
# Créer un graphique en camembert pour la satisfaction
fig = px.pie(df, names='Satisfaction', 
            title='Répartition de la satisfaction des passagers',
            color_discrete_sequence=px.colors.sequential.RdBu)
fig.update_traces(textinfo='percent+label')  # Afficher les pourcentages et les labels
fig.update_layout(height=500, width=700)
fig.show()

### 4.4 Boîte à moustaches (Box Plot)

Les boîtes à moustaches permettent de visualiser la distribution d'une variable numérique et d'identifier les valeurs aberrantes.

In [None]:
# Créer une boîte à moustaches pour l'âge par classe
fig = px.box(df, x='Class', y='Age', 
            title='Distribution des âges par classe',
            labels={'Class': 'Classe', 'Age': 'Âge'},
            color='Class',
            color_discrete_sequence=px.colors.qualitative.Safe)
fig.update_layout(height=500, width=700)
fig.show()

## 5. Personnalisation des graphiques

Plotly permet de personnaliser facilement les graphiques pour les rendre plus informatifs et esthétiques.

In [None]:
# Créer un histogramme avec des personnalisations
fig = px.histogram(df, x='Age', color='Gender',
                  title='Distribution des âges par genre',
                  labels={'Age': 'Âge', 'count': 'Nombre de passagers', 'Gender': 'Genre'},
                  opacity=0.8,  # Transparence
                  barmode='overlay',  # Superposer les barres au lieu de les empiler
                  color_discrete_map={'Male': '#636EFA', 'Female': '#EF553B'},  # Couleurs personnalisées
                  marginal='box')  # Ajouter une boîte à moustaches en marge

# Personnaliser davantage avec update_layout
fig.update_layout(
    height=600,
    width=800,
    title_font_size=20,
    xaxis_title_font_size=16,
    yaxis_title_font_size=16,
    legend_title_font_size=16
)

fig.show()

## 6. Création d'un tableau de bord simple

Nous pouvons combiner plusieurs graphiques pour créer un tableau de bord simple.

In [None]:
# Créer un tableau de bord avec 2 graphiques côte à côte
fig = make_subplots(rows=1, cols=2, 
                   subplot_titles=('Satisfaction par type de client', 'Satisfaction par type de voyage'),
                   specs=[[{'type': 'bar'}, {'type': 'bar'}]])

# Préparer les données pour le premier graphique
customer_satisfaction = df.groupby('Customer Type')['Satisfaction'].value_counts().unstack()
customer_satisfaction_pct = customer_satisfaction.div(customer_satisfaction.sum(axis=1), axis=0) * 100

# Ajouter le premier graphique
for satisfaction in customer_satisfaction_pct.columns:
    fig.add_trace(
        go.Bar(
            x=customer_satisfaction_pct.index,
            y=customer_satisfaction_pct[satisfaction],
            name=satisfaction
        ),
        row=1, col=1
    )

# Préparer les données pour le deuxième graphique
travel_satisfaction = df.groupby('Type of Travel')['Satisfaction'].value_counts().unstack()
travel_satisfaction_pct = travel_satisfaction.div(travel_satisfaction.sum(axis=1), axis=0) * 100

# Ajouter le deuxième graphique
for satisfaction in travel_satisfaction_pct.columns:
    fig.add_trace(
        go.Bar(
            x=travel_satisfaction_pct.index,
            y=travel_satisfaction_pct[satisfaction],
            name=satisfaction,
            showlegend=False  # Ne pas répéter la légende
        ),
        row=1, col=2
    )

# Personnaliser le tableau de bord
fig.update_layout(
    title_text="Analyse de la satisfaction par catégorie",
    height=500,
    width=1000,
    barmode='stack'  # Empiler les barres
)

# Mettre à jour les axes
fig.update_yaxes(title_text='Pourcentage (%)', range=[0, 100], row=1, col=1)
fig.update_yaxes(title_text='Pourcentage (%)', range=[0, 100], row=1, col=2)
fig.update_xaxes(title_text='Type de client', row=1, col=1)
fig.update_xaxes(title_text='Type de voyage', row=1, col=2)

fig.show()

## 7. Mini-projet : Analyse visuelle de la satisfaction des passagers

Maintenant que nous avons appris les bases de Plotly, réalisons une petite analyse visuelle pour comprendre les facteurs qui influencent la satisfaction des passagers.

In [None]:
# Créer une nouvelle colonne pour indiquer si le vol a été retardé
df['Flight_Delayed'] = df['Departure Delay in Minutes'] > 0
df['Flight_Delayed'] = df['Flight_Delayed'].map({True: 'Vol retardé', False: 'Vol à l\'heure'})

# Visualiser l'impact du retard sur la satisfaction
fig = px.histogram(df, x='Flight_Delayed', color='Satisfaction', barmode='group',
                  title="Impact du retard sur la satisfaction des passagers",
                  labels={'Flight_Delayed': 'Statut du vol', 'count': 'Nombre de passagers', 'Satisfaction': 'Satisfaction'},
                  color_discrete_map={'satisfied': '#636EFA', 'neutral or dissatisfied': '#EF553B'})
fig.update_layout(height=500, width=700)
fig.show()

In [None]:
# Sélectionner les colonnes d'évaluation des services
service_columns = ['Inflight wifi service', 'Departure/Arrival time convenient', 'Ease of Online booking',
                  'Gate location', 'Food and drink', 'Online boarding', 'Seat comfort',
                  'Inflight entertainment', 'On-board service', 'Leg room service',
                  'Baggage handling', 'Checkin service', 'Inflight service', 'Cleanliness']

# Calculer les évaluations moyennes par niveau de satisfaction
service_ratings = df.groupby('Satisfaction')[service_columns].mean().reset_index()

# Transformer les données pour Plotly
service_ratings_melted = pd.melt(service_ratings, id_vars=['Satisfaction'], value_vars=service_columns,
                               var_name='Service', value_name='Évaluation moyenne')

# Créer un graphique à barres pour comparer les évaluations
fig = px.bar(service_ratings_melted, x='Service', y='Évaluation moyenne', color='Satisfaction', barmode='group',
            title='Évaluations moyennes des services par niveau de satisfaction',
            labels={'Service': 'Service', 'Évaluation moyenne': 'Évaluation moyenne (0-5)'},
            color_discrete_map={'satisfied': '#636EFA', 'neutral or dissatisfied': '#EF553B'})

# Personnaliser le graphique
fig.update_layout(
    height=600,
    width=1000,
    xaxis_tickangle=-45  # Incliner les étiquettes de l'axe x
)

fig.show()

In [None]:
# Créer une catégorie d'âge pour faciliter l'analyse
df['Age_Category'] = pd.cut(df['Age'], 
                           bins=[0, 18, 35, 50, 65, 100], 
                           labels=['<18 ans', '18-35 ans', '36-50 ans', '51-65 ans', '>65 ans'])

# Visualiser la satisfaction par catégorie d'âge et classe
fig = px.sunburst(df, path=['Class', 'Age_Category', 'Satisfaction'], 
                 title='Satisfaction par classe et catégorie d\'âge',
                 color_discrete_sequence=px.colors.qualitative.Pastel)
fig.update_layout(height=700, width=700)
fig.show()

## 8. Exercices pratiques

Maintenant, c'est à vous de jouer ! Voici quelques exercices pour pratiquer la visualisation de données avec Plotly.

### Exercice 1
Créez un histogramme montrant la distribution des retards au départ ('Departure Delay in Minutes'). Utilisez un binning approprié et ajoutez un titre et des labels d'axes.

In [17]:
# Votre code ici


### Exercice 2
Créez un graphique à barres montrant le nombre de passagers par type de client ('Customer Type') et par genre ('Gender'). Utilisez la couleur pour distinguer les genres.

In [18]:
# Votre code ici


### Exercice 3
Créez un graphique en camembert montrant la répartition des classes de voyage ('Class'). Assurez-vous d'afficher les pourcentages et les labels.

In [19]:
# Votre code ici


## Conclusion

Dans ce notebook, nous avons découvert les bases de la visualisation de données avec Plotly Express. Nous avons appris à :

- Comprendre l'importance de la visualisation dans l'analyse de données
- Créer des graphiques de base (barres, histogrammes, camemberts, boîtes à moustaches)
- Personnaliser les graphiques pour les rendre plus informatifs
- Combiner plusieurs graphiques dans un tableau de bord simple
- Analyser visuellement les facteurs influençant la satisfaction des passagers

Ces compétences sont essentielles pour explorer et comprendre les données avant de construire des modèles de machine learning. Les visualisations nous aident à identifier des tendances, des relations et des anomalies qui peuvent guider notre approche de modélisation.