# Projet Final – Analyse Complète d'un Dataset

Dans ce notebook final, vous allez appliquer l'ensemble des compétences acquises pour réaliser un projet complet d'analyse de données. Vous suivrez ces étapes :
- Chargement du dataset
- Nettoyage des données (traitement des valeurs manquantes et aberrantes)
- Analyse exploratoire (statistiques, visualisations, agrégations)
- Interprétation et synthèse des résultats

Ce projet vous permettra de mettre en œuvre vos compétences en Data Science de manière intégrée.

In [None]:
# Chargement du dataset
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

# Exemple : lecture d'un fichier CSV (remplacez 'data/dataset.csv' par le chemin de votre fichier)
df = pd.read_csv('data/dataset.csv')
print("Aperçu du dataset :")
print(df.head())

## Nettoyage des Données

1. Traitement des valeurs manquantes avec `dropna()` et `fillna()`.
2. Détection et traitement des outliers avec les méthodes IQR et cote Z.

Commentez vos choix et expliquez chaque étape.

In [None]:
# Traitement des valeurs manquantes
df_clean = df.dropna()
# Exemple d'imputation : remplissage de la colonne 'Fare' par la médiane
# df['Fare'] = df['Fare'].fillna(df['Fare'].median())

# Détection des outliers par méthode IQR sur la colonne 'Fare'
Q1 = df_clean['Fare'].quantile(0.25)
Q3 = df_clean['Fare'].quantile(0.75)
IQR = Q3 - Q1
lim_inf = Q1 - 1.5 * IQR
lim_sup = Q3 + 1.5 * IQR
df_no_outliers = df_clean[(df_clean['Fare'] >= lim_inf) & (df_clean['Fare'] <= lim_sup)]
print("Dataset sans outliers :")
print(df_no_outliers.head())

## Analyse Exploratoire et Visualisation

1. Calculez les statistiques descriptives du dataset nettoyé.
2. Créez des visualisations (histogrammes, boxplots, scatter plots) pour identifier les tendances et anomalies.
3. Utilisez `groupby()` pour agréger des données par catégories et obtenir des insights.

Commentez les résultats obtenus et vos observations.

In [None]:
# Statistiques descriptives
print(df_no_outliers.describe())

# Histogramme pour la variable 'Fare'
plt.figure(figsize=(6,4))
plt.hist(df_no_outliers['Fare'], bins=10, edgecolor='black')
plt.title('Histogramme du Fare')
plt.xlabel('Fare')
plt.ylabel('Fréquence')
plt.show()

# Scatter plot entre 'Age' et 'Fare'
plt.figure(figsize=(6,4))
sns.scatterplot(x='Age', y='Fare', data=df_no_outliers)
plt.title('Relation entre Age et Fare')
plt.xlabel('Age')
plt.ylabel('Fare')
plt.show()

# Agrégation : Moyenne de Fare par Pclass (si la colonne existe)
if 'Pclass' in df_no_outliers.columns:
    grouped = df_no_outliers.groupby('Pclass')['Fare'].mean()
    print("Moyenne de Fare par Pclass:")
    print(grouped)

## Interprétation et Conclusion

Rédigez une synthèse des résultats obtenus, discutez des insights majeurs et proposez des pistes d'analyse supplémentaires.

## TP Final

Mettez en œuvre un projet complet d'analyse en appliquant toutes les étapes vues dans ce notebook. Documentez chaque étape, commentez vos choix et répondez aux questions du QCM ci-dessous.

## QCM Final

1. Quel est l'avantage principal du nettoyage des données avant l'analyse ?
   - A. Augmenter la taille du dataset
   - B. Améliorer la qualité des modèles et des insights
   - C. Réduire le temps de calcul
   - D. Aucune importance

2. Quel graphique est idéal pour visualiser la distribution d'une variable quantitative ?
   - A. Histogramme
   - B. Boxplot
   - C. Scatter plot
   - D. Barplot

*Réponses attendues : 1 → B, 2 → A (ou B selon le contexte)*