# Analyse de Données avec Pandas, NumPy et Seaborn

Dans ce notebook, vous allez réaliser une analyse complète en utilisant Pandas, NumPy et Seaborn. Vous apprendrez à effectuer des analyses univariées et bivariées, à visualiser vos données et à détecter/traiter les valeurs aberrantes.

In [None]:
# Création d'un DataFrame d'exemple
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

data = {
    'Age': [23, 45, 31, 35, 27, 40, 50, 22, 29, 33, 28, 47, 38, 31, 26],
    'Salaire': [2500, 5500, 3200, 4000, 2800, 5000, 6000, 2300, 2700, 3500, 2600, 5400, 4100, 3600, 2900],
    'Genre': ['Femme', 'Homme', 'Femme', 'Homme', 'Femme', 'Homme', 'Homme', 'Femme', 'Femme', 'Homme', 'Femme', 'Homme', 'Homme', 'Femme', 'Femme']
}
df = pd.DataFrame(data)
print("Aperçu du DataFrame:")
print(df.head())

## Analyse Univariée – Variables Quantitatives

Nous allons obtenir des statistiques descriptives et visualiser la distribution des variables quantitatives.

In [None]:
# Statistiques descriptives
print("Statistiques pour 'Age':")
print(df['Age'].describe())

print("\nStatistiques pour 'Salaire':")
print(df['Salaire'].describe())

In [None]:
# Histogramme pour 'Age'
plt.figure(figsize=(6,4))
plt.hist(df['Age'], bins=5, edgecolor='black', color='skyblue')
plt.xlabel('Age')
plt.ylabel('Fréquence')
plt.title('Distribution de l\'Age')
plt.show()

In [None]:
# Boxplot pour 'Salaire'
plt.figure(figsize=(6,4))
sns.boxplot(y=df['Salaire'], color='lightgreen')
plt.ylabel('Salaire')
plt.title('Boxplot du Salaire')
plt.show()

### Traitement des Valeurs Aberrantes

Nous allons détecter les outliers dans la variable 'Salaire' en utilisant la méthode IQR et dans 'Age' avec la méthode de la cote Z.

In [None]:
# Méthode IQR pour 'Salaire'
Q1 = df['Salaire'].quantile(0.25)
Q3 = df['Salaire'].quantile(0.75)
IQR = Q3 - Q1
limite_inf = Q1 - 1.5 * IQR
limite_sup = Q3 + 1.5 * IQR
print(f"Limite inférieure: {limite_inf}, Limite supérieure: {limite_sup}")

df_salaire_filtre = df[(df['Salaire'] >= limite_inf) & (df['Salaire'] <= limite_sup)]
print("DataFrame sans outliers sur 'Salaire':")
print(df_salaire_filtre)

In [None]:
# Méthode de la cote Z pour 'Age'
z_scores = (df['Age'] - df['Age'].mean()) / df['Age'].std()
print("Cotes Z pour 'Age':")
print(z_scores)

df_age_filtre = df[abs(z_scores) <= 3]
print("DataFrame sans outliers sur 'Age':")
print(df_age_filtre)

## Analyse Univariée – Variables Qualitatives

Nous allons compter les occurrences et visualiser la répartition de la variable 'Genre'.

In [None]:
print("Répartition des genres:")
print(df['Genre'].value_counts())

plt.figure(figsize=(5,4))
sns.countplot(x='Genre', data=df, palette='pastel')
plt.title('Répartition par Genre')
plt.xlabel('Genre')
plt.ylabel('Nombre')
plt.show()

## Analyse Bivariée

Nous étudions maintenant les relations entre deux variables :
- **Quantitative vs Quantitative :** Relation entre 'Age' et 'Salaire'
- **Quantitative vs Qualitative :** Distribution de 'Salaire' selon 'Genre'
- **Qualitative vs Qualitative :** Exemple avec la répartition des survivants par classe ('Pclass')

In [None]:
# Scatter plot : Age vs Fare, coloré par Sex
plt.figure(figsize=(6,4))
sns.scatterplot(x='Age', y='Salaire', hue='Genre', data=df, s=80)
plt.xlabel('Age')
plt.ylabel('Salaire')
plt.title('Relation entre Age et Salaire par Genre')
plt.show()

# Boxplot : Salaire par Genre
plt.figure(figsize=(6,4))
sns.boxplot(x='Genre', y='Salaire', data=df, palette='Set2')
plt.title('Distribution du Salaire par Genre')
plt.xlabel('Genre')
plt.ylabel('Salaire')
plt.show()

# Count plot : Nombre de survivants par Pclass (si disponible dans le dataset Titanic)
# (Décommentez cette section si le dataset contient les colonnes 'Pclass' et 'Survived')
# plt.figure(figsize=(6,4))
# sns.countplot(x='Pclass', hue='Survived', data=titanic, palette='viridis')
# plt.title('Survie selon la Classe')
# plt.xlabel('Pclass')
# plt.ylabel('Nombre d\'Observations')
# plt.show()

## Rappel des Fonctions Clés

Voici un résumé des fonctions essentielles que nous avons utilisées :

**Pandas :**
- `read_csv()`, `read_excel()`, `to_csv()`, `to_excel()`
- `head()`, `tail()`, `info()`, `describe()`, `shape`, `columns`, `value_counts()`
- `loc[]`, `iloc[]`, `query()`, `isin()`
- `groupby()`, `pivot_table()`, `agg()`, `sort_values()`, `reset_index()`, `drop_duplicates()`
- `isnull()`, `fillna()`, `dropna()`

**NumPy :**
- `np.array()`, `np.arange()`, `np.linspace()`
- `np.mean()`, `np.median()`, `np.std()`, `np.var()`, `np.sum()`, `np.percentile()`
- `np.reshape()`, `np.transpose()`

**Seaborn :**
- `sns.histplot()`, `sns.boxplot()`, `sns.scatterplot()`, `sns.countplot()`, `sns.heatmap()`
- Personnalisation via palettes et options de formatage


## TP 5 – Exercice Complet

Réalisez une analyse complète sur un dataset (celui utilisé dans ce notebook ou un autre) en appliquant toutes les étapes vues :
- Chargement et exploration
- Analyse univariée et bivariée
- Détection et traitement des valeurs aberrantes
- Agrégation des données

Commentez chaque étape et répondez aux questions posées.

## QCM

1. Quelle méthode permet d'obtenir des statistiques descriptives ?
   - A. head()
   - B. describe()
   - C. info()
   - D. value_counts()

2. Quel graphique est idéal pour visualiser la distribution d'une variable quantitative ?
   - A. Histogramme
   - B. Boxplot
   - C. Scatter plot
   - D. Barplot

*Réponses attendues : 1 → B, 2 → A (ou B selon l'analyse)*