# Analyse Exploratoire des Donn√©es

## Introduction

L'analyse exploratoire des donn√©es (EDA) est une √©tape fondamentale dans tout projet de data science. Elle permet de :

- **Comprendre** la structure et le contenu des donn√©es
- **Identifier** les patterns, anomalies et relations
- **Pr√©parer** les donn√©es pour la mod√©lisation
- **Formuler** des hypoth√®ses √† tester

Dans ce notebook, nous allons explorer un jeu de donn√©es r√©el en utilisant les biblioth√®ques Pandas, NumPy, Matplotlib et Seaborn.

---

## 1. Installation et Imports

```python
# Installation des d√©pendances
# !pip install pandas numpy matplotlib seaborn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuration de l'affichage
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

# Afficher les graphiques inline
%matplotlib inline

print(f"Versions: pandas={pd.__version__}, numpy={np.__version__}")
```

**R√©sultat attendu :**
```
Versions: pandas=2.x.x, numpy=1.x.x
```

---

## 2. Chargement des Donn√©es

Nous utilisons les donn√©es Titanic disponibles dans le r√©pertoire `data/sample/`.

```python
# Chemin vers les donn√©es
DATA_PATH = Path("../data/sample/")

# Liste des fichiers disponibles
print("Fichiers disponibles:")
for f in DATA_PATH.glob("*"):
    print(f"  - {f.name}")

# Chargement du dataset
df = pd.read_csv(DATA_PATH / "titanic_sample.csv")

# Informations de base
print(f"\nShape: {df.shape[0]} lignes √ó {df.shape[1]} colonnes")
```

---

## 3. Exploration de Base

### 3.1 Aper√ßu des premi√®res lignes

```python
# Afficher les 5 premi√®res lignes
df.head()
```

Cette commande affiche un aper√ßu des donn√©es avec les premi√®res lignes du dataframe.

### 3.2 Informations sur les colonnes

```python
# Types de donn√©es et valeurs non-null
df.info()

# Statistiques descriptives
df.describe()
```

### 3.3 Valeurs manquantes

```python
# Compter les valeurs manquantes
missing = df.isnull().sum()
missing_pct = (missing / len(df)) * 100

# Cr√©er un dataframe de r√©sum√©
missing_df = pd.DataFrame({
    'Manquantes': missing,
    'Pourcentage': missing_pct.round(2)
})
print(missing_df[missing_df['Manquantes'] > 0])
```

---

## 4. Analyse Univari√©e

L'analyse univari√©e consiste √† √©tudier chaque variable s√©par√©ment.

### 4.1 Variables num√©riques

```python
# S√©lectionner les colonnes num√©riques
numeric_cols = df.select_dtypes(include=[np.number]).columns
print(f"Colonnes num√©riques: {list(numeric_cols)}")

# Histogramme
fig, axes = plt.subplots(2, 2, figsize=(12, 8))

for col, ax in zip(['Age', 'Fare', 'SibSp', 'Parch'], axes.flat):
    df[col].hist(bins=30, ax=ax, edgecolor='black')
    ax.set_title(f"Distribution de {col}")
    ax.set_xlabel(col)
    ax.set_ylabel('Fr√©quence')

plt.tight_layout()
plt.savefig('../data/distribution_numerique.png', dpi=150)
plt.show()
```

### 4.2 Variables cat√©gorielles

```python
# Diagramme en barres
fig, axes = plt.subplots(1, 3, figsize=(14, 4))

df['Survived'].value_counts().plot(kind='bar', ax=axes[0], color=['red', 'green'])
axes[0].set_title('Survie (0=Non, 1=Oui)')
axes[0].set_ylabel('Nombre')

df['Pclass'].value_counts().sort_index().plot(kind='bar', ax=axes[1])
axes[1].set_title('Classe du Passager')
axes[1].set_ylabel('Nombre')

df['Sex'].value_counts().plot(kind='bar', ax=axes[2])
axes[2].set_title('Sexe des Passagers')
axes[2].set_ylabel('Nombre')

plt.tight_layout()
plt.savefig('../data/distribution_categorielle.png', dpi=150)
plt.show()
```

---

## 5. Analyse Bivari√©e

L'analyse bivari√©e explore les relations entre deux variables.

### 5.1 Corr√©lations

```python
# Matrice de corr√©lation
corr_matrix = df.select_dtypes(include=[np.number]).corr()

# Heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0,
            fmt='.2f', linewidths=0.5)
plt.title('Matrice de Corr√©lation')
plt.savefig('../data/correlation_heatmap.png', dpi=150)
plt.show()

# Identifier les fortes corr√©lations
print("\nForte corr√©lation avec Survived:")
print(corr_matrix['Survived'].sort_values(ascending=False))
```

### 5.2 Relations cat√©gorielles

```python
# Taux de survie par classe
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Barplot survie par classe
survival_by_class.plot(kind='bar', ax=axes[0], color=['coral', 'steelblue', 'seagreen'])
axes[0].set_title('Taux de Survie par Classe')
axes[0].set_ylabel('Taux de Survie (%)')
axes[0].set_xticklabels(['1√®re', '2√®me', '3√®me'], rotation=0)

# Boxplot √¢ge par classe
df.boxplot(column='Age', by='Pclass', ax=axes[1])
axes[1].set_title('Distribution de l\'Age par Classe')
axes[1].set_xlabel('Classe')
axes[1].set_ylabel('√Çge')

plt.suptitle('')
plt.tight_layout()
plt.savefig('../data/analyse_bivariee.png', dpi=150)
plt.show()
```

---

## 6. Visualisations Avanc√©es

### 6.1 Pairplot

```python
# Relations multiples entre variables
sns.pairplot(df[['Age', 'Fare', 'Survived', 'Pclass']], 
            hue='Survived', palette='coolwarm', diag_kind='kde')
plt.savefig('../data/pairplot.png', dpi=150)
plt.show()
```

### 6.2 Violin Plot

```python
# Distribution de l'√¢ge par survie
plt.figure(figsize=(10, 6))
sns.violinplot(data=df, x='Survived', y='Age', hue='Sex', 
               split=True, palette='coolwarm')
plt.title('Distribution de l\'Age par Survie et Sexe')
plt.savefig('../data/violin_plot.png', dpi=150)
plt.show()
```

---

## 7. Conclusions et Insights

### R√©sum√© des d√©couvertes

```python
# Synth√®se des insights
print("=" * 60)
print("R√âSUM√â DE L'ANALYSE EXPLORATOIRE")
print("=" * 60)

print(f"\nüìä Dataset: {df.shape[0]} passagers, {df.shape[1]} variables")
print(f"\nüéØ Taux de survie global: {df['Survived'].mean()*100:.1f}%")

print("\nüìà Insights principaux:")
print("  ‚Ä¢ Les femmes ont un taux de survie plus √©lev√©")
print("  ‚Ä¢ La classe 1 a un meilleur taux de survie")
print("  ‚Ä¢ L'√¢ge influence la survie (enfants prioritaires)")
print("  ‚Ä¢ Le tarif (Fare) corr√®le avec la survie")

print("\n‚ö†Ô∏è Points d'attention:")
print("  ‚Ä¢ Valeurs manquantes dans Age et Cabin")
print("  ‚Ä¢ Donn√©es d√©s√©quilibr√©es (survie vs d√©c√®s)")

print("\nüìã Recommandations pour la mod√©lisation:")
print("  ‚Ä¢ Imputer les valeurs manquantes de Age")
print("  ‚Ä¢ Encoder les variables cat√©gorielles")
print("  ‚Ä¢ Consid√©rer les interactions (Sex √ó Class)")
```

---

## 8. Exercices Pratiques

### Exercice 1 : Analyse du housing dataset

```python
# Charger les donn√©es housing
housing = pd.read_csv("../data/sample/housing_sample.csv")

# Questions:
# 1. Quelles sont les statistiques de base de la colonne 'price'?
# 2. Quelle est la corr√©lation entre 'square_feet' et 'price'?
# 3. Cr√©er un scatter plot prix vs superficie
# 4. Analyser la distribution des prix par r√©gion
```

### Exercice 2 : Challenge

```python
# Cr√©er une fonction d'analyse rapide
def quick_eda(dataframe):
    """Fonction pour g√©n√©rer un rapport EDA rapide."""
    return {
        'shape': dataframe.shape,
        'numeric_cols': dataframe.select_dtypes(include=[np.number]).columns.tolist(),
        'categorical_cols': dataframe.select_dtypes(include=['object']).columns.tolist(),
        'missing': dataframe.isnull().sum().to_dict()
    }

# Tester avec le dataset
print(quick_eda(df))
```

---

## 9. Ressources

- **Documentation Pandas:** https://pandas.pydata.org/docs/
- **Documentation Seaborn:** https://seaborn.pydata.org/
- **Tutoriel Matplotlib:** https://matplotlib.org/stable/tutorials/index
- **Dataset Titanic:** https://www.kaggle.com/c/titanic

---

*Retour au projet:* [README.md](../README.md)