# Visualisation de Données avec Python

## Introduction

La visualisation de données est l'art et la science de représenter graphiquement les informations. Une bonne visualisation permet de :

- **Communicquer** des insights complexes simplement
- **Découvrir** des patterns et tendances
- **Comparer** des valeurs efficacement
- **Raconter** une histoire avec les données

Nous utiliserons trois bibliothèques principales :
- **Matplotlib** : La bibliothèque de base, très flexible
- **Seaborn** : Simplicité et esthétique
- **Plotly** : Visualisations interactives

---

## 1. Imports et Configuration

```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuration de base
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12

# Styles Seaborn disponibles
print("Styles Matplotlib disponibles:")
print(plt.style.available[:10])

# Charger les données
df = pd.read_csv("../data/sample/titanic_sample.csv")
housing = pd.read_csv("../data/sample/housing_sample.csv")

print(f"Datasets chargés: Titanic ({df.shape}), Housing ({housing.shape})")
```

---

## 2. Visualisations Statistiques de Base

### 2.1 Histogrammes

```python
# Histogramme simple
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Matplotlib pur
axes[0].hist(df['Age'].dropna(), bins=30, edgecolor='black', color='steelblue')
axes[0].set_title('Distribution de l\'Âge (Matplotlib)')
axes[0].set_xlabel('Âge')
axes[0].set_ylabel('Fréquence')

# Seaborn
sns.histplot(df['Age'].dropna(), bins=30, kde=True, ax=axes[1], color='coral')
axes[1].set_title('Distribution de l\'Âge (Seaborn avec KDE)')
axes[1].set_xlabel('Âge')

plt.tight_layout()
plt.savefig('../data/histogrammes.png', dpi=150)
plt.show()
```

### 2.2 Box Plots

```python
# Box plot comparatif
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Par classe
sns.boxplot(data=df, x='Pclass', y='Age', ax=axes[0], palette='Set2')
axes[0].set_title('Distribution de l\'Âge par Classe')

# Par survie et classe
sns.boxplot(data=df, x='Survived', y='Fare', ax=axes[1], palette='Set1')
axes[1].set_title('Tarif par Survie')
axes[1].set_xticklabels(['Décédé', 'Survécu'])

plt.tight_layout()
plt.savefig('../data/boxplots.png', dpi=150)
plt.show()
```

---

## 3. Diagrammes de Relations

### 3.1 Scatter Plots

```python
# Scatter plot basique
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Matplotlib
axes[0].scatter(df['Age'], df['Fare'], alpha=0.5, c=df['Survived'], 
                cmap='coolwarm', s=50)
axes[0].set_xlabel('Âge')
axes[0].set_ylabel('Tarif')
axes[0].set_title('Âge vs Tarif')

# Seaborn avec régression
sns.regplot(data=housing, x='square_feet', y='price', ax=axes[1], 
            scatter_kws={'alpha': 0.5}, line_kws={'color': 'red'})
axes[1].set_title('Superficie vs Prix (avec régression)')

plt.tight_layout()
plt.savefig('../data/scatter_plots.png', dpi=150)
plt.show()
```

### 3.2 Pair Plots

```python
# Relations multiples
g = sns.pairplot(housing[['price', 'square_feet', 'bedrooms', 'bathrooms']],
                diag_kind='kde', plot_kws={'alpha': 0.6})
g.fig.suptitle('Relations Multiples - Housing Dataset', y=1.02)
plt.savefig('../data/pairplot.png', dpi=150, bbox_inches='tight')
plt.show()
```

---

## 4. Graphiques Comparatifs

### 4.1 Bar Charts

```python
# Diagrammes en barres
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Barplot simple
survival_by_class = df.groupby('Pclass')['Survived'].mean() * 100
axes[0, 0].bar(['1ère', '2ème', '3ème'], survival_by_class, color=['gold', 'silver', '#CD7F32'])
axes[0, 0].set_title('Taux de Survie par Classe')
axes[0, 0].set_ylabel('Taux de survie (%)')

# Barplot Seaborn
sns.barplot(data=df, x='Sex', y='Survived', ax=axes[0, 1], palette='pastel')
axes[0, 1].set_title('Survie par Sexe')
axes[0, 1].set_ylabel('Probabilité de survie')

# Barplot groupé
pd.crosstab(df['Pclass'], df['Sex']).plot(kind='bar', ax=axes[1, 0], stacked=True)
axes[1, 0].set_title('Répartition par Classe et Sexe')
axes[1, 0].tick_params(axis='x', rotation=0)

# Heatmap
corr = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr, annot=True, cmap='RdYlBu_r', center=0, ax=axes[1, 1])
axes[1, 1].set_title('Matrice de Corrélation')

plt.tight_layout()
plt.savefig('../data/comparaisons.png', dpi=150)
plt.show()
```

---

## 5. Visualisations Temporelles

```python
# Données temporelles
dates = pd.date_range(start='2024-01-01', periods=100, freq='D')
values = np.cumsum(np.random.randn(100)) + 1000

fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Line plot
axes[0, 0].plot(dates, values, color='steelblue', linewidth=2)
axes[0, 0].set_title('Série Temporelle Simple')
axes[0, 0].set_ylabel('Valeur')

# Area plot
axes[0, 1].fill_between(dates, values, alpha=0.4, color='seagreen')
axes[0, 1].plot(dates, values, color='seagreen', linewidth=2)
axes[0, 1].set_title('Zone de Valeurs')

# Multiple séries
values2 = np.cumsum(np.random.randn(100)) + 800
axes[1, 0].plot(dates, values, label='Série 1', linewidth=2)
axes[1, 0].plot(dates, values2, label='Série 2', linewidth=2)
axes[1, 0].fill_between(dates, values, values2, alpha=0.3, color='gray')
axes[1, 0].legend()
axes[1, 0].set_title('Comparaison de Séries')

# Rolling average
rolling = pd.Series(values).rolling(window=7).mean()
axes[1, 1].plot(dates, values, alpha=0.4, label='Original')
axes[1, 1].plot(dates, rolling, color='red', linewidth=2, label='Moyenne mobile 7j')
axes[1, 1].legend()
axes[1, 1].set_title('Moyenne Mobile')

for ax in axes.flat:
    ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.savefig('../data/temporal.png', dpi=150)
plt.show()
```

---

## 6. Visualisations Avancées

### 6.1 Violin Plot

```python
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Violin plot simple
sns.violinplot(data=df, x='Pclass', y='Age', hue='Sex', 
              split=True, ax=axes[0], palette='pastel')
axes[0].set_title('Distribution par Classe et Sexe (Violin)')

# Swarm plot
sns.swarmplot(data=df.head(200), x='Pclass', y='Age', 
             hue='Survived', ax=axes[1], palette='coolwarm', dodge=True)
axes[1].set_title('Distribution Points par Classe (Swarm)')

plt.tight_layout()
plt.savefig('../data/advanced_viz.png', dpi=150)
plt.show()
```

### 6.2 Radar Chart

```python
# Radar chart
categories = ['Vitesse', 'Précision', 'Puissance', 'Confort', 'Économie']
values_A = [4, 3, 5, 4, 2]
values_B = [3, 5, 3, 5, 4]

angles = np.linspace(0, 2 * np.pi, len(categories), endpoint=False).tolist()
values_A += values_A[:1]
values_B += values_B[:1]
angles += angles[:1]

fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))
ax.plot(angles, values_A, 'o-', linewidth=2, label='Modèle A', color='steelblue')
ax.fill(angles, values_A, alpha=0.25, color='steelblue')
ax.plot(angles, values_B, 'o-', linewidth=2, label='Modèle B', color='coral')
ax.fill(angles, values_B, alpha=0.25, color='coral')
ax.set_xticks(angles[:-1])
ax.set_xticklabels(categories)
ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
ax.set_title('Comparaison Multi-Critères (Radar)')

plt.savefig('../data/radar_chart.png', dpi=150, bbox_inches='tight')
plt.show()
```

---

## 7. Bonnes Pratiques

```python
# ✅ BIEN
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot(dates, values, linewidth=2, color='#2E86AB')
ax.set_title('Titre Clair et Descriptif', fontsize=14, fontweight='bold')
ax.set_xlabel('Date', fontsize=12)
ax.set_ylabel('Valeur (€)', fontsize=12)
ax.grid(True, alpha=0.3)
ax.legend(['Série principale'])
plt.tight_layout()

# ❌ À EVITER
# - Trop de couleurs
# - 3D inutile
# - Labels absents ou illisibles
# - Échelles non appropriées
```

### Règles d'or

1. **Clarté avant esthétique**
2. **Choisir le bon type de graphique**
3. **Minimiser le « chart junk »**
4. **Utiliser des couleurs accessibles**
5. **Ajouter des labels et légendes**
6. **Adapter l'échelle au message**
7. **Considérer le public**

---

## 8. Exercices

### Exercice 1 : Visualisation Immobilière

```python
housing = pd.read_csv("../data/sample/housing_sample.csv")

# Créer:
# 1. Histogramme des prix
# 2. Scatter plot prix vs superficie (avec couleur par région)
# 3. Box plot des prix par nombre de chambres
# 4. Heatmap des corrélations
```

### Exercice 2 : Visualisation Titanic

```python
df = pd.read_csv("../data/sample/titanic_sample.csv")

# Créer un dashboard avec:
# - Taux de survie par classe (bar)
# - Distribution des âges (histogramme)
# - Relation âge/tarif (scatter)
# - Heatmap des corrélations
```

---

## 9. Ressources

- **Matplotlib Gallery:** https://matplotlib.org/stable/gallery/index.html
- **Seaborn Examples:** https://seaborn.pydata.org/examples/index.html
- **Python Graph Gallery:** https://www.python-graph-gallery.com/
- **Color Brewer:** https://colorbrewer2.org/

---

*Retour au projet:* [README.md](../README.md)