# TD3 ‚Äî Choix d'Architecture OLAP (ROLAP vs MOLAP vs HOLAP)

**Dur√©e estim√©e** : 1h30  
**Niveau** : Avanc√©  
**Objectifs p√©dagogiques** :
1.  **Analyser** des contraintes m√©tier (Volum√©trie, Latence, Co√ªt).
2.  **Comparer** les architectures techniques (Relationnel vs Multidimensionnel).
3.  **Simuler** un benchmark de performance.
4.  **Concevoir** une architecture Hybride (HOLAP) et un plan d'actualisation.

---

In [None]:
## Partie 1 : Analyse du Contexte

### Le Sc√©nario "Retail Big Data"
-   **Volum√©trie** : 50 Millions de lignes / an. Historique sur 5 ans (250M lignes).
-   **Usage** :
    -   **Tableaux de bord (Dashboards)** : Tr√®s consult√©s, focus sur les 60 derniers jours. SLA < 5 sec.
    -   **Analyses Ad-hoc** : Exploratoires, sur tout l'historique. SLA < 20 sec.
-   **Contrainte** : Budget stockage limit√© (Le stockage MOLAP co√ªte cher).

### Le Dilemme
-   Tout mettre en **ROLAP** ? Risque de lenteur sur les Dashboards.
-   Tout mettre en **MOLAP** ? Explosion des co√ªts de stockage et temps de calcul du cube.
-   La solution : **HOLAP (Hybrid)**.

---

## Partie 2 : Comparatif Technique (Benchmark Simul√©)

Nous allons utiliser Python pour visualiser les compromis entre les architectures.

### Crit√®res de comparaison :
1.  **Latence** : Temps de r√©ponse d'une requ√™te.
2.  **Co√ªt Stockage** : Volume disque consomm√© (Index vs Cubes).
3.  **Fra√Æcheur** : Temps de mise √† jour (ETL vs Processing Cube).

import pandas as pd
import matplotlib.pyplot as plt

# Donn√©es simul√©es pour le benchmark
data = {
    'Architecture': ['ROLAP', 'MOLAP', 'HOLAP'],
    'Latence Moyenne (s)': [18.5, 3.2, 6.5],
    'Co√ªt Stockage (Index 100)': [100, 400, 150], # MOLAP explose souvent x4 √† x10 selon la densit√©
    'Flexibilit√© (Ad-hoc)': ['Haute', 'Faible', 'Moyenne'],
    'Complexit√© ETL': ['Faible', 'Moyenne', '√âlev√©e']
}

df = pd.DataFrame(data)

# Affichage du tableau comparatif
print("üìä Tableau Comparatif des Architectures :")
display(df)

# Visualisation (Optionnel si matplotlib dispo)
# df.set_index('Architecture')[['Latence Moyenne (s)', 'Co√ªt Stockage (Index 100)']].plot(kind='bar', secondary_y='Co√ªt Stockage (Index 100)')

In [None]:
## Partie 3 : La Solution Pr√©conis√©e (HOLAP)

### Pourquoi HOLAP ?
C'est le compromis "Meilleur des deux mondes" pour ce cas d'usage :
1.  **Donn√©es R√©centes (Hot Data)** : Stock√©es en **MOLAP** (Cube).
    -   *P√©rim√®tre* : 60 derniers jours.
    -   *Gain* : R√©ponse instantan√©e pour les tableaux de bord quotidiens.
2.  **Historique (Cold Data)** : Laiss√© en **ROLAP** (Base Relationnelle).
    -   *P√©rim√®tre* : 5 ans.
    -   *Gain* : Co√ªt de stockage faible, accessible pour les requ√™tes ad-hoc ponctuelles.

### Sch√©ma d'Architecture Cible
Le flux de donn√©es doit alimenter deux cibles.

```mermaid
flowchart TD
  Sources[Syst√®mes Sources (ERP, CRM)] -->|Extract| Staging[Zone de Staging]
  
  subgraph "Entrep√¥t de Donn√©es (DWH)"
    Staging -->|ETL| ROLAP[Base ROLAP (D√©tail Historique)]
  end
  
  subgraph "Acc√©l√©ration (Performance)"
    ROLAP -->|Processing| MOLAP[Cube MOLAP (60 jours glissants)]
  end
  
  subgraph "Restitution"
    MOLAP -->|Requ√™tes Rapides| Dashboards[Tableaux de Bord]
    ROLAP -->|Requ√™tes Lourdes| AdHoc[Analyses Ad-Hoc / Data Science]
  end
  
  style MOLAP fill:#ff9,stroke:#333
  style ROLAP fill:#9cf,stroke:#333
```

## Partie 4 : Plan d'Actualisation et SLA

Pour garantir la performance et la fra√Æcheur, nous d√©finissons des r√®gles pr√©cises (SLA - Service Level Agreement).

### 1. Strat√©gie de Partitionnement
Pour √©viter de tout recalculer chaque nuit :
-   **Partitionnement Temporel** sur la table de faits.
-   Chaque jour, on ne charge que la partition J-1.

### 2. Fr√©quence de mise √† jour
| Cible | Fr√©quence | M√©thode | Fen√™tre de tir |
|-------|-----------|---------|----------------|
| **ROLAP** | Quotidienne (J+1) | Insert Incr√©mental | 02:00 - 04:00 |
| **MOLAP** | Quotidienne (J+1) | Process Partition | 04:00 - 05:00 |
| **Historique** | Mensuelle | Archivage / Compression | Week-end |

### 3. Simulation SQL (Partitionnement)
Voici comment on impl√©mente le partitionnement (conceptuel) en SQL pour faciliter la gestion HOLAP.

import sqlite3
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# Simulation : Table partitionn√©e (en SQL standard, on utilise PARTITION BY)
# Ici on simule avec une colonne 'partition_key'
cursor.execute('''
CREATE TABLE fact_ventes_partitioned (
    vente_id INTEGER PRIMARY KEY,
    date_vente DATE,
    montant REAL,
    partition_key TEXT -- ex: '2024-01', '2024-02'
);
''')

# Insertion de donn√©es dans des partitions diff√©rentes
cursor.executescript('''
INSERT INTO fact_ventes_partitioned VALUES (1, '2024-01-15', 100, 'COLD_2024_01');
INSERT INTO fact_ventes_partitioned VALUES (2, '2024-02-20', 200, 'HOT_2024_02'); -- R√©cent -> Vers MOLAP
''')

print("‚úÖ Table partitionn√©e simul√©e.")

# Requ√™te de maintenance : Identifier les donn√©es √† charger en MOLAP (Hot)
cursor.execute("SELECT count(*) FROM fact_ventes_partitioned WHERE partition_key LIKE 'HOT%'")
nb_hot = cursor.fetchone()[0]
print(f"üî• Donn√©es √† charger en MOLAP : {nb_hot} lignes")

conn.close()

## Conclusion et Risques

### Risques identifi√©s :
1.  **D√©synchronisation** : Si le chargement MOLAP √©choue, les dashboards affichent des donn√©es diff√©rentes du ROLAP.
    *   *Parade* : Monitoring strict et alerte si √©cart > 1%.
2.  **Explosion du Cube** : Si on √©tend la fen√™tre de 60 jours √† 1 an sans contr√¥le.
    *   *Parade* : Purge automatique des partitions anciennes dans le cube.
3.  **Complexit√©** : Maintenir deux syst√®mes (ETL ROLAP + Cube MOLAP).

### Synth√®se
L'architecture **HOLAP** est la r√©ponse standard aux probl√©matiques Big Data modernes, permettant de concilier volume historique et performance imm√©diate.

---
**Fin du TD3**