# TD0 ‚Äî Introduction : De l'OLTP au D√©cisionnel (DWH/OLAP)

**Dur√©e estim√©e** : 1h30  
**Niveau** : D√©butant  
**Objectifs p√©dagogiques** :
1. Comprendre le fonctionnement d'une base transactionnelle (OLTP) et ses limites pour l'analyse.
2. Mesurer l'impact des jointures et de la normalisation sur les performances analytiques.
3. D√©couvrir l'int√©r√™t d'un mod√®le d√©normalis√© (Entrep√¥t de Donn√©es / Star Schema).
4. √âtablir un plan de transition vers la Business Intelligence.

---

## Partie 1 : Le monde Transactionnel (OLTP)

Les syst√®mes **OLTP** (Online Transaction Processing) sont con√ßus pour g√©rer les op√©rations quotidiennes de l'entreprise (commandes, paiements, stocks).

### Caract√©ristiques cl√©s :
- **Atomicit√©** : Des transactions courtes et s√©curis√©es (ACID).
- **Normalisation** : Les donn√©es sont fragment√©es en plusieurs tables (3NF) pour √©viter la redondance et garantir la coh√©rence.
- **Mise √† jour fr√©quente** : Beaucoup d'√©critures (INSERT, UPDATE).

### Mod√®le de donn√©es (Exemple E-Commerce)
Voici √† quoi ressemble un sch√©ma classique pour g√©rer des ventes. Remarquez la s√©paration entre `commandes`, `lignes_commande`, `produits` et `clients`.

```mermaid
erDiagram
    CLIENT {
        int client_id PK
        string nom
        string ville
        string segment
    }
    PRODUIT {
        int produit_id PK
        string nom
        string categorie
        float prix_unitaire
    }
    COMMANDE {
        int commande_id PK
        int client_id FK
        date date_commande
        string statut
    }
    LIGNE_COMMANDE {
        int commande_id FK
        int produit_id FK
        int quantite
        float prix_reel
    }

    CLIENT ||--o{ COMMANDE : passe
    COMMANDE ||--|{ LIGNE_COMMANDE : contient
    PRODUIT ||--o{ LIGNE_COMMANDE : est_reference_dans
```

## Partie 2 : Le probl√®me analytique

Si l'on veut r√©pondre √† une question simple comme **"Quel est le Chiffre d'Affaires mensuel par cat√©gorie de produit et par ville ?"**, le mod√®le OLTP devient un obstacle.

**Pourquoi ?**
1. Il faut **reconstituer l'information** √©parpill√©e (Jointures).
2. Il faut **scanner beaucoup de lignes** pour agr√©ger (Group By).
3. Les index sont souvent optimis√©s pour l'√©criture (ID), pas pour l'analyse (Date, Cat√©gorie).

### D√©monstration pratique (Python/SQLite)
Nous allons simuler une petite base de donn√©es en m√©moire pour visualiser le probl√®me.

In [None]:
import sqlite3
import pandas as pd

# Connexion √† une base en m√©moire (rapide pour la d√©mo)
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

print("üöÄ Cr√©ation du sch√©ma OLTP...")

# 1. Cr√©ation des tables (Normalis√©es)
cursor.executescript('''
-- Table Clients
CREATE TABLE clients (
    client_id INTEGER PRIMARY KEY,
    nom TEXT,
    ville TEXT,
    segment TEXT
);

-- Table Produits
CREATE TABLE produits (
    produit_id INTEGER PRIMARY KEY,
    nom TEXT,
    categorie TEXT,
    prix_standard REAL
);

-- Table Commandes (Ent√™te)
CREATE TABLE commandes (
    commande_id INTEGER PRIMARY KEY,
    client_id INTEGER,
    date_commande DATE,
    statut TEXT,
    FOREIGN KEY(client_id) REFERENCES clients(client_id)
);

-- Table Lignes de Commande (D√©tail)
CREATE TABLE lignes_commande (
    commande_id INTEGER,
    produit_id INTEGER,
    quantite INTEGER,
    prix_reel REAL,
    FOREIGN KEY(commande_id) REFERENCES commandes(commande_id),
    FOREIGN KEY(produit_id) REFERENCES produits(produit_id)
);
''')

# 2. Insertion de donn√©es (Jeu d'essai)
cursor.executescript('''
INSERT INTO clients VALUES 
    (1, 'Alice Dupont', 'Paris', 'VIP'),
    (2, 'Bob Martin', 'Lyon', 'Standard'),
    (3, 'Charlie Durand', 'Paris', 'Standard');

INSERT INTO produits VALUES 
    (10, 'Laptop Pro', '√âlectronique', 1200.0),
    (11, 'Smartphone X', '√âlectronique', 800.0),
    (12, 'Chaise Bureau', 'Mobilier', 150.0);

INSERT INTO commandes VALUES 
    (1001, 1, '2024-01-15', 'LIVRE'),
    (1002, 2, '2024-01-16', 'LIVRE'),
    (1003, 1, '2024-02-01', 'EN_COURS');

INSERT INTO lignes_commande VALUES 
    (1001, 10, 1, 1200.0), -- Alice ach√®te 1 Laptop
    (1001, 12, 2, 140.0),  -- Alice ach√®te 2 Chaises (promo)
    (1002, 11, 1, 800.0),  -- Bob ach√®te 1 Smartphone
    (1003, 12, 1, 150.0);  -- Alice ach√®te 1 Chaise
''')

print("‚úÖ Donn√©es OLTP charg√©es avec succ√®s.")

In [None]:
# Requ√™te Analytique sur OLTP : CA par Mois, Cat√©gorie et Ville
# Remarquez le nombre de JOINTURES n√©cessaires !

sql_oltp = '''
SELECT 
    strftime('%Y-%m', c.date_commande) as mois,
    p.categorie,
    cl.ville,
    SUM(lc.quantite * lc.prix_reel) as chiffre_affaires,
    COUNT(DISTINCT c.commande_id) as nb_commandes
FROM commandes c
JOIN lignes_commande lc ON c.commande_id = lc.commande_id
JOIN produits p ON lc.produit_id = p.produit_id
JOIN clients cl ON c.client_id = cl.client_id
GROUP BY 
    strftime('%Y-%m', c.date_commande),
    p.categorie,
    cl.ville
ORDER BY mois, chiffre_affaires DESC;
'''

print("üìä Ex√©cution de la requ√™te OLTP (Complexe)...")
df_oltp = pd.read_sql_query(sql_oltp, conn)
display(df_oltp)

## Partie 3 : La Solution D√©cisionnelle (Pr√©-OLAP)

Pour r√©soudre ces probl√®mes de performance et de complexit√©, nous allons cr√©er une structure d√©di√©e √† l'analyse : **l'Entrep√¥t de Donn√©es (Data Warehouse)**.

L'approche consiste √† :
1. **D√©normaliser** : Regrouper les informations li√©es dans une m√™me structure.
2. **Pr√©-calculer** : Si possible, pr√©parer les donn√©es (ETL).
3. **Simplifier** : Utiliser un mod√®le en √©toile (Faits + Dimensions).

Dans cet exemple simplifi√©, nous allons cr√©er une table unique `fact_ventes` qui mat√©rialise toutes les informations n√©cessaires.

# Simulation d'un ETL (Extract-Transform-Load) vers une table de faits
# On "aplatit" le mod√®le pour l'analyse

cursor.execute('''
CREATE TABLE fact_ventes AS
SELECT 
    lc.produit_id,
    lc.commande_id,
    c.client_id,
    c.date_commande,
    p.categorie,      -- D√©normalis√© pour √©viter la jointure produit
    cl.ville,         -- D√©normalis√© pour √©viter la jointure client
    (lc.quantite * lc.prix_reel) as montant_vente
FROM lignes_commande lc
JOIN commandes c ON lc.commande_id = c.commande_id
JOIN produits p ON lc.produit_id = p.produit_id
JOIN clients cl ON c.client_id = cl.client_id;
''')

print("‚úÖ Table fact_ventes cr√©√©e (Simulation DWH).")

# Requ√™te Analytique sur DWH : Beaucoup plus simple !
sql_olap = '''
SELECT 
    strftime('%Y-%m', date_commande) as mois,
    categorie,
    ville,
    SUM(montant_vente) as chiffre_affaires
FROM fact_ventes
GROUP BY 
    strftime('%Y-%m', date_commande), 
    categorie, 
    ville
ORDER BY mois, chiffre_affaires DESC;
'''

print("\nüìä Ex√©cution de la requ√™te OLAP (Simplifi√©e)...")
df_olap = pd.read_sql_query(sql_olap, conn)
display(df_olap)

## Conclusion et Plan de Transition

Nous avons vu que la mod√©lisation a un impact majeur sur la simplicit√© des requ√™tes.

### Ce qu'il faut retenir :
| Crit√®re | OLTP (Transactionnel) | OLAP (D√©cisionnel) |
|---------|-----------------------|--------------------|
| **Priorit√©** | Int√©grit√© et Rapidit√© d'√©criture | Rapidit√© de lecture et Agr√©gation |
| **Mod√®le** | Normalis√© (Complexe) | D√©normalis√© (√âtoile/Flocon) |
| **Jointures** | Nombreuses | Minimales |

### Sch√©ma Cible (TD Suivant)
Dans le TD1, nous mettrons en place un v√©ritable **Sch√©ma en √âtoile** avec :
- Une table de faits centrale (`fact_ventes`)
- Des tables de dimensions p√©riph√©riques (`dim_temps`, `dim_produit`, `dim_geo`)

```mermaid
graph LR
    subgraph "Source OLTP"
    S1[Commandes] --> ETL
    S2[Produits] --> ETL
    S3[Clients] --> ETL
    end

    subgraph "Cible DWH (√âtoile)"
    ETL --> D1[Dim Temps]
    ETL --> D2[Dim Produit]
    ETL --> D3[Dim Geo]
    ETL --> F1[Fact Ventes]
    
    D1 --- F1
    D2 --- F1
    D3 --- F1
    end
    
    style F1 fill:#f9f,stroke:#333,stroke-width:4px
```

### Prochaines √©tapes
1. **Audit** : Analyser les sources de donn√©es.
2. **Mod√©lisation** : Concevoir le mod√®le en √©toile (TD1).
3. **ETL** : D√©velopper les scripts de chargement.