# TD0 ‚Äî Introduction : De l'OLTP √† l'Optimisation des Requ√™tes

**Dur√©e estim√©e** : 1h30  
**Niveau** : D√©butant  
**Objectifs p√©dagogiques** :
1. Comprendre le fonctionnement d'une base transactionnelle (OLTP) et ses limites pour l'analyse.
2. Mesurer l'impact des jointures et de la normalisation sur les performances analytiques.
3. D√©couvrir l'int√©r√™t d'une table r√©sum√©e (pr√©-calcul) pour acc√©l√©rer les requ√™tes.
4. √âtablir un plan de maintenance pour les donn√©es pr√©-calcul√©es.

---

## Partie 1 : Le monde Transactionnel (OLTP)

Les syst√®mes **OLTP** (Online Transaction Processing) sont con√ßus pour g√©rer les op√©rations quotidiennes de l'entreprise (commandes, paiements, stocks).

### Caract√©ristiques cl√©s :
- **Atomicit√©** : Des transactions courtes et s√©curis√©es (ACID).
- **Normalisation** : Les donn√©es sont fragment√©es en plusieurs tables (3NF) pour √©viter la redondance et garantir la coh√©rence.
- **Mise √† jour fr√©quente** : Beaucoup d'√©critures (INSERT, UPDATE).

### Mod√®le de donn√©es (Exemple E-Commerce)
Voici √† quoi ressemble un sch√©ma classique pour g√©rer des ventes. Remarquez la s√©paration entre `commandes`, `lignes_commande`, `produits` et `clients`.

```mermaid
erDiagram
    CLIENT {
        int client_id PK
        string nom
        string ville
        string segment
    }
    PRODUIT {
        int produit_id PK
        string nom
        string categorie
        float prix_unitaire
    }
    COMMANDE {
        int commande_id PK
        int client_id FK
        date date_commande
        string statut
    }
    LIGNE_COMMANDE {
        int commande_id FK
        int produit_id FK
        int quantite
        float prix_reel
    }

    CLIENT ||--o{ COMMANDE : passe
    COMMANDE ||--|{ LIGNE_COMMANDE : contient
    PRODUIT ||--o{ LIGNE_COMMANDE : est_reference_dans
```

## Partie 2 : Le probl√®me analytique

Si l'on veut r√©pondre √† une question simple comme **"Quel est le Chiffre d'Affaires mensuel par cat√©gorie de produit et par ville ?"**, le mod√®le OLTP devient un obstacle.

**Pourquoi ?**
1. Il faut **reconstituer l'information** √©parpill√©e (Jointures).
2. Il faut **scanner beaucoup de lignes** pour agr√©ger (Group By).
3. Les index sont souvent optimis√©s pour l'√©criture (ID), pas pour l'analyse (Date, Cat√©gorie).

### D√©monstration pratique (Python/SQLite)
Nous allons simuler une petite base de donn√©es en m√©moire pour visualiser le probl√®me.

In [None]:
import sqlite3
import pandas as pd

# Connexion √† une base en m√©moire (rapide pour la d√©mo)
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

print("üöÄ Cr√©ation du sch√©ma OLTP...")

# 1. Cr√©ation des tables (Normalis√©es)
cursor.executescript('''
-- Table Clients
CREATE TABLE clients (
    client_id INTEGER PRIMARY KEY,
    nom TEXT,
    ville TEXT,
    segment TEXT
);

-- Table Produits
CREATE TABLE produits (
    produit_id INTEGER PRIMARY KEY,
    nom TEXT,
    categorie TEXT,
    prix_standard REAL
);

-- Table Commandes (Ent√™te)
CREATE TABLE commandes (
    commande_id INTEGER PRIMARY KEY,
    client_id INTEGER,
    date_commande DATE,
    statut TEXT,
    FOREIGN KEY(client_id) REFERENCES clients(client_id)
);

-- Table Lignes de Commande (D√©tail)
CREATE TABLE lignes_commande (
    commande_id INTEGER,
    produit_id INTEGER,
    quantite INTEGER,
    prix_reel REAL,
    FOREIGN KEY(commande_id) REFERENCES commandes(commande_id),
    FOREIGN KEY(produit_id) REFERENCES produits(produit_id)
);
''')

# 2. Insertion de donn√©es (Jeu d'essai)
cursor.executescript('''
INSERT INTO clients VALUES 
    (1, 'Alice Dupont', 'Paris', 'VIP'),
    (2, 'Bob Martin', 'Lyon', 'Standard'),
    (3, 'Charlie Durand', 'Paris', 'Standard');

INSERT INTO produits VALUES 
    (10, 'Laptop Pro', '√âlectronique', 1200.0),
    (11, 'Smartphone X', '√âlectronique', 800.0),
    (12, 'Chaise Bureau', 'Mobilier', 150.0);

INSERT INTO commandes VALUES 
    (1001, 1, '2024-01-15', 'LIVRE'),
    (1002, 2, '2024-01-16', 'LIVRE'),
    (1003, 1, '2024-02-01', 'EN_COURS');

INSERT INTO lignes_commande VALUES 
    (1001, 10, 1, 1200.0), -- Alice ach√®te 1 Laptop
    (1001, 12, 2, 140.0),  -- Alice ach√®te 2 Chaises (promo)
    (1002, 11, 1, 800.0),  -- Bob ach√®te 1 Smartphone
    (1003, 12, 1, 150.0);  -- Alice ach√®te 1 Chaise
''')

print("‚úÖ Donn√©es OLTP charg√©es avec succ√®s.")

In [None]:
# Requ√™te Analytique sur OLTP : CA par Mois, Cat√©gorie et Ville
# Remarquez le nombre de JOINTURES n√©cessaires !

sql_oltp = '''
SELECT 
    strftime('%Y-%m', c.date_commande) as mois,
    p.categorie,
    cl.ville,
    SUM(lc.quantite * lc.prix_reel) as chiffre_affaires,
    COUNT(DISTINCT c.commande_id) as nb_commandes
FROM commandes c
JOIN lignes_commande lc ON c.commande_id = lc.commande_id
JOIN produits p ON lc.produit_id = p.produit_id
JOIN clients cl ON c.client_id = cl.client_id
GROUP BY 
    strftime('%Y-%m', c.date_commande),
    p.categorie,
    cl.ville
ORDER BY mois, chiffre_affaires DESC;
'''

print("üìä Ex√©cution de la requ√™te OLTP (Complexe)...")
df_oltp = pd.read_sql_query(sql_oltp, conn)
display(df_oltp)

## Partie 3 : La Solution par Pr√©-calcul

Pour r√©soudre ces probl√®mes de performance et de complexit√©, nous allons cr√©er une table r√©sum√©e qui pr√©-calcule les agr√©gats n√©cessaires.

L'approche consiste √† :
1. **Pr√©-calculer** : Calculer une fois pour toutes les agr√©gations mensuelles.
2. **Stocker** : Sauvegarder les r√©sultats dans une table d√©di√©e.
3. **Simplifier** : Utiliser cette table pour les requ√™tes du dashboard.

Dans cet exemple, nous allons cr√©er une table `resume_ventes_mensuelles` qui contient d√©j√† les calculs n√©cessaires.

# Simulation d'un pr√©-calcul vers une table r√©sum√©e
# On calcule et stocke les agr√©gats mensuels

cursor.execute('''
CREATE TABLE resume_ventes_mensuelles AS
SELECT 
    strftime('%Y-%m', c.date_commande) as mois,
    p.categorie,
    cl.ville,
    SUM(lc.quantite * lc.prix_reel) as ca_mensuel,
    COUNT(DISTINCT c.commande_id) as nb_commandes,
    SUM(lc.quantite) as quantite_vendue
FROM lignes_commande lc
JOIN commandes c ON lc.commande_id = c.commande_id
JOIN produits p ON lc.produit_id = p.produit_id
JOIN clients cl ON c.client_id = cl.client_id
WHERE c.statut = 'LIVRE'
GROUP BY strftime('%Y-%m', c.date_commande), p.categorie, cl.ville;
''')

print("‚úÖ Table resume_ventes_mensuelles cr√©√©e (pr√©-calcul mensuel).")

# Requ√™te sur la table r√©sum√©e : Beaucoup plus simple !
sql_resume = '''
SELECT 
    mois,
    categorie,
    ville,
    ca_mensuel,
    nb_commandes,
    quantite_vendue
FROM resume_ventes_mensuelles
WHERE mois >= '2024-01'
ORDER BY mois, ca_mensuel DESC;
'''

print("\nüìä Ex√©cution de la requ√™te sur table r√©sum√©e (Simple et rapide)...")
df_resume = pd.read_sql_query(sql_resume, conn)
display(df_resume)

## Conclusion et Plan de Maintenance

Nous avons vu que la mod√©lisation a un impact majeur sur la simplicit√© des requ√™tes.

### Ce qu'il faut retenir :
| Crit√®re | Requ√™te Directe (OLTP) | Table R√©sum√©e (Pr√©-calcul) |
|---------|-----------------------|----------------------------|
| **Priorit√©** | Int√©grit√© et Rapidit√© d'√©criture | Rapidit√© de lecture et Agr√©gation |
| **Mod√®le** | Normalis√© (Complexe) | R√©sum√© (Simple) |
| **Jointures** | Nombreuses | Aucune |
| **Performance** | Lent (plusieurs secondes) | Rapide (quelques millisecondes) |

### Sch√©ma Cible (TD Suivant)
Dans le TD1, nous d√©couvrirons les concepts formels de **Business Intelligence** avec :
- Des tables de faits et dimensions
- Des mod√®les en √©toile et flocon
- Des architectures DWH/OLAP

```mermaid
graph LR
    subgraph "Source OLTP"
    S1[Commandes] --> ETL
    S2[Produits] --> ETL
    S3[Clients] --> ETL
    end

    subgraph "Table R√©sum√©e"
    ETL --> R1[resume_ventes_mensuelles]
    end
    
    subgraph "Dashboard"
    R1 --> D1[Requ√™tes Rapides]
    end
    
    style R1 fill:#bbf,stroke:#333,stroke-width:4px
```

### Prochaines √©tapes
1. **Maintenance** : Comment mettre √† jour la table r√©sum√©e ?
2. **Automatisation** : Planifier les mises √† jour r√©guli√®res.
3. **Extension** : Vers des concepts plus avanc√©s (TD1+).

Cette approche de pr√©-calcul est une premi√®re √©tape vers les architectures d√©cisionnelles plus complexes !