# TD1 ‚Äî La Mod√©lisation Dimensionnelle (Sch√©ma en √âtoile)

**Dur√©e estim√©e** : 1h30  
**Niveau** : D√©butant  
**Objectifs p√©dagogiques** :
1.  **Concevoir** un sch√©ma en √©toile √† partir d'un besoin m√©tier (Ventes Retail).
2.  **Impl√©menter** les tables de dimensions et de faits en SQL.
3.  **Comprendre** les concepts fondamentaux :
    *   **Grain** : Quelle est la finesse de l'information ?
    *   **Dimensions** : Les axes d'analyse (Qui ? Quoi ? Quand ? O√π ?).
    *   **Fait** : La mesure chiffr√©e (Combien ?).
    *   **Cl√©s de Substitution (Surrogate Keys)** : Pourquoi ne pas utiliser les IDs op√©rationnels ?

---

In [None]:
# Import SQLite (ex√©cution minimale)
import sqlite3
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()
print('Base TD1 cr√©√©e (SQLite en m√©moire)')

Base TD1 cr√©√©e


## Partie 1 : Le Mod√®le Conceptuel (Mermaid)

Nous allons mod√©liser un processus de vente simple.

### Les choix de mod√©lisation :
-   **Fait** : `FACT_VENTES` contenant les m√©triques (`montant`, `quantite`).
-   **Dimensions** :
    -   `DIM_DATE` : Pour l'analyse temporel (Ann√©e, Mois, Trimestre).
    -   `DIM_PRODUIT` : Pour savoir ce qui est vendu (Cat√©gorie, Nom).
    -   `DIM_MAGASIN` : Pour la localisation g√©ographique (Ville, R√©gion).

### Le Diagramme Entit√©-Relation :
```mermaid
erDiagram
  DIM_DATE ||--o{ FACT_VENTES : date_id
  DIM_PRODUIT ||--o{ FACT_VENTES : produit_sk
  DIM_MAGASIN ||--o{ FACT_VENTES : magasin_sk

  DIM_DATE {
    int date_id PK "Cl√© technique"
    date date_cal "Date r√©elle"
    int annee
    int mois
    int trimestre
  }
  DIM_PRODUIT {
    int produit_sk PK "Cl√© de substitution"
    string produit_id "Code produit (Source)"
    string produit_nom
    string categorie
  }
  DIM_MAGASIN {
    int magasin_sk PK "Cl√© de substitution"
    string magasin_id "Code magasin (Source)"
    string ville
    string region
  }
  FACT_VENTES {
    int fact_sk PK
    int date_id FK
    int produit_sk FK
    int magasin_sk FK
    int quantite "Mesure additive"
    decimal montant "Mesure additive"
  }
```

<!-- Cellule de transition -->
Dans cette partie, nous allons cr√©er les tables.
Nous utilisons des `INTEGER PRIMARY KEY AUTOINCREMENT` pour g√©rer automatiquement les cl√©s de substitution (Surrogate Keys).

### Concepts Cl√©s : Grain et Cl√©s

1.  **Le Grain (Granularity)** :
    -   C'est la d√©finition d'une ligne unique dans la table de faits.
    -   *Ici* : **Une ligne = Une vente d'un produit sp√©cifique, dans un magasin sp√©cifique, √† une date donn√©e.**
    -   C'est le niveau de d√©tail le plus fin.

2.  **Cl√©s de Substitution (Surrogate Keys - SK)** :
    -   Remarquez `produit_sk` (entier) vs `produit_id` (code source 'P01').
    -   **Pourquoi ?**
        -   **Ind√©pendance** : Si le code produit change dans le syst√®me source, notre historique reste intact.
        -   **Performance** : Les jointures sur des entiers (`INT`) sont plus rapides que sur des cha√Ænes de caract√®res (`VARCHAR`).
        -   **Historisation** : Permet de g√©rer plusieurs versions d'un m√™me produit (SCD Type 2).

In [None]:
# Partie 2 : Impl√©mentation SQL (DDL)

cursor.execute('''
-- Dimension Temps : Granularit√© journali√®re
CREATE TABLE dim_date (
  date_id INTEGER PRIMARY KEY AUTOINCREMENT,
  date_cal DATE NOT NULL,
  annee INTEGER,
  mois INTEGER,
  jour INTEGER,
  trimestre INTEGER
);
''')

cursor.execute('''
-- Dimension Produit : Avec cl√© de substitution (SK)
CREATE TABLE dim_produit (
  produit_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  produit_id TEXT UNIQUE, -- Code source (Business Key)
  produit_nom TEXT,
  categorie TEXT
);
''')

cursor.execute('''
-- Dimension Magasin
CREATE TABLE dim_magasin (
  magasin_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  magasin_id TEXT UNIQUE, -- Code source
  ville TEXT,
  region TEXT
);
''')

cursor.execute('''
-- Table de Faits : Contient les cl√©s √©trang√®res et les mesures
CREATE TABLE fact_ventes (
  fact_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  date_id INTEGER NOT NULL,
  produit_sk INTEGER NOT NULL,
  magasin_sk INTEGER NOT NULL,
  montant REAL,   -- Mesure
  quantite INTEGER, -- Mesure
  -- Contraintes d'int√©grit√© r√©f√©rentielle
  FOREIGN KEY (date_id) REFERENCES dim_date(date_id),
  FOREIGN KEY (produit_sk) REFERENCES dim_produit(produit_sk),
  FOREIGN KEY (magasin_sk) REFERENCES dim_magasin(magasin_sk)
);
''')
print('‚úÖ Tables cr√©√©es avec succ√®s.')

Tables cr√©√©es


<!-- Cellule de transition -->
Une fois la structure en place, nous devons l'alimenter.
Dans un projet r√©el, cette √©tape est r√©alis√©e par l'outil ETL (Extract-Transform-Load).
Ici, nous simulons le chargement avec des instructions `INSERT`.

In [None]:
# Partie 3 : Chargement des Donn√©es (Simulation ETL)

# 1. Chargement des Dimensions
# Note : Dans la r√©alit√©, on ferait un "Lookup" pour v√©rifier si l'entr√©e existe d√©j√†.

cursor.executemany('''
INSERT INTO dim_date (date_cal, annee, mois, jour, trimestre) VALUES (?, ?, ?, ?, ?);
''', [
    ('2024-01-02', 2024, 1, 2, 1),
    ('2024-01-03', 2024, 1, 3, 1),
    ('2024-01-04', 2024, 1, 4, 1)
])

cursor.executemany('''
INSERT INTO dim_produit (produit_id, produit_nom, categorie) VALUES (?, ?, ?);
''', [
    ('P01', 'Chemise Oxford', 'Textile'),
    ('P02', 'Sneakers Run', 'Chaussure'),
    ('P03', 'Jeans Slim', 'Textile')
])

cursor.executemany('''
INSERT INTO dim_magasin (magasin_id, ville, region) VALUES (?, ?, ?);
''', [
    ('M01', 'Paris', 'IDF'),
    ('M02', 'Lyon', 'ARA')
])

# 2. Chargement de la Table de Faits
# Note : Ici on utilise les ID g√©n√©r√©s (1, 2, 3...) directement pour simplifier.
# En production, l'ETL chercherait le produit_sk correspondant au produit_id 'P01'.

cursor.executemany('''
INSERT INTO fact_ventes (date_id, produit_sk, magasin_sk, montant, quantite) VALUES (?, ?, ?, ?, ?);
''', [
    (1, 1, 1, 120.0, 2), -- 2 Chemises √† Paris le 02/01
    (1, 2, 1, 75.0, 1),  -- 1 Sneakers √† Paris le 02/01
    (2, 1, 2, 60.0, 1),  -- 1 Chemise √† Lyon le 03/01
    (3, 3, 1, 90.0, 1)   -- 1 Jean √† Paris le 04/01
])
print('‚úÖ Donn√©es charg√©es (Dimensions + Faits).')

Donn√©es ins√©r√©es


<!-- Cellule de transition -->
Le mod√®le est charg√©. Il faut maintenant v√©rifier qu'il r√©pond aux questions m√©tier.
Nous allons ex√©cuter 3 requ√™tes types d'analyse d√©cisionnelle.

In [None]:
# Partie 4 : Validation du Mod√®le

# 1. Volume total
# V√©rifier que nous avons bien nos 4 transactions.
cursor.execute('SELECT COUNT(*) AS nb_lignes FROM fact_ventes;')
print(f'Volume total : {cursor.fetchone()[0]} lignes (Attendu: 4)')

# 2. Top Produits par Chiffre d'Affaires
# C'est une requ√™te typique de BI : Agr√©gation par dimension.
print('\nüèÜ Top Produits par CA :')
cursor.execute('''
SELECT 
    p.produit_nom, 
    SUM(f.montant) AS ca_total
FROM fact_ventes f
JOIN dim_produit p ON f.produit_sk = p.produit_sk
GROUP BY p.produit_nom
ORDER BY ca_total DESC
LIMIT 3;
''')
for row in cursor.fetchall():
    print(f"- {row[0]} : {row[1]} ‚Ç¨")

# 3. Analyse Crois√©e : CA par Ville et par Mois
# On joint 2 dimensions (Temps et Magasin) √† la table de faits.
print('\nüåç CA par Ville et Mois :')
cursor.execute('''
SELECT 
    d.annee, 
    d.mois, 
    m.ville, 
    SUM(f.montant) AS ca
FROM fact_ventes f
JOIN dim_date d ON f.date_id = d.date_id
JOIN dim_magasin m ON f.magasin_sk = m.magasin_sk
GROUP BY d.annee, d.mois, m.ville
ORDER BY d.annee, d.mois, m.ville;
''')
for row in cursor.fetchall():
    print(f"[{row[0]}-{row[1]:02d}] {row[2]} : {row[3]} ‚Ç¨")

conn.close()
print('\n‚úÖ TD1 termin√© avec succ√®s.')

Volume total : 4
Top 3 produits :
('Chemise Oxford', 180.0)
('Jeans Slim', 90.0)
('Sneakers Run', 75.0)
CA par ville/mois :
(2024, 1, 'Lyon', 60.0)
(2024, 1, 'Paris', 285.0)
TD1 termin√©
