# TD1 ‚Äî La Mod√©lisation Dimensionnelle Avanc√©e (Sch√©ma en √âtoile)

**Dur√©e estim√©e** : 1h30  
**Niveau** : Interm√©diaire  
**Objectifs p√©dagogiques** :
1.  **Concevoir** un sch√©ma en √©toile r√©aliste avec plusieurs niveaux de complexit√©.
2.  **Impl√©menter** des tables de dimensions et de faits avec des concepts avanc√©s.
3.  **Ma√Ætriser** les concepts fondamentaux :
    *   **Grain** : D√©finition pr√©cise et gestion des multi-grains.
    *   **Dimensions** : Hi√©rarchies, attributs d√©g√©n√©r√©s, dimensions conformes.
    *   **Faits** : Mesures additives, semi-additives, non additives.
    *   **Cl√©s de Substitution** : Gestion des SCD (Slowly Changing Dimensions).
    *   **Performance** : Indexation et partitionnement strat√©gique.

---

In [None]:
# Import SQLite (ex√©cution minimale)
import sqlite3
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()
print('Base TD1 cr√©√©e (SQLite en m√©moire)')

Base TD1 cr√©√©e


## Partie 1 : Le Mod√®le Conceptuel Avanc√© (Mermaid)

Nous allons mod√©liser un processus de vente retail avec des caract√©ristiques r√©elles :
- Ventes multi-canaux (magasin physique, e-commerce, mobile)
- Gestion des promotions et remises
- Suivi des stocks et des retours clients
- Analyse g√©ographique √† plusieurs niveaux

### Les choix de mod√©lisation avanc√©s :
- **Fait** : `FACT_VENTES` avec mesures additives (`montant_ht`, `quantite`, `montant_remise`) et semi-additives (`stock_eod`).
- **Dimensions** :
  - `DIM_DATE` : Hi√©rarchie temporelle compl√®te avec attributs calendaires et fiscaux.
  - `DIM_PRODUIT` : Hi√©rarchie produit, gestion des SCD Type 2, attributs de performance.
  - `DIM_MAGASIN` : G√©olocalisation, caract√©ristiques, surface, type.
  - `DIM_CLIENT` : D√©mographie, segment, RFM.
  - `DIM_PROMOTION` : Types de promotions, r√®gles de calcul.
  - `DIM_CANAL` : Canal de vente avec caract√©ristiques techniques.

### Attributs d√©g√©n√©r√©s :
- `ticket_id` : Identifiant du ticket de caisse (stock√© dans la table de faits).
- `transaction_time` : Heure de la transaction (sans dimension temps d√©di√©e).

### Le Diagramme Entit√©-Relation Avanc√© :
```mermaid
erDiagram
  DIM_DATE ||--o{ FACT_VENTES : date_id
  DIM_PRODUIT ||--o{ FACT_VENTES : produit_sk
  DIM_MAGASIN ||--o{ FACT_VENTES : magasin_sk
  DIM_CLIENT ||--o{ FACT_VENTES : client_sk
  DIM_PROMOTION ||--o{ FACT_VENTES : promotion_sk
  DIM_CANAL ||--o{ FACT_VENTES : canal_sk

  DIM_DATE {
    int date_id PK "Cl√© technique"
    date date_cal "Date r√©elle"
    int annee
    int trimestre
    int mois
    int jour_semaine
    int jour_mois
    string nom_jour
    boolean est_jour_ferie
    boolean est_weekend
    int semaine_iso
    string periode_fiscale
  }
  DIM_PRODUIT {
    int produit_sk PK "Cl√© de substitution"
    string produit_id "Code produit (Source)"
    string produit_nom
    string categorie
    string sous_categorie
    string marque
    decimal prix_unitaire_ht
    decimal poids_kg
    string couleur
    string taille
    boolean est_perissable
    date debut_validite
    date fin_validite
    int version_sc "SCD Type 2"
  }
  DIM_MAGASIN {
    int magasin_sk PK "Cl√© de substitution"
    string magasin_id "Code magasin (Source)"
    string nom_magasin
    string adresse
    string ville
    string departement
    string region
    string pays
    decimal surface_m2
    string type_magasin
    date ouverture_date
    boolean est_actif
  }
  DIM_CLIENT {
    int client_sk PK "Cl√© de substitution"
    string client_id "Code client (Source)"
    string nom
    string prenom
    date date_naissance
    string segment_client
    string ville
    string region
    date premiere_achat
    int score_rfm
    boolean est_actif
  }
  DIM_PROMOTION {
    int promotion_sk PK "Cl√© de substitution"
    string promotion_id "Code promotion"
    string nom_promotion
    string type_remise
    decimal taux_remise
    decimal montant_remise
    date debut_promo
    date fin_promo
    boolean est_cumulable
  }
  DIM_CANAL {
    int canal_sk PK "Cl√© de substitution"
    string canal_id "Code canal"
    string nom_canal
    string type_canal
    boolean est_phisique
    boolean est_en_ligne
  }
  FACT_VENTES {
    int fact_sk PK
    int date_id FK
    int produit_sk FK
    int magasin_sk FK
    int client_sk FK
    int promotion_sk FK
    int canal_sk FK
    string ticket_id "Attribut d√©g√©n√©r√©"
    time transaction_time "Attribut d√©g√©n√©r√©"
    int quantite "Mesure additive"
    decimal montant_ht "Mesure additive"
    decimal montant_tva "Mesure additive"
    decimal montant_remise "Mesure additive"
    decimal montant_total "Mesure additive"
    decimal stock_eod "Mesure semi-additive"
    int nb_retours "Mesure additive"
  }
```

<!-- Cellule de transition -->
Dans cette partie, nous allons cr√©er les tables.
Nous utilisons des `INTEGER PRIMARY KEY AUTOINCREMENT` pour g√©rer automatiquement les cl√©s de substitution (Surrogate Keys).

### Concepts Cl√©s Avanc√©s :

1.  **Le Grain (Granularit√©) Pr√©cis** :
    -   D√©finition : **Une ligne = Une ligne de ticket de caisse pour un produit sp√©cifique, vendu via un canal sp√©cifique, √† un client sp√©cifique, dans un magasin sp√©cifique, √† une date et heure donn√©es.**
    -   Impact : Permet l'analyse au niveau le plus fin tout en permettant les agr√©gations flexibles.
    -   Attention : Ne pas m√©langer les grains (ex: ticket complet vs ligne produit).

2.  **Cl√©s de Substitution et SCD** :
    -   `produit_sk` vs `produit_id` : Ind√©pendance, performance, historisation.
    -   **SCD Type 2** : `version_sc` dans `DIM_PRODUIT` pour tracer les changements de prix/cat√©gorie.
    -   **SCD Type 1** : Mise √† jour directe pour les corrections d'erreurs.

3.  **Types de Mesures** :
    -   **Additives** : `quantite`, `montant_ht`, `montant_tva` - peuvent √™tre somm√©es sur toutes les dimensions.
    -   **Semi-additives** : `stock_eod` - sommables sur certaines dimensions seulement (produit, magasin) mais pas sur le temps.
    -   **Non additives** : `prix_unitaire_ht` - ne doivent jamais √™tre stock√©es dans les faits.

4.  **Attributs D√©g√©n√©r√©s** :
    -   `ticket_id` : Pas de dimension d√©di√©e, stock√© directement dans les faits.
    -   `transaction_time` : Heure sans dimension temps d√©di√©e (granularit√© journali√®re).

5.  **Dimensions Conformes** :
    -   `DIM_DATE`, `DIM_PRODUIT`, `DIM_MAGASIN` peuvent √™tre partag√©es entre plusieurs faits.
    -   Permettent l'analyse cross-facts (ex: ventes vs stocks).

In [None]:
# Partie 2 : Impl√©mentation SQL Avanc√©e (DDL)

# Dimension Temps avec attributs calendaires et fiscaux
cursor.execute('''
CREATE TABLE dim_date (
  date_id INTEGER PRIMARY KEY AUTOINCREMENT,
  date_cal DATE NOT NULL UNIQUE,
  annee INTEGER NOT NULL,
  trimestre INTEGER NOT NULL,
  mois INTEGER NOT NULL,
  jour_semaine INTEGER NOT NULL, -- 1=Monday, 7=Sunday
  jour_mois INTEGER NOT NULL,
  nom_jour TEXT NOT NULL,
  est_jour_ferie BOOLEAN DEFAULT 0,
  est_weekend BOOLEAN DEFAULT 0,
  semaine_iso INTEGER NOT NULL,
  periode_fiscale TEXT, -- Ex: "2024-Q1", "2024-M1"
  CONSTRAINT chk_date CHECK (date_cal IS NOT NULL)
);
''')

# Dimension Produit avec SCD Type 2
cursor.execute('''
CREATE TABLE dim_produit (
  produit_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  produit_id TEXT NOT NULL, -- Business Key
  produit_nom TEXT NOT NULL,
  categorie TEXT NOT NULL,
  sous_categorie TEXT,
  marque TEXT,
  prix_unitaire_ht DECIMAL(10,2),
  poids_kg DECIMAL(8,3),
  couleur TEXT,
  taille TEXT,
  est_perissable BOOLEAN DEFAULT 0,
  debut_validite DATE NOT NULL,
  fin_validite DATE, -- NULL si actif
  version_sc INTEGER DEFAULT 1, -- SCD Type 2
  CONSTRAINT chk_produit CHECK (prix_unitaire_ht >= 0),
  CONSTRAINT chk_poids CHECK (poids_kg >= 0)
);
''')

# Dimension Magasin avec g√©olocalisation
cursor.execute('''
CREATE TABLE dim_magasin (
  magasin_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  magasin_id TEXT NOT NULL UNIQUE,
  nom_magasin TEXT NOT NULL,
  adresse TEXT,
  ville TEXT NOT NULL,
  departement TEXT,
  region TEXT NOT NULL,
  pays TEXT DEFAULT 'France',
  surface_m2 DECIMAL(8,2),
  type_magasin TEXT, -- 'Flagship', 'Outlet', 'Drive'
  ouverture_date DATE NOT NULL,
  est_actif BOOLEAN DEFAULT 1,
  CONSTRAINT chk_surface CHECK (surface_m2 > 0)
);
''')

# Dimension Client avec segmentation RFM
cursor.execute('''
CREATE TABLE dim_client (
  client_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  client_id TEXT NOT NULL UNIQUE,
  nom TEXT NOT NULL,
  prenom TEXT NOT NULL,
  date_naissance DATE,
  segment_client TEXT, -- 'Premium', 'Standard', 'Occasional'
  ville TEXT,
  region TEXT,
  premiere_achat DATE,
  score_rfm INTEGER, -- 1-5 score
  est_actif BOOLEAN DEFAULT 1,
  CONSTRAINT chk_rfm CHECK (score_rfm BETWEEN 1 AND 5)
);
''')

# Dimension Promotion
cursor.execute('''
CREATE TABLE dim_promotion (
  promotion_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  promotion_id TEXT NOT NULL UNIQUE,
  nom_promotion TEXT NOT NULL,
  type_remise TEXT NOT NULL, -- 'Pourcentage', 'MontantFixe', '2Pour1'
  taux_remise DECIMAL(5,4), -- 0.0000 to 1.0000
  montant_remise DECIMAL(10,2),
  debut_promo DATE NOT NULL,
  fin_promo DATE NOT NULL,
  est_cumulable BOOLEAN DEFAULT 0,
  CONSTRAINT chk_remise CHECK (
    (type_remise = 'Pourcentage' AND taux_remise BETWEEN 0 AND 1) OR
    (type_remise = 'MontantFixe' AND montant_remise > 0) OR
    (type_remise = '2Pour1')
  )
);
''')

# Dimension Canal
cursor.execute('''
CREATE TABLE dim_canal (
  canal_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  canal_id TEXT NOT NULL UNIQUE,
  nom_canal TEXT NOT NULL,
  type_canal TEXT NOT NULL, -- 'Physique', 'EnLigne', 'Mobile'
  est_physique BOOLEAN DEFAULT 0,
  est_en_ligne BOOLEAN DEFAULT 0
);
''')

# Table de Faits avec mesures multiples et attributs d√©g√©n√©r√©s
cursor.execute('''
CREATE TABLE fact_ventes (
  fact_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  date_id INTEGER NOT NULL,
  produit_sk INTEGER NOT NULL,
  magasin_sk INTEGER NOT NULL,
  client_sk INTEGER NOT NULL,
  promotion_sk INTEGER, -- Nullable si pas de promotion
  canal_sk INTEGER NOT NULL,
  ticket_id TEXT NOT NULL, -- Attribut d√©g√©n√©r√©
  transaction_time TIME NOT NULL, -- Attribut d√©g√©n√©r√©
  
  -- Mesures additives
  quantite INTEGER NOT NULL,
  montant_ht DECIMAL(12,2) NOT NULL,
  montant_tva DECIMAL(12,2) NOT NULL,
  montant_remise DECIMAL(12,2) DEFAULT 0,
  montant_total DECIMAL(12,2) NOT NULL,
  nb_retours INTEGER DEFAULT 0,
  
  -- Mesure semi-additive
  stock_eod DECIMAL(12,2) DEFAULT 0, -- Stock fin de journ√©e
  
  -- Contraintes d'int√©grit√© r√©f√©rentielle
  FOREIGN KEY (date_id) REFERENCES dim_date(date_id),
  FOREIGN KEY (produit_sk) REFERENCES dim_produit(produit_sk),
  FOREIGN KEY (magasin_sk) REFERENCES dim_magasin(magasin_sk),
  FOREIGN KEY (client_sk) REFERENCES dim_client(client_sk),
  FOREIGN KEY (promotion_sk) REFERENCES dim_promotion(promotion_sk),
  FOREIGN KEY (canal_sk) REFERENCES dim_canal(canal_sk),
  
  -- Contraintes de validation
  CONSTRAINT chk_quantite CHECK (quantite > 0),
  CONSTRAINT chk_montants CHECK (montant_ht >= 0 AND montant_tva >= 0 AND montant_total >= 0),
  CONSTRAINT chk_calcul_total CHECK (montant_total = montant_ht + montant_tva - montant_remise),
  CONSTRAINT chk_stock CHECK (stock_eod >= 0)
);
''')

print('‚úÖ Tables avanc√©es cr√©√©es avec succ√®s.')

Tables cr√©√©es


<!-- Cellule de transition -->
Une fois la structure en place, nous devons l'alimenter.
Dans un projet r√©el, cette √©tape est r√©alis√©e par l'outil ETL (Extract-Transform-Load).
Ici, nous simulons le chargement avec des instructions `INSERT`.

In [None]:
# Partie 3 : Chargement Avanc√© des Donn√©es (ETL Realiste)

# 1. Chargement de la Dimension Temps avec calculs calendaires
dates_data = [
    ('2024-01-02', 2024, 1, 1, 2, 'Mardi', 0, 0, 1, '2024-Q1'),
    ('2024-01-03', 2024, 1, 1, 3, 'Mercredi', 0, 0, 1, '2024-Q1'),
    ('2024-01-04', 2024, 1, 1, 4, 'Jeudi', 0, 0, 1, '2024-Q1'),
    ('2024-01-05', 2024, 1, 1, 5, 'Vendredi', 0, 0, 1, '2024-Q1'),
    ('2024-01-06', 2024, 1, 1, 6, 'Samedi', 0, 1, 1, '2024-Q1'),
    ('2024-01-07', 2024, 1, 1, 7, 'Dimanche', 0, 1, 1, '2024-Q1'),
]

cursor.executemany('''
INSERT INTO dim_date (date_cal, annee, trimestre, mois, jour_semaine, jour_mois, 
                     nom_jour, est_jour_ferie, est_weekend, semaine_iso, periode_fiscale) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', dates_data)

# 2. Chargement de la Dimension Produit avec SCD Type 2
produits_data = [
    ('P001', 'Chemise Oxford Premium', 'Textile', 'Chemises', 'Oxford', 89.99, 0.250, 'Blanc', 'L', 0, '2024-01-01', None, 1),
    ('P002', 'Sneakers Run Pro', 'Chaussure', 'Sneakers', 'SportMax', 129.99, 0.450, 'Noir', '42', 0, '2024-01-01', None, 1),
    ('P003', 'Jean Slim Fit', 'Textile', 'Jeans', 'DenimCo', 79.99, 0.680, 'Bleu', '32', 0, '2024-01-01', None, 1),
    ('P004', 'T-shirt Basic', 'Textile', 'T-shirts', 'EcoWear', 19.99, 0.150, 'Blanc', 'M', 0, '2024-01-01', None, 1),
    ('P005', 'Veste Cuir', 'Textile', 'Vestes', 'LeatherPro', 299.99, 1.200, 'Noir', 'L', 0, '2024-01-01', None, 1),
]

cursor.executemany('''
INSERT INTO dim_produit (produit_id, produit_nom, categorie, sous_categorie, marque, 
                        prix_unitaire_ht, poids_kg, couleur, taille, est_perissable, 
                        debut_validite, fin_validite, version_sc) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', produits_data)

# 3. Chargement de la Dimension Magasin
magasins_data = [
    ('M001', 'Paris Champs-√âlys√©es', '75 Av. des Champs-√âlys√©es', 'Paris', '75', '√éle-de-France', 'France', 1500.0, 'Flagship', '2020-03-15', 1),
    ('M002', 'Lyon Confluence', '15 Quai Perrache', 'Lyon', '69', 'Auvergne-Rh√¥ne-Alpes', 'France', 800.0, 'Standard', '2021-06-20', 1),
    ('M003', 'Marseille Vieux-Port', '2 Quai du Port', 'Marseille', '13', 'Provence-Alpes-C√¥te d\'Azur', 'France', 600.0, 'Standard', '2019-11-10', 1),
    ('M004', 'Boutique Online', 'Warehouse Central', 'Paris', '75', '√éle-de-France', 'France', 2000.0, 'E-commerce', '2020-01-01', 1),
]

cursor.executemany('''
INSERT INTO dim_magasin (magasin_id, nom_magasin, adresse, ville, departement, region, 
                        pays, surface_m2, type_magasin, ouverture_date, est_actif) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', magasins_data)

# 4. Chargement de la Dimension Client avec segmentation
clients_data = [
    ('C001', 'Martin', 'Sophie', '1985-07-15', 'Premium', 'Paris', '√éle-de-France', '2023-01-15', 5, 1),
    ('C002', 'Dubois', 'Pierre', '1990-03-22', 'Standard', 'Lyon', 'Auvergne-Rh√¥ne-Alpes', '2023-02-10', 3, 1),
    ('C003', 'Bernard', 'Marie', '1988-11-30', 'Premium', 'Marseille', 'Provence-Alpes-C√¥te d\'Azur', '2023-01-20', 4, 1),
    ('C004', 'Petit', 'Jean', '1992-05-08', 'Occasional', 'Paris', '√éle-de-France', '2023-03-05', 2, 1),
    ('C005', 'Robert', 'Claire', '1987-09-12', 'Standard', 'Lyon', 'Auvergne-Rh√¥ne-Alpes', '2023-02-28', 3, 1),
]

cursor.executemany('''
INSERT INTO dim_client (client_id, nom, prenom, date_naissance, segment_client, ville, 
                      region, premiere_achat, score_rfm, est_actif) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', clients_data)

# 5. Chargement de la Dimension Promotion
promotions_data = [
    ('PROMO001', 'Soldes Hiver -20%', 'Pourcentage', 0.20, None, '2024-01-02', '2024-01-07', 1),
    ('PROMO002', 'Fid√©lit√© -10‚Ç¨', 'MontantFixe', None, 10.00, '2024-01-01', '2024-01-31', 0),
    ('PROMO003', '2 pour 1 T-shirts', '2Pour1', None, None, '2024-01-03', '2024-01-05', 1),
]

cursor.executemany('''
INSERT INTO dim_promotion (promotion_id, nom_promotion, type_remise, taux_remise, montant_remise, 
                          debut_promo, fin_promo, est_cumulable) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?);
''', promotions_data)

# 6. Chargement de la Dimension Canal
canaux_data = [
    ('CAN001', 'Magasin Physique', 'Physique', 1, 0),
    ('CAN002', 'Site Web', 'EnLigne', 0, 1),
    ('CAN003', 'Application Mobile', 'Mobile', 0, 1),
]

cursor.executemany('''
INSERT INTO dim_canal (canal_id, nom_canal, type_canal, est_physique, est_en_ligne) 
VALUES (?, ?, ?, ?, ?);
''', canaux_data)

# 7. Chargement de la Table de Faits avec calculs complexes
ventes_data = [
    # Ticket T001 - 2024-01-02 - Client Premium avec promotion
    (1, 1, 1, 1, 1, 1, 'T001', '14:30:00', 1, 89.99, 17.99, 18.00, 89.98, 120.0, 0),
    (1, 4, 1, 1, 1, 1, 'T001', '14:31:00', 2, 39.98, 7.99, 8.00, 39.97, 180.0, 0),
    
    # Ticket T002 - 2024-01-03 - Client Standard sans promotion
    (2, 2, 2, 2, None, 1, 'T002', '10:15:00', 1, 129.99, 26.00, 0.00, 155.99, 85.0, 0),
    
    # Ticket T003 - 2024-01-04 - Client Premium avec promotion 2pour1
    (3, 3, 3, 3, 3, 1, 'T003', '16:45:00', 1, 79.99, 16.00, 39.99, 56.00, 95.0, 0),
    
    # Ticket T004 - 2024-01-05 - Client Occasional
    (4, 5, 1, 4, None, 1, 'T004', '12:20:00', 1, 299.99, 60.00, 0.00, 359.99, 50.0, 1),
    
    # Ticket T005 - 2024-01-06 - Vente en ligne
    (5, 2, 4, 5, 2, 2, 'T005', '18:30:00', 1, 129.99, 26.00, 13.00, 142.99, 200.0, 0),
    
    # Ticket T006 - 2024-01-07 - Client fid√®le avec remise cumul√©e
    (6, 1, 2, 5, 2, 3, 'T006', '11:10:00', 1, 89.99, 17.99, 17.99, 89.99, 75.0, 0),
]

cursor.executemany('''
INSERT INTO fact_ventes (date_id, produit_sk, magasin_sk, client_sk, promotion_sk, canal_sk, 
                        ticket_id, transaction_time, quantite, montant_ht, montant_tva, 
                        montant_remise, montant_total, stock_eod, nb_retours) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', ventes_data)

print('‚úÖ Donn√©es avanc√©es charg√©es avec succ√®s.')
print(f'   - {len(dates_data)} dates calendaires')
print(f'   - {len(produits_data)} produits (avec SCD Type 2)')
print(f'   - {len(magasins_data)} magasins (g√©olocalis√©s)')
print(f'   - {len(clients_data)} clients (segment√©s RFM)')
print(f'   - {len(promotions_data)} promotions')
print(f'   - {len(canaux_data)} canaux de vente')
print(f'   - {len(ventes_data)} transactions ventes')

Donn√©es ins√©r√©es


<!-- Cellule de transition -->
Le mod√®le est charg√©. Il faut maintenant v√©rifier qu'il r√©pond aux questions m√©tier.
Nous allons ex√©cuter 3 requ√™tes types d'analyse d√©cisionnelle.

In [None]:
# Partie 4 : Validation Avanc√©e du Mod√®le

# 1. Contr√¥les de base et volum√©trie
cursor.execute('SELECT COUNT(*) AS nb_ventes FROM fact_ventes;')
nb_ventes = cursor.fetchone()[0]

cursor.execute('SELECT COUNT(DISTINCT ticket_id) AS nb_tickets FROM fact_ventes;')
nb_tickets = cursor.fetchone()[0]

cursor.execute('SELECT COUNT(*) AS nb_produits FROM dim_produit WHERE fin_validite IS NULL;')
nb_produits_actifs = cursor.fetchone()[0]

print(f'üìä Volum√©trie du data warehouse :')
print(f'   - {nb_ventes} lignes de ventes')
print(f'   - {nb_tickets} tickets uniques')
print(f'   - {nb_produits_actifs} produits actifs')

# 2. Analyse des ventes par segment client (avec jointures multiples)
print('\nüë• Chiffre d\'Affaires par Segment Client :')
cursor.execute('''
SELECT 
    c.segment_client,
    COUNT(DISTINCT f.ticket_id) AS nb_tickets,
    SUM(f.quantite) AS total_quantite,
    SUM(f.montant_total) AS ca_total,
    AVG(f.montant_total) AS panier_moyen
FROM fact_ventes f
JOIN dim_client c ON f.client_sk = c.client_sk
GROUP BY c.segment_client
ORDER BY ca_total DESC;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:12} | {row[1]:3} tickets | {row[2]:3} pcs | {row[3]:8.2f}‚Ç¨ | Panier: {row[4]:6.2f}‚Ç¨")

# 3. Performance par canal (incluant dimensions conformes)
print('\nüõí Performance par Canal de Vente :')
cursor.execute('''
SELECT 
    can.nom_canal,
    COUNT(DISTINCT f.ticket_id) AS nb_transactions,
    SUM(f.montant_total) AS ca_total,
    SUM(f.montant_remise) AS remise_totale,
    CASE 
        WHEN SUM(f.montant_total) > 0 THEN 
            ROUND(SUM(f.montant_remise) / SUM(f.montant_total) * 100, 2)
        ELSE 0 
    END AS taux_remise_pct
FROM fact_ventes f
JOIN dim_canal can ON f.canal_sk = can.canal_sk
GROUP BY can.nom_canal
ORDER BY ca_total DESC;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:20} | {row[1]:3} tx | {row[2]:8.2f}‚Ç¨ | {row[3]:6.2f}‚Ç¨ | {row[4]:5.1f}%")

# 4. Analyse temporelle avanc√©e (jours f√©ri√©s vs weekend)
print('\nüìÖ Analyse Temporelle :')
cursor.execute('''
SELECT 
    d.nom_jour,
    d.est_weekend,
    d.est_jour_ferie,
    COUNT(DISTINCT f.ticket_id) AS nb_transactions,
    SUM(f.montant_total) AS ca_total,
    AVG(f.montant_total) AS panier_moyen
FROM fact_ventes f
JOIN dim_date d ON f.date_id = d.date_id
GROUP BY d.nom_jour, d.est_weekend, d.est_jour_ferie
ORDER BY d.date_id;
''')
for row in cursor.fetchall():
    type_jour = "Weekend" if row[1] else ("F√©ri√©" if row[2] else "Semaine")
    print(f"   {row[0]:10} ({type_jour:8}) | {row[3]:3} tx | {row[4]:8.2f}‚Ç¨ | {row[5]:6.2f}‚Ç¨")

# 5. Analyse des promotions (mesure d'impact)
print('\n? Impact des Promotions :')
cursor.execute('''
SELECT 
    COALESCE(p.nom_promotion, 'Sans promotion') AS promotion,
    COUNT(DISTINCT f.ticket_id) AS nb_tickets,
    SUM(f.quantite) AS quantite_vendue,
    SUM(f.montant_total) AS ca_total,
    AVG(f.montant_total) AS panier_moyen,
    SUM(f.montant_remise) AS remise_totale
FROM fact_ventes f
LEFT JOIN dim_promotion p ON f.promotion_sk = p.promotion_sk
GROUP BY p.nom_promotion
ORDER BY ca_total DESC;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:25} | {row[1]:3} tx | {row[2]:3} pcs | {row[3]:8.2f}‚Ç¨ | {row[4]:6.2f}‚Ç¨ | {row[5]:6.2f}‚Ç¨")

# 6. Contr√¥le de qualit√© : Mesures semi-additives (stock)
print('\nüì¶ Contr√¥le des Stocks (Mesure Semi-Additive) :')
cursor.execute('''
SELECT 
    p.produit_nom,
    m.nom_magasin,
    d.date_cal,
    f.stock_eod
FROM fact_ventes f
JOIN dim_produit p ON f.produit_sk = p.produit_sk
JOIN dim_magasin m ON f.magasin_sk = m.magasin_sk
JOIN dim_date d ON f.date_id = d.date_id
WHERE f.stock_eod > 0
ORDER BY d.date_cal, m.nom_magasin, p.produit_nom;
''')
for row in cursor.fetchall():
    print(f"   {row[2]} | {row[1]:20} | {row[0]:20} | Stock: {row[3]:6.0f}")

# 7. Validation des contraintes m√©tier
print('\n‚úÖ Validation des Contraintes M√©tier :')

# V√©rifier que le montant total = HT + TVA - Remise
cursor.execute('''
SELECT COUNT(*) AS nb_erreurs
FROM fact_ventes 
WHERE ROUND(montant_total, 2) != ROUND(montant_ht + montant_tva - montant_remise, 2);
''')
nb_erreurs_calcul = cursor.fetchone()[0]

# V√©rifier qu'il n'y a pas de ventes avec quantit√© n√©gative
cursor.execute('SELECT COUNT(*) FROM fact_ventes WHERE quantite <= 0;')
nb_erreurs_quantite = cursor.fetchone()[0]

# V√©rifier l'int√©grit√© r√©f√©rentielle
cursor.execute('''
SELECT COUNT(*) AS nb_orphelins
FROM fact_ventes f
LEFT JOIN dim_produit p ON f.produit_sk = p.produit_sk
WHERE p.produit_sk IS NULL;
''')
nb_orphelins_produit = cursor.fetchone()[0]

print(f"   - Erreurs de calcul montant : {nb_erreurs_calcul}")
print(f"   - Erreurs de quantit√© : {nb_erreurs_quantite}")
print(f"   - Orphelins (produit) : {nb_orphelins_produit}")

conn.close()
print('\nüéâ TD1 Avanc√© termin√© avec succ√®s !')
print('\nüìö Concepts ma√Ætris√©s :')
print('   ‚úÖ Sch√©ma en √©toile complexe (6 dimensions)')
print('   ‚úÖ SCD Type 2 (historisation produits)')
print('   ‚úÖ Attributs d√©g√©n√©r√©s (ticket_id, transaction_time)')
print('   ‚úÖ Mesures additives et semi-additives')
print('   ‚úÖ Contraintes et validation qualit√©')
print('   ‚úÖ Jointures multiples et agr√©gations avanc√©es')

Volume total : 4
Top 3 produits :
('Chemise Oxford', 180.0)
('Jeans Slim', 90.0)
('Sneakers Run', 75.0)
CA par ville/mois :
(2024, 1, 'Lyon', 60.0)
(2024, 1, 'Paris', 285.0)
TD1 termin√©


## Partie 5 : Optimisation et Indexation Strat√©gique

### Index recommand√©s pour la performance :

```sql
-- Index sur les cl√©s √©trang√®res de la table de faits
CREATE INDEX idx_fact_ventes_date_id ON fact_ventes(date_id);
CREATE INDEX idx_fact_ventes_produit_sk ON fact_ventes(produit_sk);
CREATE INDEX idx_fact_ventes_magasin_sk ON fact_ventes(magasin_sk);
CREATE INDEX idx_fact_ventes_client_sk ON fact_ventes(client_sk);
CREATE INDEX idx_fact_ventes_canal_sk ON fact_ventes(canal_sk);

-- Index composite pour les requ√™tes fr√©quentes
CREATE INDEX idx_fact_ventes_date_produit ON fact_ventes(date_id, produit_sk);
CREATE INDEX idx_fact_ventes_magasin_date ON fact_ventes(magasin_sk, date_id);

-- Index sur les attributs de dimension fr√©quemment filtr√©s
CREATE INDEX idx_dim_client_segment ON dim_client(segment_client);
CREATE INDEX idx_dim_produit_categorie ON dim_produit(categorie);
CREATE INDEX idx_dim_magasin_region ON dim_magasin(region);
CREATE INDEX idx_dim_date_annee_mois ON dim_date(annee, mois);

-- Index sur les cl√©s business (pour les lookups ETL)
CREATE INDEX idx_dim_produit_business_key ON dim_produit(produit_id);
CREATE INDEX idx_dim_client_business_key ON dim_client(client_id);
```

### Partitionnement sugg√©r√© pour les grandes volumes :

```sql
-- Partitionnement mensuel de la table de faits
CREATE TABLE fact_ventes_y2024m01 PARTITION OF fact_ventes
FOR VALUES FROM ('2024-01-01') TO ('2024-02-01');

CREATE TABLE fact_ventes_y2024m02 PARTITION OF fact_ventes
FOR VALUES FROM ('2024-02-01') TO ('2024-03-01');
```

## Partie 6 : Bonnes Pratiques et Pi√®ges √† √âviter

### ‚úÖ Bonnes pratiques de mod√©lisation :

1. **Grain coh√©rent** : Toutes les lignes de la table de faits doivent avoir le m√™me niveau de d√©tail
2. **Cl√©s de substitution** : Toujours utiliser des SK pour l'ind√©pendance et la performance
3. **Contraintes CHECK** : Valider les r√®gles m√©tier au niveau de la base de donn√©es
4. **Attributs d√©g√©n√©r√©s** : Stocker directement dans les faits les identifiants qui n'ont pas de dimension d√©di√©e
5. **Dimensions conformes** : R√©utiliser les m√™mes dimensions entre diff√©rents sch√©mas pour l'analyse cross-fonctionnelle

### ‚ùå Pi√®ges courants √† √©viter :

1. **M√©langer les grains** : Ne pas m√©langer tickets complets et lignes de produits dans la m√™me table
2. **Mesures non additives** : Ne jamais stocker des ratios ou pourcentages directement dans les faits
3. **SCD mal g√©r√©es** : Oublier de g√©rer les changements dans les dimensions (prix, cat√©gories, etc.)
4. **Attributs manquants** : Ne pas inclure les attributs n√©cessaires √† l'analyse (segment client, type magasin, etc.)
5. **Performance n√©glig√©e** : Oublier les index sur les cl√©s √©trang√®res et les filtres fr√©quents

### üéØ Questions de qualit√© pour l'auto-√©valuation :

1. **Qualit√© du grain** : Que se passe-t-il si une promotion s'applique au ticket entier plut√¥t qu'√† la ligne produit ?
2. **Qualit√© des SCD** : Comment g√©rer un changement de prix de produit avec effet r√©troactif ?
3. **Qualit√© des mesures** : Pourquoi le taux de remise ne doit-il pas √™tre stock√© dans les faits ?
4. **Qualit√© des dimensions** : Quand utiliser une hi√©rarchie (flocon) vs une dimension plate (√©toile) ?
5. **Qualit√© de performance** : Quel impact sur les performances si on n'indexe pas les cl√©s √©trang√®res ?

## Partie 8 : Extension au Sch√©ma en Flocon (Snowflake Schema)

### üéØ Pourquoi passer au sch√©ma en flocon ?

Le sch√©ma en flocon normalise les dimensions en cr√©ant des sous-tables, ce qui permet de :
- **R√©duire la redondance** des donn√©es (ex: r√©gions, cat√©gories)
- **Faciliter la maintenance** des donn√©es de r√©f√©rence
- **Optimiser l'espace de stockage** pour les grandes dimensions
- **Standardiser les hi√©rarchies** (ex: cat√©gories ‚Üí sous-cat√©gories)

### ‚ùå Co√ªts et inconv√©nients :
- **Complexit√©** des jointures (plus de tables √† joindre)
- **Performance** d√©grad√©e pour les requ√™tes simples
- **Maintenance** plus complexe du mod√®le

### üèóÔ∏è Exemple : Transformation de DIM_PRODUIT en flocon

**Avant (√âtoile)** :
```sql
CREATE TABLE dim_produit (
  produit_sk INT PRIMARY KEY,
  produit_id VARCHAR(10) UNIQUE,
  produit_nom VARCHAR(100),
  categorie VARCHAR(50),
  sous_categorie VARCHAR(50),
  marque VARCHAR(50),
  prix_unitaire DECIMAL(10,2)
);
```

**Apr√®s (Flocon)** :
```sql
-- Table produit principale
CREATE TABLE dim_produit (
  produit_sk INT PRIMARY KEY,
  produit_id VARCHAR(10) UNIQUE,
  produit_nom VARCHAR(100),
  prix_unitaire DECIMAL(10,2),
  sous_categorie_sk INT,
  marque_sk INT,
  FOREIGN KEY (sous_categorie_sk) REFERENCES dim_sous_categorie(sous_categorie_sk),
  FOREIGN KEY (marque_sk) REFERENCES dim_marque(marque_sk)
);

-- Table des sous-cat√©gories
CREATE TABLE dim_sous_categorie (
  sous_categorie_sk INT PRIMARY KEY,
  sous_categorie_nom VARCHAR(50),
  categorie_sk INT,
  FOREIGN KEY (categorie_sk) REFERENCES dim_categorie(categorie_sk)
);

-- Table des cat√©gories
CREATE TABLE dim_categorie (
  categorie_sk INT PRIMARY KEY,
  categorie_nom VARCHAR(50),
  departement_sk INT
);

-- Table des marques
CREATE TABLE dim_marque (
  marque_sk INT PRIMARY KEY,
  marque_nom VARCHAR(50),
  pays_origine VARCHAR(50)
);
```

### üìä Impact sur les requ√™tes :

**Requ√™te simple en √©toile** :
```sql
SELECT p.categorie, SUM(f.montant_total) 
FROM fact_ventes f
JOIN dim_produit p ON f.produit_sk = p.produit_sk
GROUP BY p.categorie;
```

**Requ√™te √©quivalente en flocon** :
```sql
SELECT c.categorie_nom, SUM(f.montant_total) 
FROM fact_ventes f
JOIN dim_produit p ON f.produit_sk = p.produit_sk
JOIN dim_sous_categorie sc ON p.sous_categorie_sk = sc.sous_categorie_sk
JOIN dim_categorie c ON sc.categorie_sk = c.categorie_sk
GROUP BY c.categorie_nom;
```

### üéØ Quand utiliser le sch√©ma en flocon ?

**Cas favorables** :
- Tr√®s grandes dimensions avec forte redondance
- Besoin de maintenance centralis√©e des r√©f√©rentiels
- Hi√©rarchies complexes et profondes
- Contraintes d'espace de stockage importantes

**Cas d√©favorables** :
- Requ√™tes simples et fr√©quentes
- Besoin de performance maximale
- √âquipe avec comp√©tences SQL limit√©es
- Dimensions de petite taille

### üîÑ Hybride : √âtoile + Flocon s√©lectif

```sql
-- DIM_PRODUIT en flocon (forte redondance)
-- DIM_MAGASIN en √©toile (taille mod√©r√©e)
-- DIM_DATE en √©toile (structure simple)
-- DIM_CLIENT en flocon (segments complexes)
```

In [None]:
# Partie 9 : Impl√©mentation du Sch√©ma en Flocon (Exemple DIM_PRODUIT)

# Cr√©ation des tables normalis√©es pour le flocon
cursor.execute('''
-- Table des cat√©gories (niveau 1)
CREATE TABLE dim_categorie (
  categorie_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  categorie_nom TEXT NOT NULL UNIQUE,
  description TEXT,
  date_creation DATE DEFAULT CURRENT_DATE
);
''')

cursor.execute('''
-- Table des sous-cat√©gories (niveau 2)
CREATE TABLE dim_sous_categorie (
  sous_categorie_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  sous_categorie_nom TEXT NOT NULL UNIQUE,
  categorie_sk INTEGER NOT NULL,
  description TEXT,
  FOREIGN KEY (categorie_sk) REFERENCES dim_categorie(categorie_sk)
);
''')

cursor.execute('''
-- Table des marques
CREATE TABLE dim_marque (
  marque_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  marque_nom TEXT NOT NULL UNIQUE,
  pays_origine TEXT,
  site_web TEXT,
  date_creation DATE DEFAULT CURRENT_DATE
);
''')

cursor.execute('''
-- Table produit modifi√©e (flocon)
CREATE TABLE dim_produit_flocon (
  produit_sk INTEGER PRIMARY KEY AUTOINCREMENT,
  produit_id TEXT NOT NULL UNIQUE,
  produit_nom TEXT NOT NULL,
  prix_unitaire_ht DECIMAL(10,2),
  poids_kg DECIMAL(8,3),
  couleur TEXT,
  taille TEXT,
  est_perissable BOOLEAN DEFAULT 0,
  sous_categorie_sk INTEGER,
  marque_sk INTEGER,
  debut_validite DATE NOT NULL,
  fin_validite DATE,
  version_sc INTEGER DEFAULT 1,
  FOREIGN KEY (sous_categorie_sk) REFERENCES dim_sous_categorie(sous_categorie_sk),
  FOREIGN KEY (marque_sk) REFERENCES dim_marque(marque_sk),
  CONSTRAINT chk_prix_flocon CHECK (prix_unitaire_ht >= 0)
);
''')

print('‚úÖ Tables du sch√©ma en flocon cr√©√©es')

In [None]:
# Chargement des donn√©es pour le sch√©ma en flocon

# 1. Chargement des cat√©gories
categories_data = [
    ('Textile', 'V√™tements et tissus'),
    ('Chaussure', 'Chaussures et accessoires'),
    ('Accessoire', 'Accessoires mode'),
    ('√âlectronique', 'Produits √©lectroniques'),
    ('Maison', 'Articles pour la maison')
]

cursor.executemany('''
INSERT INTO dim_categorie (categorie_nom, description) VALUES (?, ?);
''', categories_data)

# 2. Chargement des sous-cat√©gories
sous_categories_data = [
    ('Chemises', 1, 'Chemises pour hommes et femmes'),
    ('Jeans', 1, 'Jeans et denim'),
    ('T-shirts', 1, 'T-shirts et d√©bardeurs'),
    ('Sneakers', 2, 'Baskets et chaussures sport'),
    ('Bottes', 2, 'Bottes et chaussures d\'hiver'),
    ('Ceintures', 3, 'Ceintures et accessoires'),
    ('Sacs', 3, 'Sacs et bagagerie'),
    ('T√©l√©phones', 4, 'Smartphones et t√©l√©phones'),
    ('Ordinateurs', 4, 'Ordinateurs portables et fixes'),
    ('Literie', 5, 'Draps et couvertures')
]

cursor.executemany('''
INSERT INTO dim_sous_categorie (sous_categorie_nom, categorie_sk, description) VALUES (?, ?, ?);
''', sous_categories_data)

# 3. Chargement des marques
marques_data = [
    ('Oxford', 'France', 'https://oxford.fr'),
    ('SportMax', 'Allemagne', 'https://sportmax.de'),
    ('DenimCo', 'Italie', 'https://denimco.it'),
    ('EcoWear', 'Espagne', 'https://ecowear.es'),
    ('LeatherPro', 'France', 'https://leatherpro.fr'),
    ('TechPro', 'Chine', 'https://techpro.cn'),
    ('HomeStyle', 'Su√®de', 'https://homestyle.se')
]

cursor.executemany('''
INSERT INTO dim_marque (marque_nom, pays_origine, site_web) VALUES (?, ?, ?);
''', marques_data)

# 4. Chargement des produits avec r√©f√©rences aux sous-cat√©gories et marques
produits_flocon_data = [
    ('P001', 'Chemise Oxford Premium', 89.99, 0.250, 'Blanc', 'L', 0, 1, 1, '2024-01-01', None, 1),
    ('P002', 'Sneakers Run Pro', 129.99, 0.450, 'Noir', '42', 0, 4, 2, '2024-01-01', None, 1),
    ('P003', 'Jean Slim Fit', 79.99, 0.680, 'Bleu', '32', 0, 2, 3, '2024-01-01', None, 1),
    ('P004', 'T-shirt Basic', 19.99, 0.150, 'Blanc', 'M', 0, 3, 4, '2024-01-01', None, 1),
    ('P005', 'Veste Cuir', 299.99, 1.200, 'Noir', 'L', 0, 6, 5, '2024-01-01', None, 1),
    ('P006', 'Smartphone Pro', 899.99, 0.200, 'Noir', 'N/A', 0, 8, 6, '2024-01-01', None, 1),
    ('P007', 'Ordinateur Portable', 1299.99, 1.500, 'Gris', 'N/A', 0, 9, 6, '2024-01-01', None, 1),
    ('P008', 'Drap en Coton', 39.99, 0.800, 'Blanc', '200x200', 0, 10, 7, '2024-01-01', None, 1)
]

cursor.executemany('''
INSERT INTO dim_produit_flocon (produit_id, produit_nom, prix_unitaire_ht, poids_kg, couleur, taille, 
                               est_perissable, sous_categorie_sk, marque_sk, debut_validite, fin_validite, version_sc) 
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
''', produits_flocon_data)

print('‚úÖ Donn√©es du sch√©ma en flocon charg√©es')
print(f'   - {len(categories_data)} cat√©gories')
print(f'   - {len(sous_categories_data)} sous-cat√©gories')
print(f'   - {len(marques_data)} marques')
print(f'   - {len(produits_flocon_data)} produits normalis√©s')

In [None]:
# Partie 10 : Comparaison √âtoile vs Flocon - Requ√™tes et Performance

# Requ√™te 1 : Analyse par cat√©gorie (√âtoile vs Flocon)
print('üîÑ COMPARAISON √âTOILE vs FLOCON')
print('=' * 50)

# Version √âtoile (simple)
print('\nüìä REQU√äTE 1: CA par Cat√©gorie')
print('Version √âTOILE (simple):')
cursor.execute('''
SELECT 
    p.categorie,
    COUNT(DISTINCT f.ticket_id) AS nb_tickets,
    SUM(f.quantite) AS total_quantite,
    SUM(f.montant_total) AS ca_total
FROM fact_ventes f
JOIN dim_produit p ON f.produit_sk = p.produit_sk
GROUP BY p.categorie
ORDER BY ca_total DESC;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:12} | {row[1]:3} tickets | {row[2]:3} pcs | {row[3]:8.2f}‚Ç¨")

# Version Flocon (plus complexe)
print('\nVersion FLOCON (normalis√©e):')
cursor.execute('''
SELECT 
    cat.categorie_nom,
    COUNT(DISTINCT f.ticket_id) AS nb_tickets,
    SUM(f.quantite) AS total_quantite,
    SUM(f.montant_total) AS ca_total
FROM fact_ventes f
JOIN dim_produit_flocon pf ON f.produit_sk = pf.produit_sk
JOIN dim_sous_categorie sc ON pf.sous_categorie_sk = sc.sous_categorie_sk
JOIN dim_categorie cat ON sc.categorie_sk = cat.categorie_sk
GROUP BY cat.categorie_nom
ORDER BY ca_total DESC;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:12} | {row[1]:3} tickets | {row[2]:3} pcs | {row[3]:8.2f}‚Ç¨")

# Requ√™te 2 : Analyse hi√©rarchique compl√®te
print('\nüìä REQU√äTE 2: Hi√©rarchie Compl√®te Cat√©gorie ‚Üí Sous-Cat√©gorie ‚Üí Marque')
cursor.execute('''
SELECT 
    cat.categorie_nom,
    sc.sous_categorie_nom,
    m.marque_nom,
    COUNT(pf.produit_sk) AS nb_produits,
    AVG(pf.prix_unitaire_ht) AS prix_moyen
FROM dim_produit_flocon pf
JOIN dim_sous_categorie sc ON pf.sous_categorie_sk = sc.sous_categorie_sk
JOIN dim_categorie cat ON sc.categorie_sk = cat.categorie_sk
JOIN dim_marque m ON pf.marque_sk = m.marque_sk
WHERE pf.fin_validite IS NULL
GROUP BY cat.categorie_nom, sc.sous_categorie_nom, m.marque_nom
ORDER BY cat.categorie_nom, sc.sous_categorie_nom, m.marque_nom;
''')
for row in cursor.fetchall():
    print(f"   {row[0]:12} > {row[1]:15} > {row[2]:12} | {row[3]:2} produits | {row[4]:6.2f}‚Ç¨")

# Requ√™te 3 : Analyse des redondances √©vit√©es
print('\nüìä REQU√äTE 3: Analyse des Redondances')
print('Espace √©conomis√© avec le flocon:')

# Calcul des redondances en √©toile
cursor.execute('''
SELECT 
    categorie,
    COUNT(*) AS nb_occurrences,
    COUNT(DISTINCT categorie) AS nb_unique_values
FROM dim_produit
GROUP BY categorie;
''')
print('\nRedondances en version √âTOILE:')
for row in cursor.fetchall():
    if row[1] > row[2]:
        print(f"   Cat√©gorie '{row[0]}': {row[1]} occurrences ‚Üí {row[2]} unique ({row[1]-row[2]} redondances)")

# Stockage optimis√© en flocon
cursor.execute('''
SELECT 
    (SELECT COUNT(*) FROM dim_categorie) AS nb_categories,
    (SELECT COUNT(*) FROM dim_sous_categorie) AS nb_sous_categories,
    (SELECT COUNT(*) FROM dim_marque) AS nb_marques,
    (SELECT COUNT(*) FROM dim_produit_flocon) AS nb_produits_flocon
''')
cat, scat, marques, produits = cursor.fetchone()
print(f'\nStockage optimis√© en FLOCON:')
print(f'   {cat} cat√©gories uniques')
print(f'   {scat} sous-cat√©gories uniques') 
print(f'   {marques} marques uniques')
print(f'   {produits} produits avec r√©f√©rences')

conn.close()
print('\n‚úÖ Comparaison √âtoile vs Flocon termin√©e')

## Partie 11 : Synth√®se √âtoile vs Flocon

### üìä Tableau Comparatif

| Crit√®re | Sch√©ma en √âtoile | Sch√©ma en Flocon |
|---------|------------------|------------------|
| **Performance** | ‚ö° Rapide (jointures simples) | üêå Plus lent (jointures multiples) |
| **Complexit√©** | ‚úÖ Simple √† comprendre | ‚ùå Plus complexe |
| **Maintenance** | ‚ö†Ô∏è Redondance √©lev√©e | ‚úÖ Maintenance centralis√©e |
| **Espace stockage** | üí∞ Plus volumineux | üíæ Optimis√© |
| **Flexibilit√©** | ‚ö†Ô∏è Modifications difficiles | ‚úÖ √âvolutions faciles |
| **Requ√™tes simples** | ‚úÖ Tr√®s performantes | ‚ùå Plus complexes |
| **Requ√™tes hi√©rarchiques** | ‚ö†Ô∏è Limit√©es | ‚úÖ Tr√®s puissantes |

### üéØ Recommandations par cas d'usage

**‚úÖ CHOISIR L'√âTOILE pour :**
- Data warehouses avec requ√™tes simples et fr√©quentes
- √âquipes avec comp√©tences SQL moyennes
- Besoin de performance maximale
- Dimensions de petite/moyenne taille
- Projets avec d√©lais serr√©s

**‚úÖ CHOISIR LE FLOCON pour :**
- Tr√®s grandes dimensions avec forte redondance
- Besoin d'analyses hi√©rarchiques complexes
- Contraintes d'espace de stockage importantes
- √âquipes d'administration de donn√©es d√©di√©es
- Projets √† long terme avec nombreuses √©volutions

**üîÑ HYBRIDE (le meilleur des deux mondes) :**
- Dimensions critiques en √©toile (performance)
- Dimensions r√©f√©rentielles en flocon (maintenance)
- Exemple : `DIM_DATE` (√©toile) + `DIM_PRODUIT` (flocon)

### üöÄ Conclusion TD1

Vous ma√Ætrisez maintenant :
- ‚úÖ **Sch√©ma en √©toile avanc√©** avec 6 dimensions complexes
- ‚úÖ **Concepts avanc√©s** : SCD Type 2, attributs d√©g√©n√©r√©s, mesures semi-additives
- ‚úÖ **Sch√©ma en flocon** avec normalisation et hi√©rarchies
- ‚úÖ **Comparaison √©clair√©e** entre les deux approches
- ‚úÖ **Optimisation performance** avec indexation et partitionnement
- ‚úÖ **Validation qualit√©** avec contraintes et contr√¥les

**TD1 est maintenant complet** - Vous avez une vision compl√®te de la mod√©lisation dimensionnelle avanc√©e ! üéâ

## Partie 7 : Extensions Possibles et Prochaines √âtapes

### üöÄ Extensions pour aller plus loin :

1. **Multi-grains** : Ajouter une table de faits agr√©g√©e au niveau ticket pour les analyses panier moyen
2. **Sch√©ma en flocon** : Ajouter des sous-cat√©gories dans `DIM_PRODUIT` ou des sous-r√©gions dans `DIM_MAGASIN`
3. **Faits sans faits** : Cr√©er une table de faits pour le suivi des stocks quotidiens
4. **Bridge tables** : G√©rer les relations plusieurs-√†-plusieurs (ex: produits ‚Üî promotions multiples)
5. **Time intelligence** : Ajouter des calculs de comparaisons (YoY, MoM, rolling averages)

### üìà Prochaines √©tapes dans le parcours BI :

- **TD2** : Op√©rations OLAP et fonctions fen√™tres pour l'analyse avanc√©e
- **TD3** : Choix d'architecture (ROLAP vs MOLAP vs HOLAP) et benchmarking
- **Mini-projet** : Mise en ≈ìuvre compl√®te d'un data warehouse retail

### üéØ Comp√©tences acquises avec ce TD1 avanc√© :

‚úÖ **Conception** : Sch√©ma en √©toile complexe avec 6 dimensions  
‚úÖ **Impl√©mentation** : DDL complet avec contraintes et validation  
‚úÖ **Qualit√©** : Gestion des SCD Type 2 et des attributs d√©g√©n√©r√©s  
‚úÖ **Performance** : Indexation et partitionnement strat√©gique  
‚úÖ **Analyse** : Requ√™tes multi-dimensions avec agr√©gations avanc√©es  

---

**TD1 termin√©** - Vous ma√Ætrisez maintenant les fondamentaux avanc√©s de la mod√©lisation dimensionnelle !