Cellule 1 : Imports et connexion au DWH

In [1]:
import os
from dotenv import load_dotenv
import pyodbc
from datetime import datetime, timedelta
import pandas as pd

# Charger les variables d'environnement
load_dotenv()

# Configuration connexion DWH
server = os.getenv('DB_SERVER_DWH')
database = os.getenv('DB_DATABASE_DWH')
username = os.getenv('DB_USERNAME_DWH')
password = os.getenv('DB_PASSWORD_DWH')

# Driver ODBC
driver = '{ODBC Driver 17 for SQL Server}'

# Connexion √† la base DWH_E5_projet_AUTO
cnxn = pyodbc.connect(
    'DRIVER=' + driver + 
    ';SERVER=' + server + 
    ';PORT=1433;DATABASE=' + database + 
    ';UID=' + username + 
    ';PWD=' + password
)
cursor = cnxn.cursor()

print("‚úÖ Connexion r√©ussie √† la base de donn√©es DWH_E5_projet_AUTO")
print(f"üì¶ Serveur : {server}")
print(f"üóÑÔ∏è  Base : {database}")

‚úÖ Connexion r√©ussie √† la base de donn√©es DWH_E5_projet_AUTO
üì¶ Serveur : carter-cash-serveur.database.windows.net
üóÑÔ∏è  Base : DWH_E5_projet_AUTO


Cellule 2 : V√©rification si DIM_TEMPS est d√©j√† aliment√©e


In [2]:
# V√©rifier si la table DIM_TEMPS contient d√©j√† des donn√©es
cursor.execute("SELECT COUNT(*) FROM DIM_TEMPS")
count = cursor.fetchone()[0]

if count > 0:
    print(f"‚ö†Ô∏è  ATTENTION : La table DIM_TEMPS contient d√©j√† {count} enregistrements !")
    print("   Si vous continuez, les doublons seront ignor√©s gr√¢ce √† la contrainte UNIQUE sur Date.")
    
    choix = input("\n   Voulez-vous continuer ? (O/N) : ")
    if choix.upper() != 'O':
        print("‚ùå Op√©ration annul√©e.")
        cursor.close()
        cnxn.close()
        exit()
else:
    print("‚úÖ La table DIM_TEMPS est vide. Pr√™t pour l'alimentation.")

‚úÖ La table DIM_TEMPS est vide. Pr√™t pour l'alimentation.


Cellule 3 : Fonction pour d√©terminer la saison

In [None]:
def get_saison(mois):
    """
    Retourne la saison en fonction du mois
    Hiver : d√©cembre, janvier, f√©vrier
    Printemps : mars, avril, mai
    √ât√© : juin, juillet, ao√ªt
    Automne : septembre, octobre, novembre
    """
    if mois in [12, 1, 2]:
        return 'Hiver'
    elif mois in [3, 4, 5]:
        return 'Printemps'
    elif mois in [6, 7, 8]:
        return '√ât√©'
    else:
        return 'Automne'

def get_jour_semaine_fr(jour_index):
    """
    Retourne le nom du jour en fran√ßais
    0 = Lundi, 6 = Dimanche
    """
    jours = ['Lundi', 'Mardi', 'Mercredi', 'Jeudi', 'Vendredi', 'Samedi', 'Dimanche']
    return jours[jour_index]

print("‚úÖ Fonctions utilitaires cr√©√©es")

‚úÖ Fonctions utilitaires cr√©√©es


Cellule 4 : G√©n√©ration des donn√©es pour DIM_TEMPS

In [4]:
print("\nüìÖ G√âN√âRATION DES DONN√âES POUR DIM_TEMPS")
print("=" * 70)

# D√©finir la plage de dates
date_debut = datetime(2020, 1, 1)
date_fin = datetime(2030, 12, 31)

# Calculer le nombre de jours
nb_jours = (date_fin - date_debut).days + 1

print(f"üìÜ P√©riode : {date_debut.strftime('%d/%m/%Y')} au {date_fin.strftime('%d/%m/%Y')}")
print(f"üìä Nombre de jours √† g√©n√©rer : {nb_jours}")

# Cr√©er une liste pour stocker toutes les lignes
donnees_temps = []

# G√©n√©rer les donn√©es jour par jour
date_courante = date_debut
compteur = 0

print("\n‚è≥ G√©n√©ration en cours...")

while date_courante <= date_fin:
    # Extraire les composants de la date
    jour = date_courante.day
    mois = date_courante.month
    annee = date_courante.year
    trimestre = (mois - 1) // 3 + 1
    jour_semaine_index = date_courante.weekday()  # 0 = Lundi, 6 = Dimanche
    jour_semaine = get_jour_semaine_fr(jour_semaine_index)
    est_weekend = 1 if jour_semaine_index >= 5 else 0  # Samedi=5, Dimanche=6
    saison = get_saison(mois)
    
    # Ajouter √† la liste
    donnees_temps.append({
        'Date': date_courante.strftime('%Y-%m-%d'),
        'Jour': jour,
        'Mois': mois,
        'Trimestre': trimestre,
        'Annee': annee,
        'Jour_Semaine': jour_semaine,
        'Est_Weekend': est_weekend,
        'Saison': saison
    })
    
    # Passer au jour suivant
    date_courante += timedelta(days=1)
    compteur += 1
    
    # Afficher la progression tous les 500 jours
    if compteur % 500 == 0:
        print(f"   ‚è≥ {compteur} jours g√©n√©r√©s...")

print(f"‚úÖ {len(donnees_temps)} jours g√©n√©r√©s avec succ√®s !")

# Cr√©er un DataFrame pandas pour visualiser un √©chantillon
df_temps = pd.DataFrame(donnees_temps)
print("\nüìã Aper√ßu des 10 premiers enregistrements :")
print(df_temps.head(10))


üìÖ G√âN√âRATION DES DONN√âES POUR DIM_TEMPS
üìÜ P√©riode : 01/01/2020 au 31/12/2030
üìä Nombre de jours √† g√©n√©rer : 4018

‚è≥ G√©n√©ration en cours...
   ‚è≥ 500 jours g√©n√©r√©s...
   ‚è≥ 1000 jours g√©n√©r√©s...
   ‚è≥ 1500 jours g√©n√©r√©s...
   ‚è≥ 2000 jours g√©n√©r√©s...
   ‚è≥ 2500 jours g√©n√©r√©s...
   ‚è≥ 3000 jours g√©n√©r√©s...
   ‚è≥ 3500 jours g√©n√©r√©s...
   ‚è≥ 4000 jours g√©n√©r√©s...
‚úÖ 4018 jours g√©n√©r√©s avec succ√®s !

üìã Aper√ßu des 10 premiers enregistrements :
         Date  Jour  Mois  Trimestre  Annee Jour_Semaine  Est_Weekend Saison
0  2020-01-01     1     1          1   2020     Mercredi            0  Hiver
1  2020-01-02     2     1          1   2020        Jeudi            0  Hiver
2  2020-01-03     3     1          1   2020     Vendredi            0  Hiver
3  2020-01-04     4     1          1   2020       Samedi            1  Hiver
4  2020-01-05     5     1          1   2020     Dimanche            1  Hiver
5  2020-01-06     6     1          

Cellule 5 : Insertion des donn√©es dans DIM_TEMPS


In [5]:
print("\nüíæ INSERTION DES DONN√âES DANS DIM_TEMPS")
print("=" * 70)

# Requ√™te d'insertion
insert_query = """
INSERT INTO DIM_TEMPS (Date, Jour, Mois, Trimestre, Annee, Jour_Semaine, Est_Weekend, Saison)
VALUES (?, ?, ?, ?, ?, ?, ?, ?)
"""

# Compteurs
inseres = 0
ignores = 0
erreurs = 0

print("‚è≥ Insertion en cours...")

for ligne in donnees_temps:
    try:
        cursor.execute(
            insert_query,
            ligne['Date'],
            ligne['Jour'],
            ligne['Mois'],
            ligne['Trimestre'],
            ligne['Annee'],
            ligne['Jour_Semaine'],
            ligne['Est_Weekend'],
            ligne['Saison']
        )
        inseres += 1
        
        # Afficher la progression tous les 500 insertions
        if inseres % 500 == 0:
            print(f"   ‚úì {inseres} lignes ins√©r√©es...")
            cnxn.commit()  # Commit interm√©diaire pour √©viter les timeouts
            
    except pyodbc.IntegrityError:
        # Date en doublon (contrainte UNIQUE)
        ignores += 1
    except Exception as e:
        erreurs += 1
        print(f"   ‚ö†Ô∏è  Erreur lors de l'insertion de {ligne['Date']} : {e}")

# Commit final
cnxn.commit()

print("\n" + "=" * 70)
print("‚úÖ INSERTION TERMIN√âE")
print("=" * 70)
print(f"   ‚úì Lignes ins√©r√©es : {inseres}")
print(f"   ‚ö†Ô∏è  Lignes ignor√©es (doublons) : {ignores}")
print(f"   ‚ùå Erreurs : {erreurs}")
print("=" * 70)


üíæ INSERTION DES DONN√âES DANS DIM_TEMPS
‚è≥ Insertion en cours...
   ‚úì 500 lignes ins√©r√©es...
   ‚úì 1000 lignes ins√©r√©es...
   ‚úì 1500 lignes ins√©r√©es...
   ‚úì 2000 lignes ins√©r√©es...
   ‚úì 2500 lignes ins√©r√©es...
   ‚úì 3000 lignes ins√©r√©es...
   ‚úì 3500 lignes ins√©r√©es...
   ‚úì 4000 lignes ins√©r√©es...

‚úÖ INSERTION TERMIN√âE
   ‚úì Lignes ins√©r√©es : 4018
   ‚ö†Ô∏è  Lignes ignor√©es (doublons) : 0
   ‚ùå Erreurs : 0


Cellule 6 : V√©rification et statistiques


In [6]:
print("\nüîç V√âRIFICATION ET STATISTIQUES")
print("=" * 70)

# Compter le nombre total d'enregistrements
cursor.execute("SELECT COUNT(*) FROM DIM_TEMPS")
total = cursor.fetchone()[0]
print(f"üìä Nombre total d'enregistrements dans DIM_TEMPS : {total}")

# Statistiques par ann√©e
cursor.execute("""
SELECT Annee, COUNT(*) as Nb_Jours
FROM DIM_TEMPS
GROUP BY Annee
ORDER BY Annee
""")

print("\nüìÖ R√©partition par ann√©e :")
for row in cursor.fetchall():
    print(f"   ‚Ä¢ {row[0]} : {row[1]} jours")

# Statistiques par saison
cursor.execute("""
SELECT Saison, COUNT(*) as Nb_Jours
FROM DIM_TEMPS
GROUP BY Saison
ORDER BY CASE Saison 
    WHEN 'Printemps' THEN 1 
    WHEN '√ât√©' THEN 2 
    WHEN 'Automne' THEN 3 
    WHEN 'Hiver' THEN 4 
END
""")

print("\nüå∏ R√©partition par saison :")
for row in cursor.fetchall():
    print(f"   ‚Ä¢ {row[0]} : {row[1]} jours")

# Nombre de weekends
cursor.execute("SELECT COUNT(*) FROM DIM_TEMPS WHERE Est_Weekend = 1")
nb_weekends = cursor.fetchone()[0]
print(f"\nüéâ Nombre de jours de weekend : {nb_weekends}")

# Afficher quelques exemples
cursor.execute("""
SELECT TOP 5 Date, Jour_Semaine, Saison, Est_Weekend
FROM DIM_TEMPS
ORDER BY Date DESC
""")

print("\nüìã Exemples d'enregistrements r√©cents :")
for row in cursor.fetchall():
    weekend_label = "üéâ Weekend" if row[3] == 1 else "Semaine"
    print(f"   ‚Ä¢ {row[0]} - {row[1]} - {row[2]} - {weekend_label}")

print("=" * 70)


üîç V√âRIFICATION ET STATISTIQUES
üìä Nombre total d'enregistrements dans DIM_TEMPS : 4018

üìÖ R√©partition par ann√©e :
   ‚Ä¢ 2020 : 366 jours
   ‚Ä¢ 2021 : 365 jours
   ‚Ä¢ 2022 : 365 jours
   ‚Ä¢ 2023 : 365 jours
   ‚Ä¢ 2024 : 366 jours
   ‚Ä¢ 2025 : 365 jours
   ‚Ä¢ 2026 : 365 jours
   ‚Ä¢ 2027 : 365 jours
   ‚Ä¢ 2028 : 366 jours
   ‚Ä¢ 2029 : 365 jours
   ‚Ä¢ 2030 : 365 jours

üå∏ R√©partition par saison :
   ‚Ä¢ Printemps : 1012 jours
   ‚Ä¢ √ât√© : 1012 jours
   ‚Ä¢ Automne : 1001 jours
   ‚Ä¢ Hiver : 993 jours

üéâ Nombre de jours de weekend : 1148

üìã Exemples d'enregistrements r√©cents :
   ‚Ä¢ 2030-12-31 - Mardi - Hiver - Semaine
   ‚Ä¢ 2030-12-30 - Lundi - Hiver - Semaine
   ‚Ä¢ 2030-12-29 - Dimanche - Hiver - üéâ Weekend
   ‚Ä¢ 2030-12-28 - Samedi - Hiver - üéâ Weekend
   ‚Ä¢ 2030-12-27 - Vendredi - Hiver - Semaine


Cellule 7 : Fermeture de la connexion


In [7]:
# Fermeture de la connexion
cursor.close()
cnxn.close()

print("\n" + "=" * 70)
print("‚úÖ CONNEXION FERM√âE")
print("üéâ ALIMENTATION DE DIM_TEMPS TERMIN√âE AVEC SUCC√àS !")
print("=" * 70)
print("\nüí° La table DIM_TEMPS est maintenant pr√™te pour les processus ETL.")
print("   Vous pouvez maintenant charger les tables de faits.")
print("=" * 70)


‚úÖ CONNEXION FERM√âE
üéâ ALIMENTATION DE DIM_TEMPS TERMIN√âE AVEC SUCC√àS !

üí° La table DIM_TEMPS est maintenant pr√™te pour les processus ETL.
   Vous pouvez maintenant charger les tables de faits.
