# üìä Projet Business Intelligence : Analyse Northwind Data Warehouse

Ce Notebook Jupyter utilise les donn√©es charg√©es dans le Data Warehouse `NorthwindDW` (via le script `etl.py`) pour g√©n√©rer les analyses cl√©s.

**Outils utilis√©s :**
* **Connexion :** `pyodbc`
* **Manipulation :** `pandas`
* **Visualisation :** `matplotlib` et `seaborn`

---
## 1. Initialisation et Connexion

La premi√®re √©tape consiste √† importer les biblioth√®ques n√©cessaires et √† √©tablir une connexion s√©curis√©e √† l'instance SQL Server.

In [None]:
import pandas as pd
import pyodbc
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de la connexion au Data Warehouse (DW)
SERVER_NAME = 'DESKTOP-F8N2M8C\\SQLEXPRESS' # Votre serveur SQL
DATABASE_NAME = 'NorthwindDW'

# Cha√Æne de connexion Windows Authentication (Si vous n'utilisez pas d'utilisateur/mot de passe SQL)
CONN_STRING = (
    f'DRIVER={{ODBC Driver 17 for SQL Server}};'
    f'SERVER={SERVER_NAME};'
    f'DATABASE={DATABASE_NAME};'
    f'Trusted_Connection=yes;'
)

try:
    conn = pyodbc.connect(CONN_STRING)
    print("Connexion au Data Warehouse √©tablie avec succ√®s.")
except Exception as e:
    print(f"Erreur de connexion: {e}")
    conn = None # Pour √©viter les erreurs si la connexion √©choue

---
## 2. Analyse 1 : Tendance des Ventes sur la P√©riode

**Objectif :** √âvaluer la performance globale des ventes (`SalesAmount`) mois par mois afin d'identifier toute croissance, stagnation ou d√©clin.

### **Conclusion :**
Le graphique lin√©aire r√©v√®le une **tendance g√©n√©rale √† la baisse** des revenus sur la p√©riode. Le pic initial est suivi d'une √©rosion progressive, signalant une saturation possible du march√© ou un besoin de r√©√©valuer les strat√©gies commerciales.

In [None]:
if conn:
    # --- CORRECTION APPLIQU√âE : Utilisation de 'Month' au lieu de 'MonthNumber' ---
    sql_query_sales_trend = """
    SELECT
        dd.[Year],
        dd.MonthName,
        SUM(fs.SalesAmount) AS TotalSales
    FROM FactSales fs
    JOIN DimDate dd ON fs.OrderDateKey = dd.DateKey
    GROUP BY dd.[Year], dd.MonthName, dd.Month  -- Utilisation de 'Month' (num√©ro de mois) pour le tri
    ORDER BY dd.[Year], dd.Month;               -- Utilisation de 'Month' pour l'ordre
    """

    df_sales_trend = pd.read_sql(sql_query_sales_trend, conn)

    # Cr√©ation de la colonne pour l'axe X (Ann√©e - Mois)
    df_sales_trend['Period'] = df_sales_trend['Year'].astype(str) + ' - ' + df_sales_trend['MonthName']

    # --- Visualisation (Graphique Lin√©aire) ---
    plt.figure(figsize=(14, 5))
    sns.lineplot(x='Period', y='TotalSales', data=df_sales_trend, marker='o', color='darkblue')
    plt.title('Tendance des Ventes Totales par Mois (Sales Over Time)')
    plt.xlabel('P√©riode')
    plt.ylabel('Montant des Ventes (USD)')
    plt.xticks(rotation=60, ha='right')
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()

    print("\nObservation : Analyse de la tendance des ventes r√©alis√©e.")

---
## 3. Analyse 2 : Performance Commerciale

**Objectif :** Identifier les employ√©s ayant g√©n√©r√© le plus de revenus pour r√©compenser les meilleurs performeurs et analyser leurs m√©thodes de vente.

### **Conclusion :**
Le classement des ventes montre une nette domination de certains employ√©s, notamment **Margaret Peacock** et **Janet Leverling**. La direction devrait examiner de pr√®s leurs zones g√©ographiques et leurs m√©thodes pour reproduire ce succ√®s.

In [None]:
if conn:
    # Requ√™te SQL pour agr√©ger les ventes par employ√©
    sql_query_top_employees = """
    SELECT
        de.FirstName + ' ' + de.LastName AS EmployeeName,
        SUM(fs.SalesAmount) AS TotalSales
    FROM FactSales fs
    JOIN DimEmployees de ON fs.EmployeeID = de.EmployeeKey -- Utilisation de EmployeeID de FactSales et EmployeeKey de DimEmployees
    GROUP BY de.FirstName, de.LastName
    ORDER BY TotalSales DESC;
    """

    df_top_employees = pd.read_sql(sql_query_top_employees, conn)

    # --- Visualisation (Graphique √† Barres Horizontal) ---
    plt.figure(figsize=(10, 6))
    sns.barplot(x='TotalSales', y='EmployeeName', data=df_top_employees, palette='viridis')
    plt.title('Performance des Employ√©s (Ventes Totales)')
    plt.xlabel('Montant des Ventes (USD)')
    plt.ylabel('Employ√©')
    plt.tight_layout()
    plt.show()

    print(f"\nObservation : Top 3 des employ√©s : {df_top_employees.iloc[0]['EmployeeName']}, {df_top_employees.iloc[1]['EmployeeName']}, {df_top_employees.iloc[2]['EmployeeName']}.")

---
## 4. Analyse 3 : Distribution du Volume de Ventes par Cat√©gorie

**Objectif :** Comprendre sur quelles cat√©gories de produits se concentre la majorit√© des commandes et des articles vendus (`OrderQuantity`).

### **Conclusion :**
Le diagramme circulaire confirme que quelques cat√©gories (typiquement **Seafood** et **Dairy Products**) repr√©sentent une part disproportionn√©e du volume total. Une strat√©gie marketing et d'approvisionnement devrait se concentrer davantage sur ces segments cl√©s pour maximiser le potentiel de croissance.

In [None]:
if conn:
    # Requ√™te SQL pour compter le nombre d'articles vendus par cat√©gorie de produit
    sql_query_category_volume = """
    SELECT
        dp.CategoryName,
        SUM(fs.OrderQuantity) AS TotalQuantity -- Nous utilisons ici la quantit√© command√©e pour le volume (plus pr√©cis que COUNT(OrderID))
    FROM FactSales fs
    -- CORRECTION : Joindre ProductID (Faits) avec ProductKey (Dimension)
    JOIN DimProducts dp ON fs.ProductID = dp.ProductKey
    GROUP BY dp.CategoryName
    ORDER BY TotalQuantity DESC;
    """

    df_category_volume = pd.read_sql(sql_query_category_volume, conn)

    # --- Visualisation (Diagramme Circulaire / Pie Chart) ---
    plt.figure(figsize=(9, 9))
    plt.pie(
        df_category_volume['TotalQuantity'],
        labels=df_category_volume['CategoryName'],
        autopct='%1.1f%%',
        startangle=90,
        textprops={'fontsize': 10}
    )
    plt.title('Distribution du Volume des Articles Vendus par Cat√©gorie')
    plt.tight_layout()
    plt.show()

    print("\nObservation : Distribution du volume de produits par cat√©gorie analys√©e.")

---
## 5. Fin de l'Analyse

La connexion au Data Warehouse a √©t√© ferm√©e. Tous les r√©sultats analytiques sont d√©sormais affich√©s ci-dessus et pr√™ts √† √™tre int√©gr√©s au Rapport Final de Projet (PDF) et √† la vid√©o de pr√©sentation.

In [None]:
if conn:
    conn.close()
    print("\nConnexion SQL Server ferm√©e.")