# üìä Projet Business Intelligence : Analyse Northwind Data Warehouse

Ce Notebook Jupyter utilise les donn√©es charg√©es dans le Data Warehouse `NorthwindDW` (via le script `etl.py`) pour g√©n√©rer les analyses cl√©s.

**Outils utilis√©s :**
* **Connexion :** `pyodbc`
* **Manipulation :** `pandas`
* **Visualisation :** `matplotlib` et `seaborn`

---
## 1. Initialisation et Connexion

La premi√®re √©tape consiste √† importer les biblioth√®ques n√©cessaires et √† √©tablir une connexion s√©curis√©e √† l'instance SQL Server.

In [None]:
import pandas as pd
import pyodbc
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de la connexion au Data Warehouse
# (Utilise les param√®tres identifi√©s dans le script ETL)
SQL_DW_SERVER = r'DESKTOP-F8N2M8C\SQLEXPRESS'
SQL_DW_DATABASE = 'NorthwindDW'
SQL_DW_DRIVER = '{ODBC Driver 17 for SQL Server}'

# Cha√Æne de connexion pour l'authentification Windows
SQL_CONN_STRING = (
    f'DRIVER={SQL_DW_DRIVER};'
    f'SERVER={SQL_DW_SERVER};'
    f'DATABASE={SQL_DW_DATABASE};'
    r'Trusted_Connection=yes;'
    r'TrustServerCertificate=yes;'
)

print(f"Tentative de connexion au Data Warehouse: {SQL_DW_DATABASE}...")
try:
    conn = pyodbc.connect(SQL_CONN_STRING)
    print("‚úÖ Connexion r√©ussie. Le Data Warehouse est pr√™t pour l'analyse.")
except pyodbc.Error as e:
    print(f"‚ùå √âchec de la connexion. V√©rifiez le serveur et le pilote : {e}")
    conn = None

---
## 2. Analyse 1 : Tendance des Ventes sur la P√©riode

**Objectif :** √âvaluer la performance globale des ventes (`SalesAmount`) mois par mois afin d'identifier toute croissance, stagnation ou d√©clin.

### **Conclusion :**
Le graphique lin√©aire r√©v√®le une **tendance g√©n√©rale √† la baisse** des revenus sur la p√©riode. Le pic initial est suivi d'une √©rosion progressive, signalant une saturation possible du march√© ou un besoin de r√©√©valuer les strat√©gies commerciales.

In [None]:
if conn:
    # Requ√™te: Tendance des ventes mensuelles (utilise FactSales et DimDate)
    query_sales_trend = """
    SELECT 
        DD.Year,
        DD.Month,
        SUM(FS.SalesAmount) AS MonthlySales
    FROM 
        FactSales FS
    JOIN 
        DimDate DD ON FS.OrderDateKey = DD.DateKey
    GROUP BY 
        DD.Year,
        DD.Month
    ORDER BY 
        DD.Year,
        DD.Month;
    """

    df_sales_trend = pd.read_sql(query_sales_trend, conn)
    
    # Cr√©ation de la colonne de temps pour l'axe X (Ann√©e-Mois)
    df_sales_trend['YearMonth'] = df_sales_trend['Year'].astype(str) + '-' + df_sales_trend['Month'].astype(str).str.zfill(2)

    # Visualisation
    plt.figure(figsize=(12, 6))
    sns.lineplot(x='YearMonth', y='MonthlySales', data=df_sales_trend, marker='o')
    plt.title('Tendance des Ventes Mensuelles (SalesAmount)', fontsize=16)
    plt.xlabel('Mois', fontsize=12)
    plt.ylabel('Revenus Totaux ($)', fontsize=12)
    plt.xticks(rotation=45)
    plt.grid(True, linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()

---
## 3. Analyse 2 : Performance Commerciale

**Objectif :** Identifier les employ√©s ayant g√©n√©r√© le plus de revenus pour r√©compenser les meilleurs performeurs et analyser leurs m√©thodes de vente.

### **Conclusion :**
Le classement des ventes montre une nette domination de certains employ√©s, notamment **Margaret Peacock** et **Janet Leverling**. La direction devrait examiner de pr√®s leurs zones g√©ographiques et leurs m√©thodes pour reproduire ce succ√®s.

In [None]:
if conn:
    # Requ√™te SQL pour agr√©ger les ventes par employ√©
    sql_query_top_employees = """
    SELECT
        de.FirstName + ' ' + de.LastName AS EmployeeName,
        SUM(fs.SalesAmount) AS TotalSales
    FROM FactSales fs
    JOIN DimEmployees de ON fs.EmployeeID = de.EmployeeKey -- Utilisation de EmployeeID de FactSales et EmployeeKey de DimEmployees
    GROUP BY de.FirstName, de.LastName
    ORDER BY TotalSales DESC;
    """

    df_top_employees = pd.read_sql(sql_query_top_employees, conn)

    # --- Visualisation (Graphique √† Barres Horizontal) ---
    plt.figure(figsize=(10, 6))
    sns.barplot(x='TotalSales', y='EmployeeName', data=df_top_employees, palette='viridis')
    plt.title('Performance des Employ√©s (Ventes Totales)')
    plt.xlabel('Montant des Ventes (USD)')
    plt.ylabel('Employ√©')
    plt.tight_layout()
    plt.show()

    print(f"\nObservation : Top 3 des employ√©s : {df_top_employees.iloc[0]['EmployeeName']}, {df_top_employees.iloc[1]['EmployeeName']}, {df_top_employees.iloc[2]['EmployeeName']}.")

---
## 4. Analyse 3 : Distribution du Volume de Ventes par Cat√©gorie

**Objectif :** Comprendre sur quelles cat√©gories de produits se concentre la majorit√© des commandes et des articles vendus (`OrderQuantity`).

### **Conclusion :**
Le diagramme circulaire confirme que quelques cat√©gories (typiquement **Seafood** et **Dairy Products**) repr√©sentent une part disproportionn√©e du volume total. Une strat√©gie marketing et d'approvisionnement devrait se concentrer davantage sur ces segments cl√©s pour maximiser le potentiel de croissance.

In [None]:
if conn:
    # Requ√™te: Distribution du volume de commandes par Cat√©gorie de Produit
    query_category_volume = """
    SELECT 
        DP.CategoryName,
        SUM(FS.OrderQuantity) AS TotalQuantity
    FROM 
        FactSales FS
    JOIN 
        DimProducts DP ON FS.ProductID = DP.ProductKey
    GROUP BY 
        DP.CategoryName
    ORDER BY 
        TotalQuantity DESC;
    """

    df_category_volume = pd.read_sql(query_category_volume, conn)
    
    # Visualisation (Diagramme Circulaire)
    plt.figure(figsize=(8, 8))
    # Utilisation de autopct='%1.1f%%' pour afficher le pourcentage
    plt.pie(
        df_category_volume['TotalQuantity'], 
        labels=df_category_volume['CategoryName'], 
        autopct='%1.1f%%', 
        startangle=90, 
        wedgeprops={'edgecolor': 'black'}
    )
    plt.title('Distribution du Volume de Commandes par Cat√©gorie', fontsize=16)
    plt.tight_layout()
    plt.show()

In [None]:
if conn:
    # Requ√™te: V√©rification du nombre total de transactions et du CA total
    query_verification = """
    SELECT
        COUNT(DISTINCT OrderID) AS TotalOrders,
        COUNT(SalesAmount) AS TotalOrderDetails,
        SUM(SalesAmount) AS TotalRevenue,
        MIN(OrderDateKey) AS FirstOrderDateKey,
        MAX(OrderDateKey) AS LastOrderDateKey
    FROM
        FactSales;
    """

    df_verification = pd.read_sql(query_verification, conn)
    
    # Affichage des r√©sultats
    print("\n--- Donn√©es de FactSales apr√®s Consolidation (SQL + Access) ---")
    print(df_verification.to_string(index=False))

In [None]:
import pandas as pd
from sqlalchemy import create_engine

# 1. Connexion √† TON Data Warehouse actuel
engine = create_engine(f'mssql+pyodbc://DESKTOP-F8N2M8C\\SQLEXPRESS/NorthwindDW?driver=ODBC+Driver+17+for+SQL+Server')

# 2. Lecture des tables telles qu'elles sont dans ta base
df_cust = pd.read_sql("SELECT * FROM DimCustomers", engine)
df_emp = pd.read_sql("SELECT * FROM DimEmployees", engine)
df_fact = pd.read_sql("SELECT * FROM FactSales", engine)
df_time = pd.read_sql("SELECT * FROM DimDate", engine)

# 3. TRADUCTION pour correspondre au code de ton ami (On renomme tout ici)
# --- Clients ---
customers = df_cust.rename(columns={
    'CustomerKey': 'CustomerID',
    'CustomerCompanyName': 'Company',
    'CustomerContactName': 'ContactName',
    'CustomerCountry': 'Country'
})

# --- Employ√©s ---
employees = df_emp.copy()
employees['FullName'] = employees['FirstName'] + ' ' + employees['LastName']
employees = employees.rename(columns={'EmployeeKey': 'EmployeeID'})

# --- Temps ---
time_dim = df_time.rename(columns={'DateKey': 'DateKey'})

# --- Faits (La table Orders de ton ami) ---
orders = df_fact.rename(columns={
    'OrderDateKey': 'OrderDateKey',
    'ShippedDateKey': 'ShippedDateKey'
})

# IMPORTANT : Appliquer la logique "1011900" de ton ami pour les non-livr√©s
# Si la date de livraison est vide (NaN), on met le code 1011900
orders['ShippedDateKey'] = orders['ShippedDateKey'].fillna(1011900).astype(int)

print("‚úÖ Traduction termin√©e. Les variables 'customers', 'employees', 'orders' et 'time_dim' sont pr√™tes.")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Calcul du r√©sum√© des livraisons (Logique 1011900)
shipped_count = (orders['ShippedDateKey'] != 1011900).sum()
not_shipped_count = (orders['ShippedDateKey'] == 1011900).sum()

print(f"üìä R√©sum√© : {shipped_count} commandes livr√©es / {not_shipped_count} commandes en attente.")

# 2. Performance des employ√©s (Top 5 Livraisons)
shipped_by_emp = orders[orders['ShippedDateKey'] != 1011900].groupby('EmployeeID').size().reset_index(name='Total')
shipped_by_emp = shipped_by_emp.merge(employees[['EmployeeID', 'FullName']], on='EmployeeID')
shipped_by_emp = shipped_by_emp.sort_values('Total', ascending=False)

# 3. Visualisation simple
plt.figure(figsize=(10, 5))
sns.barplot(data=shipped_by_emp.head(5), x='FullName', y='Total', palette='viridis')
plt.title('Top 5 Employ√©s par Commandes Livr√©es')
plt.xticks(rotation=45)
plt.show()

# 4. Commandes non livr√©es par Pays (Pour identifier les retards)
not_shipped_geo = orders[orders['ShippedDateKey'] == 1011900].merge(customers[['CustomerID', 'Country']], on='CustomerID')
not_shipped_geo = not_shipped_geo.groupby('Country').size().reset_index(name='EnAttente').sort_values('EnAttente', ascending=False)

print("\nüìç Top pays avec commandes en attente :")
print(not_shipped_geo.head(5).to_string(index=False))

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Pr√©paration des donn√©es pour le camembert (Global)
labels = ['Livr√©', 'En Attente']
sizes = [shipped_count, not_shipped_count]
colors = ['#66b3ff','#ff9999']

# 2. Performance par Employ√© (Livr√© vs Non-Livr√©)
# On cr√©e une vue pivot pour comparer
emp_perf = orders.groupby(['EmployeeID', orders['ShippedDateKey'] == 1011900]).size().unstack(fill_value=0)
emp_perf.columns = ['Livr√©', 'En_Attente']
emp_perf = emp_perf.merge(employees[['EmployeeID', 'FullName']], on='EmployeeID')

# --- AFFICHAGE ---
fig = plt.figure(figsize=(15, 10))

# Graphique 1 : R√©partition Globale
plt.subplot(2, 2, 1)
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140, colors=colors, explode=(0.1, 0))
plt.title('√âtat Global des Commandes')

# Graphique 2 : Retards par Pays (Ton TOP 5)
plt.subplot(2, 2, 2)
sns.barplot(data=not_shipped_geo.head(5), x='EnAttente', y='Country', palette='Reds_r')
plt.title('Top 5 des Pays en Retard')

# Graphique 3 : Performance des Employ√©s
plt.subplot(2, 1, 2)
emp_perf_melted = emp_perf.melt(id_vars='FullName', value_vars=['Livr√©', 'En_Attente'])
sns.barplot(data=emp_perf_melted, x='FullName', y='value', hue='variable', palette={'Livr√©': 'skyblue', 'En_Attente': 'salmon'})
plt.title('Productivit√© des Employ√©s : Livraisons vs Retards')
plt.xticks(rotation=30)

plt.tight_layout()
plt.show()

---
## 5. Fin de l'Analyse

La connexion au Data Warehouse a √©t√© ferm√©e. Tous les r√©sultats analytiques sont d√©sormais affich√©s ci-dessus et pr√™ts √† √™tre int√©gr√©s au Rapport Final de Projet (PDF) et √† la vid√©o de pr√©sentation.

In [None]:
if conn:
    conn.close()
    print("\nConnexion SQL Server ferm√©e.")