In [4]:
"""
Analyse Multidimensionnelle des Ventes - Version Excel
Charge les donn√©es depuis Sales.xlsx et effectue l'analyse compl√®te
"""

# ============================================================================
# INSTALLATION ET IMPORTS
# ============================================================================

# Installation des packages n√©cessaires
!pip install openpyxl xlrd -q

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("=" * 80)
print("ANALYSE MULTIDIMENSIONNELLE DES VENTES")
print("=" * 80)

# ============================================================================
# 1. CHARGEMENT DES DONN√âES DEPUIS EXCEL
# ============================================================================

print("\n[√âTAPE 1] Chargement des donn√©es depuis Sales.xlsx...")

try:
    # Charger toutes les feuilles du fichier Excel
    excel_file = r'C:\Users\pc\Desktop\enset\python-project\data\Sales.xlsx'

    
    # Lire les diff√©rentes tables
    df_sales = pd.read_excel(excel_file, sheet_name='Sales Orders')
    df_customers = pd.read_excel(excel_file, sheet_name='Customers')
    df_regions = pd.read_excel(excel_file, sheet_name='Regions')
    df_products = pd.read_excel(excel_file, sheet_name='Products')
    
    print(f"‚úì Sales_Data charg√©: {len(df_sales)} lignes")
    print(f"‚úì Customer_Data charg√©: {len(df_customers)} clients")
    print(f"‚úì Regions_Table charg√©: {len(df_regions)} r√©gions")
    print(f"‚úì Products_Data charg√©: {len(df_products)} produits")
    
except FileNotFoundError:
    print("\n‚ö†Ô∏è  Fichier 'Sales.xlsx' non trouv√©!")
    print("üìÅ Veuillez uploader le fichier Sales.xlsx dans Google Colab")
    print("\nPour uploader:")
    print("   1. Cliquez sur l'ic√¥ne üìÅ dans le panneau de gauche")
    print("   2. Cliquez sur le bouton 'Upload' ‚¨ÜÔ∏è")
    print("   3. S√©lectionnez votre fichier Sales.xlsx")
    
    # Arr√™ter l'ex√©cution si le fichier n'est pas trouv√©
    raise

# Afficher un aper√ßu des donn√©es
print("\n" + "-" * 80)
print("APER√áU DES DONN√âES")
print("-" * 80)
print("\nüìä Sales_Data - Premi√®res lignes:")
print(df_sales.head())
print(f"\nüìä Colonnes disponibles: {list(df_sales.columns)}")

# ============================================================================
# 2. NETTOYAGE ET PR√âPARATION DES DONN√âES
# ============================================================================

print("\n\n[√âTAPE 2] Nettoyage et pr√©paration des donn√©es...")

# Nettoyer les noms de colonnes (enlever les espaces)
df_sales.columns = df_sales.columns.str.strip()
df_customers.columns = df_customers.columns.str.strip()
df_regions.columns = df_regions.columns.str.strip()
df_products.columns = df_products.columns.str.strip()

# Conversion des dates
date_columns = ['OrderDate', 'Order Date', 'Ship Date', 'ShipDate']
for col in date_columns:
    if col in df_sales.columns:
        df_sales[col] = pd.to_datetime(df_sales[col], errors='coerce')

# Normaliser les noms de colonnes pour faciliter l'acc√®s
column_mapping = {
    'Order Date': 'OrderDate',
    'Ship Date': 'ShipDate',
    'Customer Name Index': 'CustomerNameIndex',
    'Currency Code': 'CurrencyCode',
    'Warehouse Code': 'WarehouseCode',
    'Delivery Region Index': 'DeliveryRegionIndex',
    'Product Description Index': 'ProductDescriptionIndex',
    'Order Quantity': 'OrderQuantity',
    'Unit Selling Price': 'UnitSellingPrice',
    'Unit Cost': 'UnitCost'
}

for old_name, new_name in column_mapping.items():
    if old_name in df_sales.columns:
        df_sales.rename(columns={old_name: new_name}, inplace=True)

print("‚úì Nettoyage termin√©")
print(f"‚úì P√©riode des donn√©es: {df_sales['OrderDate'].min()} √† {df_sales['OrderDate'].max()}")

# ============================================================================
# 3. CALCUL DES MESURES (MEASURES TABLE)
# ============================================================================

print("\n\n[√âTAPE 3] Calcul des mesures...")

# Calculs de base
df_sales['Sales'] = df_sales['OrderQuantity'] * df_sales['UnitSellingPrice']
df_sales['TotalCost'] = df_sales['OrderQuantity'] * df_sales['UnitCost']
df_sales['Profit'] = df_sales['Sales'] - df_sales['TotalCost']
df_sales['ProfitMargin'] = (df_sales['Profit'] / df_sales['Sales'] * 100).round(2)

# Remplacer les valeurs infinies ou NaN par 0
df_sales['ProfitMargin'] = df_sales['ProfitMargin'].replace([np.inf, -np.inf], 0).fillna(0)

# Table des mesures globales
measures = {
    'Total Sales': df_sales['Sales'].sum(),
    'Total Cost': df_sales['TotalCost'].sum(),
    'Total Profit': df_sales['Profit'].sum(),
    'Total Order Quantity': df_sales['OrderQuantity'].sum(),
    'Average Profit Margin %': df_sales['ProfitMargin'].mean(),
    'Number of Orders': len(df_sales),
    'Average Order Value': df_sales['Sales'].mean(),
    'Number of Customers': df_sales['CustomerNameIndex'].nunique() if 'CustomerNameIndex' in df_sales.columns else 0
}

print("\n" + "=" * 80)
print("üìà INDICATEURS CL√âS DE PERFORMANCE (KPI)")
print("=" * 80)
for key, value in measures.items():
    if 'Margin' in key or '%' in key:
        print(f"{key:.<40} {value:>20.2f}%")
    elif 'Number' in key or 'Quantity' in key:
        print(f"{key:.<40} {value:>20,.0f}")
    else:
        print(f"{key:.<40} {value:>20,.2f}")

# ============================================================================
# 4. ANALYSES PAR DIMENSION
# ============================================================================

print("\n\n[√âTAPE 4] Analyses par dimension...")

# 4.1 Analyse par Canal (Channel)
if 'Channel' in df_sales.columns:
    print("\n" + "-" * 80)
    print("üìä ANALYSE PAR CANAL DE DISTRIBUTION")
    print("-" * 80)
    channel_analysis = df_sales.groupby('Channel').agg({
        'Sales': ['sum', 'mean', 'count'],
        'Profit': 'sum',
        'OrderQuantity': 'sum'
    }).round(2)
    channel_analysis.columns = ['Ventes Totales', 'Ventes Moyennes', 'Nb Commandes', 
                                 'Profit Total', 'Quantit√© Totale']
    channel_analysis['Marge %'] = (channel_analysis['Profit Total'] / 
                                    channel_analysis['Ventes Totales'] * 100).round(2)
    channel_analysis = channel_analysis.sort_values('Ventes Totales', ascending=False)
    print(channel_analysis.to_string())

# 4.2 Analyse par Devise (Currency)
if 'CurrencyCode' in df_sales.columns:
    print("\n" + "-" * 80)
    print("üí∞ ANALYSE PAR DEVISE")
    print("-" * 80)
    currency_analysis = df_sales.groupby('CurrencyCode').agg({
        'Sales': 'sum',
        'Profit': 'sum',
        'OrderNumber': 'count' if 'OrderNumber' in df_sales.columns else 'Sales'
    }).round(2)
    currency_analysis.columns = ['Ventes Totales', 'Profit Total', 'Nb Commandes']
    currency_analysis = currency_analysis.sort_values('Ventes Totales', ascending=False)
    print(currency_analysis.to_string())

# 4.3 Analyse par Produit (Top 10)
if 'ProductDescriptionIndex' in df_sales.columns:
    print("\n" + "-" * 80)
    print("üéØ ANALYSE PAR PRODUIT (TOP 10)")
    print("-" * 80)
    product_analysis = df_sales.groupby('ProductDescriptionIndex').agg({
        'Sales': 'sum',
        'Profit': 'sum',
        'OrderQuantity': 'sum'
    }).round(2)
    product_analysis.columns = ['Ventes Totales', 'Profit Total', 'Quantit√© Totale']
    product_analysis['Marge %'] = (product_analysis['Profit Total'] / 
                                    product_analysis['Ventes Totales'] * 100).round(2)
    product_analysis = product_analysis.sort_values('Ventes Totales', ascending=False)
    print(product_analysis.head(10).to_string())

# 4.4 Analyse temporelle
print("\n" + "-" * 80)
print("üìÖ ANALYSE TEMPORELLE")
print("-" * 80)

# Par mois
df_sales['Year'] = df_sales['OrderDate'].dt.year
df_sales['Month'] = df_sales['OrderDate'].dt.month
df_sales['YearMonth'] = df_sales['OrderDate'].dt.to_period('M')

monthly_analysis = df_sales.groupby('YearMonth').agg({
    'Sales': 'sum',
    'Profit': 'sum',
    'OrderNumber': 'count' if 'OrderNumber' in df_sales.columns else 'Sales'
}).round(2)
monthly_analysis.columns = ['Ventes', 'Profit', 'Nb Commandes']
monthly_analysis['Marge %'] = (monthly_analysis['Profit'] / monthly_analysis['Ventes'] * 100).round(2)
print("\nüìä Performance mensuelle:")
print(monthly_analysis.to_string())

# 4.5 Analyse par Client (si donn√©es disponibles)
if 'CustomerNameIndex' in df_sales.columns:
    print("\n" + "-" * 80)
    print("üë• ANALYSE PAR CLIENT (TOP 10)")
    print("-" * 80)
    customer_analysis = df_sales.groupby('CustomerNameIndex').agg({
        'Sales': 'sum',
        'Profit': 'sum',
        'OrderNumber': 'count' if 'OrderNumber' in df_sales.columns else 'Sales'
    }).round(2)
    customer_analysis.columns = ['Ventes Totales', 'Profit Total', 'Nb Commandes']
    customer_analysis = customer_analysis.sort_values('Ventes Totales', ascending=False)
    print(customer_analysis.head(10).to_string())

# ============================================================================
# 5. VISUALISATIONS
# ============================================================================

print("\n\n[√âTAPE 5] G√©n√©ration des visualisations...")

# Cr√©er une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 14))
fig.suptitle('TABLEAU DE BORD ANALYTIQUE - ANALYSE DES VENTES', 
             fontsize=16, fontweight='bold', y=0.995)

# 5.1 Ventes par Canal
if 'Channel' in df_sales.columns:
    ax1 = plt.subplot(3, 3, 1)
    channel_sales = df_sales.groupby('Channel')['Sales'].sum().sort_values(ascending=False)
    colors1 = plt.cm.Set3(range(len(channel_sales)))
    bars = ax1.bar(channel_sales.index, channel_sales.values, color=colors1, edgecolor='black', linewidth=1.2)
    ax1.set_title('üíº Ventes Totales par Canal', fontsize=12, fontweight='bold', pad=10)
    ax1.set_ylabel('Ventes (‚Ç¨)', fontsize=10)
    ax1.tick_params(axis='x', rotation=45)
    ax1.grid(axis='y', alpha=0.3, linestyle='--')
    for i, (bar, v) in enumerate(zip(bars, channel_sales.values)):
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height,
                f'{v:,.0f}', ha='center', va='bottom', fontsize=9, fontweight='bold')

# 5.2 Distribution des profits par canal
if 'Channel' in df_sales.columns:
    ax2 = plt.subplot(3, 3, 2)
    channel_profit = df_sales.groupby('Channel')['Profit'].sum()
    colors2 = plt.cm.Pastel1(range(len(channel_profit)))
    wedges, texts, autotexts = ax2.pie(channel_profit.values, labels=channel_profit.index, 
                                         autopct='%1.1f%%', startangle=90, colors=colors2,
                                         textprops={'fontsize': 9, 'fontweight': 'bold'})
    ax2.set_title('üéØ Distribution des Profits par Canal', fontsize=12, fontweight='bold', pad=10)

# 5.3 Marge b√©n√©ficiaire par canal
if 'Channel' in df_sales.columns:
    ax3 = plt.subplot(3, 3, 3)
    margin_by_channel = channel_analysis['Marge %'].sort_values(ascending=True)
    bars = ax3.barh(margin_by_channel.index, margin_by_channel.values, color='coral', edgecolor='black', linewidth=1.2)
    ax3.set_title('üìä Marge B√©n√©ficiaire par Canal (%)', fontsize=12, fontweight='bold', pad=10)
    ax3.set_xlabel('Marge (%)', fontsize=10)
    ax3.grid(axis='x', alpha=0.3, linestyle='--')
    for i, (bar, v) in enumerate(zip(bars, margin_by_channel.values)):
        width = bar.get_width()
        ax3.text(width, bar.get_y() + bar.get_height()/2.,
                f' {v:.1f}%', va='center', fontsize=9, fontweight='bold')

# 5.4 Ventes par devise
if 'CurrencyCode' in df_sales.columns:
    ax4 = plt.subplot(3, 3, 4)
    currency_sales = df_sales.groupby('CurrencyCode')['Sales'].sum().sort_values(ascending=False)
    bars = ax4.bar(currency_sales.index, currency_sales.values, color='skyblue', edgecolor='black', linewidth=1.2)
    ax4.set_title('üí∞ Ventes par Devise', fontsize=12, fontweight='bold', pad=10)
    ax4.set_ylabel('Ventes', fontsize=10)
    ax4.grid(axis='y', alpha=0.3, linestyle='--')
    for bar, v in zip(bars, currency_sales.values):
        height = bar.get_height()
        ax4.text(bar.get_x() + bar.get_width()/2., height,
                f'{v:,.0f}', ha='center', va='bottom', fontsize=9, fontweight='bold')

# 5.5 Top 10 produits par ventes
if 'ProductDescriptionIndex' in df_sales.columns:
    ax5 = plt.subplot(3, 3, 5)
    top_products = product_analysis.nlargest(10, 'Ventes Totales')['Ventes Totales']
    colors5 = plt.cm.summer(np.linspace(0.3, 0.9, len(top_products)))
    bars = ax5.barh(range(len(top_products)), top_products.values, color=colors5, edgecolor='black', linewidth=1.2)
    ax5.set_yticks(range(len(top_products)))
    ax5.set_yticklabels([f'Produit {idx}' for idx in top_products.index], fontsize=9)
    ax5.set_title('üèÜ Top 10 Produits par Ventes', fontsize=12, fontweight='bold', pad=10)
    ax5.set_xlabel('Ventes Totales', fontsize=10)
    ax5.grid(axis='x', alpha=0.3, linestyle='--')
    for i, (bar, v) in enumerate(zip(bars, top_products.values)):
        width = bar.get_width()
        ax5.text(width, bar.get_y() + bar.get_height()/2.,
                f' {v:,.0f}', va='center', fontsize=8, fontweight='bold')

# 5.6 √âvolution mensuelle des ventes
ax6 = plt.subplot(3, 3, 6)
monthly_sales = monthly_analysis['Ventes']
ax6.plot(range(len(monthly_sales)), monthly_sales.values, marker='o', linewidth=2.5, 
         markersize=8, color='#2E86AB', markerfacecolor='#A23B72', markeredgewidth=2, markeredgecolor='white')
ax6.set_xticks(range(len(monthly_sales)))
ax6.set_xticklabels([str(m) for m in monthly_sales.index], rotation=45, fontsize=8)
ax6.set_title('üìà √âvolution Mensuelle des Ventes', fontsize=12, fontweight='bold', pad=10)
ax6.set_ylabel('Ventes', fontsize=10)
ax6.grid(True, alpha=0.3, linestyle='--')
ax6.fill_between(range(len(monthly_sales)), monthly_sales.values, alpha=0.3, color='#2E86AB')

# 5.7 Profit vs Ventes par Canal
if 'Channel' in df_sales.columns:
    ax7 = plt.subplot(3, 3, 7)
    channel_data = df_sales.groupby('Channel').agg({'Sales': 'sum', 'Profit': 'sum'})
    x = np.arange(len(channel_data))
    width = 0.35
    bars1 = ax7.bar(x - width/2, channel_data['Sales'], width, label='Ventes', 
                    color='steelblue', edgecolor='black', linewidth=1.2)
    bars2 = ax7.bar(x + width/2, channel_data['Profit'], width, label='Profit', 
                    color='lightcoral', edgecolor='black', linewidth=1.2)
    ax7.set_title('üíµ Ventes vs Profit par Canal', fontsize=12, fontweight='bold', pad=10)
    ax7.set_xticks(x)
    ax7.set_xticklabels(channel_data.index, rotation=45, fontsize=9)
    ax7.legend(fontsize=9)
    ax7.grid(axis='y', alpha=0.3, linestyle='--')

# 5.8 Distribution de la quantit√© command√©e
ax8 = plt.subplot(3, 3, 8)
ax8.hist(df_sales['OrderQuantity'], bins=20, color='mediumseagreen', edgecolor='black', linewidth=1.2, alpha=0.7)
ax8.set_title('üì¶ Distribution des Quantit√©s Command√©es', fontsize=12, fontweight='bold', pad=10)
ax8.set_xlabel('Quantit√©', fontsize=10)
ax8.set_ylabel('Fr√©quence', fontsize=10)
ax8.grid(axis='y', alpha=0.3, linestyle='--')

# 5.9 Top 10 Clients par ventes
if 'CustomerNameIndex' in df_sales.columns:
    ax9 = plt.subplot(3, 3, 9)
    top_customers = customer_analysis.nlargest(10, 'Ventes Totales')['Ventes Totales']
    colors9 = plt.cm.viridis(np.linspace(0.2, 0.9, len(top_customers)))
    bars = ax9.barh(range(len(top_customers)), top_customers.values, color=colors9, edgecolor='black', linewidth=1.2)
    ax9.set_yticks(range(len(top_customers)))
    ax9.set_yticklabels([f'Client {idx}' for idx in top_customers.index], fontsize=9)
    ax9.set_title('üë• Top 10 Clients par Ventes', fontsize=12, fontweight='bold', pad=10)
    ax9.set_xlabel('Ventes Totales', fontsize=10)
    ax9.grid(axis='x', alpha=0.3, linestyle='--')
    for i, (bar, v) in enumerate(zip(bars, top_customers.values)):
        width = bar.get_width()
        ax9.text(width, bar.get_y() + bar.get_height()/2.,
                f' {v:,.0f}', va='center', fontsize=8, fontweight='bold')

plt.tight_layout()
plt.savefig('analyse_ventes_complete.png', dpi=300, bbox_inches='tight')
print("‚úì Graphiques sauvegard√©s: analyse_ventes_complete.png")
plt.show()

# ============================================================================
# 6. TABLEAU DE BORD R√âCAPITULATIF
# ============================================================================

print("\n\n" + "=" * 80)
print("üìä TABLEAU DE BORD R√âCAPITULATIF")
print("=" * 80)

print(f"\nüíº PERFORMANCE GLOBALE")
print(f"   ‚Ä¢ Chiffre d'affaires total: {measures['Total Sales']:,.2f} ‚Ç¨")
print(f"   ‚Ä¢ Profit total: {measures['Total Profit']:,.2f} ‚Ç¨")
print(f"   ‚Ä¢ Co√ªt total: {measures['Total Cost']:,.2f} ‚Ç¨")
print(f"   ‚Ä¢ Marge b√©n√©ficiaire moyenne: {measures['Average Profit Margin %']:.2f}%")
print(f"   ‚Ä¢ Nombre total de commandes: {measures['Number of Orders']:,}")
print(f"   ‚Ä¢ Quantit√© totale vendue: {measures['Total Order Quantity']:,}")
print(f"   ‚Ä¢ Valeur moyenne de commande: {measures['Average Order Value']:,.2f} ‚Ç¨")

if 'Channel' in df_sales.columns:
    print(f"\nüèÜ MEILLEUR CANAL")
    best_channel = channel_analysis['Ventes Totales'].idxmax()
    print(f"   ‚Ä¢ {best_channel}")
    print(f"   ‚Ä¢ Ventes: {channel_analysis.loc[best_channel, 'Ventes Totales']:,.2f} ‚Ç¨")
    print(f"   ‚Ä¢ Marge: {channel_analysis.loc[best_channel, 'Marge %']:.2f}%")

if 'CurrencyCode' in df_sales.columns:
    print(f"\nüí∞ MEILLEURE DEVISE")
    best_currency = currency_analysis['Ventes Totales'].idxmax()
    print(f"   ‚Ä¢ {best_currency}")
    print(f"   ‚Ä¢ Ventes: {currency_analysis.loc[best_currency, 'Ventes Totales']:,.2f}")

if 'ProductDescriptionIndex' in df_sales.columns:
    print(f"\nüéØ PRODUIT LE PLUS RENTABLE")
    best_product_idx = product_analysis['Profit Total'].idxmax()
    print(f"   ‚Ä¢ Produit {best_product_idx}")
    print(f"   ‚Ä¢ Profit: {product_analysis.loc[best_product_idx, 'Profit Total']:,.2f} ‚Ç¨")
    print(f"   ‚Ä¢ Marge: {product_analysis.loc[best_product_idx, 'Marge %']:.2f}%")

# ============================================================================
# 7. EXPORT DES R√âSULTATS
# ============================================================================

print("\n\n[√âTAPE 6] Export des r√©sultats...")

# Cr√©er un fichier Excel avec plusieurs feuilles
with pd.ExcelWriter('resultats_analyse.xlsx', engine='openpyxl') as writer:
    df_sales.to_excel(writer, sheet_name='Donnees_Detaillees', index=False)
    
    if 'Channel' in df_sales.columns:
        channel_analysis.to_excel(writer, sheet_name='Analyse_Canaux')
    
    if 'CurrencyCode' in df_sales.columns:
        currency_analysis.to_excel(writer, sheet_name='Analyse_Devises')
    
    if 'ProductDescriptionIndex' in df_sales.columns:
        product_analysis.to_excel(writer, sheet_name='Analyse_Produits')
    
    monthly_analysis.to_excel(writer, sheet_name='Analyse_Mensuelle')
    
    if 'CustomerNameIndex' in df_sales.columns:
        customer_analysis.to_excel(writer, sheet_name='Analyse_Clients')
    
    # Cr√©er une feuille de synth√®se
    summary_df = pd.DataFrame([measures]).T
    summary_df.columns = ['Valeur']
    summary_df.to_excel(writer, sheet_name='Synthese_KPI')

print("\n‚úì Fichiers export√©s:")
print("  üìä resultats_analyse.xlsx (analyses compl√®tes)")
print("  üìà analyse_ventes_complete.png (visualisations)")

print("\n" + "=" * 80)
print("‚úÖ ANALYSE TERMIN√âE AVEC SUCC√àS")
print("=" * 80)

ANALYSE MULTIDIMENSIONNELLE DES VENTES

[√âTAPE 1] Chargement des donn√©es depuis Sales.xlsx...

‚ö†Ô∏è  Fichier 'Sales.xlsx' non trouv√©!
üìÅ Veuillez uploader le fichier Sales.xlsx dans Google Colab

Pour uploader:
   1. Cliquez sur l'ic√¥ne üìÅ dans le panneau de gauche
   2. Cliquez sur le bouton 'Upload' ‚¨ÜÔ∏è
   3. S√©lectionnez votre fichier Sales.xlsx


FileNotFoundError: [Errno 2] No such file or directory: 'data/Sales.xlsx'