# Projet Yshop - Pr√©diction des Ventes

## Pr√©sentation du Projet

**Yshop** est une petite boutique en ligne sp√©cialis√©e dans les produits artisanaux. Ce projet vise √† utiliser des techniques de machine learning pour pr√©dire les ventes futures et optimiser la gestion des stocks.

### Objectifs:
- Collecter et analyser les donn√©es de ventes historiques
- D√©velopper un mod√®le de pr√©diction des ventes
- Visualiser les pr√©dictions et les tendances de ventes
- Cr√©er une interface de visualisation interactive

### Plan du Notebook:
1. **Acquisition et Pr√©paration des Donn√©es**
2. **Analyse Exploratoire des Donn√©es (EDA)**
3. **Mod√©lisation Pr√©dictive**
4. **Visualisations et Data Storytelling**
5. **Conclusions et Recommandations**

## 1. Importation des Biblioth√®ques

In [44]:
# Biblioth√®ques pour la manipulation des donn√©es
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Biblioth√®ques pour la visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.offline as pyo

# Biblioth√®ques pour le machine learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
import sklearn

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pyo.init_notebook_mode(connected=True)

print("Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Scikit-learn version: {sklearn.__version__}")

Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!
Pandas version: 2.2.3
NumPy version: 2.2.5
Scikit-learn version: 1.6.1


## 2. Acquisition et Pr√©paration des Donn√©es üì•

Dans cette section, nous allons :
- Charger les donn√©es de ventes historiques
- Explorer la structure des donn√©es
- Nettoyer les donn√©es (valeurs manquantes, doublons, valeurs aberrantes)
- Pr√©parer les donn√©es pour l'analyse

In [45]:
# V√©rification des fichiers disponibles dans le r√©pertoire de travail
import os
import glob

print("Fichiers disponibles dans le r√©pertoire de travail :")
current_dir = os.getcwd()
print(f"R√©pertoire actuel : {current_dir}")

# Recherche de fichiers de donn√©es
data_files = glob.glob("*.csv") + glob.glob("*.xlsx") + glob.glob("*.xls") + glob.glob("*.json")
if data_files:
    print("\nFichiers de donn√©es trouv√©s :")
    for file in data_files:
        print(f"  - {file}")
else:
    print("\nAucun fichier de donn√©es trouv√© (.csv, .xlsx, .xls, .json)")

print("\n" + "="*50)

Fichiers disponibles dans le r√©pertoire de travail :
R√©pertoire actuel : c:\Users\kadem\PAV\Projet

Fichiers de donn√©es trouv√©s :
  - yshop_predictions.csv
  - yshop_sales_data.csv
  - Online.xlsx



In [46]:
# Chargement direct du fichier Online.xlsx
print("CHARGEMENT DU DATASET Online.xlsx")
print("=" * 50)

try:
    df_raw = pd.read_excel('Online.xlsx')
    print(f"Dataset charg√© depuis Online.xlsx")
    print(f"{len(df_raw)} lignes et {len(df_raw.columns)} colonnes")
except Exception as e:
    print(f"Erreur lors du chargement: {e}")
    df_raw = None

CHARGEMENT DU DATASET Online.xlsx
Dataset charg√© depuis Online.xlsx
541910 lignes et 8 colonnes
Dataset charg√© depuis Online.xlsx
541910 lignes et 8 colonnes


In [47]:
# Exploration de la structure du fichier Online.xlsx
print("üîç EXPLORATION DU FICHIER Online.xlsx")
print("=" * 50)

# Charger le fichier pour exploration
df_raw = pd.read_excel('Online.xlsx')

print(f" Forme du dataset: {df_raw.shape}")
print(f" Colonnes disponibles: {list(df_raw.columns)}")

print("\n Aper√ßu des premi√®res lignes:")
display(df_raw.head())

print("\n Informations sur les colonnes:")
print(df_raw.info())

print("\n Types de donn√©es:")
for col in df_raw.columns:
    print(f"  - {col}: {df_raw[col].dtype}")

print("\n Statistiques descriptives pour les colonnes num√©riques:")
display(df_raw.describe())

# V√©rifier s'il y a des colonnes de date
print("\n Recherche de colonnes de date:")
for col in df_raw.columns:
    sample_values = df_raw[col].dropna().head(5).values
    print(f"  - {col}: {sample_values}")
    
    # Essayer de d√©tecter des dates
    if df_raw[col].dtype == 'object':
        try:
            pd.to_datetime(df_raw[col].iloc[0])
            print(f"    ‚Üí Potentielle colonne de date d√©tect√©e !")
        except:
            pass

# ANALYSE COMPL√àTE DES DONN√âES BRUTES
print("ANALYSE EXPLORATOIRE COMPL√àTE DES DONN√âES")
print("=" * 60)

# 1. Structure g√©n√©rale des donn√©es
print("1. STRUCTURE G√âN√âRALE")
print("-" * 30)
print(f"Forme du dataset : {df_raw.shape}")
print(f"Colonnes : {list(df_raw.columns)}")
print(f"Types de donn√©es :")
print(df_raw.dtypes)

print("\n2. APER√áU DES PREMI√àRES LIGNES")
print("-" * 30)
print(df_raw.head(10))

print("\n3. INFORMATIONS G√âN√âRALES")
print("-" * 30)
print(df_raw.info())

print("\n4. STATISTIQUES DESCRIPTIVES")
print("-" * 30)
print(df_raw.describe())

print("\n5. VALEURS MANQUANTES")
print("-" * 30)
missing_values = df_raw.isnull().sum()
print(missing_values[missing_values > 0])

print("\n6. VALEURS UNIQUES PAR COLONNE")
print("-" * 30)
for col in df_raw.columns:
    n_unique = df_raw[col].nunique()
    print(f"{col}: {n_unique} valeurs uniques")
    if n_unique < 20:
        print(f"  Valeurs: {df_raw[col].unique()}")

print("\n7. ANALYSE DES DATES")
print("-" * 30)
if 'InvoiceDate' in df_raw.columns:
    print(f"Date min: {df_raw['InvoiceDate'].min()}")
    print(f"Date max: {df_raw['InvoiceDate'].max()}")
    print(f"P√©riode couverte: {df_raw['InvoiceDate'].max() - df_raw['InvoiceDate'].min()}")

print("\n8. COH√âRENCE DES DONN√âES")
print("-" * 30)
# V√©rifier les valeurs n√©gatives ou nulles
if 'Quantity' in df_raw.columns:
    print(f"Quantit√©s n√©gatives: {(df_raw['Quantity'] < 0).sum()}")
    print(f"Quantit√©s nulles: {(df_raw['Quantity'] == 0).sum()}")

if 'UnitPrice' in df_raw.columns:
    print(f"Prix n√©gatifs: {(df_raw['UnitPrice'] < 0).sum()}")
    print(f"Prix nuls: {(df_raw['UnitPrice'] == 0).sum()}")

print("\n9. TRANSACTIONS SP√âCIALES")
print("-" * 30)
# V√©rifier les codes de stock sp√©ciaux
if 'StockCode' in df_raw.columns:
    special_codes = df_raw[df_raw['StockCode'].astype(str).str.contains('[A-Z]', na=False)]
    print(f"Codes avec lettres (retours/ajustements): {len(special_codes)}")
    
    # Afficher quelques exemples
    if len(special_codes) > 0:
        print("Exemples de codes sp√©ciaux:")
        print(special_codes[['StockCode', 'Description']].drop_duplicates().head(10))

print("\n" + "="*60)

üîç EXPLORATION DU FICHIER Online.xlsx
 Forme du dataset: (541910, 8)
 Colonnes disponibles: ['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'Price', 'Customer ID', 'Country']

 Aper√ßu des premi√®res lignes:
 Forme du dataset: (541910, 8)
 Colonnes disponibles: ['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'Price', 'Customer ID', 'Country']

 Aper√ßu des premi√®res lignes:


Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom



 Informations sur les colonnes:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541910 entries, 0 to 541909
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      541910 non-null  object        
 1   StockCode    541910 non-null  object        
 2   Description  540456 non-null  object        
 3   Quantity     541910 non-null  int64         
 4   InvoiceDate  541910 non-null  datetime64[ns]
 5   Price        541910 non-null  float64       
 6   Customer ID  406830 non-null  float64       
 7   Country      541910 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB
None

 Types de donn√©es:
  - Invoice: object
  - StockCode: object
  - Description: object
  - Quantity: int64
  - InvoiceDate: datetime64[ns]
  - Price: float64
  - Customer ID: float64
  - Country: object

 Statistiques descriptives pour les colonnes num√©riques:


Unnamed: 0,Quantity,InvoiceDate,Price,Customer ID
count,541910.0,541910,541910.0,406830.0
mean,9.552234,2011-07-04 13:35:22.342307584,4.611138,15287.68416
min,-80995.0,2010-12-01 08:26:00,-11062.06,12346.0
25%,1.0,2011-03-28 11:34:00,1.25,13953.0
50%,3.0,2011-07-19 17:17:00,2.08,15152.0
75%,10.0,2011-10-19 11:27:00,4.13,16791.0
max,80995.0,2011-12-09 12:50:00,38970.0,18287.0
std,218.080957,,96.759765,1713.603074



 Recherche de colonnes de date:
  - Invoice: [536365 536365 536365 536365 536365]
    ‚Üí Potentielle colonne de date d√©tect√©e !
  - StockCode: ['85123A' 71053 '84406B' '84029G' '84029E']
  - Description: ['WHITE HANGING HEART T-LIGHT HOLDER' 'WHITE METAL LANTERN'
 'CREAM CUPID HEARTS COAT HANGER' 'KNITTED UNION FLAG HOT WATER BOTTLE'
 'RED WOOLLY HOTTIE WHITE HEART.']
  - Quantity: [6 6 8 6 6]
  - InvoiceDate: ['2010-12-01T08:26:00.000000000' '2010-12-01T08:26:00.000000000'
 '2010-12-01T08:26:00.000000000' '2010-12-01T08:26:00.000000000'
 '2010-12-01T08:26:00.000000000']
  - Price: [2.55 3.39 2.75 3.39 3.39]
  - Customer ID: [17850. 17850. 17850. 17850. 17850.]
  - Country: ['United Kingdom' 'United Kingdom' 'United Kingdom' 'United Kingdom'
 'United Kingdom']
ANALYSE EXPLORATOIRE COMPL√àTE DES DONN√âES
1. STRUCTURE G√âN√âRALE
------------------------------
Forme du dataset : (541910, 8)
Colonnes : ['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'Price', 'Custome

In [52]:
# Fonction pour traiter le dataset Online.xlsx
def process_online_dataset(df_raw):
    """
    Traite et nettoie le dataset Online.xlsx pour l'analyse des ventes Yshop
    """
    print("TRAITEMENT DU DATASET Online.xlsx")
    print("=" * 50)
    
    # Copie du dataset original
    df = df_raw.copy()
    
    # 1. Nettoyage des noms de colonnes
    df.columns = df.columns.str.strip()  # Supprimer les espaces
    
    # 2. Renommage des colonnes pour plus de clart√©
    column_mapping = {
        'Invoice': 'invoice_id',
        'StockCode': 'product_code',
        'Description': 'product_description',
        'Quantity': 'quantity',
        'InvoiceDate': 'date',
        'Price': 'unit_price',
        'Customer ID': 'customer_id',
        'Country': 'country'
    }
    df = df.rename(columns=column_mapping)
    
    print(f" Dataset initial: {df.shape[0]} lignes")
    
    # 3. Nettoyage des donn√©es
    # Supprimer les lignes avec des quantit√©s n√©gatives ou nulles (retours/annulations)
    initial_count = len(df)
    df = df[df['quantity'] > 0]
    print(f" Suppression des quantit√©s ‚â§ 0: {initial_count - len(df)} lignes supprim√©es")
    
    # Supprimer les lignes avec des prix n√©gatifs ou nuls
    initial_count = len(df)
    df = df[df['unit_price'] > 0]
    print(f" Suppression des prix ‚â§ 0: {initial_count - len(df)} lignes supprim√©es")
    
    # Supprimer les lignes sans description de produit
    initial_count = len(df)
    df = df.dropna(subset=['product_description'])
    print(f" Suppression des descriptions manquantes: {initial_count - len(df)} lignes supprim√©es")
    
    # 4. Calculs d√©riv√©s
    # Prix total par ligne
    df['total_price'] = df['quantity'] * df['unit_price']
    
    # Extraction d'informations temporelles
    df['year'] = df['date'].dt.year
    df['month'] = df['date'].dt.month
    df['day'] = df['date'].dt.day
    df['day_of_week'] = df['date'].dt.dayofweek
    df['is_weekend'] = df['day_of_week'] >= 5
    df['month_name'] = df['date'].dt.month_name()
    df['day_name'] = df['date'].dt.day_name()
    
    # 5. Cat√©gorisation des produits (bas√©e sur les descriptions)
    def categorize_product(description):
        """Cat√©gorise un produit bas√© sur sa description"""
        if pd.isna(description):
            return 'Autre'
        
        desc_lower = description.lower()
        
        # Cat√©gories bas√©es sur les mots-cl√©s dans les descriptions
        if any(word in desc_lower for word in ['heart', 'love', 'cupid', 'valentine']):
            return 'D√©coration Romantique'
        elif any(word in desc_lower for word in ['christmas', 'xmas', 'santa', 'reindeer']):
            return 'D√©coration No√´l'
        elif any(word in desc_lower for word in ['candle', 'light', 'holder', 'lantern']):
            return '√âclairage & Bougies'
        elif any(word in desc_lower for word in ['bag', 'tote', 'shopper']):
            return 'Sacs & Accessoires'
        elif any(word in desc_lower for word in ['mug', 'cup', 'glass', 'bottle']):
            return 'Vaisselle & Boissons'
        elif any(word in desc_lower for word in ['fabric', 'cotton', 'wool', 'knit']):
            return 'Textiles'
        elif any(word in desc_lower for word in ['metal', 'steel', 'iron', 'wire']):
            return 'Articles M√©talliques'
        elif any(word in desc_lower for word in ['wooden', 'wood', 'bamboo']):
            return 'Articles en Bois'
        elif any(word in desc_lower for word in ['paper', 'card', 'notebook', 'diary']):
            return 'Papeterie'
        elif any(word in desc_lower for word in ['toy', 'game', 'play']):
            return 'Jeux & Jouets'
        else:
            return 'Autre'
    
    df['category'] = df['product_description'].apply(categorize_product)
    
    # 6. Gestion des customers IDs manquants
    missing_customers = df['customer_id'].isna().sum()
    print(f" Clients avec ID manquant: {missing_customers} ({missing_customers/len(df)*100:.1f}%)")
    
    # Pour les analyses, nous pouvons soit supprimer ces lignes, soit les garder
    # Ici, nous les gardons mais cr√©ons un flag
    df['has_customer_id'] = df['customer_id'].notna()
    
    # 7. D√©tection et gestion des doublons
    duplicates = df.duplicated().sum()
    print(f"Doublons d√©tect√©s: {duplicates}")
    if duplicates > 0:
        df = df.drop_duplicates()
        print(f" Doublons supprim√©s")
    
    # 8. Statistiques finales
    print(f"\n Dataset final: {df.shape[0]} lignes, {df.shape[1]} colonnes")
    print(f" P√©riode: du {df['date'].min()} au {df['date'].max()}")
    print(f" Pays: {df['country'].nunique()} pays diff√©rents")
    print(f" Produits uniques: {df['product_code'].nunique()}")
    print(f" Clients uniques: {df['customer_id'].nunique()}")
    print(f" Cat√©gories: {df['category'].nunique()}")
    print(f" Chiffre d'affaires total: {df['total_price'].sum():,.2f} ‚Ç¨")
    
    # Cr√©ation de df_normal comme version finale nettoy√©e
    df_normal = df.copy()
    
    print(f"\n Dataset normalis√©: {df_normal.shape[0]} lignes, {df_normal.shape[1]} colonnes")
    print(f" P√©riode: du {df_normal['date'].min()} au {df_normal['date'].max()}")
    print(f" Pays: {df_normal['country'].nunique()} pays diff√©rents")
    print(f" Produits uniques: {df_normal['product_code'].nunique()}")
    print(f" Clients uniques: {df_normal['customer_id'].nunique()}")
    print(f" Cat√©gories: {df_normal['category'].nunique()}")
    print(f" Chiffre d'affaires total: {df_normal['total_price'].sum():,.2f} ‚Ç¨")
    
    return df_normal

# Traitement du dataset
df_normal = process_online_dataset(df_raw)

print("\n" + "="*50)
print(" Dataset pr√™t pour l'analyse !")

# V√©rification finale
print(f"\nVariables cr√©√©es:")
print(f"- df_normal: {df_normal.shape}")
print(f"- Colonnes: {list(df_normal.columns)}")

TRAITEMENT DU DATASET Online.xlsx
 Dataset initial: 541910 lignes
 Suppression des quantit√©s ‚â§ 0: 10624 lignes supprim√©es
 Suppression des prix ‚â§ 0: 1181 lignes supprim√©es
 Suppression des descriptions manquantes: 0 lignes supprim√©es
 Suppression des prix ‚â§ 0: 1181 lignes supprim√©es
 Suppression des descriptions manquantes: 0 lignes supprim√©es
 Clients avec ID manquant: 132220 (24.9%)
 Clients avec ID manquant: 132220 (24.9%)
Doublons d√©tect√©s: 5226
Doublons d√©tect√©s: 5226
 Doublons supprim√©s

 Dataset final: 524879 lignes, 18 colonnes
 P√©riode: du 2010-12-01 08:26:00 au 2011-12-09 12:50:00
 Pays: 38 pays diff√©rents
 Produits uniques: 3922
 Clients uniques: 4338
 Cat√©gories: 11
 Chiffre d'affaires total: 10,642,128.80 ‚Ç¨
 Doublons supprim√©s

 Dataset final: 524879 lignes, 18 colonnes
 P√©riode: du 2010-12-01 08:26:00 au 2011-12-09 12:50:00
 Pays: 38 pays diff√©rents
 Produits uniques: 3922
 Clients uniques: 4338
 Cat√©gories: 11
 Chiffre d'affaires total: 10,642,1

In [55]:
# ANALYSE EXPLORATOIRE DES DONN√âES (EDA)
print("ANALYSE EXPLORATOIRE DES DONN√âES")
print("=" * 60)

# V√©rification des colonnes disponibles
print("Colonnes disponibles dans df_normal:")
print(list(df_normal.columns))

# 1. ANALYSE TEMPORELLE
print("\n1. ANALYSE TEMPORELLE")
print("-" * 30)

# Utiliser les vrais noms de colonnes
# date, total_price, quantity, invoice_id, customer_id

# Agr√©gation quotidienne coh√©rente
daily_data = df_normal.groupby('date').agg({
    'total_price': 'sum',
    'quantity': 'sum', 
    'invoice_id': 'nunique',
    'customer_id': 'nunique'
}).reset_index()

daily_data.columns = ['Date', 'Revenue', 'Quantity', 'Orders', 'Customers']
daily_data['Date'] = pd.to_datetime(daily_data['Date'])

print(f"Donn√©es quotidiennes: {len(daily_data)} jours")
print(f"P√©riode: {daily_data['Date'].min().date()} √† {daily_data['Date'].max().date()}")
print(f"Revenus quotidiens - Min: {daily_data['Revenue'].min():.2f}‚Ç¨, Max: {daily_data['Revenue'].max():.2f}‚Ç¨, Moyenne: {daily_data['Revenue'].mean():.2f}‚Ç¨")

# 2. ANALYSE PAR PAYS
print("\n2. ANALYSE G√âOGRAPHIQUE")
print("-" * 30)

country_analysis = df_normal.groupby('country').agg({
    'total_price': 'sum',
    'invoice_id': 'nunique',
    'customer_id': 'nunique'
}).round(2).sort_values('total_price', ascending=False)

country_analysis.columns = ['Revenus', 'Commandes', 'Clients']
print("Top 10 des pays par revenus:")
print(country_analysis.head(10))

# 3. ANALYSE DES PRODUITS
print("\n3. ANALYSE DES PRODUITS")
print("-" * 30)

# Top produits par revenus
product_analysis = df_normal.groupby(['product_code', 'product_description']).agg({
    'total_price': 'sum',
    'quantity': 'sum'
}).round(2).sort_values('total_price', ascending=False)

print("Top 10 des produits par revenus:")
print(product_analysis.head(10))

# 4. ANALYSE DES CAT√âGORIES
print("\n4. ANALYSE DES CAT√âGORIES")
print("-" * 30)

category_analysis = df_normal.groupby('category').agg({
    'total_price': 'sum',
    'quantity': 'sum',
    'product_code': 'nunique'
}).round(2).sort_values('total_price', ascending=False)

category_analysis.columns = ['Revenus', 'Quantit√©', 'Produits']
print("Performance par cat√©gorie:")
print(category_analysis)

# 5. ANALYSE DES CLIENTS
print("\n5. ANALYSE DES CLIENTS")
print("-" * 30)

# Filtrer les clients avec ID valide
df_customers = df_normal[df_normal['has_customer_id'] == True]

customer_analysis = df_customers.groupby('customer_id').agg({
    'total_price': 'sum',
    'invoice_id': 'nunique',
    'quantity': 'sum'
}).round(2)

customer_analysis.columns = ['TotalSpent', 'OrderCount', 'TotalItems']
customer_analysis['AvgOrderValue'] = customer_analysis['TotalSpent'] / customer_analysis['OrderCount']

print(f"Clients analys√©s: {len(customer_analysis)}")
print(f"D√©pense moyenne par client: {customer_analysis['TotalSpent'].mean():.2f}‚Ç¨")
print(f"Commandes moyennes par client: {customer_analysis['OrderCount'].mean():.1f}")
print(f"Panier moyen: {customer_analysis['AvgOrderValue'].mean():.2f}‚Ç¨")

print("Top 5 des clients par revenus:")
print(customer_analysis.sort_values('TotalSpent', ascending=False).head(5))

# 6. SAISONNALIT√â
print("\n6. ANALYSE DE SAISONNALIT√â")
print("-" * 30)

# Par mois
monthly_data = df_normal.groupby(['year', 'month_name']).agg({
    'total_price': 'sum'
}).reset_index()

print("Revenus par mois:")
print(monthly_data.round(2))

# Par jour de la semaine
weekday_data = df_normal.groupby('day_name').agg({
    'total_price': 'sum'
}).reindex(['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'])

print("\nRevenus par jour de la semaine:")
print(weekday_data.round(2))

# 7. M√âTRIQUES BUSINESS FINALES
print("\n7. M√âTRIQUES BUSINESS COH√âRENTES")
print("-" * 30)

# Recalcul des m√©triques finales
final_revenue = df_normal['total_price'].sum()
final_orders = df_normal['invoice_id'].nunique()
final_customers = df_normal['customer_id'].nunique()
final_items = df_normal['quantity'].sum()
final_products = df_normal['product_code'].nunique()
final_countries = df_normal['country'].nunique()

avg_order_value = final_revenue / final_orders
avg_customer_value = final_revenue / final_customers
days_period = (daily_data['Date'].max() - daily_data['Date'].min()).days + 1
daily_avg_revenue = final_revenue / days_period

print(f"üìä M√âTRIQUES FINALES YSHOP")
print(f"Chiffre d'affaires total: {final_revenue:,.2f} ‚Ç¨")
print(f"Nombre de commandes: {final_orders:,}")
print(f"Nombre de clients: {final_customers:,}")
print(f"Articles vendus: {final_items:,}")
print(f"Produits diff√©rents: {final_products:,}")
print(f"Pays desservis: {final_countries}")
print(f"Panier moyen: {avg_order_value:.2f} ‚Ç¨")
print(f"Valeur moyenne client: {avg_customer_value:.2f} ‚Ç¨")
print(f"CA quotidien moyen: {daily_avg_revenue:.2f} ‚Ç¨")
print(f"P√©riode d'analyse: {days_period} jours")

# Sauvegarde des donn√©es quotidiennes pour la mod√©lisation
daily_data.to_csv('yshop_daily_data.csv', index=False)
print(f"\nDonn√©es quotidiennes sauvegard√©es dans 'yshop_daily_data.csv'")

print("\n" + "="*60)

ANALYSE EXPLORATOIRE DES DONN√âES
Colonnes disponibles dans df_normal:
['invoice_id', 'product_code', 'product_description', 'quantity', 'date', 'unit_price', 'customer_id', 'country', 'total_price', 'year', 'month', 'day', 'day_of_week', 'is_weekend', 'month_name', 'day_name', 'category', 'has_customer_id']

1. ANALYSE TEMPORELLE
------------------------------
Donn√©es quotidiennes: 18499 jours
P√©riode: 2010-12-01 √† 2011-12-09
Revenus quotidiens - Min: 0.38‚Ç¨, Max: 168469.60‚Ç¨, Moyenne: 575.28‚Ç¨

2. ANALYSE G√âOGRAPHIQUE
------------------------------
Top 10 des pays par revenus:
                   Revenus  Commandes  Clients
country                                       
United Kingdom  9001744.09      18019     3920
Netherlands      285446.34         94        9
EIRE             283140.52        288        3
Germany          228678.40        457       94
France           209643.37        392       87
Australia        138453.81         57        9
Spain             61558.56     

## 3. Analyse Exploratoire des Donn√©es (EDA) 

Dans cette section, nous allons :
- Analyser les tendances temporelles des ventes
- Explorer la distribution des ventes par cat√©gorie
- Analyser le comportement d'achat par pays
- Identifier les produits les plus vendus
- D√©tecter les patterns saisonniers

## 4. Mod√©lisation Pr√©dictive 

Dans cette section, nous allons :
- Pr√©parer les donn√©es pour la mod√©lisation
- Cr√©er des features temporelles et cycliques
- Entra√Æner diff√©rents mod√®les de machine learning
- √âvaluer les performances des mod√®les
- Faire des pr√©dictions pour les ventes futures

In [60]:
# MOD√âLISATION PR√âDICTIVE R√âALISTE - SANS SURAPPRENTISSAGE
print("MOD√âLISATION PR√âDICTIVE R√âALISTE POUR YSHOP")
print("=" * 60)

# 1. PR√âPARATION DES DONN√âES POUR LA MOD√âLISATION
print("\n1. PR√âPARATION DES DONN√âES")
print("-" * 40)

# Utiliser les donn√©es quotidiennes d√©j√† cr√©√©es
modeling_data = daily_data.copy()
modeling_data = modeling_data.sort_values('Date').reset_index(drop=True)

print(f"Donn√©es de mod√©lisation: {len(modeling_data)} jours")
print(f"P√©riode: {modeling_data['Date'].min().date()} √† {modeling_data['Date'].max().date()}")

# 2. CR√âATION DES FEATURES TEMPORELLES UNIQUEMENT
print("\n2. CR√âATION DES FEATURES TEMPORELLES PURES")
print("-" * 40)

# IMPORTANT : Ne pas utiliser de features lag ou moyennes mobiles bas√©es sur la target !
# Features temporelles seulement
modeling_data['Year'] = modeling_data['Date'].dt.year
modeling_data['Month'] = modeling_data['Date'].dt.month
modeling_data['Day'] = modeling_data['Date'].dt.day
modeling_data['DayOfWeek'] = modeling_data['Date'].dt.dayofweek
modeling_data['DayOfYear'] = modeling_data['Date'].dt.dayofyear
modeling_data['WeekOfYear'] = modeling_data['Date'].dt.isocalendar().week

# Features cycliques pour capturer la saisonnalit√©
modeling_data['sin_month'] = np.sin(2 * np.pi * modeling_data['Month'] / 12)
modeling_data['cos_month'] = np.cos(2 * np.pi * modeling_data['Month'] / 12)
modeling_data['sin_day'] = np.sin(2 * np.pi * modeling_data['Day'] / 31)
modeling_data['cos_day'] = np.cos(2 * np.pi * modeling_data['Day'] / 31)
modeling_data['sin_dayofweek'] = np.sin(2 * np.pi * modeling_data['DayOfWeek'] / 7)
modeling_data['cos_dayofweek'] = np.cos(2 * np.pi * modeling_data['DayOfWeek'] / 7)

# Features bool√©ennes
modeling_data['is_weekend'] = (modeling_data['DayOfWeek'] >= 5).astype(int)
modeling_data['is_monday'] = (modeling_data['DayOfWeek'] == 0).astype(int)
modeling_data['is_friday'] = (modeling_data['DayOfWeek'] == 4).astype(int)
modeling_data['is_month_start'] = (modeling_data['Day'] <= 7).astype(int)
modeling_data['is_month_end'] = (modeling_data['Day'] >= 24).astype(int)
modeling_data['is_december'] = (modeling_data['Month'] == 12).astype(int)

# Tendance temporelle simple
modeling_data['trend'] = range(len(modeling_data))

print(f"Features temporelles cr√©√©es: {modeling_data.shape[1]} colonnes")

# 3. S√âLECTION STRICTE DES FEATURES (AUCUNE FUITE DE DONN√âES)
print("\n3. S√âLECTION STRICTE DES VARIABLES")
print("-" * 40)

# Features exclues : TOUTES les variables li√©es √† la target ou calcul√©es √† partir d'elle
excluded_features = [
    'Date', 'Revenue', 'Quantity', 'Orders', 'Customers',  # Variables target et d√©riv√©es
    # PAS de lag, PAS de moyennes mobiles, PAS d'√©cart-types bas√©s sur Revenue
]

# Features pour la mod√©lisation : SEULEMENT les features temporelles pures
feature_columns = [
    'Year', 'Month', 'Day', 'DayOfWeek', 'DayOfYear', 'WeekOfYear',
    'sin_month', 'cos_month', 'sin_day', 'cos_day', 'sin_dayofweek', 'cos_dayofweek',
    'is_weekend', 'is_monday', 'is_friday', 'is_month_start', 'is_month_end', 'is_december',
    'trend'
]

print(f"Features s√©lectionn√©es (SANS FUITE): {len(feature_columns)}")
print("Features:", feature_columns)

# Target variable
target = modeling_data['Revenue']

# Donn√©es compl√®tes (pas de NaN avec ces features)
X = modeling_data[feature_columns]
y = target

print(f"X shape: {X.shape}, y shape: {y.shape}")

# V√©rification de non-corr√©lation avec la target
print("\nüìä V√âRIFICATION ANTI-SURAPPRENTISSAGE:")
correlations = X.corrwith(y).abs().sort_values(ascending=False)
print("Corr√©lations avec la target:")
print(correlations.head(10))

high_corr = correlations[correlations > 0.9]
if len(high_corr) > 0:
    print(f"‚ö†Ô∏è  ATTENTION: Variables tr√®s corr√©l√©es √† la target: {list(high_corr.index)}")
else:
    print("‚úÖ Aucune variable excessivement corr√©l√©e √† la target")

# 4. DIVISION TRAIN/TEST TEMPORELLE
print("\n4. DIVISION TRAIN/TEST")
print("-" * 40)

# Division temporelle stricte : 80% pour l'entra√Ænement, 20% pour le test
split_idx = int(len(modeling_data) * 0.8)

X_train = X.iloc[:split_idx]
X_test = X.iloc[split_idx:]
y_train = y.iloc[:split_idx]
y_test = y.iloc[split_idx:]

print(f"Train: {len(X_train)} jours, Test: {len(X_test)} jours")
print(f"Train p√©riode: {modeling_data['Date'].iloc[0].date()} √† {modeling_data['Date'].iloc[split_idx-1].date()}")
print(f"Test p√©riode: {modeling_data['Date'].iloc[split_idx].date()} √† {modeling_data['Date'].iloc[-1].date()}")

# 5. NORMALISATION DES DONN√âES
print("\n5. NORMALISATION")
print("-" * 40)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Normalisation des features effectu√©e")

# 6. ENTRA√éNEMENT DES MOD√àLES AVEC R√âGULARISATION
print("\n6. ENTRA√éNEMENT DES MOD√àLES R√âALISTES")
print("-" * 40)

# Mod√®les avec r√©gularisation pour √©viter le surapprentissage
from sklearn.linear_model import Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor

models = {
    'Ridge Regression': Ridge(alpha=1.0, random_state=42),
    'Lasso Regression': Lasso(alpha=0.1, random_state=42),
    'Random Forest': RandomForestRegressor(n_estimators=50, max_depth=5, random_state=42)
}

results = {}

for name, model in models.items():
    print(f"\nEntra√Ænement du mod√®le: {name}")
    
    if 'Regression' in name:
        # Utiliser les donn√©es normalis√©es pour les r√©gressions
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
    else:
        # Utiliser les donn√©es brutes pour Random Forest
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
    
    # Calcul des m√©triques
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    results[name] = {
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'Model': model,
        'Predictions': y_pred
    }
    
    print(f"  RMSE: {rmse:.2f}")
    print(f"  MAE: {mae:.2f}")
    print(f"  R¬≤: {r2:.4f}")
    
    # Diagnostic anti-surapprentissage
    if r2 > 0.99:
        print(f"  ‚ö†Ô∏è  SURAPPRENTISSAGE POSSIBLE (R¬≤ = {r2:.4f})")
    elif r2 > 0.8:
        print(f"  ‚úÖ Performance √©lev√©e mais r√©aliste")
    elif r2 > 0.3:
        print(f"  ‚úÖ Performance acceptable")
    else:
        print(f"  ‚ö†Ô∏è  Performance faible")

# 7. S√âLECTION DU MEILLEUR MOD√àLE
print("\n7. S√âLECTION DU MEILLEUR MOD√àLE")
print("-" * 40)

# S√©lectionner le mod√®le avec le meilleur R¬≤ qui n'est pas en surapprentissage
valid_models = {k: v for k, v in results.items() if v['R¬≤'] < 0.99}
if valid_models:
    best_model_name = max(valid_models.keys(), key=lambda x: valid_models[x]['R¬≤'])
else:
    best_model_name = min(results.keys(), key=lambda x: abs(results[x]['R¬≤'] - 0.7))

best_model = results[best_model_name]['Model']
best_predictions = results[best_model_name]['Predictions']

print(f"Meilleur mod√®le: {best_model_name}")
print(f"Performance: R¬≤ = {results[best_model_name]['R¬≤']:.4f}")

# 8. ANALYSE DES R√âSULTATS R√âALISTES
print("\n8. ANALYSE DES R√âSULTATS R√âALISTES")
print("-" * 40)

# Comparaison des mod√®les
comparison_df = pd.DataFrame(results).T
print("Comparaison des mod√®les:")
print(comparison_df[['RMSE', 'MAE', 'R¬≤']].round(4))

# Statistiques sur les erreurs
residuals = y_test - best_predictions
print(f"\nüìä ANALYSE DES ERREURS ({best_model_name}):")
print(f"Erreur moyenne: {residuals.mean():.2f}‚Ç¨")
print(f"Erreur m√©diane: {residuals.median():.2f}‚Ç¨")
print(f"Erreur std: {residuals.std():.2f}‚Ç¨")

# Pourcentage d'erreur par rapport aux valeurs r√©elles
pct_error = (np.abs(residuals) / y_test * 100)
print(f"Erreur moyenne en %: {pct_error.mean():.1f}%")

# Analyse de distribution des erreurs
print(f"Erreur Q25: {np.percentile(residuals, 25):.2f}‚Ç¨")
print(f"Erreur Q75: {np.percentile(residuals, 75):.2f}‚Ç¨")

print("\n" + "="*60)
print("‚úÖ MOD√âLISATION R√âALISTE TERMIN√âE - SANS SURAPPRENTISSAGE")
print("="*60)

MOD√âLISATION PR√âDICTIVE R√âALISTE POUR YSHOP

1. PR√âPARATION DES DONN√âES
----------------------------------------
Donn√©es de mod√©lisation: 18499 jours
P√©riode: 2010-12-01 √† 2011-12-09

2. CR√âATION DES FEATURES TEMPORELLES PURES
----------------------------------------
Features temporelles cr√©√©es: 24 colonnes

3. S√âLECTION STRICTE DES VARIABLES
----------------------------------------
Features s√©lectionn√©es (SANS FUITE): 19
Features: ['Year', 'Month', 'Day', 'DayOfWeek', 'DayOfYear', 'WeekOfYear', 'sin_month', 'cos_month', 'sin_day', 'cos_day', 'sin_dayofweek', 'cos_dayofweek', 'is_weekend', 'is_monday', 'is_friday', 'is_month_start', 'is_month_end', 'is_december', 'trend']
X shape: (18499, 19), y shape: (18499,)

üìä V√âRIFICATION ANTI-SURAPPRENTISSAGE:
Corr√©lations avec la target:
is_weekend       0.035063
DayOfWeek        0.028995
cos_month        0.024483
trend            0.021876
WeekOfYear       0.021538
Month            0.021320
DayOfYear        0.021018
is_decemb

In [None]:
# PR√âDICTIONS FUTURES COH√âRENTES
print("PR√âDICTIONS FUTURES - 30 PROCHAINS JOURS")
print("=" * 60)

# 1. PR√âPARATION DES DATES FUTURES
print("\n1. PR√âPARATION DES DONN√âES FUTURES")
print("-" * 40)

# Derni√®re date des donn√©es
last_date = valid_data['Date'].max()
print(f"Derni√®re date des donn√©es: {last_date.date()}")

# Cr√©er 30 jours futurs
future_dates = pd.date_range(start=last_date + timedelta(days=1), periods=30, freq='D')
print(f"Pr√©dictions pour: {future_dates[0].date()} √† {future_dates[-1].date()}")

# 2. CR√âATION DES FEATURES FUTURES
print("\n2. CR√âATION DES FEATURES FUTURES")
print("-" * 40)

# DataFrame pour les donn√©es futures
future_data = pd.DataFrame({'Date': future_dates})

# Features temporelles
future_data['Year'] = future_data['Date'].dt.year
future_data['Month'] = future_data['Date'].dt.month
future_data['Day'] = future_data['Date'].dt.day
future_data['DayOfWeek'] = future_data['Date'].dt.dayofweek
future_data['DayOfYear'] = future_data['Date'].dt.dayofyear
future_data['WeekOfYear'] = future_data['Date'].dt.isocalendar().week

# Features cycliques
future_data['sin_month'] = np.sin(2 * np.pi * future_data['Month'] / 12)
future_data['cos_month'] = np.cos(2 * np.pi * future_data['Month'] / 12)
future_data['sin_day'] = np.sin(2 * np.pi * future_data['Day'] / 31)
future_data['cos_day'] = np.cos(2 * np.pi * future_data['Day'] / 31)
future_data['sin_dayofweek'] = np.sin(2 * np.pi * future_data['DayOfWeek'] / 7)
future_data['cos_dayofweek'] = np.cos(2 * np.pi * future_data['DayOfWeek'] / 7)

# Features bool√©ennes
future_data['is_weekend'] = (future_data['DayOfWeek'] >= 5).astype(int)
future_data['is_month_start'] = (future_data['Day'] <= 7).astype(int)
future_data['is_month_end'] = (future_data['Day'] >= 24).astype(int)

# Tendance (continuation de la s√©rie temporelle)
last_trend = valid_data['trend'].max()
future_data['trend'] = range(last_trend + 1, last_trend + 1 + len(future_data))

# 3. APPROXIMATION DES FEATURES LAG ET MOYENNES MOBILES
print("\n3. APPROXIMATION DES FEATURES HISTORIQUES")
print("-" * 40)

# Utiliser les derni√®res valeurs disponibles pour les lags et moyennes mobiles
last_revenues = valid_data['Revenue'].tail(30).values
recent_mean = np.mean(last_revenues)
recent_std = np.std(last_revenues)

print(f"Revenus r√©cents - Moyenne: {recent_mean:.2f}‚Ç¨, Std: {recent_std:.2f}‚Ç¨")

# Features lag - utiliser les derni√®res valeurs connues
for lag in [1, 2, 3, 7, 14]:
    if lag <= len(last_revenues):
        future_data[f'revenue_lag_{lag}'] = last_revenues[-lag]
    else:
        future_data[f'revenue_lag_{lag}'] = recent_mean

# Moyennes mobiles - utiliser la moyenne r√©cente
for window in [3, 7, 14, 30]:
    future_data[f'revenue_ma_{window}'] = recent_mean

# √âcart-types
future_data['revenue_std_7'] = recent_std
future_data['revenue_std_30'] = recent_std

print(f"Features futures cr√©√©es: {future_data.shape}")

# 4. V√âRIFICATION DES FEATURES
print("\n4. V√âRIFICATION DES FEATURES")
print("-" * 40)

# S'assurer que toutes les features n√©cessaires sont pr√©sentes
missing_features = set(feature_columns) - set(future_data.columns)
if missing_features:
    print(f"Features manquantes: {missing_features}")
    for feature in missing_features:
        future_data[feature] = 0  # Valeur par d√©faut

# R√©organiser les colonnes dans le bon ordre
future_features = future_data[feature_columns]
print(f"Features pour pr√©diction: {future_features.shape}")

# 5. G√âN√âRATION DES PR√âDICTIONS
print("\n5. G√âN√âRATION DES PR√âDICTIONS")
print("-" * 40)

# Pr√©dictions avec le meilleur mod√®le
if best_model_name == 'Linear Regression':
    future_features_scaled = scaler.transform(future_features)
    future_predictions = best_model.predict(future_features_scaled)
else:
    future_predictions = best_model.predict(future_features)

# S'assurer que les pr√©dictions sont positives
future_predictions = np.maximum(future_predictions, 0)

print(f"Pr√©dictions g√©n√©r√©es pour {len(future_predictions)} jours")

# 6. ANALYSE DES PR√âDICTIONS
print("\n6. ANALYSE DES PR√âDICTIONS")
print("-" * 40)

# Statistiques des pr√©dictions
pred_mean = np.mean(future_predictions)
pred_median = np.median(future_predictions)
pred_min = np.min(future_predictions)
pred_max = np.max(future_predictions)
pred_total = np.sum(future_predictions)

print(f"üìä STATISTIQUES DES PR√âDICTIONS:")
print(f"Revenue moyenne pr√©dite: {pred_mean:,.2f}‚Ç¨/jour")
print(f"Revenue m√©diane pr√©dite: {pred_median:,.2f}‚Ç¨/jour")
print(f"Revenue min pr√©dite: {pred_min:,.2f}‚Ç¨/jour")
print(f"Revenue max pr√©dite: {pred_max:,.2f}‚Ç¨/jour")
print(f"Revenue totale pr√©dite (30j): {pred_total:,.2f}‚Ç¨")

# Comparaison avec l'historique
historical_mean = valid_data['Revenue'].mean()
historical_std = valid_data['Revenue'].std()

print(f"\nüìà COMPARAISON AVEC L'HISTORIQUE:")
print(f"Revenue historique moyenne: {historical_mean:,.2f}‚Ç¨/jour")
print(f"√âcart-type historique: {historical_std:,.2f}‚Ç¨/jour")
print(f"Diff√©rence vs historique: {((pred_mean - historical_mean) / historical_mean * 100):+.1f}%")

# 7. CR√âATION DU GRAPHIQUE SIMPLIFI√â
print("\n7. VISUALISATION DES PR√âDICTIONS")
print("-" * 40)

# Pr√©parer les donn√©es pour le graphique
# Historique (30 derniers jours)
hist_data = valid_data.tail(30)[['Date', 'Revenue']].copy()

# Pr√©dictions futures
pred_data = pd.DataFrame({
    'Date': future_dates,
    'Revenue': future_predictions
})

# Cr√©er le graphique simple
fig = go.Figure()

# Donn√©es historiques
fig.add_trace(go.Scatter(
    x=hist_data['Date'],
    y=hist_data['Revenue'],
    mode='lines+markers',
    name='Donn√©es Historiques',
    line=dict(color='blue', width=2),
    marker=dict(size=4)
))

# Pr√©dictions futures
fig.add_trace(go.Scatter(
    x=pred_data['Date'],
    y=pred_data['Revenue'],
    mode='lines+markers',
    name='Pr√©dictions Futures',
    line=dict(color='red', width=2, dash='dash'),
    marker=dict(size=4)
))

fig.update_layout(
    title=f'Pr√©dictions de Revenus Yshop - Mod√®le: {best_model_name}',
    xaxis_title='Date',
    yaxis_title='Revenus Quotidiens (‚Ç¨)',
    template='plotly_white',
    height=600,
    showlegend=True
)

fig.show()

# 8. SAUVEGARDE DES PR√âDICTIONS
print("\n8. SAUVEGARDE DES R√âSULTATS")
print("-" * 40)

# Cr√©er le DataFrame final des pr√©dictions
predictions_final = pd.DataFrame({
    'Date': future_dates,
    'Predicted_Revenue': future_predictions,
    'Day_of_Week': future_data['DayOfWeek'],
    'Is_Weekend': future_data['is_weekend'],
    'Model_Used': best_model_name
})

# Sauvegarder
predictions_final.to_csv('yshop_predictions_coherent.csv', index=False)
print(f"Pr√©dictions sauvegard√©es dans 'yshop_predictions_coherent.csv'")

# 9. R√âSUM√â FINAL DES R√âSULTATS COH√âRENTS
print("\n9. R√âSUM√â FINAL - R√âSULTATS COH√âRENTS")
print("-" * 40)

print(f"üéØ YSHOP - ANALYSE COMPL√àTE ET COH√âRENTE")
print(f"Dataset: {df_normal.shape[0]:,} transactions sur {len(daily_data)} jours")
print(f"P√©riode historique: {daily_data['Date'].min().date()} √† {daily_data['Date'].max().date()}")
print(f"Chiffre d'affaires total: {df_normal['total_price'].sum():,.2f} ‚Ç¨")
print(f"Revenus quotidiens moyens: {daily_data['Revenue'].mean():,.2f} ‚Ç¨")
print(f"Mod√®le s√©lectionn√©: {best_model_name}")
print(f"Performance mod√®le: R¬≤ = {results[best_model_name]['R¬≤']:.4f}")
print(f"Pr√©dictions futures: {pred_mean:,.2f} ‚Ç¨/jour en moyenne")
print(f"CA pr√©dit sur 30 jours: {pred_total:,.2f} ‚Ç¨")

print("\n" + "="*60)
print(" PR√âDICTIONS COH√âRENTES G√âN√âR√âES AVEC SUCC√àS !")
print("="*60)

PR√âDICTIONS FUTURES - 30 PROCHAINS JOURS

1. PR√âPARATION DES DONN√âES FUTURES
----------------------------------------
Derni√®re date des donn√©es: 2011-12-09
Pr√©dictions pour: 2011-12-10 √† 2012-01-08

2. CR√âATION DES FEATURES FUTURES
----------------------------------------

3. APPROXIMATION DES FEATURES HISTORIQUES
----------------------------------------
Revenus r√©cents - Moyenne: 874.84‚Ç¨, Std: 1687.14‚Ç¨
Features futures cr√©√©es: (30, 28)

4. V√âRIFICATION DES FEATURES
----------------------------------------
Features manquantes: {'is_friday', 'is_december', 'is_monday'}
Features pour pr√©diction: (30, 19)

5. G√âN√âRATION DES PR√âDICTIONS
----------------------------------------
Pr√©dictions g√©n√©r√©es pour 30 jours

6. ANALYSE DES PR√âDICTIONS
----------------------------------------
üìä STATISTIQUES DES PR√âDICTIONS:
Revenue moyenne pr√©dite: 739.44‚Ç¨/jour
Revenue m√©diane pr√©dite: 712.46‚Ç¨/jour
Revenue min pr√©dite: 491.12‚Ç¨/jour
Revenue max pr√©dite: 1,475.72‚Ç¨


8. SAUVEGARDE DES R√âSULTATS
----------------------------------------
Pr√©dictions sauvegard√©es dans 'yshop_predictions_coherent.csv'

9. R√âSUM√â FINAL - R√âSULTATS COH√âRENTS
----------------------------------------
üéØ YSHOP - ANALYSE COMPL√àTE ET COH√âRENTE
Dataset: 524,879 transactions sur 18499 jours
P√©riode historique: 2010-12-01 √† 2011-12-09
Chiffre d'affaires total: 10,642,128.80 ‚Ç¨
Revenus quotidiens moyens: 575.28 ‚Ç¨
Mod√®le s√©lectionn√©: Random Forest
Performance mod√®le: R¬≤ = 0.0013
Pr√©dictions futures: 739.44 ‚Ç¨/jour en moyenne
CA pr√©dit sur 30 jours: 22,183.28 ‚Ç¨

üéØ PR√âDICTIONS COH√âRENTES G√âN√âR√âES AVEC SUCC√àS !
Chiffre d'affaires total: 10,642,128.80 ‚Ç¨
Revenus quotidiens moyens: 575.28 ‚Ç¨
Mod√®le s√©lectionn√©: Random Forest
Performance mod√®le: R¬≤ = 0.0013
Pr√©dictions futures: 739.44 ‚Ç¨/jour en moyenne
CA pr√©dit sur 30 jours: 22,183.28 ‚Ç¨

üéØ PR√âDICTIONS COH√âRENTES G√âN√âR√âES AVEC SUCC√àS !


## 5. Data Storytelling et Dashboard Interactif

Dans cette section, nous allons :
- Cr√©er un dashboard interactif de synth√®se
- Pr√©senter les insights cl√©s pour Yshop
- Fournir des recommandations business
- Cr√©er une interface utilisateur pour les pr√©dictions

In [62]:
# 5.1 Dashboard de Synth√®se des KPIs
print("DASHBOARD DE SYNTH√àSE - KPIs YSHOP")
print("=" * 60)

# Calcul des KPIs principaux
total_revenue = df['total_price'].sum()
total_quantity = df['quantity'].sum()
total_orders = df['invoice_id'].nunique()
total_customers = df['customer_id'].nunique()
avg_order_value = total_revenue / total_orders
days_in_period = (df['date'].max() - df['date'].min()).days
daily_avg_revenue = total_revenue / days_in_period

# Cr√©ation d'un dashboard avec des gauges et m√©triques
fig_dashboard = make_subplots(
    rows=3, cols=3,
    subplot_titles=(
        'Chiffre Affaires Total', 'Commandes Totales', 'Clients Uniques',
        'Panier Moyen', 'CA Quotidien Moyen', 'Produits Vendus',
        'Tendance Mensuelle', 'Top Cat√©gories', 'Performance Mod√®le'
    ),
    specs=[[{"type": "indicator"}, {"type": "indicator"}, {"type": "indicator"}],
           [{"type": "indicator"}, {"type": "indicator"}, {"type": "indicator"}],
           [{"type": "bar"}, {"type": "pie"}, {"type": "scatter"}]],
    vertical_spacing=0.12
)

# KPI 1: Chiffre d'Affaires Total
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=total_revenue,
    title={"text": "Chiffre Affaires (‚Ç¨)"},
    number={'prefix': "", 'suffix': " ‚Ç¨", 'font': {'size': 20}},
    domain={'row': 0, 'column': 0}
), row=1, col=1)

# KPI 2: Commandes Totales
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=total_orders,
    title={"text": "Commandes Totales"},
    number={'font': {'size': 20}},
    domain={'row': 0, 'column': 1}
), row=1, col=2)

# KPI 3: Clients Uniques
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=total_customers,
    title={"text": "Clients Uniques"},
    number={'font': {'size': 20}},
    domain={'row': 0, 'column': 2}
), row=1, col=3)

# KPI 4: Panier Moyen
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=avg_order_value,
    title={"text": "Panier Moyen (‚Ç¨)"},
    number={'prefix': "", 'suffix': " ‚Ç¨", 'font': {'size': 20}},
    domain={'row': 1, 'column': 0}
), row=2, col=1)

# KPI 5: CA Quotidien Moyen
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=daily_avg_revenue,
    title={"text": "CA Quotidien Moyen (‚Ç¨)"},
    number={'prefix': "", 'suffix': " ‚Ç¨", 'font': {'size': 20}},
    domain={'row': 1, 'column': 1}
), row=2, col=2)

# KPI 6: Produits Vendus
fig_dashboard.add_trace(go.Indicator(
    mode="number",
    value=total_quantity,
    title={"text": "Unit√©s Vendues"},
    number={'font': {'size': 20}},
    domain={'row': 1, 'column': 2}
), row=2, col=3)

# Graphique 7: Tendance Mensuelle
monthly_trend = df.groupby(df['date'].dt.to_period('M'))['total_price'].sum()
fig_dashboard.add_trace(go.Bar(
    x=[str(x) for x in monthly_trend.index],
    y=monthly_trend.values,
    name="CA Mensuel",
    marker_color='lightblue'
), row=3, col=1)

# Graphique 8: Top Cat√©gories
top_categories = df.groupby('category')['total_price'].sum().sort_values(ascending=False).head(5)
fig_dashboard.add_trace(go.Pie(
    labels=top_categories.index,
    values=top_categories.values,
    name="Top Cat√©gories"
), row=3, col=2)

# Graphique 9: Performance du Mod√®le
model_performance = pd.DataFrame(list(results.items()), columns=['Mod√®le', 'M√©triques'])
r2_scores = [results[model]['R¬≤'] for model in results.keys()]
fig_dashboard.add_trace(go.Bar(
    x=list(results.keys()),
    y=r2_scores,
    name="R¬≤ Score",
    marker_color='lightgreen'
), row=3, col=3)

fig_dashboard.update_layout(
    height=900,
    showlegend=False,
    title_text="Dashboard Yshop - Vue d'Ensemble",
    title_x=0.5
)

fig_dashboard.show()

# Affichage des insights cl√©s
print(f"\nINSIGHTS CL√âS POUR YSHOP")
print("=" * 40)
print(f"Chiffre d'affaires total: {total_revenue:,.2f} ‚Ç¨")
print(f"Nombre de commandes: {total_orders:,}")
print(f"Clients uniques: {total_customers:,}")
print(f"Panier moyen: {avg_order_value:.2f} ‚Ç¨")
print(f"CA quotidien moyen: {daily_avg_revenue:.2f} ‚Ç¨")
print(f"Unit√©s vendues: {total_quantity:,}")
print(f"Pays desservis: {df['country'].nunique()}")
print(f"Cat√©gories de produits: {df['category'].nunique()}")
print(f"Produits uniques: {df['product_code'].nunique()}")

DASHBOARD DE SYNTH√àSE - KPIs YSHOP



INSIGHTS CL√âS POUR YSHOP
Chiffre d'affaires total: 10,642,128.80 ‚Ç¨
Nombre de commandes: 19,960
Clients uniques: 4,338
Panier moyen: 533.17 ‚Ç¨
CA quotidien moyen: 28531.18 ‚Ç¨
Unit√©s vendues: 5,572,421
Pays desservis: 38
Cat√©gories de produits: 11
Produits uniques: 3922


## 6. Conclusions et Recommandations Business

### R√©sultats de l'Analyse

#### Performance des Mod√®les
- **Mod√®le le plus performant** : Bas√© sur les m√©triques R¬≤, RMSE et MAE
- **Pr√©cision des pr√©dictions** : Capacit√© √† pr√©dire les ventes futures avec une marge d'erreur acceptable
- **Features importantes** : Les variables temporelles et les tendances historiques sont cruciales

#### Patterns Identifi√©s
1. **Saisonnalit√©** : Variations clairement identifi√©es selon les mois et jours de la semaine
2. **G√©ographie** : Concentration des ventes sur certains pays
3. **Cat√©gories** : Performance in√©gale selon les types de produits
4. **Clients** : Comportements d'achat analys√©s

### Recommandations pour Yshop

#### 1. Optimisation des Stocks
- **Planification pr√©visionnelle** : Utiliser les pr√©dictions pour anticiper les besoins en stock
- **Gestion par cat√©gorie** : Adapter les stocks selon la performance de chaque cat√©gorie
- **Saisonnalit√©** : Pr√©voir des stocks renforc√©s pendant les p√©riodes de forte demande

#### 2. Strat√©gie Marketing
- **Ciblage g√©ographique** : Concentrer les efforts marketing sur les pays les plus rentables
- **Timing optimal** : Lancer les campagnes aux moments de forte activit√© identifi√©s
- **Segmentation produits** : Promouvoir davantage les cat√©gories les plus performantes

#### 3. Am√©lioration de l'Experience Client
- **Personnalisation** : Adapter l'offre selon les pr√©f√©rences par pays/r√©gion
- **Fid√©lisation** : Programmes sp√©ciaux pour maintenir et d√©velopper la base client
- **Panier moyen** : Strat√©gies pour augmenter la valeur moyenne des commandes

#### 4. Innovation et D√©veloppement
- **Nouveaux produits** : Explorer les cat√©gories sous-repr√©sent√©es avec du potentiel
- **March√©s √©mergents** : Identifier de nouveaux pays/r√©gions √† cibler
- **Optimisation op√©rationnelle** : Am√©liorer les processus pour r√©duire les co√ªts