In [None]:
# -*- coding: utf-8 -*-
# <nbformat>4.1</nbformat>

# <codecell>

import pandas as pd
import numpy as np

# Configuration pour afficher toutes les colonnes des DataFrames
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# D√©finition du chemin du fichier de donn√©es
DATA_PATH = '../app/data/raw/online_retail_ii.xlsx' # Assurez-vous d'avoir le fichier dans ce chemin

# Chargement du jeu de donn√©es (Online Retail II)
try:
    # Lecture du fichier Excel. Assurez-vous d'utiliser le bon nom de fichier (ici .xlsx)
    df = pd.read_excel(DATA_PATH)
    print("Donn√©es charg√©es avec succ√®s.")
except FileNotFoundError:
    print(f"ERREUR : Le fichier de donn√©es est introuvable √† l'adresse {DATA_PATH}.")
    print("Veuillez t√©l√©charger le jeu de donn√©es 'Online Retail II' et le placer dans 'app/data/raw/'.")
    df = pd.DataFrame() # Cr√©e un DataFrame vide en cas d'erreur
    
# Affichage des 5 premi√®res lignes pour un aper√ßu rapide
if not df.empty:
    display(df.head())

# <markdown>
# # Partie I : Notebook d'Exploration Visuelle Compl√®te
# 
# L'objectif de cette premi√®re phase est d'acqu√©rir une compr√©hension exhaustive du jeu de donn√©es *Online Retail II* (UCI) afin de cadrer les analyses et la construction de l'application Streamlit.
# 
# ---
# 
# ## Fiche Synth√©tique des Donn√©es
# 
# ### 1. Source, Volume et P√©riode

# <codecell>

if not df.empty:
    # 1. Volume et P√©riode
    print(f"Source: Online Retail II (UCI)")
    print(f"Volume: {df.shape[0]:,} lignes et {df.shape[1]} colonnes")
    
    # Conversion de la colonne d'horodatage si n√©cessaire (assumant qu'elle est d√©j√† en datetime si l'on utilise read_excel)
    # df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate']) 
    
    min_date = df['InvoiceDate'].min()
    max_date = df['InvoiceDate'].max()
    
    print(f"P√©riode couverte : Du {min_date.strftime('%d/%m/%Y')} au {max_date.strftime('%d/%m/%Y')}")
    print(f"Clients uniques : {df['Customer ID'].nunique():,} (excluant les valeurs manquantes)")

# <markdown>
# ### 2. Dictionnaire des Variables (√Ä Compl√©ter)
# 
# Remplissez ce tableau avec les d√©tails de chaque colonne.
# 
# | Nom de la Variable | Type (Python) | S√©mantique | Unit√©s/Valeurs | Colonne Importante? |
# |:------------------|:--------------|:-----------|:---------------|:-------------------|
# | `InvoiceNo`       | object        | Num√©ro de facture. Commence par 'C' si annulation (retour). | Entier/Cha√Æne de caract√®res | Oui |
# | `StockCode`       | object        | Code produit (Item). | Cha√Æne de caract√®res | Oui |
# | `Description`     | object        | Nom du produit. | Cha√Æne de caract√®res | Oui |
# | `Quantity`        | int64         | Quantit√© de produits achet√©s par transaction. | Nombre entier | Oui |
# | `InvoiceDate`     | datetime64[ns]| Date et heure de la transaction. | Horodatage | Oui |
# | `Price`           | float64       | Prix unitaire du produit. | Mon√©taire (GBP, assum√©) | Oui |
# | `Customer ID`     | float64       | Identifiant unique du client. | Entier (float avec NaN) | Oui |
# | `Country`         | object        | Pays de destination de la commande. | Cha√Æne de caract√®res | Oui |
# 
# ## Qualit√© des Donn√©es
# 
# ### 3. Valeurs Manquantes

# <codecell>

if not df.empty:
    print("Aper√ßu des valeurs manquantes par colonne (en %):")
    missing_data = df.isnull().sum() / len(df) * 100
    display(missing_data[missing_data > 0].sort_values(ascending=False))
    
    # Notez l'importance des ID clients manquants pour l'analyse CLV/Cohortes
    nan_customers_count = df['Customer ID'].isnull().sum()
    print(f"\nTotal des lignes sans Customer ID : {nan_customers_count:,} ({missing_data['Customer ID']:.2f} % des donn√©es).")

# <markdown>
# ### 4. R√®gles d'Annulation (Retours) et Outliers
# 
# **R√®gle :** Les factures (`InvoiceNo`) commen√ßant par "C" sont des annulations ou des retours.

# <codecell>

if not df.empty:
    # Identifier les retours
    df['is_return'] = df['InvoiceNo'].astype(str).str.startswith('C')
    return_count = df['is_return'].sum()
    
    print(f"Nombre total de transactions : {df.shape[0]:,}")
    print(f"Nombre de retours (lignes 'C...') : {return_count:,} ({return_count/df.shape[0]*100:.2f} % du total)")

    # V√©rification des outliers sur Quantity et Price
    print("\nStatistiques sur les quantit√©s et les prix (incluant les retours/annulations):")
    display(df[['Quantity', 'Price']].describe().T)

    # Filtrer les quantit√©s ou prix nuls/n√©gatifs (autres que les retours marqu√©s 'C')
    negative_quantity = df[df['Quantity'] < 0].shape[0]
    zero_price = df[df['Price'] <= 0].shape[0]

    print(f"\nLignes avec Quantity < 0 (hors 'C'): {negative_quantity:,}")
    print(f"Lignes avec Price <= 0: {zero_price:,}")
    
    print("\n--- Poursuivre avec la suppression des doublons et la cr√©ation des premi√®res m√©triques (ex: TotalPrice) ---")

# <markdown>
# ## Prochaine √âtape : Nettoyage et Cr√©ation de M√©triques
# 
# Une fois cette exploration termin√©e, l'√©tape logique est :
# 1. **Nettoyer** : Supprimer les lignes avec ID client manquant.
# 2. **Pr√©traiter** : G√©rer les retours (les neutraliser, les exclure, ou les utiliser, selon l'approche souhait√©e).
# 3. **Calculer** : Cr√©er la colonne `TotalRevenue` (`Quantity` * `Price`).
# 4. **Visualiser** : Cr√©er les 6-8 graphiques demand√©s.

# <codecell>
# Fin du Notebook initial.

--- V√âRIFICATION DE L'ENVIRONNEMENT ---

üöÄ TOUS LES SYST√àMES SONT OP√âRATIONNELS.

1. CHARGEMENT ET FICHE D'IDENTIT√â
‚ùå ERREUR CRITIQUE : Le fichier 'data_clean.csv' est introuvable dans le dossier.
   Veuillez v√©rifier que le fichier est bien √† c√¥t√© de ce notebook.


FileNotFoundError: [Errno 2] No such file or directory: 'data_clean.csv'