## Compréhension des données

In [1]:
# Importation des librairies
import pandas as pd

In [2]:
data = pd.read_csv("../data/amazon_sales_data 2025.csv")
data.head(10)

Unnamed: 0,Order ID,Date,Product,Category,Price,Quantity,Total Sales,Customer Name,Customer Location,Payment Method,Status
0,ORD0001,14-03-25,Running Shoes,Footwear,60,3,180,Emma Clark,New York,Debit Card,Cancelled
1,ORD0002,20-03-25,Headphones,Electronics,100,4,400,Emily Johnson,San Francisco,Debit Card,Pending
2,ORD0003,15-02-25,Running Shoes,Footwear,60,2,120,John Doe,Denver,Amazon Pay,Cancelled
3,ORD0004,19-02-25,Running Shoes,Footwear,60,3,180,Olivia Wilson,Dallas,Credit Card,Pending
4,ORD0005,10-03-25,Smartwatch,Electronics,150,3,450,Emma Clark,New York,Debit Card,Pending
5,ORD0006,14-03-25,T-Shirt,Clothing,20,1,20,John Doe,Dallas,Credit Card,Pending
6,ORD0007,18-03-25,Smartwatch,Electronics,150,4,600,Emma Clark,Houston,PayPal,Completed
7,ORD0008,02-03-25,Smartphone,Electronics,500,1,500,Sophia Miller,Miami,PayPal,Completed
8,ORD0009,08-03-25,T-Shirt,Clothing,20,3,60,Sophia Miller,Boston,PayPal,Completed
9,ORD0010,12-03-25,Smartphone,Electronics,500,1,500,Emily Johnson,San Francisco,Credit Card,Cancelled


Dans notre DataFrame, nous avons 11 variables dont huit qualitatives et trois quantitatives. À première vue, notre DataFrame semble être clean (pas d'incohérence, pas de valeurs manquantes NaN, ni d'erreurs lexicales ou de formatage). On aura à modifier la colonne `Date` en format datetime.

In [3]:
# Dimensions de la DataFrame
data.shape

(250, 11)

On a 250 observations et 11 variables.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Order ID           250 non-null    object
 1   Date               250 non-null    object
 2   Product            250 non-null    object
 3   Category           250 non-null    object
 4   Price              250 non-null    int64 
 5   Quantity           250 non-null    int64 
 6   Total Sales        250 non-null    int64 
 7   Customer Name      250 non-null    object
 8   Customer Location  250 non-null    object
 9   Payment Method     250 non-null    object
 10  Status             250 non-null    object
dtypes: int64(3), object(8)
memory usage: 21.6+ KB


Aucune colonne ne contient des valeurs manquantes, les variables sont au bon format (sauf la `Date` qu'on modifiera plus bas). Tout semble nickel !

In [5]:
# Résumé descriptif des variables
data.describe()

Unnamed: 0,Price,Quantity,Total Sales
count,250.0,250.0,250.0
mean,343.58,2.856,975.38
std,380.635808,1.429489,1252.112254
min,15.0,1.0,15.0
25%,40.0,2.0,100.0
50%,150.0,3.0,400.0
75%,600.0,4.0,1500.0
max,1200.0,5.0,6000.0


Les variables quantitatives semblent être correcte d'un point de vue répartition. On peut juste remarquer une forte dispersion du prix et du total des ventes.

En tout, la DataFrame semble être assez propre. Lors de notre analyse, on se concentrera sur des indicateurs clés tels que la quantité moyenne de commandes, le prix total des ventes, etc.

## Nettoyage et Préparation des Données

À présent, on s'occupe de la mise en forme de la DataFrame :
- Standardisation des noms de variables
- Formatage des dates
- Vérification de la cohérence `prix * quantité = Total Sales`
- Suppression des doublons

In [6]:
# fonction de standardisation
def stand_col(colname:str) -> str:
    colname = str.lower(colname.replace(" ", "_"))
    return colname

In [7]:
# Standardisation des noms de colonnes
for column in data.columns:
    data.rename(columns={
        column: stand_col(column)
    }, inplace=True)

In [8]:
data.columns

Index(['order_id', 'date', 'product', 'category', 'price', 'quantity',
       'total_sales', 'customer_name', 'customer_location', 'payment_method',
       'status'],
      dtype='object')

Colonnes bien renommées.

In [9]:
# Formatage de la colonne `date`
data['date'] = pd.to_datetime(data['date'], format="%d-%m-%y", errors="coerce")

In [10]:
data['date'].head(3)

0   2025-03-14
1   2025-03-20
2   2025-02-15
Name: date, dtype: datetime64[ns]

Date formatée avec succès

In [11]:
# Vérification de la cohérence `prix * quantité = Total Sales`
mask = (data['total_sales'] != data['price'] * data['quantity'])
data.loc[mask, 'order_id']

Series([], Name: order_id, dtype: object)

Aucune incohérence détecté

In [12]:
# Vérification des doublons
data.duplicated().sum()

np.int64(0)

Aucun doublon

On peut à présent sauvegarder notre jeu de données nettoyé.

In [13]:
data.to_csv("../output/cleaned_data/data_clean.csv", index=False)