# Voici les étapes de notre travail au sein du lab, pour préparer les données

## 1- Handle missing data, if any.

##### Importation des bibliothèque

In [3]:
import numpy as np
import pandas as pd

#### chargement des données en dataframe

In [74]:
data = pd.read_excel('dataset_lab1.xlsx')
data = pd.DataFrame(data)

In [61]:
# visualisation
data

Unnamed: 0,ProductID,Date,QuantitySold,Price
0,101,2022-01-01,10.0,25.0
1,102,2022-01-01,8.0,30.0
2,101,2022-01-02,15.0,25.0
3,103,2022-01-02,5.0,50.0
4,102,2022-01-03,12.0,32.0
...,...,...,...,...
63,101,2022-01-16,15.0,29.0
64,113,NaT,8.0,38.0
65,114,2022-01-18,,35.0
66,115,2022-01-19,6.0,


##### Nous allons tester l'existence de valeurs manquantes

In [62]:
count_missing_values = data.isnull().sum()
count_missing_values

ProductID       0
Date            2
QuantitySold    2
Price           2
dtype: int64

###### On peut bien remarquer qu'il y a des valeurs manquantes dans certaines colonnes, nous allons donc les traiter

In [63]:
# remplaçons les dates manquantes par les dates précédentes
data['Date'].ffill(inplace=True)
data

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  data['Date'].ffill(inplace=True)


Unnamed: 0,ProductID,Date,QuantitySold,Price
0,101,2022-01-01,10.0,25.0
1,102,2022-01-01,8.0,30.0
2,101,2022-01-02,15.0,25.0
3,103,2022-01-02,5.0,50.0
4,102,2022-01-03,12.0,32.0
...,...,...,...,...
63,101,2022-01-16,15.0,29.0
64,113,2022-01-16,8.0,38.0
65,114,2022-01-18,,35.0
66,115,2022-01-19,6.0,


##### vérification des traitements

In [64]:
count_missing_values = data.isnull().sum()
count_missing_values

ProductID       0
Date            0
QuantitySold    2
Price           2
dtype: int64

###### Remplaçons les prix manquants par les prix des produits correspondant (par recherche de l'ID)

In [65]:
# 1. Créons un dictionnaire des prix non manquants par ID produit
prix_par_id = data.groupby('ProductID')['Price'].first().to_dict()

# 2. Remplaçons les valeurs manquantes (NaN) dans la colonne 'Prix'
data['Price'] = data.apply(
    lambda row: prix_par_id[row['ProductID']] if pd.isna(row['Price']) else row['Price'],
    axis=1
)

###### Vérification

In [66]:
count_missing_values = data.isnull().sum()
count_missing_values

ProductID       0
Date            0
QuantitySold    2
Price           2
dtype: int64

##### Ce traitement n'a pas marché correctement car les prix manquants non pas été retrouvés Autres alternatives : nous allons remplaçer par la median des prix (pour prévenir contre l'effet des outliers)

In [75]:
data['Price'] = data['Price'].fillna(data['Price'].median())
data['Price'] = data['Price'].infer_objects(copy=False)
data

Unnamed: 0,ProductID,Date,QuantitySold,Price
0,101,2022-01-01,10.0,25.0
1,102,2022-01-01,8.0,30.0
2,101,2022-01-02,15.0,25.0
3,103,2022-01-02,5.0,50.0
4,102,2022-01-03,12.0,32.0
...,...,...,...,...
63,101,2022-01-16,15.0,29.0
64,113,NaT,8.0,38.0
65,114,2022-01-18,,35.0
66,115,2022-01-19,6.0,34.0


##### Suppression des lignes contenants des valeurs manquantes à la colonnes Quantité payé (la quantité payé dépend étroitement de la commande)

In [68]:
data = data.dropna(subset = ['QuantitySold'])
data

Unnamed: 0,ProductID,Date,QuantitySold,Price
0,101,2022-01-01,10.0,25.000000
1,102,2022-01-01,8.0,30.000000
2,101,2022-01-02,15.0,25.000000
3,103,2022-01-02,5.0,50.000000
4,102,2022-01-03,12.0,32.000000
...,...,...,...,...
61,111,2022-01-15,3.0,57.000000
62,112,2022-01-16,9.0,33.000000
63,101,2022-01-16,15.0,29.000000
64,113,2022-01-16,8.0,38.000000


##### Vérification

In [69]:
count_missing_values = data.isnull().sum()
count_missing_values

ProductID       0
Date            0
QuantitySold    0
Price           0
dtype: int64

## 2- Remove any duplicate rows.

In [73]:
data_no_duplicate = data.drop_duplicates()
data_no_duplicate

Unnamed: 0,ProductID,Date,QuantitySold,Price
0,101,2022-01-01,10.0,25.0
1,102,2022-01-01,8.0,30.0
2,101,2022-01-02,15.0,25.0
3,103,2022-01-02,5.0,50.0
4,102,2022-01-03,12.0,32.0
5,101,2022-01-03,18.0,24.0
6,104,2022-01-04,7.0,45.0
7,102,2022-01-04,10.0,30.0
8,103,2022-01-05,3.0,52.0
9,101,2022-01-05,140.0,24.5
