## Table des matières

- [Identification des données à nettoyer](#nettoyage)
    - [Fichier customers](#customers)
    - [Fichier products](#products)
    - [Fichier transactions](#transactions)
- [Scripts de nettoyage](#script)
   - [Fichier products](#script_products)
   - [Fichier transactions](#script_transactions)

In [34]:
import numpy as np
import pandas as pd

In [35]:
customers=pd.read_csv('customers.csv')
products = pd.read_csv('products.csv')
transactions = pd.read_csv('transactions.csv')

<a id="nettoyage"></a>
## Identification des données à nettoyer

<a id="customers"></a>
### Fichier customers

In [36]:
customers

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943
...,...,...,...
8618,c_7920,m,1956
8619,c_7403,f,1970
8620,c_5119,m,1974
8621,c_5643,f,1968


In [37]:
customers.birth.unique()

# Les valeurs de 'birth' sont cohérentes

array([1967, 1975, 1984, 1962, 1943, 1993, 1978, 1971, 1982, 1945, 2003,
       1959, 1977, 1954, 1987, 2000, 1992, 1963, 1958, 1994, 1936, 1986,
       1942, 1970, 1957, 1968, 2002, 2004, 1979, 1974, 1964, 1951, 1937,
       1981, 1965, 1960, 1996, 1983, 1990, 1955, 1988, 1991, 1972, 1980,
       1989, 1976, 1985, 1953, 1998, 1956, 1948, 1973, 1969, 1938, 1995,
       1952, 1949, 1999, 2001, 1939, 1950, 1966, 1935, 1941, 1961, 1997,
       1944, 1929, 1947, 1946, 1932, 1931, 1933, 1930, 1940, 1934])

In [38]:
customers.sex.unique()

# Les valeurs de 'sex' sont cohérentes

array(['f', 'm'], dtype=object)

In [39]:
customers.client_id.unique()

# Les valeurs de 'client_id' sont cohérentes

array(['c_4410', 'c_7839', 'c_1699', ..., 'c_5119', 'c_5643', 'c_84'],
      dtype=object)

In [40]:
customers.duplicated(subset='client_id').sum()

# Pas de doublons

0

In [41]:
customers.isnull()

# Pas de valeur nulle

Unnamed: 0,client_id,sex,birth
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
8618,False,False,False
8619,False,False,False
8620,False,False,False
8621,False,False,False


In [42]:
customers.dtypes

client_id    object
sex          object
birth         int64
dtype: object

### Le fichier 'customers':
- n'a pas de doublons de client
- n'a pas de valeur de date de naissance aberrente
- les variables sont des objets pour les colonnes 'client_id' et 'sex'
- les variables sont des entiers pour la colonne 'birth'
    
## Fichier 'customers' Ok

In [43]:
customers_clean = customers

customers_clean.to_csv("customers_clean.csv", index=False)

<a id="products"></a>
### Fichier products

In [44]:
products

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0
...,...,...,...
3282,2_23,115.99,2
3283,0_146,17.14,0
3284,0_802,11.22,0
3285,1_140,38.56,1


In [45]:
products.dtypes

id_prod     object
price      float64
categ        int64
dtype: object

In [46]:
products.categ.unique()

array([0, 1, 2])

In [47]:
products.price.min()

# Valeurs négatives à supprimer

-1.0

In [48]:
products.sort_values(by='price').head()

# Une valeur négative à supprimer

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0
2355,0_202,0.62,0
2272,0_528,0.62,0
370,0_120,0.66,0
1211,0_1844,0.77,0


In [49]:
products.id_prod.unique()

array(['0_1421', '0_1368', '0_731', ..., '0_802', '1_140', '0_1920'],
      dtype=object)

In [50]:
products.duplicated().sum()

0

In [51]:
products.describe()

# Prix max de 300$ largement supérieur à moyenne à 75%

Unnamed: 0,price,categ
count,3287.0,3287.0
mean,21.856641,0.370246
std,29.847908,0.615387
min,-1.0,0.0
25%,6.99,0.0
50%,13.06,0.0
75%,22.99,1.0
max,300.0,2.0


In [52]:
products.sort_values(by='price').tail(60)

# Les prix augmentent graduellement jusqu'à la valeur max. Valeur '300' cohérente.

Unnamed: 0,id_prod,price,categ
1888,2_203,136.99,2
2128,2_199,136.99,2
2808,2_198,138.32,2
2733,2_194,138.53,2
2207,2_153,139.99,2
1779,2_35,139.99,2
1946,2_72,141.32,2
3151,2_130,142.58,2
1323,2_157,142.99,2
1570,2_189,142.99,2


In [53]:
products.notna()

# Pas de valeurs manquantes

Unnamed: 0,id_prod,price,categ
0,True,True,True
1,True,True,True
2,True,True,True
3,True,True,True
4,True,True,True
...,...,...,...
3282,True,True,True
3283,True,True,True
3284,True,True,True
3285,True,True,True


### Le fichier 'products':
- n'a pas de doublons de produits
- les variables sont des objets pour la colonne 'id_prod'
- les variables sont des décimaux pour la colonne 'price'
- les variables sont des entiers pour la colonne 'categ'


### Le fichier 'products' ne doit pas avoir de valeur de prix négative.

<a id="transactions"></a>
### Fichier transactions

In [54]:
transactions

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242
...,...,...,...,...
337011,1_671,2021-05-28 12:35:46.214839,s_40720,c_3454
337012,0_759,2021-06-19 00:19:23.917703,s_50568,c_6268
337013,0_1256,2021-03-16 17:31:59.442007,s_7219,c_4137
337014,2_227,2021-10-30 16:50:15.997750,s_112349,c_5


In [55]:
transactions.dtypes

# Les dates sont des objets et non pas des datetime64

id_prod       object
date          object
session_id    object
client_id     object
dtype: object

In [56]:
transactions.isnull()

# Pas de valeurs manquantes

Unnamed: 0,id_prod,date,session_id,client_id
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
...,...,...,...,...
337011,False,False,False,False
337012,False,False,False,False
337013,False,False,False,False
337014,False,False,False,False


In [57]:
transactions.duplicated().sum()

#Il y a 126 doublons à supprimer

126

In [58]:
transactions.sort_values(by="id_prod").tail(200)

# Il y a 200 valeurs test à supprimer

Unnamed: 0,id_prod,date,session_id,client_id
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1
256011,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1
252328,T_0,test_2021-03-01 02:30:02.237440,s_0,ct_0
129851,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
141636,T_0,test_2021-03-01 02:30:02.237443,s_0,ct_1
...,...,...,...,...
47170,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_1
259134,T_0,test_2021-03-01 02:30:02.237418,s_0,ct_0
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1
271894,T_0,test_2021-03-01 02:30:02.237444,s_0,ct_1


<a id="script"></a>
## Scripts de nettoyage

<a id="script_products"></a>
### Fichier products

In [59]:
products_work = products.copy()

In [60]:
products_clean = products_work.drop(products_work[products_work.price<0].index)

In [61]:
products_clean.to_csv("products_clean", index=False)

<a id="script_transactions"></a>
### Fichier transactions

In [62]:
transactions_work = transactions.copy()

In [63]:
# Suppression des doublons

transactions_work.drop_duplicates()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242
...,...,...,...,...
337011,1_671,2021-05-28 12:35:46.214839,s_40720,c_3454
337012,0_759,2021-06-19 00:19:23.917703,s_50568,c_6268
337013,0_1256,2021-03-16 17:31:59.442007,s_7219,c_4137
337014,2_227,2021-10-30 16:50:15.997750,s_112349,c_5


In [64]:
# Suppression des valeurs test

def remove_test_values(df):
    df = df[df['id_prod'].str.contains('T_0') == False]
    df = df[df['date'].str.contains('test_') == False]
    return df

In [65]:
transactions_work = remove_test_values(transactions_work)

In [66]:
# Conversion des valeurs de 'date' en datetime

transactions_work['date'] = pd.to_datetime(transactions_work['date'], infer_datetime_format=True)

In [67]:
transactions_work.dtypes

id_prod               object
date          datetime64[ns]
session_id            object
client_id             object
dtype: object

In [68]:
# Création des colones 'year', 'month', et 'day' depuis la colonne 'date'

def extract_date_info(df):
    df['day'] = df['date'].dt.day 
    df['month'] = df['date'].dt.month
    df['year'] = df['date'].dt.year
    
extract_date_info(transactions_work)

In [69]:
transactions_work

Unnamed: 0,id_prod,date,session_id,client_id,day,month,year
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450,10,4,2021
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277,3,2,2022
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270,23,9,2021
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597,17,10,2021
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242,17,7,2021
...,...,...,...,...,...,...,...
337011,1_671,2021-05-28 12:35:46.214839,s_40720,c_3454,28,5,2021
337012,0_759,2021-06-19 00:19:23.917703,s_50568,c_6268,19,6,2021
337013,0_1256,2021-03-16 17:31:59.442007,s_7219,c_4137,16,3,2021
337014,2_227,2021-10-30 16:50:15.997750,s_112349,c_5,30,10,2021


In [70]:
transactions_clean = transactions_work

transactions_clean.to_csv("transactions_clean.csv", index=False)

# Lors de l'import des tables dans le script 'analyses'
# Des colonnes 'Unnamed' apparaissaient après la jointure de ces trois tableaux
# en rajoutant le paramètre 'index=False' dans l'export csv
# Ces colonnes 'Unnamed' n'apparaissent plus 