In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
import scipy.stats as st
import random
import seaborn as sns

***************************************************************************************************************************

                                                        Dataframe customers

***************************************************************************************************************************

In [2]:
# Nous allons travailler ici avec le fichier csv: customers
customers = pd.read_csv("C:/Users/Utilisateur/projet 4/customers.csv")
customers

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943
...,...,...,...
8618,c_7920,m,1956
8619,c_7403,f,1970
8620,c_5119,m,1974
8621,c_5643,f,1968


Ce dataframe est composé de 3 colonnes (client_id, sex, et birth) ainsi que 8623 lignes 

In [3]:
# Nous allons voir ce que contient le dataframe customers en utilisant la fonction describe()
customers.describe()

Unnamed: 0,birth
count,8623.0
mean,1978.280877
std,16.919535
min,1929.0
25%,1966.0
50%,1979.0
75%,1992.0
max,2004.0


# 1- Recherche des valeurs aberrantes dans le Daframe Customers

In [4]:
#Nous regardons dans client_id comment sont_ils composés
customers.client_id.unique()

array(['c_4410', 'c_7839', 'c_1699', ..., 'c_5119', 'c_5643', 'c_84'],
      dtype=object)

In [5]:
message =  "on constate que les id_clients commencent par 'c_{n° séquentiel}'\
Donc on va vérifier que c'est toujours vrai pour éliminer d'eventuelles exceptions"

In [6]:
# Vérifions que tous les client_id commencent par c_
customers_exceptions = customers[customers["client_id"].str.startswith("c_") ==  False]
customers_exceptions

Unnamed: 0,client_id,sex,birth
2735,ct_0,f,2001
8494,ct_1,m,2001


In [7]:
message = " On remarque qu'il y a deux identifiants de client_id qui commencent par ct \
nous allons les identifier et voir à quoi ils correspondent dans la suite de l'analyse en trouvant des\
corrélations avec les autres dataframes"

In [8]:
#Nous allons faire un masque de customers pour avoir uniquement dans la colonne client_id  les élements commençant 
# que par 'c' car se sont les plus majoritaires 
customers_filter = customers[customers["client_id"].str.startswith("c_")]
customers_filter.head()

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


# 2- Recherche des valeurs manquantes dans le DataFrame customers

In [9]:
customers_filter_manquant = pd.isna(customers_filter)
customers_filter_manquant.head()

Unnamed: 0,client_id,sex,birth
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


In [10]:
#Masque colonne client_id
customers_filter_manquant[customers_filter_manquant["client_id"] == True]

Unnamed: 0,client_id,sex,birth


In [11]:
# Masque colonne sex
customers_filter_manquant[customers_filter_manquant["sex"] == True]

Unnamed: 0,client_id,sex,birth


In [12]:
# Masque colonne bith
customers_filter_manquant[customers_filter_manquant["birth"] == True]

Unnamed: 0,client_id,sex,birth


In [13]:
Conclusion_valeurs_manquantes = "il n'y pas de valeurs manquantes dans le Dataframe customers"

# 3- Recherche de doublons dans le DataFrame customers

Nous allons rechercher les doublons dans le dataframe customers et supprimer toutes les lignes en double avec la fonction drop_duplicates()

In [14]:
customers_filter.drop_duplicates


<bound method DataFrame.drop_duplicates of      client_id sex  birth
0       c_4410   f   1967
1       c_7839   f   1975
2       c_1699   f   1984
3       c_5961   f   1962
4       c_5320   m   1943
...        ...  ..    ...
8618    c_7920   m   1956
8619    c_7403   f   1970
8620    c_5119   m   1974
8621    c_5643   f   1968
8622      c_84   f   1982

[8621 rows x 3 columns]>

### Calcul de l'âge de chaque client 

In [15]:
customers_filter["age"] = 2022 - customers_filter["birth"]
customers_filter.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  customers_filter["age"] = 2022 - customers_filter["birth"]


Unnamed: 0,client_id,sex,birth,age
0,c_4410,f,1967,55
1,c_7839,f,1975,47
2,c_1699,f,1984,38
3,c_5961,f,1962,60
4,c_5320,m,1943,79


 **************************************************************************************************************************
 
                                                     Dataframe Products
 
 **************************************************************************************************************************

# 1- Recherche des valeurs aberrantes dans le DataFrame products

In [16]:
products = pd.read_csv("C:/Users/Utilisateur/projet 4/products.csv")
products.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [17]:
# Analyse rapide du dataframe products avec la fonction describe()
products.describe()

Unnamed: 0,price,categ
count,3287.0,3287.0
mean,21.856641,0.370246
std,29.847908,0.615387
min,-1.0,0.0
25%,6.99,0.0
50%,13.06,0.0
75%,22.99,1.0
max,300.0,2.0


# 1- Recherche des valeurs aberrantes du Dataframe products

In [18]:
# valeurs abérrantes sur les prix
products_price_aberrant = products[products["price"] < 0]
products_price_aberrant

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0


In [19]:
# Notre Dataframe devient: 
product_filter = products[products["price"] >= 0]
product_filter.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [20]:
# Dans la colonne categ, affichons les différentes categorie du dataframe products
product_filter.categ.unique()

array([0, 1, 2], dtype=int64)

# 2- Recherche des valeurs manquantes dans le dataframe product_filter

In [21]:
product_filter_valeur_manquantes = pd.isna(product_filter)
product_filter_valeur_manquantes.head()

Unnamed: 0,id_prod,price,categ
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False


In [22]:
# On fait une recherche en True pour voir s'il y a des valeurs manquantes

product_filter_valeur_manquantes[product_filter_valeur_manquantes["id_prod"] == True]

Unnamed: 0,id_prod,price,categ


In [23]:
product_filter_valeur_manquantes[product_filter_valeur_manquantes["price"] == True]

Unnamed: 0,id_prod,price,categ


In [24]:
product_filter_valeur_manquantes[product_filter_valeur_manquantes["categ"] == True]

Unnamed: 0,id_prod,price,categ


# 3- Recherche des doublons dans le DataFrame product_filter

In [25]:
product_filter = product_filter.drop_duplicates()
product_filter

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0
...,...,...,...
3282,2_23,115.99,2
3283,0_146,17.14,0
3284,0_802,11.22,0
3285,1_140,38.56,1


***************************************************************************************************************************

                                                Dataframe transactions

***************************************************************************************************************************

In [26]:
transactions = pd.read_csv ("C:/Users/Utilisateur/projet 4/transactions.csv")
transactions.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242


In [27]:
# Analyse rapide du dataframe transaction avec la fonction describe()
transactions.describe()

Unnamed: 0,id_prod,date,session_id,client_id
count,337016,337016,337016,337016
unique,3266,336855,169195,8602
top,1_369,test_2021-03-01 02:30:02.237413,s_0,c_1609
freq,1081,13,200,12855


# 1- Recherche des valeurs aberrantes dans le DataFrame transactions

In [28]:
transactions.client_id.unique()

array(['c_4450', 'c_277', 'c_4270', ..., 'c_5139', 'c_4679', 'c_8005'],
      dtype=object)

In [29]:
transactions_exceptions = transactions[transactions["client_id"].str.startswith("c_") == False]
transactions_exceptions

Unnamed: 0,id_prod,date,session_id,client_id
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1
...,...,...,...,...
332594,T_0,test_2021-03-01 02:30:02.237445,s_0,ct_0
332705,T_0,test_2021-03-01 02:30:02.237423,s_0,ct_1
332730,T_0,test_2021-03-01 02:30:02.237421,s_0,ct_1
333442,T_0,test_2021-03-01 02:30:02.237431,s_0,ct_1


In [30]:
transactions_exceptions = transactions[transactions["date"].str.startswith("test_")]
transactions_exceptions

Unnamed: 0,id_prod,date,session_id,client_id
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1
...,...,...,...,...
332594,T_0,test_2021-03-01 02:30:02.237445,s_0,ct_0
332705,T_0,test_2021-03-01 02:30:02.237423,s_0,ct_1
332730,T_0,test_2021-03-01 02:30:02.237421,s_0,ct_1
333442,T_0,test_2021-03-01 02:30:02.237431,s_0,ct_1


In [31]:
transactions_filter = transactions[transactions["client_id"].str.startswith("c_") == True]
transactions_filter.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242


# 2 - Traitement des valeurs manquantes dans le DataFrame transactions¶

In [32]:
transactions_valeurs_manquantes = pd.isna(transactions_filter)
transactions_valeurs_manquantes.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False


In [33]:
transactions_valeurs_manquantes[transactions_valeurs_manquantes["id_prod"] == True]

Unnamed: 0,id_prod,date,session_id,client_id


In [34]:
transactions_valeurs_manquantes[transactions_valeurs_manquantes["date"] == True]

Unnamed: 0,id_prod,date,session_id,client_id


In [35]:
transactions_valeurs_manquantes[transactions_valeurs_manquantes["session_id"] == True]

Unnamed: 0,id_prod,date,session_id,client_id


In [36]:
transactions_valeurs_manquantes[transactions_valeurs_manquantes["client_id"] == True]

Unnamed: 0,id_prod,date,session_id,client_id


# 3- Recherche des doublons dans le DataFrame transactions

In [37]:
transactions_filter = transactions_filter.drop_duplicates()
transactions_filter.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242


### La date du dataframe transaction n'est pas dans un format approprié , nous allons la mettre au format année_mois, année, jour, et mois 

In [38]:
#Tout d'abord on convertie la date en format pouvant être modifié avec la fonction to_datetime de pandas.
# Pour cela on crée la colonne date_time 
transactions_filter["date_time"] = pd.to_datetime(transactions_filter["date"])

In [39]:
# On crée une colonne année_mois_jour
transactions_filter["YearMonthDay"] = transactions_filter.date_time.dt.strftime("%Y_%m_%d")

In [40]:
# On convertie la date aussi en mois et année
transactions_filter["YearMonth"] = transactions_filter.date_time.dt.strftime("%Y_%m")

In [41]:
# on convertie la date en jour, mois et année séparement
transactions_filter["Year"], transactions_filter["Month"], transactions_filter["Day"] =\
transactions_filter["date_time"].dt.year, transactions_filter["date_time"].dt.month, transactions_filter["date_time"].dt.day 
transactions_filter.head()

Unnamed: 0,id_prod,date,session_id,client_id,date_time,YearMonthDay,YearMonth,Year,Month,Day
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450,2021-04-10 18:37:28.723910,2021_04_10,2021_04,2021,4,10
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277,2022-02-03 01:55:53.276402,2022_02_03,2022_02,2022,2,3
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270,2021-09-23 15:13:46.938559,2021_09_23,2021_09,2021,9,23
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597,2021-10-17 03:27:18.783634,2021_10_17,2021_10,2021,10,17
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242,2021-07-17 20:34:25.800563,2021_07_17,2021_07,2021,7,17
