### Table des matières :

* [Nettoyage de données](#nettoyage)
    * [Dataframe customers](#customers)
        * [client_id](#client_id)
        * [gender](#gender)
        * [birth](#birth)
    * [Dataframe products](#products)
        * [id_prod](#id_prod)
        * [price](#price)
        * [categ](#categ)
    * [Dataframe transactions](#transactions)
    * [Dataframe general](#df_gen)
   

In [4]:
import pandas as pd
import re

In [5]:
customers = pd.read_csv("customers.csv")
products = pd.read_csv("products.csv")
transactions = pd.read_csv('transactions.csv')

# Nettoyage de Données <a class="anchor" id="nettoyage"></a>

# Dataframe customers <a class="anchor" id="customers"></a>


In [6]:
customers = customers.rename(columns={"sex": "gender"})
customers.head()


Unnamed: 0,client_id,gender,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


## Variable "client_id" :<a class="anchor" id="client_id"></a>

In [7]:
customers['client_id'].isnull().sum()

0

In [8]:
len(customers['client_id'].unique())

8623

In [9]:
customers['client_id'].describe()

count      8623
unique     8623
top       c_924
freq          1
Name: client_id, dtype: object

##### On constate qu'il n'y a pas de valeur nulle ni de  doublon au niveau des ' client_id'  

##### Je verifie si chaque client_id commence bien par ' c_' .

In [10]:
client_id = customers['client_id']
client_id_verified = []
for id in client_id:
    verified = re.findall("^c_", id)
    if not verified :
        print(id)
    


ct_0
ct_1


##### dans les 'client_id' on constate que deux 'client_id'  n'ont pas la même notation que les autres 'client_id' 

In [11]:
customers[(customers['client_id'] == 'ct_1')]

Unnamed: 0,client_id,gender,birth
8494,ct_1,m,2001


In [12]:
customers[(customers['client_id'] == 'ct_0')]

Unnamed: 0,client_id,gender,birth
2735,ct_0,f,2001


#### on remarque que ces deux individus ont le même âge mais se différencient par leur genre. ce sont sûrement des clients test.
#### je vais donc les supprimer.

In [13]:
customers = customers.drop([8494, 2735])
customers.describe()

Unnamed: 0,birth
count,8621.0
mean,1978.275606
std,16.917958
min,1929.0
25%,1966.0
50%,1979.0
75%,1992.0
max,2004.0


## Variable "gender" :<a class="anchor" id="gender"></a>

In [14]:
customers['gender'].isnull().sum()

0

In [15]:
customers['gender'].unique()

array(['f', 'm'], dtype=object)

In [16]:
customers['gender'].describe()

count     8621
unique       2
top          f
freq      4490
Name: gender, dtype: object

##### On constate qu'il n'y a pas de valeur nulle  pour  pour le genre des clients .
##### On remarque qu'il n'y a que deux types de valeurs 'f' et 'm' .
##### On compte plus de femmes ( 4491) que d'hommes ( 4132)

## Variable "birth" :<a class="anchor" id="birth"></a>

In [17]:
customers['birth'].isnull().sum()

0

##### Je crée une variable 'age' pour que je puisse avoir des informations plus pertinentes sur les clients.
##### je transforme ainsi une variable qualitative en une variable quantitative

##### il n'y a pas de valeur nulle.

In [18]:
customers['age'] =  2022 - customers['birth'] 
customers['age'].describe()

count    8621.000000
mean       43.724394
std        16.917958
min        18.000000
25%        30.000000
50%        43.000000
75%        56.000000
max        93.000000
Name: age, dtype: float64

In [20]:
customers

Unnamed: 0,client_id,gender,birth,age
0,c_4410,f,1967,55
1,c_7839,f,1975,47
2,c_1699,f,1984,38
3,c_5961,f,1962,60
4,c_5320,m,1943,79
...,...,...,...,...
8618,c_7920,m,1956,66
8619,c_7403,f,1970,52
8620,c_5119,m,1974,48
8621,c_5643,f,1968,54


In [21]:
customers_age = customers.groupby('age').count().reset_index()
customers_age.sort_values(by='client_id',ascending=False)

Unnamed: 0,age,client_id,gender,birth
0,18,440,440,440
25,43,215,215,215
16,34,207,207,207
18,36,203,203,203
26,44,199,199,199
...,...,...,...,...
71,89,8,8,8
72,90,6,6,6
73,91,4,4,4
74,92,4,4,4


#### On constate une surreprésentation des individus agés de 18 ans, ils sont 440 alors que le reste des effectifs par âge sont inférieurs à 216.

# Dataframe Products <a class="anchor" id="products"></a>

In [22]:
print(products.head())
print("taille dataframe product",len(products))

  id_prod  price  categ
0  0_1421  19.99      0
1  0_1368   5.13      0
2   0_731  17.99      0
3   1_587   4.99      1
4  0_1507   3.99      0
taille dataframe product 3287


## Variable "id_prod" :<a class="anchor" id="id_prod"></a>

In [23]:
products['id_prod'].isnull().sum()

0

In [24]:
products['id_prod'].describe()

count       3287
unique      3287
top       0_1594
freq           1
Name: id_prod, dtype: object

#### On constate qu'il y'a 3 287 id_prod et qu'il n'y a pas de doublon ni de valeur nulle 

##### On constate que les id_prod commencent par le numero de la catégorie on pourrait donc verifier que chaque id_prod commence bien par le numéro de la categorie produit 

In [25]:
# Changement du type de la colonne categorie  pour pourvoir comparer avec le regex
products['categ'] = products['categ'].apply(str)

# Verifie si chaque id_prod commence bien par le numéro de la catégorie  
for id in products.index:
        verified = re.findall("^"+products['categ'][id], products['id_prod'][id])
        if not verified:
            print(id)
        

731


In [26]:
products.loc[731]

id_prod    T_0
price       -1
categ        0
Name: 731, dtype: object

In [27]:
products = products.drop([731])

## Variable "price" :<a class="anchor" id="price"></a>

In [28]:
products['price'].isnull().sum()

0

In [29]:
products['price'].describe()

count    3286.000000
mean       21.863597
std        29.849786
min         0.620000
25%         6.990000
50%        13.075000
75%        22.990000
max       300.000000
Name: price, dtype: float64

##### Le prix le plus bas est de 0.62  et le prix le plus haut est de 300. 
#### 50 % des prix sont compris entre 6.99 et 22.99 euros 


In [30]:
products['price'].sort_values(ascending=False)

947     300.00
724     254.44
394     247.22
1436    236.99
2779    233.54
         ...  
1530      0.80
1211      0.77
370       0.66
2355      0.62
2272      0.62
Name: price, Length: 3286, dtype: float64

##### On constate qu'il y'a d'autres valeurs qui se rapprochent de 300 ça n'est donc pas une valeur abérente .je décide donc de garder cette valeur pour mon analyse 

## Variable "categ" :<a class="anchor" id="categ"></a>

In [31]:
products['categ'].isnull().sum()

0

In [32]:
products['categ'].unique()

array(['0', '1', '2'], dtype=object)

In [33]:
products['categ'].describe()

count     3286
unique       3
top          0
freq      2308
Name: categ, dtype: object

##### Il n'y a aucune valeur nulle 
##### Il y'a 3 types de catégorie  0, 1 et 2 
##### La catégorie qui est la plus représentée est la catégorie 0 avec 2 308 

# Dataframe transactions <a class="anchor" id="transactions"></a>

In [34]:
print(transactions.head())
print(len(transactions))

  id_prod                        date session_id client_id
0  0_1483  2021-04-10 18:37:28.723910    s_18746    c_4450
1   2_226  2022-02-03 01:55:53.276402   s_159142     c_277
2   1_374  2021-09-23 15:13:46.938559    s_94290    c_4270
3  0_2186  2021-10-17 03:27:18.783634   s_105936    c_4597
4  0_1351  2021-07-17 20:34:25.800563    s_63642    c_1242
337016


In [35]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 337016 entries, 0 to 337015
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id_prod     337016 non-null  object
 1   date        337016 non-null  object
 2   session_id  337016 non-null  object
 3   client_id   337016 non-null  object
dtypes: object(4)
memory usage: 10.3+ MB


In [36]:
transactions['id_prod'].isnull().sum()

0

In [37]:
transactions['date'].isnull().sum()

0

In [38]:
transactions['session_id'].isnull().sum()

0

In [39]:
transactions['client_id'].isnull().sum()

0

##### Aucune valeur nulle 
#####  337016 lignes 

# Dataframe Générale <a class="anchor" id="df_gen"></a>

In [40]:
# je vais réaliser une jointure de mon dataframe transactions avec mon dataframe customers
df_general = transactions.merge(customers, on='client_id', how='left')
df_general

Unnamed: 0,id_prod,date,session_id,client_id,gender,birth,age
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450,f,1977.0,45.0
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277,f,2000.0,22.0
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270,f,1979.0,43.0
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597,m,1963.0,59.0
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242,f,1980.0,42.0
...,...,...,...,...,...,...,...
337011,1_671,2021-05-28 12:35:46.214839,s_40720,c_3454,m,1969.0,53.0
337012,0_759,2021-06-19 00:19:23.917703,s_50568,c_6268,m,1991.0,31.0
337013,0_1256,2021-03-16 17:31:59.442007,s_7219,c_4137,f,1968.0,54.0
337014,2_227,2021-10-30 16:50:15.997750,s_112349,c_5,f,1994.0,28.0


In [41]:
df_general = df_general.merge(products, on='id_prod', how='left')
df_general

Unnamed: 0,id_prod,date,session_id,client_id,gender,birth,age,price,categ
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450,f,1977.0,45.0,4.99,0
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277,f,2000.0,22.0,65.75,2
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270,f,1979.0,43.0,10.71,1
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597,m,1963.0,59.0,4.20,0
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242,f,1980.0,42.0,8.99,0
...,...,...,...,...,...,...,...,...,...
337011,1_671,2021-05-28 12:35:46.214839,s_40720,c_3454,m,1969.0,53.0,31.99,1
337012,0_759,2021-06-19 00:19:23.917703,s_50568,c_6268,m,1991.0,31.0,22.99,0
337013,0_1256,2021-03-16 17:31:59.442007,s_7219,c_4137,f,1968.0,54.0,11.03,0
337014,2_227,2021-10-30 16:50:15.997750,s_112349,c_5,f,1994.0,28.0,50.99,2


In [42]:
df_null_values =  df_general.index[df_general.isnull().any(axis=1)]



In [43]:
df_general.iloc[df_null_values]

Unnamed: 0,id_prod,date,session_id,client_id,gender,birth,age,price,categ
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1,,,,,
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1,,,,,
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1,,,,,
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0,,,,,
6235,0_2245,2021-06-17 03:03:12.668129,s_49705,c_1533,m,1972.0,50.0,,
...,...,...,...,...,...,...,...,...,...
332730,T_0,test_2021-03-01 02:30:02.237421,s_0,ct_1,,,,,
333442,T_0,test_2021-03-01 02:30:02.237431,s_0,ct_1,,,,,
335279,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0,,,,,
335531,0_2245,2021-04-27 18:58:47.703374,s_26624,c_1595,f,1973.0,49.0,,


In [44]:
df_general = df_general.drop(df_null_values)


In [45]:
df_general.info() 

<class 'pandas.core.frame.DataFrame'>
Int64Index: 336713 entries, 0 to 337015
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   id_prod     336713 non-null  object 
 1   date        336713 non-null  object 
 2   session_id  336713 non-null  object 
 3   client_id   336713 non-null  object 
 4   gender      336713 non-null  object 
 5   birth       336713 non-null  float64
 6   age         336713 non-null  float64
 7   price       336713 non-null  float64
 8   categ       336713 non-null  object 
dtypes: float64(3), object(6)
memory usage: 25.7+ MB


In [46]:
df_general.isnull().sum()

id_prod       0
date          0
session_id    0
client_id     0
gender        0
birth         0
age           0
price         0
categ         0
dtype: int64

##### Il n'y a aucune valeur nulle.

In [47]:
df_general.to_csv("df_general.csv", encoding="utf-8")

### 