# Configuration Notebook

In [1]:
# import des libraries
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
plt.rcParams["figure.figsize"] = (8, 6)
import matplotlib.dates as mdates
import seaborn as sns
import pandas as pd
import scipy as sp
from urllib import request
import scipy.stats as st

# Importation et préparation des données

### Données customers

In [2]:
clients = pd.read_csv("customers.csv")

In [3]:
clients.head(5)

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


### Visualisation tendances centrales

In [4]:
clients.describe()

Unnamed: 0,birth
count,8623.0
mean,1978.280877
std,16.919535
min,1929.0
25%,1966.0
50%,1979.0
75%,1992.0
max,2004.0


In [5]:
clients['client_id'].value_counts()

c_2972    1
c_6914    1
c_3187    1
c_4518    1
c_7316    1
         ..
c_3690    1
c_2816    1
c_5096    1
c_6374    1
c_5832    1
Name: client_id, Length: 8623, dtype: int64

### Recherche des valeurs manquantes

In [6]:
clients.isnull().values.any()

False

In [7]:
clients.isna().values.any()

False

#### Il n'y a pas de valeurs manquantes ou null

### Recherche client_id anormales

In [8]:
clients.sort_values(['client_id'], axis=0, ascending=False, inplace=True)
clients.head(5)

Unnamed: 0,client_id,sex,birth
8494,ct_1,m,2001
2735,ct_0,f,2001
7358,c_999,m,1964
2145,c_998,m,2001
94,c_997,f,1994


#### 2 clients de tests ressortent : ct_1 & ct_0

### Suppression des 2 clients de test ct_

In [9]:
clients = clients.set_index("client_id")
clients = clients.drop("ct_1", axis=0)
clients = clients.drop("ct_0", axis=0)

### Recherhe client_id anormales - verrification

In [10]:
clients.sort_values(['client_id'], axis=0, ascending=False, inplace=True)
clients.head(5)

Unnamed: 0_level_0,sex,birth
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1
c_999,m,1964
c_998,m,2001
c_997,f,1994
c_996,f,1970
c_995,m,1955


#### Les 2 ct_ n'y sont plus

### Vérification colonne 'SEX' 

In [11]:
pd.crosstab(index = clients["sex"], columns="count")

col_0,count
sex,Unnamed: 1_level_1
f,4490
m,4131


#### Pas d'anomalie présente dans la colonne 'SEX'

### Indexation Clients

In [12]:
clients = clients.reset_index()

### Données Products

In [13]:
produits = pd.read_csv("products.csv")

In [14]:
produits.head(5)

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


### Exploration des données

In [15]:
produits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id_prod  3287 non-null   object 
 1   price    3287 non-null   float64
 2   categ    3287 non-null   int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB


### Recherche des valeurs manquantes

In [16]:
produits.isnull().values.any()

False

In [17]:
produits.isna().values.any()

False

#### Il n'y a pas de valeurs manquantes ou null

### Recherche id_prod aberrantes

In [18]:
produits.sort_values(["id_prod"], axis=0, ascending=False, inplace=True)
produits.head(5)

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0
3188,2_99,84.99,2
3088,2_98,149.74,2
2698,2_97,160.99,2
2576,2_96,47.91,2


#### T_0 est certainement un produit de test, à supprimer

### Suppression produit T_O

In [19]:
produits = produits.set_index("id_prod")
produits = produits.drop("T_0", axis=0)
produits.sort_values(["id_prod"], axis=0, ascending=False, inplace=True)
produits.head(5)

Unnamed: 0_level_0,price,categ
id_prod,Unnamed: 1_level_1,Unnamed: 2_level_1
2_99,84.99,2
2_98,149.74,2
2_97,160.99,2
2_96,47.91,2
2_95,98.99,2


#### T_0 correctement supprimé

### Exploration tendances centrales

In [20]:
produits.describe()

Unnamed: 0,price,categ
count,3286.0,3286.0
mean,21.863597,0.370359
std,29.849786,0.615446
min,0.62,0.0
25%,6.99,0.0
50%,13.075,0.0
75%,22.99,1.0
max,300.0,2.0


### Indexation Produits

In [21]:
produits = produits.reset_index()

### Données Transactions

In [22]:
ventes = pd.read_csv("transactions.csv")
ventes.head(5)

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242


In [23]:
## Les id_prod T_0 et donc les client_id ct_0 & ct_1 sont présent, il faut donc les supprimer

In [24]:
ventes.sort_values(['id_prod'], axis=0, ascending=False, inplace=True)
ventes.head(5)

Unnamed: 0,id_prod,date,session_id,client_id
210294,T_0,test_2021-03-01 02:30:02.237432,s_0,ct_0
75176,T_0,test_2021-03-01 02:30:02.237443,s_0,ct_1
203418,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_0
259192,T_0,test_2021-03-01 02:30:02.237444,s_0,ct_0
234706,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_1


#### Suppression ct_

In [25]:
ventes = ventes.set_index("client_id")
ventes = ventes.drop("ct_1", axis=0)
ventes = ventes.drop("ct_0", axis=0)

#### Exploration des données

In [26]:
ventes.info()
ventes.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 336816 entries, c_5828 to c_853
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id_prod     336816 non-null  object
 1   date        336816 non-null  object
 2   session_id  336816 non-null  object
dtypes: object(3)
memory usage: 10.3+ MB


Unnamed: 0,id_prod,date,session_id
count,336816,336816,336816
unique,3265,336816,169194
top,1_369,2021-07-28 06:42:54.862353,s_118668
freq,1081,1,14


#### Pas de valeurs nulles 

### Recherche de données manquantes ou abberantes

In [27]:
ventes.isnull().values.any()

False

In [28]:
ventes.isna().values.any()

False

#### Il n'y a pas de valeurs manquantes ou nulles

### Recherche "id_prod" manquants ou aberrants

In [29]:
list_produits = produits['id_prod'].unique()
produits_err = []

In [30]:
def check_id_prod(id_prod):
    if id_prod not in list_produits:
        produits_err.append(id_prod)
    return id_prod

ventes['id_prod'] = ventes['id_prod'].apply(check_id_prod)

def unique(prod_err): 
    x = np.array(produits_err) 
    print(np.unique(x))
    
unique(produits_err)

['0_2245']


#### "id_prod" -> 0_2245 est inconnu
#### Imputation 0_2245  -> moyenne categ 0

### Calcul de la moyenne des prix de la categ 0

In [31]:
moy_categ_0 = round(np.mean(produits.price[produits.categ == 0]), 1)
print("La moyenne des prix de la categorie 0 est de :",moy_categ_0)

La moyenne des prix de la categorie 0 est de : 11.7


### Imputation du prix moyen de la catégorie 0 au produit 0_2245

In [32]:
produits = produits.append({'id_prod' : '0_2245', 'price' : moy_categ_0 , 'categ' : 0}, ignore_index=True)

### Recherche "client_id" aberrants

In [33]:
ventes = ventes.reset_index()

list_clients = clients['client_id'].unique()
clients_err = []

def check_id_client(client_id):
    if client_id not in list_clients:
        clients_err.append(client_id)
    return client_id

ventes['client_id'] = ventes['client_id'].apply(check_id_client)

def unique(clients_err): 
    x = np.array(clients_err) 
    print(np.unique(x))
    
unique(clients_err)

[]


#### Aucun code client inconnu

### Correctif du format date

In [34]:
ventes['date'] = pd.to_datetime(ventes['date'])

In [35]:
ventes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336816 entries, 0 to 336815
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   client_id   336816 non-null  object        
 1   id_prod     336816 non-null  object        
 2   date        336816 non-null  datetime64[ns]
 3   session_id  336816 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 10.3+ MB


#### Le type de DATE est bien changé en datetime

### Exportations des 3 DataFrame Produits/Clients/Ventes

In [36]:
produits.to_csv('produits.csv', index=False)
clients.to_csv('clients.csv', index=False)
ventes.to_csv('ventes.csv', index=False)

# Suite -> REMAKE P4 Analyse_Descriptive_mission_2