# Mission 1 : Nettoyage de données

##### Contexte : Je suis un nouveau DATA Analyst d'une grande chaîne de librairie et mon manager me demande de réaliser une présentation pour me 'faire la main'.
##### En effet, j'ai obtenus 3 fichiers en format .csv pour pouvoir effectuer cette analyse :
##### - Les Ventes (appelées “Transactions”)
##### - La liste des clients
##### - La liste des produits

## Importation des fichiers et des librairies

In [1]:
# Importation des librairies Python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as st
import math as mth

# Importation des fichiers .csv
df_customers = pd.read_csv('Projet_4_files/customers.csv')
df_products = pd.read_csv('Projet_4_files/products.csv')
df_transactions = pd.read_csv('Projet_4_files/transactions.csv')

## Visualisation/Vérification de mes dataframes

In [2]:
# Visualisation de nos données
df_customers.info()
print('----------------------------------------------')
df_products.info()
print('----------------------------------------------')
df_transactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8623 entries, 0 to 8622
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   client_id  8623 non-null   object
 1   sex        8623 non-null   object
 2   birth      8623 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 202.2+ KB
----------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id_prod  3287 non-null   object 
 1   price    3287 non-null   float64
 2   categ    3287 non-null   int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB
----------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 337016 entries, 0 to 337015
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0

In [3]:
# Vérification de nos données si il n'y a pas de données manquants
print(df_customers.isnull().any())
print(df_products.isnull().any())
print(df_transactions.isnull().any())

client_id    False
sex          False
birth        False
dtype: bool
id_prod    False
price      False
categ      False
dtype: bool
id_prod       False
date          False
session_id    False
client_id     False
dtype: bool


## Valeurs aberrantes/atypiques

### Analyse est correction de la dataframe df_customers :

In [4]:
# Tri des 5 premieres lignes de la dataframes df_customers
df_customers.sort_values('client_id', ascending = False).head()

Unnamed: 0,client_id,sex,birth
8494,ct_1,m,2001
2735,ct_0,f,2001
7358,c_999,m,1964
2145,c_998,m,2001
94,c_997,f,1994


In [5]:
# Tri des 5 dernières lignes de la dataframes df_customers
df_customers.sort_values('client_id', ascending = False).tail()

Unnamed: 0,client_id,sex,birth
3426,c_1001,m,1982
8472,c_1000,f,1966
2137,c_100,m,1992
6894,c_10,m,1956
4299,c_1,m,1955


On constate que les client_id "ct_0" et "ct_1" ne sont pas identique aux autre client_id est qu'il ressemble à des client_id de test

In [6]:
# Suppression des 2 lignes de 'test' par restrictions
df_customers = df_customers[(df_customers.client_id != 'ct_0') & (df_customers.client_id != 'ct_1')]

In [7]:
# Vérification de la cohérences des âges clients
print(df_customers.sort_values(by='birth', ascending=False).head())
print(df_customers.sort_values(by='birth', ascending=True).head())

     client_id sex  birth
7078    c_8245   f   2004
6330    c_2854   m   2004
445     c_2627   m   2004
1787    c_7916   f   2004
2947     c_308   f   2004
     client_id sex  birth
4569     c_577   m   1929
2491    c_8362   f   1929
418     c_5302   m   1929
1086    c_3218   f   1930
5138    c_7232   f   1930


On constate que les personnes les plus âgés ont 93 ans et les plus jeunes ont 18 ans. Aucune anomalie.

### Analyse est correction de la dataframe df_products :

In [8]:
# Tri des 5 premieres lignes de la dataframes df_customers
df_products.sort_values('id_prod', ascending = False).head()

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0
3188,2_99,84.99,2
3088,2_98,149.74,2
2698,2_97,160.99,2
2576,2_96,47.91,2


In [9]:
# Tri des 5 premieres lignes de la dataframes df_customers
df_products.sort_values('id_prod', ascending = False).tail()

Unnamed: 0,id_prod,price,categ
922,0_1000,6.84,0
663,0_100,20.6,0
2691,0_10,17.95,0
803,0_1,10.99,0
1001,0_0,3.75,0


On constate que l'id_prod 'T_0' à un prix négatif et que ce n'est pas logique

In [10]:
# suppression de ce produit dans notre dataframe
df_products = df_products[df_products.id_prod != 'T_0']

In [11]:
# Vérification de la cohérences des prix produits
print(df_products.price.min())
print(df_products.price.max())

0.62
300.0


aucune anomalie concernant le prix des produits

### Analyse est correction de la dataframe df_transactions :

In [12]:
# Tri des 5 premieres lignes de la dataframes df_customers
df_transactions.sort_values('client_id', ascending = False).head()

Unnamed: 0,id_prod,date,session_id,client_id
298399,T_0,test_2021-03-01 02:30:02.237423,s_0,ct_1
57261,T_0,test_2021-03-01 02:30:02.237439,s_0,ct_1
77758,T_0,test_2021-03-01 02:30:02.237429,s_0,ct_1
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1
250656,T_0,test_2021-03-01 02:30:02.237431,s_0,ct_1


In [13]:
# Tri des 5 premieres lignes de la dataframes df_customers
df_transactions.sort_values('client_id', ascending = False).tail()

Unnamed: 0,id_prod,date,session_id,client_id
83342,0_1429,2021-10-15 11:28:24.523566,s_105105,c_1
321196,0_1547,2021-09-08 08:27:49.586711,s_86739,c_1
298829,0_1090,2021-12-19 02:44:12.827475,s_136532,c_1
28406,1_713,2021-11-15 20:40:00.586010,s_120172,c_1
126857,0_1571,2022-02-01 01:47:04.355850,s_158128,c_1


des valeurs 'test' ont été repérés par rapport aux client_id "ct_0" et "ct_1"

In [14]:
# Suppression de ces transactions 'test' dans notre dataframe
df_transactions = df_transactions[df_transactions.id_prod != 'T_0']

In [15]:
# Conversion des valeurs de la variable 'date' dans le bon format
df_transactions['date'] = pd.to_datetime(df_transactions.date, format='%Y-%m-%d %H:%M:%S', errors = 'coerce')

# Verification du format de nos variables
df_transactions.dtypes

id_prod               object
date          datetime64[ns]
session_id            object
client_id             object
dtype: object

In [16]:
# Verification d'éventuelle données manquantes dans notre dataframe suite à notre manipulation
df_transactions.date.isnull().sum()

0

## Traitement d'éventuelle doublons dans notre dataframe

In [17]:
# Vérification des doublons dans notre dataframe
print(df_customers.duplicated().sum())
print(df_products.duplicated().sum())
print(df_transactions.duplicated().sum())

0
0
0


Aucun doublons détecté dans nos 3 dataframes

##### En conclusion, durant ma phase de néttoyage j'ai constaté uniquement des valeurs dites 'test' que j'ai du néttoyer pour ne pas fausser mon analyse. Il n'y a pas de valeurs atypiques ni de valeurs incohérentes durant cette première phase de nettoyage.

### Passons maintenent à la mission 2 : Analyse des ventes de l'entreprise