# Data Quality: Inspection des données et standardisation 

## Inspection des données 

In [468]:
#Lire le fichier "Meta-data.txt":
md = open("Meta-data.txt", "r")
md.read()

"'Ventes2017.csv', 'Ventes2018.csv' et 'Ventes2019.csv' contiennent des informations concernant 14 produits, provenant directement d'une entreprise. La compagnie a recemment commence une transition digitale et le total des ventes des trois annees 2017, 2018 et 2019 n'ont pas encore ete digitalisees. Le fichier 'Clients_bq.csv' contient des informations concernant les clients de l'entreprise en 2017. 'Produits_bq.csv' contient des informations sur les 14 produits vendus par l'entreprise, les categories et les sous-categories ont ete anonymisees."

In [469]:
import pandas as pd

#Lire les 6 fichiers, dans des DataFrames nommés respectivement clients, produits, regions, Ventes_2017, 
#Ventes_2018 et Ventes_2019.

clients = pd.read_csv("Clients_bq.csv")
produits = pd.read_csv("Produits_bq.csv")
regions = pd.read_csv("Regions.csv", sep=";")
Ventes_2017 = pd.read_csv("Ventes2017.csv")
Ventes_2018 = pd.read_csv("Ventes2018.csv")
Ventes_2019 = pd.read_csv("Ventes2019.csv")


In [470]:
print("Infos clients :\n")
clients.info()

Infos clients :

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70 entries, 0 to 69
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Id Client        70 non-null     int64 
 1   Client           70 non-null     object
 2   Adresse rue      70 non-null     object
 3   Code Postal      70 non-null     int64 
 4   Ville            70 non-null     object
 5   N° de téléphone  70 non-null     object
 6   Titre            70 non-null     object
 7   Prénom           70 non-null     object
 8   Nom              70 non-null     object
dtypes: int64(2), object(7)
memory usage: 5.1+ KB


## Standardisation des données - s'assurer que chaque variable est au bon type

In [471]:
clients["Code Postal"]=clients["Code Postal"].astype(str)

In [472]:
#Vérifier que les codes postaux correspondent tous à un code numérique à 5 chiffres, compris entre 01000 et 96000 (métropole)
#Nous verifions d’abord si les codes postaux correspondent tous à un code numérique à 5 chiffres 
condition_2 = clients["Code Postal"].str.len() == 5
#Nous verifions si les caracteres sont tous des chiffres
condition_3 = clients["Code Postal"].str.isdigit()
#Nous verifions si les codes postaux sont compris entre 01000 et 96000
condition_1 = ("01000" < clients["Code Postal"]) & (clients["Code Postal"] < "96000")
#Nous verifions si les 3 conditions sont remplis 
(condition_1 & condition_2 & condition_3).sum() == clients.shape[0]


True

## Standardisation des données - s'assurer de la cohérence du format des données

In [473]:
#Relever les problèmes de cohérence
clients.head(10)

Unnamed: 0,Id Client,Client,Adresse rue,Code Postal,Ville,N° de téléphone,Titre,Prénom,Nom
0,1,Avon SA,"5, place de la Mairie",66700,ARGELES SUR MER,04.65.22.33.11,Mlle,Elisabeth,ABOVILLE
1,2,WakeFern,"3, place de la République",44000,NANTES,02.40.68.37.21,Mme,Anne,AIME
2,3,"Elorac, SA","12, place des Fromagers",79000,Niort,05.49.00.22.33,Mlle,Olive,Aron
3,4,ETUDE SARL,"31, rue des Colombes",35100,RENNES,+33.2.99.65.24.81,M.,Philippe,BONNEAU
4,5,Procter SA,"21, avenue des Peupliers",44000,NANTES,02.40.66.33.00,M.,Edmond,BOSSEAU
5,6,"PEDIFIX, SA","5, impasse des Vignerons",49000,Angers,02.41.02.31.45,Mlle,Delphine,Cognets
6,7,New SARL,"39, rue des Boulangers",33120,ARCACHON,05.56.36.84.90,M.,Stéphane,COMBRET
7,8,Medsep Groupe,"1, rue Claude François",66000,PERPIGNAN,04.68.77.33.22,M.,Daniel,DABILOT
8,9,Ei,"12, rue de la Grande Armée",72000,LE MANS,02.43.22.77.99,M.,Richard,DASCI
9,10,21st SARL,"96, rue des Oliviers",17300,ROCHEFORT,+33.5.46.56.84.31,M.,Benoît,DECEMME


In [474]:
#Remplacer le "+33." par 0
for (index, numero) in enumerate(clients["N° de téléphone"]):
    if numero[0]=='+':
        clients.loc[index, 'N° de téléphone']='0' + clients.loc[index, 'N° de téléphone'][4:]

In [475]:
clients.head(10)

Unnamed: 0,Id Client,Client,Adresse rue,Code Postal,Ville,N° de téléphone,Titre,Prénom,Nom
0,1,Avon SA,"5, place de la Mairie",66700,ARGELES SUR MER,04.65.22.33.11,Mlle,Elisabeth,ABOVILLE
1,2,WakeFern,"3, place de la République",44000,NANTES,02.40.68.37.21,Mme,Anne,AIME
2,3,"Elorac, SA","12, place des Fromagers",79000,Niort,05.49.00.22.33,Mlle,Olive,Aron
3,4,ETUDE SARL,"31, rue des Colombes",35100,RENNES,02.99.65.24.81,M.,Philippe,BONNEAU
4,5,Procter SA,"21, avenue des Peupliers",44000,NANTES,02.40.66.33.00,M.,Edmond,BOSSEAU
5,6,"PEDIFIX, SA","5, impasse des Vignerons",49000,Angers,02.41.02.31.45,Mlle,Delphine,Cognets
6,7,New SARL,"39, rue des Boulangers",33120,ARCACHON,05.56.36.84.90,M.,Stéphane,COMBRET
7,8,Medsep Groupe,"1, rue Claude François",66000,PERPIGNAN,04.68.77.33.22,M.,Daniel,DABILOT
8,9,Ei,"12, rue de la Grande Armée",72000,LE MANS,02.43.22.77.99,M.,Richard,DASCI
9,10,21st SARL,"96, rue des Oliviers",17300,ROCHEFORT,05.46.56.84.31,M.,Benoît,DECEMME


In [476]:
#Mettre en majuscule les colonnes "Nom" et "Ville"

In [477]:
clients["Nom"] = clients["Nom"].apply(lambda x: x.upper())
clients["Ville"] = clients["Ville"].apply(lambda x: x.upper())

In [478]:
clients.head(10)

Unnamed: 0,Id Client,Client,Adresse rue,Code Postal,Ville,N° de téléphone,Titre,Prénom,Nom
0,1,Avon SA,"5, place de la Mairie",66700,ARGELES SUR MER,04.65.22.33.11,Mlle,Elisabeth,ABOVILLE
1,2,WakeFern,"3, place de la République",44000,NANTES,02.40.68.37.21,Mme,Anne,AIME
2,3,"Elorac, SA","12, place des Fromagers",79000,NIORT,05.49.00.22.33,Mlle,Olive,ARON
3,4,ETUDE SARL,"31, rue des Colombes",35100,RENNES,02.99.65.24.81,M.,Philippe,BONNEAU
4,5,Procter SA,"21, avenue des Peupliers",44000,NANTES,02.40.66.33.00,M.,Edmond,BOSSEAU
5,6,"PEDIFIX, SA","5, impasse des Vignerons",49000,ANGERS,02.41.02.31.45,Mlle,Delphine,COGNETS
6,7,New SARL,"39, rue des Boulangers",33120,ARCACHON,05.56.36.84.90,M.,Stéphane,COMBRET
7,8,Medsep Groupe,"1, rue Claude François",66000,PERPIGNAN,04.68.77.33.22,M.,Daniel,DABILOT
8,9,Ei,"12, rue de la Grande Armée",72000,LE MANS,02.43.22.77.99,M.,Richard,DASCI
9,10,21st SARL,"96, rue des Oliviers",17300,ROCHEFORT,05.46.56.84.31,M.,Benoît,DECEMME


In [479]:
#Verification si il y a des erreurs 
print(clients["Ville"].unique())

['ARGELES SUR MER' 'NANTES' 'NIORT' 'RENNES' 'ANGERS' 'ARCACHON'
 'PERPIGNAN' 'LE MANS' 'ROCHEFORT' 'PARIS' 'LYON' 'LA ROCHELLE'
 'ANGOULEME' 'MONTPELLIER' 'RENES' 'PARIS LA DÉFENSE' 'GANGES' 'PERPINAN']


In [480]:
#On s'aperçoit que "RENES" et "PERPINAN" sont mals orthographiés, et que "PARIS LA DÉFENSE" fait doublon avec "PARIS"
clients.replace({"RENES":"RENNES",
                 "PERPINAN":"PERPIGNAN",
                 "PARIS LA DÉFENSE":"PARIS"},
               inplace=True)

In [481]:
print(clients["Ville"].unique())

['ARGELES SUR MER' 'NANTES' 'NIORT' 'RENNES' 'ANGERS' 'ARCACHON'
 'PERPIGNAN' 'LE MANS' 'ROCHEFORT' 'PARIS' 'LYON' 'LA ROCHELLE'
 'ANGOULEME' 'MONTPELLIER' 'GANGES']


## Standardisation des données - gérer les doublons

In [482]:
#Afficher le nombre des doublons
print("Nombre des doublons:", clients.duplicated().sum())

Nombre des doublons: 20


In [483]:
#Supprimer les doublons
clients= clients.drop_duplicates()

In [484]:
#Verification
print(clients.duplicated().sum())

0


## Standardisation des données - gérer les dates

In [485]:
#Verifier les types des variables "Date de livraison" et "Date de commande" Dans Ventes_2017
print("Date de Commande est de type: ", Ventes_2017["Date de Commande"].dtype)
print("Date de livraison est de type: ", Ventes_2017["Date de Livraison"].dtype)

Date de Commande est de type:  object
Date de livraison est de type:  object


In [486]:
Ventes_2017.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000225,01/01/17,2017-01-13,Id28,Grossiste,4,6
1,CDE - 0003378,01/01/17,2017-01-06,Id7,Détaillant,5,11
2,CDE - 0003901,01/01/17,2017-01-05,Id12,Grossiste,13,5
3,CDE - 0005126,01/01/17,2017-01-17,Id5,Grossiste,1,6
4,CDE - 0005614,01/01/17,2017-01-07,Id27,Export,6,7


In [487]:
#Transformer les deux variables afin qu'elles soient de type datetime et au format "%Y-%m-%d"
Ventes_2017["Date de Commande"]= pd.to_datetime(Ventes_2017["Date de Commande"],format="%m/%d/%y")
Ventes_2017["Date de Livraison"]= pd.to_datetime(Ventes_2017["Date de Livraison"],format="%Y-%m-%d")

In [488]:
#Verification
Ventes_2017.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2715 entries, 0 to 2714
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   N° de Commande     2715 non-null   object        
 1   Date de Commande   2715 non-null   datetime64[ns]
 2   Date de Livraison  2715 non-null   datetime64[ns]
 3   Id Client          2715 non-null   object        
 4   Canal              2715 non-null   object        
 5   Id Produit         2715 non-null   int64         
 6   Quantité           2715 non-null   int64         
dtypes: datetime64[ns](2), int64(2), object(3)
memory usage: 148.6+ KB


## Standardisation des données - s'assurer de la cohérence entre les jeux de données

In [489]:
regions.head(10)

Unnamed: 0,Region,Ville
0,LANGUEDOC-ROUSSILLON,ARGELES SUR MER
1,PAYS DE LA LOIRE,NANTES
2,POITOU-CHARENTES,NIORT
3,BRETAGNE,RENNES
4,PAYS DE LA LOIRE,ANGERS
5,ACQUITAINE,ARCACHON
6,LANGUEDOC-ROUSSILLON,PERPIGNAN
7,PAYS DE LA LOIRE,LE MANS
8,POITOU-CHARENTES,ROCHEFORT
9,ILE-DE-France,PARIS


In [490]:
#Mettre les colonnes "Ville" et "Region" en majuscule 
regions["Ville"]= regions["Ville"].apply(lambda x: x.upper())
regions["Region"]= regions["Region"].apply(lambda x: x.upper())

In [491]:
#Verification
regions.head(10)

Unnamed: 0,Region,Ville
0,LANGUEDOC-ROUSSILLON,ARGELES SUR MER
1,PAYS DE LA LOIRE,NANTES
2,POITOU-CHARENTES,NIORT
3,BRETAGNE,RENNES
4,PAYS DE LA LOIRE,ANGERS
5,ACQUITAINE,ARCACHON
6,LANGUEDOC-ROUSSILLON,PERPIGNAN
7,PAYS DE LA LOIRE,LE MANS
8,POITOU-CHARENTES,ROCHEFORT
9,ILE-DE-FRANCE,PARIS


In [492]:
#Afficher les differentes valeurs prises par la variable Region
print(regions["Region"].unique())

['LANGUEDOC-ROUSSILLON' 'PAYS DE LA LOIRE' 'POITOU-CHARENTES' 'BRETAGNE'
 'ACQUITAINE' 'ILE-DE-FRANCE' 'RHONE-ALPES']


In [493]:
#Actualiser le nom des régions lorsque nécessaire
regions.replace({"LANGUEDOC-ROUSSILLON":"OCCITANIE",
                 "POITOU-CHARENTES":"NOUVELLE-AQUITAINE",
                 "AQUITAINE":"NOUVELLE-AQUITAINE",
                 "RHONE-ALPES":"AUVERGNE-RHONE-ALPES"},
                 inplace=True
    )

In [494]:
regions.head(10)

Unnamed: 0,Region,Ville
0,OCCITANIE,ARGELES SUR MER
1,PAYS DE LA LOIRE,NANTES
2,NOUVELLE-AQUITAINE,NIORT
3,BRETAGNE,RENNES
4,PAYS DE LA LOIRE,ANGERS
5,ACQUITAINE,ARCACHON
6,OCCITANIE,PERPIGNAN
7,PAYS DE LA LOIRE,LE MANS
8,NOUVELLE-AQUITAINE,ROCHEFORT
9,ILE-DE-FRANCE,PARIS


In [495]:
#Afficher les differentes valeurs prises par la variable Ville
print(regions["Ville"].unique())

['ARGELES SUR MER' 'NANTES' 'NIORT' 'RENNES' 'ANGERS' 'ARCACHON'
 'PERPIGNAN' 'LE MANS' 'ROCHEFORT' 'PARIS' 'LYON' 'LA ROCHELLE'
 'ANGOULEME' 'MONTPELLIER' 'GANGES' 'PARIS LA DEFENSE']


In [496]:
#On s'aperçoit que "PARIS LA DEFENCE" fait doublon "PARIS"
regions.replace({"PARIS LA DEFENSE":"PARIS"}, inplace=True)

In [497]:
print(regions["Ville"].unique())

['ARGELES SUR MER' 'NANTES' 'NIORT' 'RENNES' 'ANGERS' 'ARCACHON'
 'PERPIGNAN' 'LE MANS' 'ROCHEFORT' 'PARIS' 'LYON' 'LA ROCHELLE'
 'ANGOULEME' 'MONTPELLIER' 'GANGES']


In [498]:
Ventes_2017.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000225,2017-01-01,2017-01-13,Id28,Grossiste,4,6
1,CDE - 0003378,2017-01-01,2017-01-06,Id7,Détaillant,5,11
2,CDE - 0003901,2017-01-01,2017-01-05,Id12,Grossiste,13,5
3,CDE - 0005126,2017-01-01,2017-01-17,Id5,Grossiste,1,6
4,CDE - 0005614,2017-01-01,2017-01-07,Id27,Export,6,7


In [499]:
Ventes_2018.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000300,01/01/18,2018-01-14,38,Grossiste,11,11
1,CDE - 000461,01/01/18,2018-01-17,50,Détaillant,5,5
2,CDE - 0001281,01/01/18,2018-01-07,9,Détaillant,1,9
3,CDE - 0001572,01/01/18,2018-01-09,19,Export,1,5
4,CDE - 0001736,01/01/18,2018-01-04,46,Détaillant,1,10


In [500]:
Ventes_2019.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000232,01/01/19,2019-01-05,32,Grossiste,9,7
1,CDE - 0001728,01/01/19,2019-01-07,31,Grossiste,4,5
2,CDE - 0001953,01/01/19,2019-01-09,31,Détaillant,11,11
3,CDE - 0004442,01/01/19,2019-01-07,50,Détaillant,11,7
4,CDE - 0004814,01/01/19,2019-01-05,12,Détaillant,13,8


In [501]:
#En 2017, les Id Clients ne sont pas représentés au même format que pour les années suivantes
Ventes_2017["Id Client"]=Ventes_2017["Id Client"].apply(lambda x : x[2:]).astype(int)

In [502]:
Ventes_2017.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000225,2017-01-01,2017-01-13,28,Grossiste,4,6
1,CDE - 0003378,2017-01-01,2017-01-06,7,Détaillant,5,11
2,CDE - 0003901,2017-01-01,2017-01-05,12,Grossiste,13,5
3,CDE - 0005126,2017-01-01,2017-01-17,5,Grossiste,1,6
4,CDE - 0005614,2017-01-01,2017-01-07,27,Export,6,7


In [503]:
#Afficher les nouveaux produits ajoutés en 2018
print("Produits vendus en 2017:", sorted(Ventes_2017["Id Produit"].unique()))
print("Produits vendus en 2018:", sorted(Ventes_2018["Id Produit"].unique()))

Produits vendus en 2017: [1, 3, 4, 5, 6, 9, 10, 12, 13, 14]
Produits vendus en 2018: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]


In [504]:
#Transformer les deux dates afin qu'elles soient de type datetime dans Ventes_2018 et Ventes_2019
Ventes_2018["Date de Commande"]= pd.to_datetime(Ventes_2018["Date de Commande"],format="%m/%d/%y")
Ventes_2018["Date de Livraison"]=pd.to_datetime(Ventes_2018["Date de Livraison"],format="%Y-%m-%d")

Ventes_2019["Date de Commande"]= pd.to_datetime(Ventes_2019["Date de Commande"],format="%m/%d/%y")
Ventes_2019["Date de Livraison"]= pd.to_datetime(Ventes_2019["Date de Commande"],format="%Y-%m-%d")


In [505]:
#Verification de la presence des doublons pour chaque jeux de donnée
print("Le nombre des doublons pour Ventes_2017:",Ventes_2017.duplicated().sum())
print("Le nombre des doublons pour Ventes_2018:",Ventes_2018.duplicated().sum())
print("Le nombre des doublons pour Ventes_2019:",Ventes_2019.duplicated().sum())


Le nombre des doublons pour Ventes_2017: 0
Le nombre des doublons pour Ventes_2018: 5
Le nombre des doublons pour Ventes_2019: 0


In [506]:
#Supprimer les doublons dans Ventes_2018
Ventes_2018.drop_duplicates(inplace=True)

In [507]:
print("Le nombre des doublons pour Ventes_2018:",Ventes_2018.duplicated().sum())

Le nombre des doublons pour Ventes_2018: 0


In [508]:
#Regrouper les trois DataFrame Ventes_2017, Ventes_2018 et Ventes_2019 dans un DataFrame nommé Ventes_globales
Ventes_globales=pd.concat([Ventes_2017,Ventes_2018,Ventes_2019])

In [510]:
Ventes_globales.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité
0,CDE - 000225,2017-01-01,2017-01-13,28,Grossiste,4,6
1,CDE - 0003378,2017-01-01,2017-01-06,7,Détaillant,5,11
2,CDE - 0003901,2017-01-01,2017-01-05,12,Grossiste,13,5
3,CDE - 0005126,2017-01-01,2017-01-17,5,Grossiste,1,6
4,CDE - 0005614,2017-01-01,2017-01-07,27,Export,6,7


In [511]:
#Ajouter une colonne nommée "Jour de Livraison" à Ventes_globales qui contiendra le jour de la livraison
Ventes_globales["Jour de Livraison"]=Ventes_globales["Date de Livraison"].dt.weekday
Ventes_globales["Mois de Commande"]=Ventes_globales["Date de Commande"].dt.month

In [512]:
#Ajouter une nouvelle colonne qui contient False si la commande a été passée en 2017 et True sinon
Ventes_globales["Nouveaux Produits"]=Ventes_globales["Date de Commande"].dt.year.isin((2018,2019))
Ventes_globales.head()

Unnamed: 0,N° de Commande,Date de Commande,Date de Livraison,Id Client,Canal,Id Produit,Quantité,Jour de Livraison,Mois de Commande,Nouveaux Produits
0,CDE - 000225,2017-01-01,2017-01-13,28,Grossiste,4,6,4,1,False
1,CDE - 0003378,2017-01-01,2017-01-06,7,Détaillant,5,11,4,1,False
2,CDE - 0003901,2017-01-01,2017-01-05,12,Grossiste,13,5,3,1,False
3,CDE - 0005126,2017-01-01,2017-01-17,5,Grossiste,1,6,1,1,False
4,CDE - 0005614,2017-01-01,2017-01-07,27,Export,6,7,5,1,False


In [513]:
produits.head()

Unnamed: 0,Index,Nom_Produit,Cout unitaire,Prix unitaire,Categorie 1,Categorie 2,Categorie 3
0,1,Produit 1,1441.73,2304.64,0,1,0
1,2,Produit 2,1418.57,2285.53,0,0,1
2,3,Produit 3,1416.31,2194.27,1,0,0
3,4,Produit 4,1307.19,2121.6,1,0,0
4,5,Produit 5,1457.09,2349.16,0,1,0


In [515]:
#Regrouper les colonnes Categories en une seule colonne Categorie
produits["Categorie"]= produits["Categorie 1"] + 2*produits["Categorie 2"] + 3*produits["Categorie 3"]
produits.head()

Unnamed: 0,Index,Nom_Produit,Cout unitaire,Prix unitaire,Categorie 1,Categorie 2,Categorie 3,Categorie
0,1,Produit 1,1441.73,2304.64,0,1,0,2
1,2,Produit 2,1418.57,2285.53,0,0,1,3
2,3,Produit 3,1416.31,2194.27,1,0,0,1
3,4,Produit 4,1307.19,2121.6,1,0,0,1
4,5,Produit 5,1457.09,2349.16,0,1,0,2


In [518]:
#Changer la variable Categorie en "string"
produits["Categorie"]=produits["Categorie"].astype(str)

In [519]:
#Supprimer les colonnes "Categorie 1", "Categorie 2" et "Categorie 3"
produits.drop(["Categorie 1","Categorie 2", "Categorie 3"], axis=1, inplace=True)

In [520]:
produits.head()

Unnamed: 0,Index,Nom_Produit,Cout unitaire,Prix unitaire,Categorie
0,1,Produit 1,1441.73,2304.64,2
1,2,Produit 2,1418.57,2285.53,3
2,3,Produit 3,1416.31,2194.27,1
3,4,Produit 4,1307.19,2121.6,1
4,5,Produit 5,1457.09,2349.16,2
