# Analyse exploratoire des données 

In [2]:
import os
import pandas as pd
import numpy as np  
import seaborn as sns 
import plotly.express as px
import matplotlib.pyplot as plt

from pathlib import Path
 

In [5]:
BASE_DIR = Path().resolve().parent
DATA_DIR = BASE_DIR / 'Donnees'

print(f"BASE_DIR: {BASE_DIR}")
print(f"DATA_DIR: {DATA_DIR}")

BASE_DIR: C:\Users\NAZIFOU\Car-price
DATA_DIR: C:\Users\NAZIFOU\Car-price\Donnees


In [6]:
df = pd.read_csv(DATA_DIR / 'vehicules.csv')
df.head()

Unnamed: 0,Modèle,Prix,Transmission,Version,Kilométrage,Carburant,Puissance,Évaluations,Vendeur,Nom de la Voiture,Date
0,audi,€ 74 999,Boîte automatique,55 TFSI Quattro Tiptronic S-Line INDIVIDUAL!,34 000 km,Essence,250 kW (340 CH),121,Kristof D'herde • BE-9300 Aalst,Audi Q855 TFSI Quattro Tiptronic S-Line INDIVI...,01/2021
1,audi,€ 118 900,Boîte automatique,60 Hybride 49 CO2 BlackPack B&O 23' Leather,10 km,Electrique/Essence,340 kW (462 CH),107,Frederik Rik Maxime Jorn Hendrik • BE-8710 Wie...,Audi Q860 Hybride 49 CO2 BlackPack B&O 23' Lea...,01/2024
2,audi,€ 118 900,Boîte automatique,60 Hybr 49gr Sline BlackPack B&O Leather 23',10 km,Electrique/Essence,340 kW (462 CH),107,Frederik Rik Maxime Jorn Hendrik • BE-8710 Wie...,Audi Q860 Hybr 49gr Sline BlackPack B&O Leathe...,01/2024
3,audi,€ 59 995,Boîte automatique,50 TDi S-Line Quattro Tiptronic,95 702 km,Diesel,210 kW (286 CH),75,Mhr Jannick Lazoore • BE-8620 Nieuwpoort,Audi Q850 TDi S-Line Quattro Tiptronic,04/2019
4,audi,€ 76 900,Boîte automatique,50 TDI quattro tiptronic competition plus! Full !,19 000 km,Diesel,210 kW (286 CH),252,Sam B • BE-3970 Leopoldsburg,Audi Q850 TDI quattro tiptronic competition pl...,09/2022


In [8]:
df.shape

(2680, 11)

2680 lignes et 11 colonnes 

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2680 entries, 0 to 2679
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Modèle             2680 non-null   object
 1   Prix               2680 non-null   object
 2   Transmission       2680 non-null   object
 3   Version            2660 non-null   object
 4   Kilométrage        2680 non-null   object
 5   Carburant          2680 non-null   object
 6   Puissance          2680 non-null   object
 7   Évaluations        2680 non-null   object
 8   Vendeur            2680 non-null   object
 9   Nom de la Voiture  2680 non-null   object
 10  Date               2680 non-null   object
dtypes: object(11)
memory usage: 230.4+ KB


Structure générale
- Nombre d’observations (lignes) : 2 680
- Nombre de colonnes (variables) : 11
- Index : de 0 à 2679 (RangeIndex par défaut)

In [13]:
df.columns = df.columns.str.lower()
df.columns

Index(['modèle', 'prix', 'transmission', 'version', 'kilométrage', 'carburant',
       'puissance', 'évaluations', 'vendeur', 'nom de la voiture', 'date'],
      dtype='object')

In [14]:
df.isnull().sum().to_frame().T

Unnamed: 0,modèle,prix,transmission,version,kilométrage,carburant,puissance,évaluations,vendeur,nom de la voiture,date
0,0,0,0,20,0,0,0,0,0,0,0


Toutes les colonnes sauf Version n’ont aucune valeur "0" (ce qui est généralement une bonne chose).

Version a 20 valeurs "0" → probablement des valeurs manquantes ou non renseignées.

In [12]:
nbre_Na = df.isnull().sum().sum()
print(f"Nombre de valeurs manquantes : {nbre_Na}")

Nombre de valeurs manquantes : 20


Nous allons donc traiter ces valeurs manquants par la suppression des ces derniers vu qu'ils representent que 0.7 % des données à notre disposition 
étant la seul colonne et au vu de notre objectif nous allons supprimer la colonne 'Version' (axis = 1)

In [17]:
df = df.drop(['date', 'version'], axis=1) 
print(f"dimension après suppression de colonnes : {df.shape}")

dimension après suppression de colonnes : (2680, 9)


In [19]:
df.isnull().any()

modèle               False
prix                 False
transmission         False
kilométrage          False
carburant            False
puissance            False
évaluations          False
vendeur              False
nom de la voiture    False
dtype: bool

Plus de Na dans nos données

In [20]:
df['prix'].unique()

array(['€ 74\u202f999', '€ 118\u202f900', '€ 59\u202f995',
       '€ 76\u202f900', '€ 64\u202f950', '€ 89\u202f999', '€ 36\u202f755',
       '€ 58\u202f500', '€ 59\u202f750', '€ 99\u202f990', '€ 67\u202f990',
       '€ 62\u202f950', '€ 85\u202f995', '€ 87\u202f560', '€ 64\u202f995',
       '€ 58\u202f490', '€ 59\u202f900', '€ 73\u202f000',
       '€ 134\u202f950', '€ 229\u202f000', '€ 91\u202f950',
       '€ 288\u202f990', '€ 222\u202f204', '€ 94\u202f950',
       '€ 489\u202f950', '€ 99\u202f950', '€ 199\u202f584',
       '€ 84\u202f950', '€ 79\u202f995', '€ 82\u202f900', '€ 95\u202f500',
       '€ 114\u202f995', '€ 92\u202f900', '€ 149\u202f900',
       '€ 749\u202f995', '€ 134\u202f995', '€ 86\u202f462',
       '€ 59\u202f500', '€ 49\u202f990', '€ 89\u202f950', '€ 66\u202f000',
       '€ 52\u202f990', '€ 54\u202f950', '€ 39\u202f990',
       '€ 190\u202f000', '€ 119\u202f950', '€ 92\u202f950',
       '€ 79\u202f990', '€ 84\u202f500', '€ 139\u202f995',
       '€ 73\u202f900', '€ 77\u