## Chargement des Bibliothèques nécessaires

In [135]:
import pandas as pd
import plotly.express as px
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder, FunctionTransformer
from sklearn.compose import ColumnTransformer

## Chargement du dataset

In [136]:
dataset = pd.read_csv("https://full-stack-assets.s3.eu-west-3.amazonaws.com/Deployment/get_around_pricing_project.csv")
dataset.head()

Unnamed: 0.1,Unnamed: 0,model_key,mileage,engine_power,fuel,paint_color,car_type,private_parking_available,has_gps,has_air_conditioning,automatic_car,has_getaround_connect,has_speed_regulator,winter_tires,rental_price_per_day
0,0,Citroën,140411,100,diesel,black,convertible,True,True,False,False,True,True,True,106
1,1,Citroën,13929,317,petrol,grey,convertible,True,True,False,False,False,True,True,264
2,2,Citroën,183297,120,diesel,white,convertible,False,False,False,False,True,False,True,101
3,3,Citroën,128035,135,diesel,red,convertible,True,True,False,False,True,True,True,158
4,4,Citroën,97097,160,diesel,silver,convertible,True,True,False,False,False,True,True,183


In [137]:
# Statistiques de Bases
print("Number of rows : {}".format(dataset.shape[0]))
print()

print("Number of columns : {}".format(dataset.shape[1]))
print()

print("Display of dataset: ")
display(dataset.head())
print()

print("Basics statistics: ")
data_desc = dataset.describe(include='all')
display(data_desc)
print()

print("Informations of dataset: ")
data_info = dataset.info()
display(data_info)
print()

print("Percentage of missing values: ")
display(100*dataset.isnull().sum()/dataset.shape[0])

Number of rows : 4843

Number of columns : 15

Display of dataset: 


Unnamed: 0.1,Unnamed: 0,model_key,mileage,engine_power,fuel,paint_color,car_type,private_parking_available,has_gps,has_air_conditioning,automatic_car,has_getaround_connect,has_speed_regulator,winter_tires,rental_price_per_day
0,0,Citroën,140411,100,diesel,black,convertible,True,True,False,False,True,True,True,106
1,1,Citroën,13929,317,petrol,grey,convertible,True,True,False,False,False,True,True,264
2,2,Citroën,183297,120,diesel,white,convertible,False,False,False,False,True,False,True,101
3,3,Citroën,128035,135,diesel,red,convertible,True,True,False,False,True,True,True,158
4,4,Citroën,97097,160,diesel,silver,convertible,True,True,False,False,False,True,True,183



Basics statistics: 


Unnamed: 0.1,Unnamed: 0,model_key,mileage,engine_power,fuel,paint_color,car_type,private_parking_available,has_gps,has_air_conditioning,automatic_car,has_getaround_connect,has_speed_regulator,winter_tires,rental_price_per_day
count,4843.0,4843,4843.0,4843.0,4843,4843,4843,4843,4843,4843,4843,4843,4843,4843,4843.0
unique,,28,,,4,10,8,2,2,2,2,2,2,2,
top,,Citroën,,,diesel,black,estate,True,True,False,False,False,False,True,
freq,,969,,,4641,1633,1606,2662,3839,3865,3881,2613,3674,4514,
mean,2421.0,,140962.8,128.98823,,,,,,,,,,,121.214536
std,1398.198007,,60196.74,38.99336,,,,,,,,,,,33.568268
min,0.0,,-64.0,0.0,,,,,,,,,,,10.0
25%,1210.5,,102913.5,100.0,,,,,,,,,,,104.0
50%,2421.0,,141080.0,120.0,,,,,,,,,,,119.0
75%,3631.5,,175195.5,135.0,,,,,,,,,,,136.0



Informations of dataset: 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4843 entries, 0 to 4842
Data columns (total 15 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Unnamed: 0                 4843 non-null   int64 
 1   model_key                  4843 non-null   object
 2   mileage                    4843 non-null   int64 
 3   engine_power               4843 non-null   int64 
 4   fuel                       4843 non-null   object
 5   paint_color                4843 non-null   object
 6   car_type                   4843 non-null   object
 7   private_parking_available  4843 non-null   bool  
 8   has_gps                    4843 non-null   bool  
 9   has_air_conditioning       4843 non-null   bool  
 10  automatic_car              4843 non-null   bool  
 11  has_getaround_connect      4843 non-null   bool  
 12  has_speed_regulator        4843 non-null   bool  
 13  winter_tires               4843 non-

None


Percentage of missing values: 


Unnamed: 0                   0.0
model_key                    0.0
mileage                      0.0
engine_power                 0.0
fuel                         0.0
paint_color                  0.0
car_type                     0.0
private_parking_available    0.0
has_gps                      0.0
has_air_conditioning         0.0
automatic_car                0.0
has_getaround_connect        0.0
has_speed_regulator          0.0
winter_tires                 0.0
rental_price_per_day         0.0
dtype: float64

**Mon dataset comprend 14 variables réparties sur 4843 enregistrements. Parmi ces variables, 3 sont de type entier (int), 4 sont de type objet (object) et 7 sont de type booléen (bool). De plus, le jeu de données ne contient aucune valeur manquante.**

## Prétraitement

In [138]:
#Suppression de la colonne Unnamed
dataset = dataset.drop(['Unnamed: 0'], axis=1)
dataset.head()

Unnamed: 0,model_key,mileage,engine_power,fuel,paint_color,car_type,private_parking_available,has_gps,has_air_conditioning,automatic_car,has_getaround_connect,has_speed_regulator,winter_tires,rental_price_per_day
0,Citroën,140411,100,diesel,black,convertible,True,True,False,False,True,True,True,106
1,Citroën,13929,317,petrol,grey,convertible,True,True,False,False,False,True,True,264
2,Citroën,183297,120,diesel,white,convertible,False,False,False,False,True,False,True,101
3,Citroën,128035,135,diesel,red,convertible,True,True,False,False,True,True,True,158
4,Citroën,97097,160,diesel,silver,convertible,True,True,False,False,False,True,True,183


In [139]:
# Sélection des données ayant un 'mileage' non négatif et 'engine_power' différent de 0
dataset = dataset[(dataset['mileage'] >= 0) & (dataset['engine_power'] != 0)]
dataset.describe()

Unnamed: 0,mileage,engine_power,rental_price_per_day
count,4841.0,4841.0,4841.0
mean,141004.2,128.99401,121.185705
std,60169.01,38.930253,33.502751
min,476.0,25.0,10.0
25%,103034.0,100.0,104.0
50%,141089.0,120.0,119.0
75%,175217.0,135.0,136.0
max,1000376.0,423.0,422.0


## Exploration des données

In [140]:
# Liste des colonnes à afficher
colonnes_cat = ['model_key', 'fuel', 'paint_color', 'car_type']

# Boucle à travers chaque colonne pour générer le diagramme en barres
for colonne in colonnes_cat:
    # Groupement des données par la colonne actuelle et calcul du prix de location moyen par jour
    prix_location_moyen = dataset.groupby(colonne)['rental_price_per_day'].mean().reset_index()

    # Création d'un diagramme en barres
    fig = px.bar(prix_location_moyen, x=colonne, y='rental_price_per_day', 
                 title=f"Prix de location moyen par jour selon {colonne.capitalize().replace('_', ' ')}",
                 labels={colonne: colonne.capitalize().replace('_', ' '), 
                         'rental_price_per_day': 'Prix de location moyen par jour'},
                color_discrete_sequence=['#191970'])
    fig.show()

In [141]:
for colonne in colonnes_cat:
    # Calcul du nombre d'enregistrements par valeur de la colonne
    counts = dataset[colonne].value_counts().reset_index()
    counts.columns = [colonne, 'count']

    # Création d'un diagramme en barres
    fig = px.bar(counts, x=colonne, y='count', 
                 title=f"Nombre d'enregistrements par {colonne.replace('_', ' ')}",
                 labels={colonne: colonne.replace('_', ' '), 'count': "Nombre d'enregistrements"},
                 color_discrete_sequence=['green'])
    
    # Affichage du diagramme en barres
    fig.show()


In [142]:
# Colonnes à traiter
colonnes = ['model_key', 'fuel', 'paint_color', 'car_type']

# Définir une fonction pour regrouper les valeurs peu fréquentes sous 'Autres'
def regrouper_sous_autres(df, colonne, seuil):
    counts = df[colonne].value_counts() # Calculer la fréquence des valeurs dans la colonne spécifiée
    valeurs_peu_frequentes = counts[counts < seuil].index # Identifier les valeurs qui sont moins fréquentes que le seuil
    df.loc[df[colonne].isin(valeurs_peu_frequentes), colonne] = 'Autres' # Remplacer ces valeurs par 'Autres' dans le DataFrame
    return df

# Définir le seuil pour moins de 10% des enregistrements
seuil = 0.005 * len(dataset)  # 10% du nombre total d'enregistrements

# Boucle à travers chaque colonne pour appliquer la fonction de regroupement
for colonne in colonnes:
    df = regrouper_sous_autres(dataset, colonne, seuil)

# Afficher les valeurs uniques dans chaque colonne spécifiée
for colonne in colonnes:
    print(f"Valeurs uniques dans '{colonne}':")
    print(df[colonne].unique())
    print()  # Pour une ligne vide entre chaque colonne



Valeurs uniques dans 'model_key':
['Citroën' 'Peugeot' 'PGO' 'Renault' 'Audi' 'BMW' 'Autres' 'Mercedes'
 'Opel' 'Volkswagen' 'Ferrari' 'Mitsubishi' 'Nissan' 'SEAT' 'Subaru'
 'Toyota']

Valeurs uniques dans 'fuel':
['diesel' 'petrol' 'Autres']

Valeurs uniques dans 'paint_color':
['black' 'grey' 'white' 'red' 'silver' 'blue' 'Autres' 'beige' 'brown']

Valeurs uniques dans 'car_type':
['convertible' 'coupe' 'estate' 'hatchback' 'sedan' 'subcompact' 'suv'
 'van']



In [143]:
dataset.shape

(4841, 14)

## Preprocessing with sklearn

In [144]:
# Separate target variable Y from features X
target_name = 'rental_price_per_day'

print("Separating labels from features...")
Y = dataset.loc[:,target_name]
X = dataset.drop(target_name, axis = 1)
print("...Done.")
print(Y.head())
print()
print(X.head())
print()

Separating labels from features...
...Done.
0    106
1    264
2    101
3    158
4    183
Name: rental_price_per_day, dtype: int64

  model_key  mileage  engine_power    fuel paint_color     car_type  \
0   Citroën   140411           100  diesel       black  convertible   
1   Citroën    13929           317  petrol        grey  convertible   
2   Citroën   183297           120  diesel       white  convertible   
3   Citroën   128035           135  diesel         red  convertible   
4   Citroën    97097           160  diesel      silver  convertible   

   private_parking_available  has_gps  has_air_conditioning  automatic_car  \
0                       True     True                 False          False   
1                       True     True                 False          False   
2                      False    False                 False          False   
3                       True     True                 False          False   
4                       True     True               

In [145]:
#Séparation des types de colonnes
numeric_features = []
binary_features = []
categorical_features = []

for i, t in X.dtypes.iteritems():
    if ('float' in str(t)) or ('int' in str(t)):
        numeric_features.append(i)
    elif ('bool' in str(t)):
        binary_features.append(i)
    else:
        categorical_features.append(i)

print("Features numériques :", numeric_features)
print("Features binaires :", binary_features)
print("Features catégoriques :", categorical_features)

Features numériques : ['mileage', 'engine_power']
Features binaires : ['private_parking_available', 'has_gps', 'has_air_conditioning', 'automatic_car', 'has_getaround_connect', 'has_speed_regulator', 'winter_tires']
Features catégoriques : ['model_key', 'fuel', 'paint_color', 'car_type']



iteritems is deprecated and will be removed in a future version. Use .items instead.



In [146]:
#Création des transformateurs
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('encoder', OneHotEncoder(drop='first'))
])

binary_transformer = FunctionTransformer(None)  # Fonction identité

# Utilisation de ColumnTransformer pour regrouper les prétraitements
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),  # Correction: Ajout de la virgule manquante
        ('bin', binary_transformer, binary_features)
    ])



In [147]:
preprocessor.fit(X)