In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, make_scorer, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

pd.set_option('display.max_columns' ,  None)
pd.set_option('display.max_rows' ,  None)
pd.options.display.float_format = '{:.3f}'.format


In [2]:
voitures = pd.read_csv('voitures_preprocessed.csv')

In [3]:
voitures.head()

Unnamed: 0,Brand,Model,Kilométrage,Année,Boîte,Carburant,Puissance fiscale,Prix
0,Hyundai,IX35,160000,2016,Automatique,Diesel,11,66500
1,Volkswagen,POLO SEDAN,170000,2020,Manuelle,Essence,5,41800
2,Mercedes-Benz,CLASSE A,180000,2014,Automatique,Essence,6,68500
3,BMW,SÉRIE 1,18000,2022,Automatique,Essence,6,125000
4,Ford,KUGA,115000,2018,Automatique,Essence,11,76000


In [4]:
voitures.describe()

Unnamed: 0,Kilométrage,Année,Puissance fiscale,Prix
count,2124.0,2124.0,2124.0,2124.0
mean,115966.335,2017.255,8.542,96611.535
std,81501.493,4.964,4.947,74275.657
min,0.0,1984.0,4.0,5000.0
25%,58750.0,2015.0,6.0,49000.0
50%,100000.0,2019.0,7.0,75000.0
75%,160000.0,2021.0,9.0,118000.0
max,999999.0,2024.0,48.0,700000.0


In [5]:
voitures.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2124 entries, 0 to 2123
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Brand              2124 non-null   object
 1   Model              2124 non-null   object
 2   Kilométrage        2124 non-null   int64 
 3   Année              2124 non-null   int64 
 4   Boîte              2124 non-null   object
 5   Carburant          2124 non-null   object
 6   Puissance fiscale  2124 non-null   int64 
 7   Prix               2124 non-null   int64 
dtypes: int64(4), object(4)
memory usage: 132.9+ KB


## Splitting Features and Target

In [7]:
X = voitures.drop(columns=['Prix'] , axis=1)
y = voitures['Prix']

## One-Hot Encoding categorical features

In [9]:
X = pd.get_dummies(X , drop_first=True)

In [10]:
X.head()

Unnamed: 0,Kilométrage,Année,Puissance fiscale,Brand_Alpina,Brand_Audi,Brand_BAIC YX,Brand_BMW,Brand_BYD,Brand_Chery,Brand_Chevrolet,Brand_Citroën,Brand_Cupra,Brand_DFSK,Brand_DS,Brand_Dacia,Brand_Dodge,Brand_Dongfeng,Brand_Fiat,Brand_Ford,Brand_Foton,Brand_GMC,Brand_Geely,Brand_Great Wall,Brand_Haval,Brand_Honda,Brand_Hyundai,Brand_Infiniti,Brand_Isuzu,Brand_Iveco,Brand_Jaguar,Brand_Jeep,Brand_KIA,Brand_Lada,Brand_Land Rover,Brand_MG,Brand_Mahindra,Brand_Maserati,Brand_Mazda,Brand_Mercedes-Benz,Brand_Mini,Brand_Mitsubishi,Brand_Nissan,Brand_Opel,Brand_Peugeot,Brand_Porsche,Brand_Renault,Brand_Seat,Brand_Skoda,Brand_Smart,Brand_Ssangyong,Brand_Suzuki,Brand_Tesla,Brand_Toyota,Brand_Volkswagen,Brand_Volvo,Brand_Wallyscar,Brand_ZXAUTO,Model_2008,Model_2008 ALLURE,Model_206,Model_207,Model_208,Model_3 PORTES,Model_3008,Model_3008 ALLURE,Model_3008 GT-LINE,Model_301,Model_307,Model_308,Model_308 ALLURE,Model_350Z,Model_4 CROSSBACK,Model_4008,Model_407,Model_408,Model_4X4,Model_5 PORTES,Model_500,Model_500 CULT CLUB,Model_500 DOLCEVITA,Model_5008,Model_500X,Model_505,Model_508,Model_7 CROSSBACK,Model_719,Model_A1 SPORTBACK,Model_A3,Model_A3 BERLINE,Model_A3 SPORTBACK,Model_A3 SPORTBACK S-LINE,Model_A4,Model_A5,Model_A5 CABRIOLET,Model_A5 COUPÉ,Model_A5 SPORTBACK,Model_A6,Model_A7 SPORTBACK QUATTRO V6,Model_ACCORD,Model_ACTYON SPORTS,Model_AGYA BVA,Model_AMAROK,Model_AMAROK DOUBLE CABINE,Model_ARKANA INTENSE,Model_ARONA,Model_ARRIZO 5,Model_ASTRA EDITION,Model_ASX 4WD,Model_ATECA,Model_AVEO LS,Model_AX4,Model_B7,Model_BALENO,Model_BAYON TOP GRADE,Model_BERLINGO,Model_BOXER,Model_BT-50,Model_C-ELYSÉE,Model_C-HR,Model_C-HR 2024 HYBRIDE,Model_C1,Model_C3,Model_C3 SHINE,Model_C4,Model_C4 CACTUS,Model_C5,Model_C5 AIRCROSS,Model_CABRIO,Model_CADDY,Model_CALIBRA TURBO 4X4,Model_CAPTIVA 7 PLACES,Model_CAPTUR ZEN,Model_CARENS,Model_CAYENNE,Model_CAYENNE S V6,Model_CAYMAN S,Model_CC,Model_CEE'D COMFORT,Model_CELERIO,Model_CERATO,Model_CIAZ GLX,Model_CITIGO,Model_CITY,Model_CIVIC RS,Model_CLA,Model_CLA AMG,Model_CLA KIT AMG,Model_CLASSE A,Model_CLASSE A AMG,Model_CLASSE A BERLINE,Model_CLASSE A BERLINE AMG,Model_CLASSE A BUSINESS,Model_CLASSE B,Model_CLASSE C,Model_CLASSE C AMG,Model_CLASSE C AMG +,Model_CLASSE C AVANTGARDE,Model_CLASSE C BUSINESS,Model_CLASSE C COUPÉ,Model_CLASSE C COUPÉ AMG,Model_CLASSE E,Model_CLASSE E AMG,Model_CLASSE E AVANTGARDE,Model_CLASSE E BUSINESS,Model_CLASSE E COUPÉ,Model_CLASSE E COUPÉ AMG,Model_CLASSE G,Model_CLASSE GL,Model_CLASSE S,Model_CLASSE S AMG,Model_CLASSE X,Model_CLIO,Model_CLIO 4,Model_CLIO CAMPUS,Model_CLIO CLASSIC,Model_CLIO DYNAMIQUE,Model_CLIO LETUCE,Model_CLIO LIFE PLUS,Model_CLIO ZEN,Model_CLS,Model_CLS AMG,Model_CLUBMAN,Model_COMBO CARGO CONFORT L1H1 650 KG,Model_COMPASS,Model_COOPER S,Model_COROLLA,Model_COROLLA CROSS,Model_CORSA,Model_COUNTRYMAN,Model_CR-V,Model_CR-V LX,Model_CRETA,Model_CROSSLAND,Model_CRUZE,Model_CX-5,Model_CX-7,Model_CX-9,Model_Cupra_LEON,Model_D-MAX DOUBLE CABINE,Model_DAILY,Model_DAILY SIMPLE CABINE CAMION IVECO DAILY TYPE 35C15/E3,Model_DEFENDER 110,Model_DISCOVERY,Model_DISCOVERY SPORT,Model_DOBLO,Model_DOKKER VAN,Model_DS3,Model_DS5,Model_DS_3,Model_DS_5,Model_DUCATO,Model_DUSTER,Model_DUSTER TECHROAD,Model_DZIRE,Model_E3,Model_ECOSPORT,Model_ELANTRA,Model_EOS,Model_EQA,Model_EXPERT,Model_EXPRESS,Model_F 250 V8,Model_F 350 LARIAT,Model_F-PACE,Model_F3,Model_FABIA,Model_FIESTA,Model_FIESTA TREND,Model_FIGO,Model_FIORINO,Model_FOCUS,Model_FOCUS RS,Model_FOCUS ST LINE,Model_FORFOUR,Model_FORLAND,Model_FORMENTOR,Model_FORTHING T5 EVO,Model_FORTWO,Model_FORTWO SPORT,Model_FREELANDER 2,Model_FUSION,Model_FX,Model_GC6,Model_GIULIETTA,Model_GIULIETTA QUADRIFOGLIO VERDE,Model_GLA,Model_GLA AMG,Model_GLB 200 D,Model_GLB AMG,Model_GLC,Model_GLC AMG,Model_GLC COUPÉ,Model_GLC COUPÉ AMG,Model_GLE,Model_GLE AMG,Model_GLE COUPÉ,Model_GLE COUPÉ AMG,Model_GLK,Model_GLORY 580,Model_GOLF 5,Model_GOLF 6,Model_GOLF 6 STYLE,Model_GOLF 7,Model_GOLF 7 IMPORTEE TOIT PANO,Model_GOLF 7 JOIN,Model_GOLF 7 R-LINE,Model_GOLF 7 SMARTLINE,Model_GOLF 8,Model_GOLF 8 R-LINE,Model_GRAND CHEROKEE,Model_GRAND ESPACE,Model_GRAND I10,Model_GRAND I10 HIGH GRADE,Model_GRAND I10 SEDAN,Model_GRAND TIGER DOUBLE CABINE,Model_GRANDE PUNTO,Model_GROOVE PREMIER,Model_GS,Model_GT CONFORT PLUS,Model_GX3,Model_H-1,Model_H2,Model_H350,Model_H6,Model_H6 LUXURY,Model_H9 VIN,Model_HILUX DOUBLE CABINE,Model_HILUX SIMPLE CABINE,Model_HS,Model_HS TROPHY,Model_I20,Model_I20 HIGH GRADE,Model_IBIZA,Model_IRIS,Model_IX1 XLINE,Model_IX35,Model_JETTA,Model_JIMNY 3 PORTES,Model_JOLION,Model_JUKE,Model_JUMPER,Model_JUMPY COMBI,Model_JUMPY FOURGON,Model_KA,Model_KADJAR,Model_KADJAR INTENS,Model_KAMIQ,Model_KANGOO,Model_KENBO S2,Model_KENBO S3,Model_KONA,Model_KORANDO,Model_KUGA,Model_KUSHAQ,Model_KUV 100 K6+,Model_KUV 100 K8,Model_KWID POPULAIRE,Model_L200,Model_L200 SPORTERO,Model_LANCER,Model_LAND CRUISER,Model_LAND CRUISER 79 LX,Model_LANDTREK DOUBLE CABINE,Model_LANDTREK SIMPLE CABINE,Model_LINEA,Model_LOGAN,Model_M3 INDIVIDUAL FULL OPTIONS,Model_M4,Model_MACAN,Model_MEGANE,Model_MEGANE DYNAMIQUE,Model_MEGANE SEDAN,Model_MG_3,Model_MG_5,Model_MG_6,Model_MICRA,Model_ML,Model_MODEL 3,Model_MODUS,Model_MOKKA,Model_MONDEO,Model_MUSTANG,Model_Mazda_3,Model_Mazda_6,Model_NIVA,Model_OCTAVIA,Model_OPTIMA,Model_PAJERO,Model_PANAMERA,Model_PANDA CITY CROSS,Model_PARTNER,Model_PASSAT,Model_PASSAT GTE,Model_PASSAT R-LINE,Model_PATROL,Model_PICANTO,Model_PICK-UP SC,Model_POER AT,Model_POLO,Model_POLO CONFORTLINE,Model_POLO R-LINE,Model_POLO SEDAN,Model_PRADO,Model_PUMA,Model_PUNTO,Model_Q2,Model_Q3,Model_Q3 SPORTBACK,Model_Q4 E-TRON,Model_Q5,Model_Q7,Model_Q8,Model_QASHQAI,Model_QQ,Model_QUATTROPORTE M139 F1 V8 FORMULA ONE ( F1 ),Model_QUORIS,Model_RAM RUMBLE BEE,Model_RANGE ROVER EVOQUE,Model_RANGE ROVER L,Model_RANGE ROVER SPORT,Model_RANGE ROVER VELAR,Model_RANGER,Model_RAPID,Model_RAV 4,Model_RENEGADE,Model_RIFTER,Model_RIO 5P,Model_RIO BERLINE,Model_RS5,Model_RSQ3,Model_RX8 4X4 SUV,Model_S5,Model_S50 LUXURY,Model_SANDERO STEPWAY,Model_SCALA,Model_SCIROCCO,Model_SCORPIO SUV,Model_SCUDO,Model_SELTOS,Model_SIENA,Model_SIERRA AMERICAIN,Model_SJ SAMURAI,Model_SONIC,Model_SORENTO,Model_SPORTAGE,Model_SPORTAGE BVM,Model_STONIC,Model_STRADA,Model_SUPERB AMBASSADOR,Model_SWIFT,Model_SX3,Model_SYMBOL,Model_Seat_LEON,Model_SÉRIE 1,Model_SÉRIE 1 PACK M,Model_SÉRIE 2 GRAN COUPÉ,Model_SÉRIE 3,Model_SÉRIE 3 COUPÉ,Model_SÉRIE 4 COUPÉ,Model_SÉRIE 4 GRAN COUPÉ,Model_SÉRIE 5,Model_SÉRIE 5 LUXURY LINE,Model_SÉRIE 6,Model_SÉRIE 7,Model_T-CROSS,Model_T-ROC,Model_T-ROC CONFORTLINE,Model_T-ROC R-LINE,Model_TANG SUPREME,Model_TARRACO,Model_TIGGO 2,Model_TIGGO 3 CONFORT,Model_TIGGO 3X,Model_TIGGO 4 PREMIUM,Model_TIGGO 7 PRO,Model_TIGGO 8,Model_TIGGO 8 PRO,Model_TIGUAN,Model_TIPO 5 PORTES,Model_TIVOLI,Model_TOLEDO,Model_TOUAREG,Model_TOWNSTAR,Model_TRANSIT,Model_TRANSPORTER COMBI 6.1,Model_TRANSPORTER FOURGON 6.1,Model_TUCSON,Model_TUCSON TOUTE OPTION,Model_TUNDRA,Model_TUNLAND,Model_VELOSTER,Model_VELSATIS,Model_VIRTUS,Model_VITARA,Model_WOLF,Model_WRANGLER,Model_X1,Model_X2,Model_X3,Model_X4,Model_X5,Model_X6,Model_XC60,Model_XCEED,Model_XE,Model_XF,Model_XJ,Model_XJL,Model_YARIS SEDAN,Model_ZS,Boîte_Manuelle,Carburant_Electrique,Carburant_Essence,Carburant_Hybride
0,160000,2016,11,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,170000,2020,5,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,True,False
2,180000,2014,6,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
3,18000,2022,6,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
4,115000,2018,11,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False


## Log Transformation for Target

In [12]:
y = np.log(y)

## Model Training and Evaluation

In [14]:
# Define a custom MAE scorer that reverses the log transformation
def exp_mae(y_true, y_pred):
    # Reverse the log transformation by exponentiating
    y_true_exp = np.exp(y_true)
    y_pred_exp = np.exp(y_pred)
    # Calculate MAE on the original scale
    return mean_absolute_error(y_true_exp, y_pred_exp)

In [15]:
# Define models with STANDARDIZATION
models = {
    'Random Forest': RandomForestRegressor(random_state=42), #not affected by standardization
    'Linear Regression':LinearRegression(), #get worse with standardisation
    'K-Nearest Neighbors': make_pipeline(StandardScaler(), KNeighborsRegressor()),
}

In [16]:
cv_folds = 5
scoring = {
    'R2': make_scorer(r2_score),
    'MAE': make_scorer(exp_mae)
}

# Perform cross-validation for each model
results = {}
for name, model in models.items():
    scores = cross_validate(model, X, y, cv=cv_folds, scoring=scoring, return_train_score=False)
    results[name] = scores
    print(f"{name}:")
    print(f"  R² scores for each fold: {scores['test_R2']}")
    print(f"  Mean R²: {scores['test_R2'].mean():.3f}\n")
    print(f"  MAE scores for each fold: {scores['test_MAE']}")
    print(f"  Mean MAE: {scores['test_MAE'].mean():.3f}\n\n")

Random Forest:
  R² scores for each fold: [0.87311305 0.85458223 0.84717112 0.90223301 0.84491794]
  Mean R²: 0.864

  MAE scores for each fold: [20400.1020582  18856.40438998 13300.50714915 15008.32226669
 13919.16815338]
  Mean MAE: 16296.901


Linear Regression:
  R² scores for each fold: [0.89011529 0.90457547 0.85760124 0.88456064 0.84580407]
  Mean R²: 0.877

  MAE scores for each fold: [16289.67353465 15856.09380492 11346.72427294 14281.9535272
 12802.57108831]
  Mean MAE: 14115.403


K-Nearest Neighbors:
  R² scores for each fold: [0.71655053 0.71645501 0.7059665  0.74605784 0.65970909]
  Mean R²: 0.709

  MAE scores for each fold: [29825.31512547 26402.91431683 19795.4605542  22191.84547782
 21558.0874376 ]
  Mean MAE: 23954.725


