# **Table of Contents**


1. [Importing Libraries and Loading Data](#Importing-Libraries-and-Loading-Data)
2. [Data Cleaning & Preprocessing](#Data-Cleaning-&-Preprocessing)
3. [Handling Missing Values](#Handling-Missing-Values)
4. [Model Building](#Model-Building)
6. [Lazzy Regressor Results](#Lazzy-Regressor-Results)
7. [Neural Network](#Neural-Network)




# Importing Libraries and Loading Data


In [4]:
!pip install lazypredict



In [5]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.impute import KNNImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error
from lazypredict.Supervised import LazyRegressor
import tensorflow as tf

In [66]:
df = pd.read_csv("./intern_car_regg.csv")
df.head()

Unnamed: 0,Avtosalon,Qiymet,Valyuta,Şəhər,Marka,Model,Buraxılış ili,Ban növü,Rəng,Mühərrik,...,Yeni,Vəziyyəti,Yeniləndi,Baxışların sayı,Extra,Etrafli,Sahiblər,Hansı bazar üçün yığılıb,Yerlərin sayı,Qəzalı
0,0,13500,AZN,Bakı,Opel,Vectra,2000,Hetçbek,Göy,1.6 L/101 a.g./Benzin,...,Xeyr,"Vuruğu yoxdur, rənglənib",28.05.2023,267,"Yüngül lehimli disklər, ABS, Kondisioner, Dəri...",Salam Barter mümkündür. 1.6 sadə mator mexanik...,2.0,Avropa,5.0,
1,1,23500,USD,Bakı,Toyota,Corolla,2023,Sedan,Mavi,1.8 L/178 a.g./Hibrid,...,Bəli,"Vuruğu yoxdur, rənglənməyib",28.05.2023,12410,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",TOYOTA CAROLLA 2023 ALIŞ. 2 İL 80.000 KM ZƏMAN...,1.0,Rəsmi diler,5.0,
2,0,33200,AZN,Bakı,Hyundai,Santa Fe,2013,Offroader / SUV,Qara,2.0 L/184 a.g./Dizel,...,Xeyr,"Vuruğu yoxdur, rənglənməyib",28.05.2023,148,"Yüngül lehimli disklər, ABS, Lyuk, Yağış senso...",Yeni gelib bakida surlmuyb qiymet mawin yanind...,1.0,Avropa,7.0,
3,0,17000,AZN,Bakı,Ford,Fusion,2015,Sedan,Göy,1.5 L/181 a.g./Benzin,...,Xeyr,"Vuruğu yoxdur, rənglənməyib",25.05.2023,3358,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",Maşın xanım tərəfindən idarə olunub,,,,
4,0,36000,USD,Bakı,Toyota,RAV4,2022,Offroader / SUV,Qara,2.0 L/173 a.g./Benzin,...,Bəli,"Vuruğu yoxdur, rənglənməyib",28.05.2023,16183,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",Rəsmi dilerdən 10 il və ya 160.000 km zəmanəti...,1.0,,5.0,


In [7]:
df.columns =  df.columns.str.lower()
df.apply(lambda col: col.str.strip() if (col.dtype==object) else col)

df.head()

Unnamed: 0,avtosalon,qiymet,valyuta,şəhər,marka,model,buraxılış ili,ban növü,rəng,mühərrik,...,yeni,vəziyyəti,yeniləndi,baxışların sayı,extra,etrafli,sahiblər,hansı bazar üçün yığılıb,yerlərin sayı,qəzalı
0,0,13500,AZN,Bakı,Opel,Vectra,2000,Hetçbek,Göy,1.6 L/101 a.g./Benzin,...,Xeyr,"Vuruğu yoxdur, rənglənib",28.05.2023,267,"Yüngül lehimli disklər, ABS, Kondisioner, Dəri...",Salam Barter mümkündür. 1.6 sadə mator mexanik...,2.0,Avropa,5.0,
1,1,23500,USD,Bakı,Toyota,Corolla,2023,Sedan,Mavi,1.8 L/178 a.g./Hibrid,...,Bəli,"Vuruğu yoxdur, rənglənməyib",28.05.2023,12410,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",TOYOTA CAROLLA 2023 ALIŞ. 2 İL 80.000 KM ZƏMAN...,1.0,Rəsmi diler,5.0,
2,0,33200,AZN,Bakı,Hyundai,Santa Fe,2013,Offroader / SUV,Qara,2.0 L/184 a.g./Dizel,...,Xeyr,"Vuruğu yoxdur, rənglənməyib",28.05.2023,148,"Yüngül lehimli disklər, ABS, Lyuk, Yağış senso...",Yeni gelib bakida surlmuyb qiymet mawin yanind...,1.0,Avropa,7.0,
3,0,17000,AZN,Bakı,Ford,Fusion,2015,Sedan,Göy,1.5 L/181 a.g./Benzin,...,Xeyr,"Vuruğu yoxdur, rənglənməyib",25.05.2023,3358,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",Maşın xanım tərəfindən idarə olunub,,,,
4,0,36000,USD,Bakı,Toyota,RAV4,2022,Offroader / SUV,Qara,2.0 L/173 a.g./Benzin,...,Bəli,"Vuruğu yoxdur, rənglənməyib",28.05.2023,16183,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə...",Rəsmi dilerdən 10 il və ya 160.000 km zəmanəti...,1.0,,5.0,


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   avtosalon                 10000 non-null  int64 
 1   qiymet                    10000 non-null  int64 
 2   valyuta                   10000 non-null  object
 3   şəhər                     10000 non-null  object
 4   marka                     10000 non-null  object
 5   model                     10000 non-null  object
 6   buraxılış ili             10000 non-null  int64 
 7   ban növü                  10000 non-null  object
 8   rəng                      10000 non-null  object
 9   mühərrik                  10000 non-null  object
 10  yürüş                     10000 non-null  object
 11  sürətlər qutusu           10000 non-null  object
 12  ötürücü                   10000 non-null  object
 13  yeni                      10000 non-null  object
 14  vəziyyəti              

In [9]:
df.describe()

Unnamed: 0,avtosalon,qiymet,buraxılış ili,baxışların sayı
count,10000.0,10000.0,10000.0,10000.0
mean,0.25,27318.52,2010.07,4328.82
std,0.44,28995.79,8.39,13383.51
min,0.0,1100.0,1938.0,41.0
25%,0.0,12700.0,2006.0,408.75
50%,0.0,21000.0,2011.0,1164.5
75%,1.0,32500.0,2015.0,3500.25
max,1.0,850000.0,2023.0,334547.0


# Data Cleaning & Preprocessing

In [10]:
df.valyuta.unique()

array(['AZN', 'USD', 'EUR'], dtype=object)

In [11]:
currency = [1, 1.7, 1.9]
converted_val = df.valyuta.replace(["AZN", "USD", "EUR"], currency)

df.drop(columns="valyuta", inplace=True)
df.qiymet = df.qiymet.mul(converted_val).astype(int)

In [12]:
df.şəhər.unique()

array(['Bakı', 'Şamaxı', 'Gəncə', 'Lənkəran', 'Sumqayıt', 'Saatlı',
       'Quba', 'Salyan', 'Ağdaş', 'Şirvan', 'Xırdalan', 'Sabirabad',
       'Mingəçevir', 'Ağcabədi', 'Bərdə', 'Oğuz', 'Tərtər', 'Astara',
       'Zaqatala', 'Xaçmaz', 'Şəki', 'İsmayıllı', 'Neftçala', 'Göyçay',
       'Şəmkir', 'Tovuz', 'Goranboy', 'Zərdab', 'İmişli', 'Xudat',
       'Balakən', 'Qax', 'Hacıqabul', 'Kürdəmir', 'Masallı', 'Naxçıvan',
       'Ucar', 'Qusar', 'Göygöl', 'Qəbələ', 'Qazax', 'Yevlax', 'Ağdam',
       'Cəlilabad', 'Şabran', 'Göytəpə', 'Siyəzən', 'Biləsuvar',
       'Dəliməmmədli', 'Naftalan', 'Beyləqan', 'Samux', 'Lerik',
       'Gədəbəy', 'Füzuli', 'Ağstafa', 'Cəbrayıl', 'Qobustan', 'Xızı',
       'Ağsu', 'Yardımlı'], dtype=object)

In [13]:
encoder = LabelEncoder()
df.şəhər = encoder.fit_transform(df.şəhər)

In [14]:
df.marka.unique()

array(['Opel', 'Toyota', 'Hyundai', 'Ford', 'Mercedes', 'Chevrolet',
       'BMW', 'Khazar', 'LADA (VAZ)', 'Kia', 'Volkswagen', 'Haval',
       'Honda', 'Nissan', 'Ravon', 'Land Rover', 'Lexus', 'Audi',
       'Bestune', 'Infiniti', 'Renault', 'Fiat', 'Mercedes-Maybach',
       'GAZ', 'MAN', 'Isuzu', 'Skoda', 'Daewoo', 'Great Wall', 'Jeep',
       'KamAz', 'JAC', 'Hongqi', 'IJ', 'MAZ', 'Chery', 'Peugeot',
       'Mitsubishi', 'Mazda', 'Bentley', 'Subaru', 'Tofas', 'Iran Khodro',
       'DAF', 'Changan', 'Dodge', 'Ssang Yong', 'Mini', 'Volvo',
       'Polaris', 'Scania', 'Suzuki', 'Porsche', 'Lamborghini', 'Shacman',
       'Baic', 'Tufan', 'Tesla', 'Lincoln', 'FAW', 'Moskvich', 'Zontes',
       'McLaren', 'ZIL', 'Yamaha', 'UAZ', 'CFMOTO', 'Geely', 'GMC',
       'Bajaj', 'Alfa Romeo', 'Wuling', 'Jaguar', 'Iveco', 'Dacia',
       'Zeekr', 'GAC', 'Ducati', 'ZAZ', 'RKS', 'SEAT', 'Hummer', 'BYD',
       'Cadillac', 'Mercury', 'Saipa', 'KAIYI', 'Maserati', 'MG',
       'Chrysler', 'HOWO', 'L

In [15]:
encoder = LabelEncoder()
df.marka = encoder.fit_transform(df.marka)

In [16]:
df.model.unique()

array(['Vectra', 'Corolla', 'Santa Fe', 'Fusion', 'RAV4', 'E 200',
       'Equinox', 'Astra', '520', 'Cruze', 'C 200', 'LX', '2106', 'Rio',
       '2107', 'Passat CC', '190', 'H6', 'Highlander', 'Prius', 'Civic',
       'SD', 'i30', 'Sorento', 'Maxima', 'Note', 'ix35', 'Land Cruiser',
       'S 500', 'Nexia R3', 'RR Evoque', 'Sonata', '430', 'Niva',
       'Elantra', '2115', 'e:NS1', 'GLE 53 AMG', 'GLK 350', 'C 250',
       '528', 'E 220', 'CT 200h', 'Nexia', 'E 240', 'Malibu', '21099',
       'Ceed', 'Optima', 'Captiva', '325', 'HD-45', 'E 350', '745',
       'RR Sport', '21013', 'Range Rover', 'Cerato', 'A6', 'Prado',
       'X-Trail', 'T99', 'Transit', 'FX35', 'QX70', 'Grand Scenic',
       '500L', 'GLE 400 Coupe', 'Magentis', '2112', 'RX 350', 'Grandeur',
       'C 180', 'S 580 4MATIC', '33027', '523', 'Discovery', 'TGA 18.400',
       'Defender', 'Camry', 'Tiida', 'Premium 420', 'NMR 85 H', '525',
       'E 270', 'Vito', 'Priora', 'C 230', 'GL 500', 'Trax', 'Megane',
       'Kamiq

In [17]:
encoder = LabelEncoder()
df.model = encoder.fit_transform(df.model)

In [18]:
df["buraxılış ili"].unique()

array([2000, 2023, 2013, 2015, 2022, 2007, 2017, 2009, 2016, 2012, 1999,
       1989, 2011, 1991, 2005, 2006, 1990, 2008, 2003, 1997, 2019, 2021,
       2018, 2014, 2004, 1984, 2001, 2010, 1992, 1996, 1998, 2020, 1995,
       1993, 2002, 1976, 1980, 1979, 1994, 1978, 1985, 1972, 1974, 1988,
       1987, 1986, 1975, 1983, 1965, 1963, 1955, 1966, 1939, 1982, 1967,
       1964, 1938, 1977, 1981, 1970, 1957, 1973, 1956, 1968])

In [19]:
df[df["buraxılış ili"] == 1938]

Unnamed: 0,avtosalon,qiymet,şəhər,marka,model,buraxılış ili,ban növü,rəng,mühərrik,yürüş,...,yeni,vəziyyəti,yeniləndi,baxışların sayı,extra,etrafli,sahiblər,hansı bazar üçün yığılıb,yerlərin sayı,qəzalı
5067,0,1445000,42,68,11,1938,Kupe,Qara,2.4 L/85 a.g./Benzin,82 000 km,...,Xeyr,"Vuruğu yoxdur, rənglənməyib",15.05.2023,241146,"Dəri salon, Ksenon lampalar",Ideal veziyyetdedir. Bos-bekar adamlar narahat...,,,,


In [20]:
df["ban növü"].unique()

array(['Hetçbek', 'Sedan', 'Offroader / SUV', 'Liftbek', 'Universal',
       'Kupe', 'Yük maşını', 'Furqon', 'Minivan', 'Dartqı',
       'Mikroavtobus', 'Motosiklet', 'Pikap', 'Van', 'Avtobus',
       'Kvadrosikl', 'Rodster', 'Moped', 'Kabriolet'], dtype=object)

In [21]:
df.rəng.unique()

array(['Göy', 'Mavi', 'Qara', 'Gümüşü', 'Tünd qırmızı', 'Boz', 'Ağ',
       'Bej', 'Yaş Asfalt', 'Yaşıl', 'Qızılı', 'Narıncı', 'Sarı',
       'Qırmızı', 'Qəhvəyi', 'Çəhrayı', 'Bənövşəyi'], dtype=object)

In [22]:
encoder = LabelEncoder()
df.rəng = encoder.fit_transform(df.rəng)

In [23]:
df.mühərrik.value_counts()

Unnamed: 0_level_0,count
mühərrik,Unnamed: 1_level_1
2.0 L/184 a.g./Dizel,503
1.6 L/75 a.g./Benzin,321
2.0 L/245 a.g./Benzin,265
1.5 L/76 a.g./Hibrid,180
1.4 L/90 a.g./Benzin,169
...,...
3.0 L/170 a.g./Dizel,1
3.5 L/250 a.g./Benzin,1
0.0 L/268 a.g./Elektro,1
1.2 L/75 a.g./Dizel,1


In [24]:
df[["litr", "at_gücü", "yanacaq"]] = df.mühərrik.str.split("/", expand=True)
df.drop(columns = "mühərrik", inplace=True)

df.insert(8, "litr", df.pop("litr"))
df.insert(9, "at_gücü", df.pop("at_gücü"))
df.insert(10, "yanacaq", df.pop("yanacaq"))

In [25]:
df.litr

Unnamed: 0,litr
0,1.6 L
1,1.8 L
2,2.0 L
3,1.5 L
4,2.0 L
...,...
9995,2.0 L
9996,3.0 L
9997,1.6 L
9998,2.0 L


In [26]:
df.litr = df.litr.str.strip(" L").astype(float)
df.at_gücü = df.at_gücü.str.strip(" a.g.").astype(int)

In [27]:
df.yanacaq.unique()

array(['Benzin', 'Hibrid', 'Dizel', 'Elektro', 'Plug-in Hibrid', 'Qaz'],
      dtype=object)

In [28]:
encoder = LabelEncoder()
df.yanacaq = encoder.fit_transform(df.yanacaq)

In [29]:
df.yürüş.unique()

array(['370 000 km', '0 km', '168 636 km', ..., '61 130 km', '299 785 km',
       '181 500 km'], dtype=object)

In [30]:
df.yürüş = df.yürüş.str.strip(" km").str.replace(" ", "").astype(int)

In [31]:
print(df["sürətlər qutusu"].unique())
df["sürətlər qutusu"] = encoder.fit_transform(df["sürətlər qutusu"])

['Mexaniki' 'Avtomat' 'Variator' 'Robotlaşdırılmış']


In [32]:
print(df["ötürücü"].unique())
df["ötürücü"] = encoder.fit_transform(df["ötürücü"])

['Ön' 'Arxa' 'Tam']


In [33]:
print(df.yeni.unique())
df.yeni = df.yeni.replace({"Xeyr": 0, "Bəli":1}).astype(int)

['Xeyr' 'Bəli']


In [34]:
print(df.vəziyyəti.unique())

df[["vuruq", "rənglənib"]] = df.vəziyyəti.str.split(", ", expand=True)
df.drop(columns="vəziyyəti", inplace=True)

['Vuruğu yoxdur, rənglənib' 'Vuruğu yoxdur, rənglənməyib'
 'Vuruğu var, rənglənib' 'Vuruğu var, rənglənməyib' nan]


In [35]:
print(df.vuruq.unique())
print(df.rənglənib.unique())

df.vuruq = df.vuruq.replace({"Vuruğu yoxdur": 0, "Vuruğu var": 1, np.nan: 0}).astype(int)
df.rənglənib = df.rənglənib.replace({"rənglənib": 1, "rənglənməyib": 0, np.nan: 0}).astype(int)

df.insert(15, "vuruq", df.pop("vuruq"))
df.insert(16, "rənglənib", df.pop("rənglənib"))

['Vuruğu yoxdur' 'Vuruğu var' nan]
['rənglənib' 'rənglənməyib' nan]


In [36]:
print(df.yeniləndi.unique())
df.yeniləndi = pd.to_datetime(df.yeniləndi, dayfirst=True)

[' 28.05.2023' ' 25.05.2023' ' 27.05.2023' ' 26.05.2023' ' 17.05.2023'
 ' 18.05.2023' ' 10.05.2023' ' 19.05.2023' ' 24.05.2023' ' 22.05.2023'
 ' 20.05.2023' ' 23.05.2023' ' 21.05.2023' ' 02.05.2023' ' 16.05.2023'
 ' 05.05.2023' ' 04.05.2023' ' 29.04.2023' ' 15.05.2023' ' 03.05.2023'
 ' 12.05.2023' ' 01.05.2023' ' 14.05.2023' ' 06.05.2023' ' 08.05.2023'
 ' 09.05.2023' ' 13.05.2023' ' 30.04.2023' ' 11.05.2023' ' 07.05.2023']


In [37]:
df["baxışların sayı"].unique()

array([  267, 12410,   148, ...,  3299, 17368,  1182])

In [38]:
df.extra

Unnamed: 0,extra
0,"Yüngül lehimli disklər, ABS, Kondisioner, Dəri..."
1,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə..."
2,"Yüngül lehimli disklər, ABS, Lyuk, Yağış senso..."
3,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə..."
4,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə..."
...,...
9995,"Yüngül lehimli disklər, ABS, Lyuk, Yağış senso..."
9996,"Yüngül lehimli disklər, ABS, Lyuk, Yağış senso..."
9997,"Yüngül lehimli disklər, ABS, Mərkəzi qapanma, ..."
9998,"Yüngül lehimli disklər, ABS, Yağış sensoru, Mə..."


In [39]:
# adding extra features to a single set
print(df.extra.unique())

df.extra = df.extra.fillna(df.extra.mode().iloc[0])
splitted = df.extra.str.split(", ")

extras = set()

for cell in splitted:
    extras.update(cell)

['Yüngül lehimli disklər, ABS, Kondisioner, Dəri salon, Ksenon lampalar, Yan pərdələr'
 'Yüngül lehimli disklər, ABS, Yağış sensoru, Mərkəzi qapanma, Park radarı, Kondisioner, Oturacaqların isidilməsi, Ksenon lampalar, Arxa görüntü kamerası, Yan pərdələr, Oturacaqların ventilyasiyası'
 'Yüngül lehimli disklər, ABS, Lyuk, Yağış sensoru, Mərkəzi qapanma, Park radarı, Kondisioner, Oturacaqların isidilməsi, Dəri salon, Ksenon lampalar, Arxa görüntü kamerası, Yan pərdələr, Oturacaqların ventilyasiyası'
 ...
 'ABS, Yağış sensoru, Kondisioner, Oturacaqların isidilməsi, Dəri salon'
 'Yüngül lehimli disklər, ABS, Mərkəzi qapanma, Park radarı, Kondisioner, Dəri salon, Arxa görüntü kamerası, Yan pərdələr, Oturacaqların ventilyasiyası'
 'Yüngül lehimli disklər, ABS, Lyuk, Mərkəzi qapanma, Kondisioner, Dəri salon, Ksenon lampalar, Yan pərdələr, Oturacaqların ventilyasiyası']


In [40]:
extras

{'ABS',
 'Arxa görüntü kamerası',
 'Dəri salon',
 'Kondisioner',
 'Ksenon lampalar',
 'Lyuk',
 'Mərkəzi qapanma',
 'Oturacaqların isidilməsi',
 'Oturacaqların ventilyasiyası',
 'Park radarı',
 'Yan pərdələr',
 'Yağış sensoru',
 'Yüngül lehimli disklər'}

In [41]:
# creating new binary columns based on the values from extra column.
extras = list(extras)
df[extras] = 0

for i in df[extras].columns:
    df[i] = (df.extra.str.contains(i))

In [42]:
df.extra[0]

'Yüngül lehimli disklər, ABS, Kondisioner, Dəri salon, Ksenon lampalar, Yan pərdələr'

In [43]:
df[extras]

Unnamed: 0,Arxa görüntü kamerası,Yağış sensoru,Park radarı,Oturacaqların isidilməsi,Dəri salon,ABS,Mərkəzi qapanma,Ksenon lampalar,Lyuk,Kondisioner,Yan pərdələr,Oturacaqların ventilyasiyası,Yüngül lehimli disklər
0,False,False,False,False,True,True,False,True,False,True,True,False,True
1,True,True,True,True,False,True,True,True,False,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,False,False,True,True,True,False,True,True,False,True
4,True,True,True,True,True,True,True,True,False,True,False,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,False,True,False,True,True,True,True,True,True,True,True,False,True
9996,True,True,True,True,True,True,True,True,True,True,True,True,True
9997,True,False,True,False,False,True,True,False,False,True,False,False,True
9998,True,True,True,False,True,True,True,True,False,True,False,True,True


In [44]:
df.drop(columns = "extra", inplace=True)
df.columns = df.columns.str.lower()

In [45]:
df.etrafli = df.etrafli.astype('string')

In [46]:
print(df.sahiblər.value_counts(dropna=False))

# if a car has some kilometers then it must have at least 1 owner, if hasn't then the car is new.
df.loc[(df.yürüş!=0) & (df.sahiblər.isna()), "sahiblər"] = 1
df.loc[(df.yürüş==0) & (df.sahiblər.isna()), "sahiblər"] = 0

df.sahiblər = df.sahiblər.replace({"4 və daha çox":4}).astype(int)

sahiblər
NaN              3807
1                2850
2                2282
0                 607
3                 373
4 və daha çox      81
Name: count, dtype: int64


# Handling Missing Values

KNN Imputation

In [47]:
df["hansı bazar üçün yığılıb"].value_counts(dropna=False).head()

Unnamed: 0_level_0,count
hansı bazar üçün yığılıb,Unnamed: 1_level_1
,3298
Avropa,2087
Rəsmi diler,1447
Amerika,1311
Koreya,697


In [48]:
df_imputed = df.copy()
df_imputed["hansı bazar üçün yığılıb"] = df_imputed["hansı bazar üçün yığılıb"].astype('category').cat.codes

imputer = KNNImputer(n_neighbors=2)
df_imputed[["hansı bazar üçün yığılıb"]] = imputer.fit_transform(df_imputed[["hansı bazar üçün yığılıb"]])

df["hansı bazar üçün yığılıb"] = df_imputed["hansı bazar üçün yığılıb"].astype(int)

Filling Nan values for seats based on the type of cars

In [49]:
df["yerlərin sayı"].value_counts(dropna=False)

Unnamed: 0_level_0,count
yerlərin sayı,Unnamed: 1_level_1
5,4372
,3168
7,1194
4,831
3,187
2,115
8+,74
6,40
1,19


In [50]:
seats = {
    'Hetçbek': 2,
    'Sedan': 5,
    'Offroader / SUV': 4,
    'Liftbek': 5,
    'Universal': 5,
    'Kupe': 4,
    'Yük maşını': 3,
    'Furqon': 3,
    'Minivan': 8,
    'Dartqı': 2,
    'Mikroavtobus': 8,
    'Motosiklet': 2,
    'Pikap': 5,
    'Van': 8,
    'Avtobus': 8,
    'Kvadrosikl': 1,
    'Rodster': 2,
    'Moped': 1,
    'Kabriolet': 4
}

In [51]:
for k, i in seats.items():
    df.loc[(df["ban növü"] == k) & (df["yerlərin sayı"].isna()), "yerlərin sayı"] = i

df["yerlərin sayı"] = df["yerlərin sayı"].replace("8+", 8).astype(int)

In [52]:
encoder = LabelEncoder()
df["ban növü"] = encoder.fit_transform(df["ban növü"])

In [53]:
print(df["qəzalı"].value_counts(dropna=False))
df["qəzalı"] = df["qəzalı"].fillna(0).replace("Bəli", 1).astype(int)

qəzalı
NaN     9968
Bəli      32
Name: count, dtype: int64


In [54]:
# if car has a damage or painted then 'qəzalı' column must be True
df.loc[(df.vuruq == 1) & (df.rənglənib == 1) & (df["qəzalı"]==0), "qəzalı"] = 1
df["qəzalı"].value_counts(dropna=False)

Unnamed: 0_level_0,count
qəzalı,Unnamed: 1_level_1
0,9899
1,101


# Model Building

In [55]:
df.head()

Unnamed: 0,avtosalon,qiymet,şəhər,marka,model,buraxılış ili,ban növü,rəng,litr,at_gücü,...,oturacaqların isidilməsi,dəri salon,abs,mərkəzi qapanma,ksenon lampalar,lyuk,kondisioner,yan pərdələr,oturacaqların ventilyasiyası,yüngül lehimli disklər
0,0,13500,6,78,828,2000,3,4,1.6,101,...,False,True,True,False,True,False,True,True,False,True
1,1,39950,6,99,278,2023,15,6,1.8,178,...,True,False,True,True,True,False,True,True,True,True
2,0,33200,6,41,726,2013,12,8,2.0,184,...,True,True,True,True,True,True,True,True,True,True
3,0,17000,6,26,384,2015,15,4,1.5,181,...,False,False,True,True,True,False,True,True,False,True
4,0,61200,6,99,672,2022,12,8,2.0,173,...,True,True,True,True,True,False,True,False,False,True


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 37 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   avtosalon                     10000 non-null  int64         
 1   qiymet                        10000 non-null  int64         
 2   şəhər                         10000 non-null  int64         
 3   marka                         10000 non-null  int64         
 4   model                         10000 non-null  int64         
 5   buraxılış ili                 10000 non-null  int64         
 6   ban növü                      10000 non-null  int64         
 7   rəng                          10000 non-null  int64         
 8   litr                          10000 non-null  float64       
 9   at_gücü                       10000 non-null  int64         
 10  yanacaq                       10000 non-null  int64         
 11  yürüş                        

In [57]:
# We don't need these columns for prediction
df.drop(columns=["etrafli", "yeniləndi"], inplace=True)

In [58]:
x = df.drop(columns = "qiymet")
y= df.qiymet

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Lazzy Regressor Results

In [59]:
reg = LazyRegressor(verbose=0, ignore_warnings=False, custom_metric=None)
models, predictions = reg.fit(x_train, x_test, y_train, y_test)

print(models)

 98%|█████████▊| 41/42 [01:06<00:01,  1.13s/it]

XGBRegressor model failed to execute
'super' object has no attribute '__sklearn_tags__'
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.001339 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 1337
[LightGBM] [Info] Number of data points in the train set: 8000, number of used features: 21
[LightGBM] [Info] Start training from score 36220.903000


100%|██████████| 42/42 [01:06<00:00,  1.59s/it]

                               Adjusted R-Squared  R-Squared       RMSE  \
Model                                                                     
HistGradientBoostingRegressor                0.93       0.94   12125.39   
LGBMRegressor                                0.92       0.92   13367.22   
ExtraTreesRegressor                          0.90       0.90   14998.93   
RandomForestRegressor                        0.87       0.87   17282.19   
KNeighborsRegressor                          0.82       0.82   20329.13   
BaggingRegressor                             0.78       0.78   22229.83   
PoissonRegressor                             0.75       0.75   23850.42   
GradientBoostingRegressor                    0.69       0.70   26328.96   
SGDRegressor                                 0.59       0.59   30483.58   
LassoLarsIC                                  0.57       0.58   30887.92   
LassoCV                                      0.57       0.58   30899.50   
BayesianRidge            




In [60]:
def metrics(y_pred, y_test):
    mse = mean_squared_error(y_test, y_pred)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    print(f"Mean Squered Error: {mse}\nMean Absolute Error: {mae}\nR-squared: {r2}")

In [61]:
lr = LinearRegression()
lr.fit(x_train, y_train)

y_pred = lr.predict(x_test)
metrics(y_pred, y_test)

Mean Squered Error: 944987401.310478
Mean Absolute Error: 16819.815148095517
R-squared: 0.5859961155801163


# Neural Network

In [62]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(256, activation="relu", input_shape = (34, )),
    tf.keras.layers.Dense(512, activation="relu", kernel_regularizer="l2"),
    tf.keras.layers.Dense(512, activation="relu"),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(512, activation="relu"),
    tf.keras.layers.Dense(256, activation="relu", kernel_regularizer="l2"),
    tf.keras.layers.Dense(128, activation="relu"),
    tf.keras.layers.Dense(1)
    ])

model.compile(optimizer="adam", loss="mean_absolute_error")

In [63]:
model.fit(x_train, y_train, validation_data=(x_test, y_test), epochs=20)

Epoch 1/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 16ms/step - loss: 28094.9961 - val_loss: 21417.8340
Epoch 2/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 9ms/step - loss: 20217.8418 - val_loss: 19339.2832
Epoch 3/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 19112.4062 - val_loss: 18386.2461
Epoch 4/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 18324.3145 - val_loss: 18779.0605
Epoch 5/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - loss: 17064.8711 - val_loss: 14515.5107
Epoch 6/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 4ms/step - loss: 15431.4111 - val_loss: 12983.2207
Epoch 7/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 5ms/step - loss: 14676.8711 - val_loss: 14093.3818
Epoch 8/20
[1m250/250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 4ms/step - loss: 13931.51

<keras.src.callbacks.history.History at 0x7e5302d33bd0>

In [64]:
y_pred = model.predict(x_test)
metrics(y_pred, y_test)

[1m63/63[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step
Mean Squered Error: 617093760.0
Mean Absolute Error: 12706.5341796875
R-squared: 0.7296479940414429
