In [1]:
%matplotlib inline

In [42]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from datetime import datetime
from deep_translator import MyMemoryTranslator

# Data tidying and cleaning

### I review the data overall

I scrape the data at 27-02-2025. 

In [3]:
# current_date = datetime.today().strftime('%d-%m-%Y')
current_date = "27-02-2025"

In [4]:
cars_data = pd.read_csv(f"data/raw_data_{current_date}.csv")

In [5]:
cars_data.shape

(836, 13)

In [6]:
cars_data.head()

Unnamed: 0,title,price,manufacturing_year,mileage,color,fuel,hp,eurostandard,cubic_capacity,gearbox,type,region,url
0,Mercedes-Benz GLE 450AMG COUPE Дистроник Камер...,69 990 лв.,април 2016 г.,153 000,Черен,Бензинов,367.0,6.0,3000.0,автоматична,Джип,София,https://www.mobile.bg/obiava-21739610929678661...
1,Mercedes-Benz GLE 350d Coupe-AMG Line-9G-troni...,69 999 лв.,януари 2017 г.,189 000,Бял,Дизелов,258.0,,,автоматична,Джип,Пазарджик,https://www.mobile.bg/obiava-21732691514860984...
2,Mercedes-Benz GLE 43 AMG COUPE Панорама Дистр....,78 990 лв.,октомври 2017 г.,127 000,Син,Бензинов,367.0,6.0,3000.0,автоматична,Джип,София,https://www.mobile.bg/obiava-11737682127414901...
3,Mercedes-Benz GLE 250 d,45 500 лв.,януари 2015 г.,178 000,Черен,Дизелов,204.0,,2143.0,автоматична,Джип,Пловдив,https://www.mobile.bg/obiava-21705057744409616...
4,Mercedes-Benz GLE 350 4Matic AMG * ТОП СЪСТОЯНИЕ*,46 000 лв.,юли 2016 г.,251 700,Сив,Бензинов,307.0,5.0,3500.0,автоматична,Джип,София,https://www.mobile.bg/obiava-21725807501288193...


In [7]:
cars_data["title"] = cars_data["title"].str.lower()

In [8]:
cars_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 836 entries, 0 to 835
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   title               836 non-null    object 
 1   price               836 non-null    object 
 2   manufacturing_year  836 non-null    object 
 3   mileage             836 non-null    object 
 4   color               807 non-null    object 
 5   fuel                836 non-null    object 
 6   hp                  801 non-null    float64
 7   eurostandard        703 non-null    float64
 8   cubic_capacity      507 non-null    object 
 9   gearbox             836 non-null    object 
 10  type                836 non-null    object 
 11  region              836 non-null    object 
 12  url                 836 non-null    object 
dtypes: float64(2), object(11)
memory usage: 85.0+ KB


### Clean the price column 

In [9]:
cars_data.price.unique()

array(['69 990 лв.', '69 999 лв.', '78 990 лв.', '45 500 лв.',
       '46 000 лв.', '49 900 лв.', '54 000 лв.', '57 000 лв.',
       '57 900 лв.', '59 999 лв.', '61 999 лв.', '62 900 лв.',
       '63 663 лв.', '64 999 лв.', '65 800 лв.', '65 999 лв.',
       '67 000 лв.', '69 000 лв.', '71 999 лв.', '73 999 лв.',
       '78 900 лв.', '81 999 лв.', '98 999 лв.', '83 900 лв.',
       '104 999 лв.', '119 000 лв.', '136 000 лв.', '113 999 лв.',
       '119 900 лв.', '189 999 лв.', 'Запитване', '63 900 лв.',
       '89 990 лв.', '119 699 лв.', '103 900 лв.', '125 000 лв.',
       '109 900 лв.', '134 500 лв.', '135 000 лв.', '139 999 лв.',
       '72 500 лв.', '74 000 лв.', '76 699 лв.', '94 800 лв.',
       '99 000 лв.', '125 999 лв.', '53 700 лв.', '59 800 лв.',
       '73 699 лв.', '129 900 лв.', '144 999 лв.', '121 900 лв.',
       '157 700 лв.', '177 000 лв.', '149 900 лв.', '189 500 лв.',
       '85 000 лв.', '87 000 лв.', '94 999 лв.', '99 800 лв.',
       '209 999 лв.', '65 000 лв.',

I remove the currencies and incorrect entries from the price column. Then convert it to int.

In [10]:
len(cars_data[cars_data.price == "Запитване"])

27

In [11]:
# remove cars with price == "запитване"
cars_data = cars_data.loc[~cars_data["price"].str.lower().isin(["запитване"])]

In [12]:
cars_data.shape

(809, 13)

In [13]:
# clean the column from currencies and convert it to int:
def clean_price(price):
    price = price.replace(" лв.", "").replace(" ", "")
    if "EUR" in price: 
        price = int(price.replace("EUR", "")) * 1.96
    value = int(price)  
    
    return value


cars_data["price"] = cars_data["price"].apply(clean_price)
cars_data["price"] = cars_data["price"].astype(int)

### Clean up the manufacturing year column

In [14]:
cars_data.manufacturing_year.unique()

array(['април 2016 г.', 'януари 2017 г.', 'октомври 2017 г.',
       'януари 2015 г.', 'юли 2016 г.', 'септември 2019 г.',
       'декември 2016 г.', 'май 2016 г.', 'януари 2016 г.',
       'февруари 2016 г.', 'юни 2016 г.', 'септември 2015 г.',
       'декември 2017 г.', 'януари 2018 г.', 'май 2017 г.',
       'февруари 2018 г.', 'август 2018 г.', 'септември 2017 г.',
       'ноември 2018 г.', 'юни 2017 г.', 'август 2019 г.',
       'декември 2019 г.', 'май 2020 г.', 'октомври 2020 г.',
       'юли 2021 г.', 'февруари 2021 г.', 'януари 2022 г.',
       'април 2024 г.', 'октомври 2018 г.', 'август 2020 г.',
       'януари 2020 г.', 'октомври 2019 г.', 'август 2017 г.',
       'юли 2018 г.', 'април 2021 г.', 'декември 2020 г.',
       'ноември 2016 г.', 'март 2021 г.', 'юли 2020 г.', 'март 2022 г.',
       'октомври 2021 г.', 'септември 2020 г.', 'май 2022 г.',
       'октомври 2015 г.', 'април 2017 г.', 'април 2015 г.',
       'април 2023 г.', 'септември 2016 г.', 'ноември 2017 г.',
  

In [15]:
def clean_manufacturing_year(date_str):
    year = int(date_str.split()[1]) # extract only the year from ['октомври', '2023', 'г.'] 
    return pd.to_datetime(f"{year}", format = "%Y")

cars_data["manufacturing_year"] = cars_data["manufacturing_year"].apply(clean_manufacturing_year)

In [16]:
cars_data["manufacturing_year"] = cars_data["manufacturing_year"].dt.strftime("%Y")

In [17]:
cars_data.manufacturing_year.unique()

array(['2016', '2017', '2015', '2019', '2018', '2020', '2021', '2022',
       '2024', '2023', '2025'], dtype=object)

### Convert column mileage to int

In [18]:
cars_data["mileage"] = cars_data["mileage"].str.replace(" ", "")
cars_data["mileage"] = cars_data["mileage"].astype(int)

### Clean color column

In [19]:
cars_data.color.value_counts(dropna = False) 

color
Черен             330
Бял               181
Сив                89
Тъмно сив          49
NaN                22
Син                17
Tъмно син          17
Червен             13
Светло сив         13
Сребърен           12
Тъмно син мет.     11
Перла              10
Графит             10
Кафяв               8
Бордо               7
Т.зелен             6
Зелен               5
Металик             4
Хамелеон            2
Бежов               2
Светло син          1
Name: count, dtype: int64

I remove records with Nan color values, because i can't fill it in:

In [20]:
cars_data = cars_data.loc[~cars_data["color"].isnull()]

In [21]:
cars_data["color"] = cars_data["color"].str.lower()

In [22]:
cars_data["color"] = cars_data["color"].apply(lambda x: "син" if "син" in x else x)
cars_data["color"] = cars_data["color"].apply(lambda x: "зелен" if "зелен" in x else x)
cars_data["color"] = cars_data["color"].apply(lambda x: "червен" if "бордо" in x else x)
cars_data["color"] = cars_data["color"].apply(lambda x: "бял" if "перла" in x else x)
cars_data["color"] = cars_data["color"].apply(lambda x: "тъмно сив" if "графит" in x else x)

In [23]:
cars_data.color.value_counts()

color
черен         330
бял           191
сив            89
тъмно сив      59
син            46
червен         20
светло сив     13
сребърен       12
зелен          11
кафяв           8
металик         4
хамелеон        2
бежов           2
Name: count, dtype: int64

### Clean fuel column

In [24]:
cars_data.fuel.value_counts(dropna = False)

fuel
Дизелов           422
Бензинов          312
Plug-in хибрид     41
Хибриден           12
Name: count, dtype: int64

In [25]:
cars_data["fuel"] = cars_data["fuel"].str.lower()

### Column hp: I remove records with Nan values

In [26]:
len(cars_data[cars_data.hp.isna()])

24

In [27]:
cars_data = cars_data.loc[~cars_data["hp"].isnull()]

### Remove columns:
- 'eurostandard' and 'cubic_capacity' because there are a lot of Nan values;
- 'gearbox' because it has low entropy and doesn't give me any information (they are all automatic).

In [28]:
cars_data = cars_data.drop(columns = ['eurostandard', 'cubic_capacity', 'gearbox'])

In [29]:
cars_data["type"] = cars_data["type"].str.lower()

### Clean type column

In [30]:
cars_data.type.value_counts(dropna = False)

type
джип              659
купе              102
стреч лимузина      1
седан               1
Name: count, dtype: int64

In [31]:
# Only for SUV:
cars_data["type"] = cars_data["type"].apply(lambda x: "джип" if "стреч лимузина" in x else x)
cars_data["type"] = cars_data["type"].apply(lambda x: "купе" if "седан" in x else x)

In [32]:
cars_data.type.value_counts(dropna = False)

type
джип    660
купе    103
Name: count, dtype: int64

In [33]:
cars_data[(cars_data.title.str.contains("купе")) | (cars_data.title.str.contains("coupe"))]

Unnamed: 0,title,price,manufacturing_year,mileage,color,fuel,hp,type,region,url
0,mercedes-benz gle 450amg coupe дистроник камер...,69990,2016,153000,черен,бензинов,367.0,джип,София,https://www.mobile.bg/obiava-21739610929678661...
1,mercedes-benz gle 350d coupe-amg line-9g-troni...,69999,2017,189000,бял,дизелов,258.0,джип,Пазарджик,https://www.mobile.bg/obiava-21732691514860984...
2,mercedes-benz gle 43 amg coupe панорама дистр....,78990,2017,127000,син,бензинов,367.0,джип,София,https://www.mobile.bg/obiava-11737682127414901...
15,mercedes-benz gle 350 coupe= amg premium-4mati...,63663,2018,220000,кафяв,дизелов,258.0,купе,Габрово,https://www.mobile.bg/obiava-21732345909213116...
23,mercedes-benz gle 350 coupe 350/4-matic/63amg/...,71999,2018,177000,черен,дизелов,258.0,джип,Пазарджик,https://www.mobile.bg/obiava-21740557092224316...
...,...,...,...,...,...,...,...,...,...,...
828,mercedes-benz gle coupe 53 amg 4matic+ eq boos...,144999,2020,109581,сив,бензинов,435.0,джип,София,https://www.mobile.bg/obiava-21737987509510005...
829,mercedes-benz gle coupe 350e 4matic plug in hy...,166598,2021,89000,черен,plug-in хибрид,347.0,джип,София,https://www.mobile.bg/obiava-21680344663006605...
830,mercedes-benz gle coupe 53 amg* night* hud* ma...,167000,2020,65000,черен,бензинов,435.0,джип,София,https://www.mobile.bg/obiava-21736457838203598...
832,mercedes-benz gle coupe 5.3 amg 4matik burmest...,206900,2023,23000,черен,бензинов,435.0,джип,София,https://www.mobile.bg/obiava-21728491801888745...


I correct type column based on information in title.

In [34]:
cars_data.loc[
    cars_data["title"].str.contains("купе", case=False, na=False) | 
    cars_data["title"].str.contains("coupe", case=False, na=False), 
    "type"
] = "купе"

In [35]:
cars_data.region.value_counts(dropna = False)

region
София             405
Пловдив           119
Варна              45
Стара Загора       24
Пазарджик          22
Благоевград        19
Русе               16
Бургас             16
Велико Търново     15
Плевен             14
Шумен              10
Перник              8
Кърджали            8
Хасково             7
Сливен              6
Враца               6
Габрово             5
Дупница             4
Добрич              3
Видин               3
Търговище           2
Смолян              2
Кюстендил           2
Разград             1
Ямбол               1
Name: count, dtype: int64

In [36]:
cars_data["region"] = cars_data["region"].str.lower()

I create a new boolean column based on whether the cars is AMG. I extract this information from the title.

In [37]:
cars_data["is_amg"] = cars_data["title"].str.contains("AMG", case = False).astype(int)

In [38]:
list(zip(cars_data.title, cars_data.is_amg))[0:10]

[('mercedes-benz gle 450amg coupe дистроник камери360 обдухване keyless', 1),
 ('mercedes-benz gle 350d coupe-amg line-9g-tronic-harmon kardon', 1),
 ('mercedes-benz gle 43 amg coupe панорама дистр.head-up keyless cam360', 1),
 ('mercedes-benz gle 250 d', 0),
 ('mercedes-benz gle 350 4matic amg * топ състояние*', 1),
 ('mercedes-benz gle 350 amg/panorama/360-kamera/kylessgo/собствен лизинг', 1),
 ('mercedes-benz gle 350 4matic* 63 amg optic* camera', 1),
 ('mercedes-benz gle 350 amg line/9g/germany/подгрев/sign assyst/auto h/liz',
  1),
 ('mercedes-benz gle 350 * amg* bi turbo * 4 matic*', 1),
 ('mercedes-benz gle 350 3, 5 cdi 4matic', 0)]

In [39]:
cars_data.head()

Unnamed: 0,title,price,manufacturing_year,mileage,color,fuel,hp,type,region,url,is_amg
0,mercedes-benz gle 450amg coupe дистроник камер...,69990,2016,153000,черен,бензинов,367.0,купе,софия,https://www.mobile.bg/obiava-21739610929678661...,1
1,mercedes-benz gle 350d coupe-amg line-9g-troni...,69999,2017,189000,бял,дизелов,258.0,купе,пазарджик,https://www.mobile.bg/obiava-21732691514860984...,1
2,mercedes-benz gle 43 amg coupe панорама дистр....,78990,2017,127000,син,бензинов,367.0,купе,софия,https://www.mobile.bg/obiava-11737682127414901...,1
3,mercedes-benz gle 250 d,45500,2015,178000,черен,дизелов,204.0,джип,пловдив,https://www.mobile.bg/obiava-21705057744409616...,0
4,mercedes-benz gle 350 4matic amg * топ състояние*,46000,2016,251700,сив,бензинов,307.0,джип,софия,https://www.mobile.bg/obiava-21725807501288193...,1


In [None]:
cars_data

### Save cleaned data

In [40]:
current_date = datetime.today().strftime('%d-%m-%Y')
filename = f"data/cleaned_data_{current_date}.csv"
cars_data.to_csv(filename, index = False)