## Scraping Auomotive Data

In [55]:
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
import requests
import re
from dateutil import parser
from datetime import datetime

# Results

In [2]:
models = []
prices = []
years = []
kilometers = []
transmissions = []
engine_types = []
horsepowers = []

In [3]:
def scrape_current_page(): 
    for result in results:
        try:
            model = result.find("div", class_ = "link").find("a").text
            models.append(model)
        except:
            models.append(np.nan)

        try:
            price = result.find("div", class_ = "price").text
            prices.append(price)
        except:
            prices.append(np.nan)

        try:
            year = result.find("div", class_ = "info").text.split('|')[0].strip('\n').strip()
            years.append(year)
        except:
            years.append(np.nan)

        try:
            km = result.find("div", class_ = "info").text.split('|')[1].strip('\n').strip().split()[0]
            kilometers.append(km)
        except:
            kilometers.append(np.nan)

        try:
            transmission = result.find("div", class_ = "info").text.split('|')[2].strip('\n').strip()
            transmissions.append(transmission)
        except:
            transmissions.append(np.nan)

        try:
            engine_type = result.find("div", class_ = "info").text.split('|')[3].strip('\n').strip()
            engine_types.append(engine_type)
        except:
            engine_types.append(np.nan)

        try:
            horsepower = result.find("div", class_ = "info").text.split('к.с.')[0].split('|')[-1].strip(' \n')
            horsepowers.append(horsepower)
        except:
            horsepowers.append(np.nan)

In [4]:
strings = ['abarth', 'ac', 'acura', 'aixam', 'alpina', 'aro', 'audi', 
       'asia','aston-martin','austin','alfa-romeo', 'bentley',
       'berliner', 'bertone', 'borgward','brilliance', 'bugatti'
       'bmw', 'buick', 'cadillac','carbodies','chery',
       'chevrolet','chrysler','citroen', 
       'corvette', 'cupra', 'dacia','daewoo',
       'daihatsu','dodge', 'daimler', 'datsun', 'dkw',
       'ds', 'dr', 'dongfeng', 'eagle',
        'ferrari','fiat', 'ford', 'fso', 'gaz', 'geely',
       'genesis','geo', 'gmc', 'gonow', 'goupil', 'great-wall',
       'haval', 'heinkel','hillman','honda',
        'hyundai','hummer', 'ifa', 'infiniti','innocenti', 
       'isuzu','iveco', 'jac','jaguar', 'jeep','jpx','kia',
        'lada','laforza','lamborghini1','lancia',
       'land-rover','landwind','lifan', 'lotus',
        'lexus', 'lincoln', 'mahindra', 'matra', 'maybach'
        'maserati', 'mazda','mclaren','mercury', 'mg',
        'mercedes-benz', 'mini','microcar','morgan'
        'mitsubishi', 'moskvich','oldsmobile',
        'nissan', 'opel', 'perodua'
        'peugeot', 'porsche', 'pgo','plymouth','polestar',
       'polonez','pontiac','proton','qoros',
        'renault', 'rolls-royce','rieju',
        'rover', 'saab', 'samand','santana','saturn','scion',
        'seat', 'skoda','secma','sh-auto','shatenetshuanghuan',
        'simca','ssang-yong','ssangyong','subaru','suzuki',
       'smart','talbot','tata','tavria','tazzari','tempo',
        'tesla', 'toyota','terberg', 'tofas1','triumph','uaz',
        'trabant','volga','volvo', 'vw','vromos',
       'warszawa','wartburg','wiesmann','xinkai',
        'zastava','xinshun', 'yogomo','zaz',
       'pobeda','sofiya','chayka']

In [5]:
for string in strings:
    url = 'https://www.auto.bg/obiavi/avtomobili-dzhipove/' + string + '/page/1'
    count = 1
    while True:
        # Get URL
        response = requests.get(url)
        # Soup Object
        soup = BeautifulSoup(response.text, 'html.parser')
        # Results
        results = soup.findAll("div", class_ = "resultItem")
        if len(results) == 0:
            break
        scrape_current_page()  
        count = count + 1
        next_url = 'https://www.auto.bg/obiavi/avtomobili-dzhipove/' + string + '/page/' + str(count)
        url = next_url

In [6]:
df_auto = pd.DataFrame({ 'Model' : models,'Price': prices,'Year': years, 
                               'Kilometers' : kilometers, 'Transmission' : transmissions,
                                'Engine_type': engine_types, 'Horsepower': horsepowers})

In [7]:
df_auto.head(20)

Unnamed: 0,Model,Price,Year,Kilometers,Transmission,Engine_type,Horsepower
0,Abarth 124,250 000 лв.,февруари 2020 г.,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36 000 лв.,септември 2017 г.,45000,Ръчна,Бензин,165
2,Abarth 595,222 лв.,февруари 2020 г.,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21 800 лв.,април 2014 г.,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39 999 лв.,февруари 2020 г.,19000,Ръчна,Бензин,165
5,Abarth 595 695 tributo ferrari,56 500 лв.,септември 2010 г.,39400,Полуавтоматична,Бензин,180
6,Abarth 595,45 800 лв.,юни 2019 г.,54350,Ръчна,Бензин,181
7,Abarth 595 TURISMO*500*PANORAMA,51 000 лв.,август 2021 г.,8200,Автоматична,Бензин,165
8,Abarth 595 500 PISTA 595 CABRIO NAVI EVRO 6B 4...,40 900 лв.,декември 2017 г.,48000,Ръчна,Бензин,160
9,AC,7 900 лв.,януари 1998 г.,220000,Ръчна,Бензин,"регион Търговище, гр. Омуртаг21:53 часа от 08...."


# Data Cleaning

In [8]:
df_auto.drop_duplicates(keep = 'first', inplace = True, ignore_index = False)
df_auto.head()

Unnamed: 0,Model,Price,Year,Kilometers,Transmission,Engine_type,Horsepower
0,Abarth 124,250 000 лв.,февруари 2020 г.,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36 000 лв.,септември 2017 г.,45000,Ръчна,Бензин,165
2,Abarth 595,222 лв.,февруари 2020 г.,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21 800 лв.,април 2014 г.,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39 999 лв.,февруари 2020 г.,19000,Ръчна,Бензин,165


In [9]:
df_auto.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36167 entries, 0 to 36492
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Model         36167 non-null  object
 1   Price         36167 non-null  object
 2   Year          36167 non-null  object
 3   Kilometers    36167 non-null  object
 4   Transmission  36167 non-null  object
 5   Engine_type   36167 non-null  object
 6   Horsepower    36167 non-null  object
dtypes: object(7)
memory usage: 2.2+ MB


In [12]:
d = {'EUR': 1.95, 'USD': 1.90, 'лв.': 1}
s1 = df_auto['Price'].replace(d, regex=True)
s2 = df_auto['Price'].str.extract('(\d+\ \d*)',expand = False)
s2 = s2.str.replace(' ','')
s2 = s2.astype(float)
df_auto['Price BGN'] = s1 * s2 
df_auto.head() 

In [13]:
del df_auto['Price']
df_auto.head()

Unnamed: 0,Model,Year,Kilometers,Transmission,Engine_type,Horsepower,Price BGN
0,Abarth 124,февруари 2020 г.,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022",250000.0
1,Abarth 595 Pista,септември 2017 г.,45000,Ръчна,Бензин,165,36000.0
2,Abarth 595,февруари 2020 г.,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022",222.0
3,Abarth 595,април 2014 г.,80000,Ръчна,Бензин,165,21800.0
4,Abarth 595 595 PISTA 19000km,февруари 2020 г.,19000,Ръчна,Бензин,165,39999.0


In [14]:
df_auto = df_auto[['Model', 'Price BGN', 'Year', 'Kilometers', 'Transmission', 'Engine_type', 'Horsepower']]
df_auto.head()

Unnamed: 0,Model,Price BGN,Year,Kilometers,Transmission,Engine_type,Horsepower
0,Abarth 124,250000.0,февруари 2020 г.,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36000.0,септември 2017 г.,45000,Ръчна,Бензин,165
2,Abarth 595,222.0,февруари 2020 г.,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21800.0,април 2014 г.,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39999.0,февруари 2020 г.,19000,Ръчна,Бензин,165


In [15]:
df_auto.rename(columns={'Year':'Year Manifacture', 'Engine_type':'Engine Type',}, inplace=True)
df_auto.head()

Unnamed: 0,Model,Price BGN,Year Manifacture,Kilometers,Transmission,Engine Type,Horsepower
0,Abarth 124,250000.0,февруари 2020 г.,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36000.0,септември 2017 г.,45000,Ръчна,Бензин,165
2,Abarth 595,222.0,февруари 2020 г.,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21800.0,април 2014 г.,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39999.0,февруари 2020 г.,19000,Ръчна,Бензин,165


In [16]:
# extract years from "Year Manifacture" 
only_year = []
for index, row in df_auto.iterrows():
    string = row['Year Manifacture']
    string = ''.join(re.findall("\d+", string))
    only_year.append(string)

In [17]:
df_auto["Year Manifacture"] = only_year

In [18]:
df_auto.head()

Unnamed: 0,Model,Price BGN,Year Manifacture,Kilometers,Transmission,Engine Type,Horsepower
0,Abarth 124,250000.0,2020,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36000.0,2017,45000,Ръчна,Бензин,165
2,Abarth 595,222.0,2020,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21800.0,2014,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39999.0,2020,19000,Ръчна,Бензин,165


In [19]:
# replace blank spaces with np.nan
df_auto = df_auto.replace(r'^\s*$', np.nan, regex=True)
df_auto.head()

Unnamed: 0,Model,Price BGN,Year Manifacture,Kilometers,Transmission,Engine Type,Horsepower
0,Abarth 124,250000.0,2020,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022"
1,Abarth 595 Pista,36000.0,2017,45000,Ръчна,Бензин,165
2,Abarth 595,222.0,2020,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022"
3,Abarth 595,21800.0,2014,80000,Ръчна,Бензин,165
4,Abarth 595 595 PISTA 19000km,39999.0,2020,19000,Ръчна,Бензин,165


In [20]:
df_auto["Year Manifacture"].unique()

array(['2020', '2017', '2014', '2010', '2019', '2021', '1998', '2009',
       '2018', '2015', '2012', '2008', '2005', '2013', '2011', '2006',
       '2003', '1975', '2001', '2000', '1999', '1996', '2007', '1997',
       '2002', '2016', '2004', '2022', '1986', '1991', '1993', '1988',
       '1994', '1990', '1995', '1987', '1989', '1992', '1966', '1960',
       '1977', nan, '1969', '1958', '1985', '1967', '1983', '1968',
       '1980', '1978', '1936', '1954', '1984', '1979', '1972', '1974',
       '1976', '1965', '1962', '1982', '1970', '1971', '1981', '1953',
       '1963', '1964', '1930', '1959', '1961', '1947', '1973', '1934',
       '1951', '1935', '1952'], dtype=object)

In [21]:
df_auto = df_auto.dropna()

In [22]:
df_auto["Year Manifacture_new"] = df_auto["Year Manifacture"].apply(lambda row: f'12/31/{row}')
df_auto.head()

Unnamed: 0,Model,Price BGN,Year Manifacture,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture_new
0,Abarth 124,250000.0,2020,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022",12/31/2020
1,Abarth 595 Pista,36000.0,2017,45000,Ръчна,Бензин,165,12/31/2017
2,Abarth 595,222.0,2020,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022",12/31/2020
3,Abarth 595,21800.0,2014,80000,Ръчна,Бензин,165,12/31/2014
4,Abarth 595 595 PISTA 19000km,39999.0,2020,19000,Ръчна,Бензин,165,12/31/2020


In [25]:
# parce into DateTime
df_auto["Year Manifacture_new"] = [parser.parse(x) for x in df_auto["Year Manifacture_new"]]
df_auto.head()

Unnamed: 0,Model,Price BGN,Year Manifacture,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture_new
0,Abarth 124,250000.0,2020,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022",2020-12-31
1,Abarth 595 Pista,36000.0,2017,45000,Ръчна,Бензин,165,2017-12-31
2,Abarth 595,222.0,2020,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022",2020-12-31
3,Abarth 595,21800.0,2014,80000,Ръчна,Бензин,165,2014-12-31
4,Abarth 595 595 PISTA 19000km,39999.0,2020,19000,Ръчна,Бензин,165,2020-12-31


In [26]:
del df_auto['Year Manifacture']
df_auto.head()

Unnamed: 0,Model,Price BGN,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture_new
0,Abarth 124,250000.0,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022",2020-12-31
1,Abarth 595 Pista,36000.0,45000,Ръчна,Бензин,165,2017-12-31
2,Abarth 595,222.0,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022",2020-12-31
3,Abarth 595,21800.0,80000,Ръчна,Бензин,165,2014-12-31
4,Abarth 595 595 PISTA 19000km,39999.0,19000,Ръчна,Бензин,165,2020-12-31


In [27]:
df_auto['Kilometers'].unique()

array(['11111', '45000', '22', ..., '111221', '44015', '58236'],
      dtype=object)

In [28]:
df_auto['Kilometers'] = pd.to_numeric(df_auto['Kilometers'], errors = 'coerce')

In [29]:
df_auto.head()

Unnamed: 0,Model,Price BGN,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture_new
0,Abarth 124,250000.0,11111,Автоматична,Бензин,"регион Варна, гр. Варна17:46 часа от 09.12.2022",2020-12-31
1,Abarth 595 Pista,36000.0,45000,Ръчна,Бензин,165,2017-12-31
2,Abarth 595,222.0,22,Автоматична,Електрически,"регион Враца, гр. Мездра15:42 часа от 08.12.2022",2020-12-31
3,Abarth 595,21800.0,80000,Ръчна,Бензин,165,2014-12-31
4,Abarth 595 595 PISTA 19000km,39999.0,19000,Ръчна,Бензин,165,2020-12-31


In [30]:
df_auto['Horsepower'].unique()

array(['регион Варна, гр. Варна17:46 часа от 09.12.2022', '165',
       'регион Враца, гр. Мездра15:42 часа от 08.12.2022', ...,
       'цвят Бял, регион София, с. Нови хан06:50 часа от 19.11.2022',
       'цвят Светло сив, крайна цена, регион Пловдив, гр. Асеновград17:05 часа от 08.11.2022',
       'цвят Черен, 4 броя за реставрация комплект, регион Пловдив, гр. Асеновград12:37 часа от 14.11.2022'],
      dtype=object)

In [31]:
df_auto['Horsepower'] = pd.to_numeric(df_auto['Horsepower'], errors = 'coerce')
df_auto.head()

Unnamed: 0,Model,Price BGN,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture_new
0,Abarth 124,250000.0,11111,Автоматична,Бензин,,2020-12-31
1,Abarth 595 Pista,36000.0,45000,Ръчна,Бензин,165.0,2017-12-31
2,Abarth 595,222.0,22,Автоматична,Електрически,,2020-12-31
3,Abarth 595,21800.0,80000,Ръчна,Бензин,165.0,2014-12-31
4,Abarth 595 595 PISTA 19000km,39999.0,19000,Ръчна,Бензин,165.0,2020-12-31


In [32]:
# extract "year" from DateTime object
only_year = []
for index, row in df_auto.iterrows():
    year = row['Year Manifacture_new'].year
    only_year.append(year)
df_auto['Year Manifacture'] = only_year

In [33]:
del df_auto['Year Manifacture_new']
df_auto.head()

Unnamed: 0,Model,Price BGN,Kilometers,Transmission,Engine Type,Horsepower,Year Manifacture
0,Abarth 124,250000.0,11111,Автоматична,Бензин,,2020
1,Abarth 595 Pista,36000.0,45000,Ръчна,Бензин,165.0,2017
2,Abarth 595,222.0,22,Автоматична,Електрически,,2020
3,Abarth 595,21800.0,80000,Ръчна,Бензин,165.0,2014
4,Abarth 595 595 PISTA 19000km,39999.0,19000,Ръчна,Бензин,165.0,2020


In [34]:
# rearrange column indexes
df_auto = df_auto[['Model', 'Year Manifacture', 'Price BGN', 'Kilometers', 
                   'Transmission', 'Engine Type', 'Horsepower']]
df_auto.head()

Unnamed: 0,Model,Year Manifacture,Price BGN,Kilometers,Transmission,Engine Type,Horsepower
0,Abarth 124,2020,250000.0,11111,Автоматична,Бензин,
1,Abarth 595 Pista,2017,36000.0,45000,Ръчна,Бензин,165.0
2,Abarth 595,2020,222.0,22,Автоматична,Електрически,
3,Abarth 595,2014,21800.0,80000,Ръчна,Бензин,165.0
4,Abarth 595 595 PISTA 19000km,2020,39999.0,19000,Ръчна,Бензин,165.0


# Filter and create DataFrames

In [40]:
df_auto =  df_auto.loc[(df_auto['Kilometers'] > 1111)]
df_auto =  df_auto.loc[(df_auto['Years Automobile'] > 0)]    

In [41]:
df_auto['Engine Type'].unique()

array(['Бензин', 'Електрически', 'Дизел', 'Хибриден', 'Plug-in хибрид'],
      dtype=object)

In [43]:
filter1 = df_auto['Engine Type'].isin(['Дизел', 'дизел'])
df_diesel = df_auto[filter1]
df_diesel

Unnamed: 0,Model,Year Manifacture,Price BGN,Kilometers,Transmission,Engine Type,Horsepower
31,Alpina D3 Biturbo,2009,19000.0,203600,Автоматична,Дизел,214.0
32,Alpina XD3 biturbo,2015,74000.0,131000,Автоматична,Дизел,350.0
35,Aro 10 M 461 дизел зетор,1975,3500.0,1111111,Ръчна,Дизел,70.0
38,Audi A4 3.0TDI Avant,2013,37500.0,309072,Автоматична,Дизел,245.0
39,Audi Q5 2.0tdi,2009,22500.0,225000,Автоматична,Дизел,170.0
...,...,...,...,...,...,...,...
36464,VW Touareg,2011,24500.0,235441,Автоматична,Дизел,240.0
36465,VW Tiguan,2009,20000.0,262000,Автоматична,Дизел,140.0
36466,VW Golf Plus 2.0 TDI,2007,8990.0,182000,Ръчна,Дизел,140.0
36467,VW Golf 1.9 TDI ТОП,2002,4599.0,181000,Ръчна,Дизел,101.0


In [44]:
filter2 = df_auto['Engine Type'].isin(['Бензин', 'бензин'])
df_gasoline = df_auto[filter2]
df_gasoline.head()

Unnamed: 0,Model,Year Manifacture,Price BGN,Kilometers,Transmission,Engine Type,Horsepower
0,Abarth 124,2020,250000.0,11111,Автоматична,Бензин,
1,Abarth 595 Pista,2017,36000.0,45000,Ръчна,Бензин,165.0
3,Abarth 595,2014,21800.0,80000,Ръчна,Бензин,165.0
4,Abarth 595 595 PISTA 19000km,2020,39999.0,19000,Ръчна,Бензин,165.0
5,Abarth 595 695 tributo ferrari,2010,56500.0,39400,Полуавтоматична,Бензин,180.0


In [45]:
filter3 = df_auto['Engine Type'].isin(['Електрически', 'електрически'])
df_electric = df_auto[filter3]
df_electric.head()

Unnamed: 0,Model,Year Manifacture,Price BGN,Kilometers,Transmission,Engine Type,Horsepower
27,Aixam 600,2010,6500.0,8000,Автоматична,Електрически,
379,Audi E-Tron GT RS/ QUATTRO/ CARBON/ MATRIX/ 36...,2021,226161.0,10000,Автоматична,Електрически,598.0
431,Audi E-Tron GT RS/ QUATTRO/ CARBON/ B&O/ 360/ ...,2021,222261.0,11200,Автоматична,Електрически,598.0
475,Audi E-Tron GT RS/ QUATTRO/ PANO/ CARBON/ B&O/...,2021,216411.0,9800,Автоматична,Електрически,598.0
553,Audi E-Tron S SPORTBACK/ QUATTRO/MATRIX/B&O/PA...,2021,158980.0,27940,Автоматична,Електрически,503.0


In [46]:
filter4 = df_auto['Engine Type'].isin(['Хибриден', 'хибриден'])
df_hybrid = df_auto[filter4]
df_hybrid.head()

Unnamed: 0,Model,Year Manifacture,Price BGN,Kilometers,Transmission,Engine Type,Horsepower
307,Audi Q7 E-TRON,2016,82000.0,200000,Автоматична,Хибриден,340.0
308,Audi A6 3.0d;HYBRID,2018,82000.0,170000,Автоматична,Хибриден,231.0
482,Audi A3 e-tron PLUG IN HYBRID,2018,50000.0,108000,Автоматична,Хибриден,150.0
1109,Audi Q7 e-tron-3.0TDI-plug in hybrid,2016,79999.0,134530,Автоматична,Хибриден,367.0
1182,"Audi A6 40 TDI, 204 к.с., ST7 4x4",2019,78000.0,63278,Автоматична,Хибриден,204.0


In [60]:
currentDay = datetime.now().day
currentMonth = datetime.now().month
currentYear = datetime.now().year
e ='%s.%s.%s'%(currentDay,currentMonth,currentYear)
file_name = 'auto.bg'
writer = pd.ExcelWriter(f'{file_name}{e}.xlsx', engine='openpyxl')
df_diesel.to_excel(writer, sheet_name='Diesel engines')
df_gasoline.to_excel(writer, sheet_name='Gasoline engines')
df_electric.to_excel(writer, sheet_name='Electric engines')
df_hybrid.to_excel(writer, sheet_name='Hybrid engines')
writer.save()