In [1]:
from bs4 import BeautifulSoup
import requests
import pickle

import pandas as pd
import numpy as np

from functools import reduce
from tqdm.notebook import tqdm_notebook

from multiprocessing.pool import ThreadPool as Pool

import warnings
warnings.filterwarnings('ignore')

Read links

In [5]:
with open('data/osszes_link.pkl', 'rb') as pkl:
    osszes_link = pickle.load(pkl)

In [6]:
len(osszes_link)

80449

### Get data

In [2]:
valtozok = ['Alaptípus ára:', 'Extrákkal növelt ár:', 'Akciós ár:', 'Akció feltételei:', 'Vételár:', 'Vételár EUR:', 'Átvehető:', 'Évjárat:', 'Állapot:', 'Kivitel:', 'Garancia:',
            'Kilométeróra állása:', 'Szállítható szem. száma:', 'Ajtók száma:', 'Szín:', 'Saját tömeg:', 'Teljes tömeg:',
            'Csomagtartó:', 'Klíma fajtája:', 'Üzemanyag:', 'Hengerűrtartalom:', 'Teljesítmény:',
            'Hajtás:', 'Sebességváltó fajtája:', 'Okmányok jellege:', 'Műszaki vizsga érvényes:']

In [3]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}

In [4]:
def scrape_car_listing(url):
    
    page = requests.get(url, headers = headers)
    
    if page.ok == False:
        pass
    
    soup = BeautifulSoup(page.text)
    
    adatlap = soup.find('div', id = 'adatlap')
    
    if len(adatlap) == 0:
        pass

    else:        
        hirdetes_nev = adatlap.find('div', class_ = 'adatlap-cim').select('h1')[0].text.strip()
        
        kiajanlo_adatok = soup.find_all('div', class_ = 'adatlap-kiajanlo-adatok')
        katalogus_adatok = [i for i in kiajanlo_adatok if 'Katalógus adatok' in str(i)]

        if len(katalogus_adatok) == 1:

            katalogus = katalogus_adatok[0]
            kat_nevek = [i.text for i in katalogus.find_all('div', class_ = 'col-xs-15')]
            kat_ertekek = [i.text for i in katalogus.find_all('div', class_ = 'col-xs-13')]

            katalogus_tabla = pd.DataFrame.from_dict(dict(zip(kat_nevek, kat_ertekek)), orient = 'index').reset_index().rename(columns = {'index' : 'variable', 0 : 'value'})

        else:
            katalogus_tabla = pd.DataFrame(columns = ['variable', 'value'])

        felszereltseg = adatlap.find('div', class_ = 'felszereltseg') 
        
        if felszereltseg is not None:
            felszereltseg_tipus = [i.text for i in felszereltseg.find_all('h4')]
            felszereltseg_lista = [felszereltseg_tipus.find_all('li') for felszereltseg_tipus in felszereltseg.find_all('ul', class_ = 'pontos')]
            felszereltseg_lista = [[felszereltseg.text for felszereltseg in felszereltseg_tipus] for felszereltseg_tipus in felszereltseg_lista]
            felszereltseg_dict = dict(zip(felszereltseg_tipus, felszereltseg_lista))        
            felszereltseg_dict = {'variable' : 'Felszereltség', 'value' : felszereltseg_dict}
            
        else:
            felszereltseg_dict = {'variable' : 'Felszereltség', 'value' : np.nan}
        
        url_dict = {'variable' : 'URL', 'value' : url}
        nev_dict = {'variable' : 'Hirdetés név', 'value'  : hirdetes_nev}
        
        hirdetes_adatok = adatlap.find('table', class_ = 'hirdetesadatok')

        if hirdetes_adatok is None:            
            pass

        else:                
            adatok = pd.read_html(str(hirdetes_adatok))[0]            
            adatok.columns = ['variable', 'value']
            adatok = adatok.loc[adatok['variable'].isin(valtozok)]

            adatok = adatok.append(url_dict, ignore_index = True)
            adatok = adatok.append(nev_dict, ignore_index = True)
            adatok = adatok.append(felszereltseg_dict, ignore_index = True)
            adatok = adatok.append(katalogus_tabla, ignore_index = True)
            
    return adatok

Try running on 20 listings

In [12]:
%%time

collection = []

pool = Pool(8)

for link in tqdm_notebook(osszes_link[:20], desc = 'Collecting listings data into data frames'):
    pool.apply_async(scrape_car_listing, (link,), callback = collection.append)

pool.close()
pool.join()

Collecting listings data into data frames:   0%|          | 0/20 [00:00<?, ?it/s]

Wall time: 3.84 s


20 listings was 3.9 seconds, so 80500 listings will be 80500 / 20 * 3.9 / 60 / 60 hours

In [13]:
80500 / 20 * 3.9 / 60 / 60

4.360416666666667

### Run scraper

and pray to God connection doesnt break for 4-5 hours...

Next time: dont append to list, save dataframes into ../data, and after all is finished, read all, merge all

In [16]:
len(osszes_link)

80449

In [17]:
%%time

collection = []

pool = Pool(8)

for link in tqdm_notebook(osszes_link, desc = 'Collecting listings data into data frames'):
    pool.apply_async(scrape_car_listing, (link,), callback = collection.append)

pool.close()
pool.join()

Collecting listings data into data frames:   0%|          | 0/80449 [00:00<?, ?it/s]

Wall time: 4h 3min 1s


In [18]:
len(collection)

74650

In [20]:
# with open('data/osszes_hirdetes.pkl', 'wb') as pkl:
#     pickle.dump(collection, pkl)

### Merge dataframes
This reduce function took 4-5 hours to complete

In [21]:
autok = reduce(lambda a, b: pd.merge(a, b, on = 'variable', how = 'outer'), collection).T
autok.reset_index(drop = True, inplace = True)
autok.columns = autok.iloc[0]
autok.drop(autok.index[0], inplace = True)

In [24]:
autok.shape

(74650, 49)

In [26]:
autok.head(3)

Unnamed: 0,Vételár:,Vételár EUR:,Évjárat:,Állapot:,Kivitel:,Kilométeróra állása:,Szállítható szem. száma:,Ajtók száma:,Saját tömeg:,Teljes tömeg:,...,Extrákkal növelt ár:,Akciós ár:,Akció feltételei:,Átvehető:,Garancia:,Első terepszög,Hátsó terepszög,Rámpaszög,Gázlómélység,Alaptípus ára:
1,190 000 Ft,€ 529,2001/12,Normál,Ferdehátú,223 000 km,5 fő,3,1 018 kg,1 490 kg,...,,,,,,,,,,
2,370 000 Ft,€ 1 029,2004/1,Normál,Ferdehátú,275 656 km,5 fő,5,950 kg,1 445 kg,...,,,,,,,,,,
3,1 450 000 Ft,€ 4 034,2004/7,Normál,Sedan,260 000 km,5 fő,4,1 425 kg,2 000 kg,...,,,,,,,,,,


In [28]:
# autok.to_csv('data/autok.csv.gz', index = False, compression='gzip')

In [7]:
autok = pd.read_csv('data/autok.csv.gz', compression = 'gzip')

### Which links did I lose during scraping?

In [8]:
lost_urls = np.setdiff1d(osszes_link, autok['URL'].tolist()).tolist()
len(lost_urls)

5799

These URLs have no 'Felszereltseg', fixed function, let's get those datapoints

In [9]:
%%time

collection_lost = []

pool = Pool(8)

for link in tqdm_notebook(lost_urls, desc = 'Collecting previously lost listings into data frames'):
    pool.apply_async(scrape_car_listing, (link,), callback = collection_lost.append)

pool.close()
pool.join()

Collecting previously lost listings into data frames:   0%|          | 0/5799 [00:00<?, ?it/s]

Wall time: 13min 30s


In [10]:
len(collection_lost)

5067

In [11]:
autok_lost = reduce(lambda a, b: pd.merge(a, b, on = 'variable', how = 'outer'), collection_lost).T
autok_lost.reset_index(drop = True, inplace = True)
autok_lost.columns = autok_lost.iloc[0]
autok_lost.drop(autok_lost.index[0], inplace = True)

In [12]:
autok_lost.shape

(5067, 49)

In [13]:
autok_lost.head(3)

Unnamed: 0,Vételár:,Vételár EUR:,Évjárat:,Állapot:,Kivitel:,Kilométeróra állása:,Okmányok jellege:,URL,Hirdetés név,Felszereltség,...,Akciós ár:,Akció feltételei:,Átvehető:,Garancia:,Alaptípus ára:,Hasmagasság,Első terepszög,Hátsó terepszög,Rámpaszög,Gázlómélység
1,590 000 Ft,€ 1 637,1999/6,Normál,Mopedautó,60 000 km,Érvényes magyar okmányokkal,https://www.hasznaltauto.hu/szemelyauto/aixam/...,AIXAM 400,,...,,,,,,,,,,
2,675 000 Ft,€ 1 872,1999/6,Normál,Mopedautó,86 039 km,Érvényes magyar okmányokkal,https://www.hasznaltauto.hu/szemelyauto/aixam/...,AIXAM 400,,...,,,,,,,,,,
3,1 000 000 Ft,€ 2 774,1936/9 (Eredeti alkatrészekkel),Hiányos,Coupe,100 000 km,Okmányok nélkül,https://www.hasznaltauto.hu/szemelyauto/adler/...,ADLER TRUMPF Junior,,...,,,,,,,,,,


#### Still missing a couple

In [14]:
still_lost_urls = np.setdiff1d(lost_urls, autok_lost['URL'].tolist()).tolist()
len(still_lost_urls)

732

These have since been taken off the site

#### Concat 2 auto dataframes together

In [23]:
final = pd.concat([autok, autok_lost[autok.columns]], 0)

In [30]:
final.to_csv('data/autok_final.csv.gz', index = False, compression='gzip')