In [892]:
import pandas as pd

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.common.exceptions import NoSuchElementException

from tqdm import tqdm

import re
import time
import json
import random
import os
import glob

In [194]:
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)

In [473]:
valid_data = pd.DataFrame()
catalog_data = pd.DataFrame()

In [686]:
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)



Could not get version for google-chrome with the command:  powershell "$ErrorActionPreference='silentlycontinue' ; (Get-Item -Path "$env:PROGRAMFILES\Google\Chrome\Application\chrome.exe").VersionInfo.FileVersion ; if (-not $? -or $? -match $error) { (Get-Item -Path "$env:PROGRAMFILES(x86)\Google\Chrome\Application\chrome.exe").VersionInfo.FileVersion } if (-not $? -or $? -match $error) { (Get-Item -Path "$env:LOCALAPPDATA\Google\Chrome\Application\chrome.exe").VersionInfo.FileVersion } if (-not $? -or $? -match $error) { reg query "HKCU\SOFTWARE\Google\Chrome\BLBeacon" /v version } if (-not $? -or $? -match $error) { reg query "HKLM\SOFTWARE\Wow6432Node\Microsoft\Windows\CurrentVersion\Uninstall\Google Chrome" /v version }"
Current google-chrome version is UNKNOWN
Get LATEST chromedriver version for UNKNOWN google-chrome
Trying to download new driver from https://chromedriver.storage.googleapis.com/99.0.4844.51/chromedriver_win32.zip
Driver has been saved in cache [C:\Users\docke\.w

In [888]:
regions = [
    # "leningradskaya_oblast",
    "moskovskaya_oblast"
]
models = [
    # "skoda",
    # "audi",
    # "honda",
    # "volvo",
    "bmw",
    # "nissan",
    # "infiniti",
    "mercedes",
    # "toyota",
    # "lexus",
    "volkswagen"
]

## Function block

In [889]:
def get_urls_for_model_in_region(model: str, region: str) -> list:
    '''
    Function that takes model and region and parsing urls for vehicle to list
    '''
    result_list = []
    cnt = True
    page_num = 1
    
    while cnt is True and page_num <= 99:
        try:
            driver.get(f'https://auto.ru/{region}/cars/{model}/used/?page={page_num}')
            next_page = driver.find_element(By.CLASS_NAME, 'ListingItemTitle__link')
            page_links = driver.find_elements(By.CLASS_NAME, 'ListingItemTitle__link')

            for item in page_links:
                result_list.append(item.get_attribute('href'))
            print(f'Parsing {page_num} page for {model} in {region}', end='\r')
            page_num += 1
        except NoSuchElementException:
            cnt = False
            print()
            print(f'There are {page_num - 1} pages by {model}')
    
    return result_list

In [890]:
def get_car_info(url: str) -> list:
    '''
    Function to parse each car URL
    '''
    driver.get(url)
    
    year = int(driver.find_element(By.CLASS_NAME, 'CardInfoRow_year').text.split('\n')[1])
    
    car = driver.find_elements(By.CLASS_NAME,'CardBreadcrumbs__itemText')
    brand = car[3].text
    model = car[4].text
    
    car_url = url
    
    bodytype = driver.find_element(By.CLASS_NAME, 'CardInfoRow_bodytype').text.split('\n')[1]
    kmage = int(re.sub('\D', '', driver.find_element(By.CLASS_NAME, 'CardInfoRow_kmAge').text))
    color = driver.find_element(By.CLASS_NAME, 'CardInfoRow_color').text.split('\n')[1]
    
    engine = driver.find_element(By.CLASS_NAME, 'CardInfoRow_engine').text.split('/')
    
    try:
        engineDisplacement = float(re.findall('(\d+.\d+)', engine[0])[0])
        enginePower = int(re.findall('\d+', engine[1])[0])
        fuelType = engine[2]
    except IndexError:
        engineDisplacement = 0
        enginePower = 0
        fuelType = engine
    
    super_gen = json.loads(driver.find_element(By.ID, 'sale-data-attributes').get_attribute('data-bem'))['sale-data-attributes']
    
    vehicleTransmission = driver.find_element(By.CLASS_NAME, 'CardInfoRow_transmission').text.split('\n')[1]
    drive = driver.find_element(By.CLASS_NAME, 'CardInfoRow_drive').text.split('\n')[1]
    wheel = driver.find_element(By.CLASS_NAME, 'CardInfoRow_wheel').text.split('\n')[1]
    state = driver.find_element(By.CLASS_NAME, 'CardInfoRow_state').text.split('\n')[1]
    owner = driver.find_element(By.CLASS_NAME, 'CardInfoRow_ownersCount').text.split('\n')[1]
    pts = driver.find_element(By.CLASS_NAME, 'CardInfoRow_pts').text.split('\n')[1]
    customs = driver.find_element(By.CLASS_NAME, 'CardInfoRow_customs').text.split('\n')[1]
    
    try:
        owningTime = driver.find_element(By.CLASS_NAME, 'CardInfoRow_owningTime').text.split('\n')[1]
    except NoSuchElementException:
        owningTime = None
    
    try:
        description = driver.find_element(By.CLASS_NAME, 'CardDescriptionHTML').text
    except NoSuchElementException:
        description = None
    
    sell_id = int(re.findall('\d+', driver.find_element(By.CLASS_NAME, 'CardHead__id').text)[0])
    price = int(re.sub('\D', '', driver.find_element(By.CLASS_NAME, 'OfferPriceCaption__price').text))
    
    complect_list = []
    
    complect_data = driver.find_elements(By.CLASS_NAME, 'ComplectationGroupsDesktop__itemList')

    for item in complect_data:
        complect_list.extend(item.text.replace('\n', '').split('•')[1:])
    
    try:
        catalog_url = driver.find_element(By.CLASS_NAME, 'CardCatalogLink').get_attribute('href')
    except NoSuchElementException:
        catalog_url = 'No catalog link'
    
    
    data_dict = {
        'brand': brand, 'model': model, 'year': year, 'bodytype': bodytype, 'kmage': kmage,
        'color': color, 'engineDisplacement': engineDisplacement, 'enginePower': enginePower, 
        'fuelType': fuelType, 'super_gen': super_gen, 'vehicleTransmission': vehicleTransmission,
        'drive': drive, 'wheel': wheel, 'state': state, 'owner': owner, 'pts': pts, 'customs': customs, 
        'owningTime': owningTime, 'description': description, 'sell_id': sell_id, 'price': price, 
        'car_url': car_url, 'catalog_url': catalog_url, 'equipment_dict': complect_list
    }
    
    return data_dict

In [891]:
def get_dicts_from_catalog(url: str) -> list:
    '''
    Function to parse catalog URL
    '''
    driver.get(url)

    car_info_full = driver.find_elements(By.CLASS_NAME, 'list-values')
    
    car_info_dict_ru = {}
    
    for item in car_info_full:
        el = item.text.split('\n')
        for i in range(0, len(el) - 1, 2):
            car_info_dict_ru[el[i]] = el[i + 1]
    
    engine_type_dict = {'бензин': 'GASOLINE', 'дизель': 'DIESEL', 
                        'гибрид': 'HYBRID', 'электро': 'ELECTRO', 'газ': 'LPG',
                        'СУГ': 'LPG'}
    gear_type_dict = {'передний': 'FORWARD_CONTROL', 'полный': 'ALL_WHEEL_DRIVE', 'задний': 'REAR_DRIVE'}
    transmission_dict = {'автомат': 'AUTOMATIC', 'робот': 'ROBOT', 
                         'механика': 'MECHANICAL', 'вариатор': 'VARIATOR'}
    
    if car_info_dict_ru['Тип двигателя'] not in ['электро']:
        if car_info_dict_ru.get('Расход топлива, л город/трасса/смешанный') is not None:
            fuel_rate = float(car_info_dict_ru['Расход топлива, л город/трасса/смешанный'].split('/')[2])
        elif car_info_dict_ru.get('Расход топлива, л смешанный') is not None:
            fuel_rate = float(car_info_dict_ru['Расход топлива, л смешанный'])
        elif car_info_dict_ru.get('Расход топлива, л город/смешанный') is not None:
            fuel_rate = float(car_info_dict_ru['Расход топлива, л город/смешанный'].split('/')[1])
        elif car_info_dict_ru.get('Расход топлива, л город/трасса') is not None:
            fuel_rate = sum(map(float, car_info_dict_ru['Расход топлива, л город/трасса'].split('/'))) / 2
        else:
            fuel_rate = None
    else:
        fuel_rate = float(car_info_dict_ru['Запас хода на электричестве, км'])
        
    try:
        clearance_min = min(map(int, re.findall('\d+', car_info_dict_ru['Клиренс'])))
    except KeyError:
        clearance_min = None
    
    car_info_dict_en = {
        'engine_type': engine_type_dict[car_info_dict_ru['Тип двигателя']],
        'gear_type': gear_type_dict[car_info_dict_ru['Привод']],
        'transmission': transmission_dict[car_info_dict_ru['Коробка']],
        'power': int(re.findall('\d+', car_info_dict_ru['Мощность'])[0]),
        'power_kvt': int(re.findall('\d+', car_info_dict_ru['Максимальная мощность, л.с./кВт при об/мин'])[1]),
        'acceleration': car_info_dict_ru.get('Разгон до 100 км/ч, с'),
        'clearance_min': clearance_min,
        'fuel_rate': fuel_rate
    }
    
    url2 = url.replace('specifications', 'equipment')
    
    driver.get(url2)

    equipment_list = []

    equipment_data = driver.find_elements(By.CLASS_NAME, 'catalog__package-list-i')
    for item in equipment_data:
        equipment_list.append(item.text)
    
    car_data = json.loads(driver.find_element(By.CLASS_NAME, 'search-form-v2-mmm').get_attribute('data-bem'))
    equip_data = json.loads(driver.find_element(By.CLASS_NAME, 'catalog__section').get_attribute('data-bem'))
    attrib_data = json.loads(driver.find_element(By.CLASS_NAME, 'sale-data-attributes').get_attribute('data-bem'))
    
    return {'catalog_url': url, 'super_gen_2': car_info_dict_en, 'super_gen_3': attrib_data, 'complectation_dict': equipment_list}

## Gathering URLs from MODEL pages in Regions and getting main info from car page

In [722]:
if not os.path.exists('data/car_data'):
    os.makedirs('data/car_data')
    
for region in regions:
    for model in models:
        model_urls = get_urls_for_model_in_region(model, region)
        for url in tqdm(model_urls):
            time.sleep(random.random())
            try:
                valid_data = valid_data.append(get_car_info(url), ignore_index=True)
            except NoSuchElementException:
                print('Error 404', end='\r')
        
        valid_data.to_csv(f'data/car_data/{model}_{region}_car_data.csv')
        valid_data = pd.DataFrame()

Parsing 98 page for bmw in moskovskaya_oblast

  0%|                                                                                         | 0/3719 [00:00<?, ?it/s]

Parsing 99 page for bmw in moskovskaya_oblast

  3%|██▍                                                                          | 118/3719 [07:27<2:52:32,  2.88s/it]

Error 404

  4%|███▍                                                                         | 167/3719 [10:37<3:03:01,  3.09s/it]

Error 404

  5%|████                                                                         | 197/3719 [12:24<2:41:34,  2.75s/it]

Error 404

  9%|██████▊                                                                      | 329/3719 [20:38<2:51:16,  3.03s/it]

Error 404

 11%|████████▍                                                                    | 405/3719 [25:22<2:27:12,  2.67s/it]

Error 404

 12%|█████████                                                                    | 436/3719 [27:15<2:34:45,  2.83s/it]

Error 404

 13%|█████████▋                                                                   | 467/3719 [29:08<2:32:00,  2.80s/it]

Error 404

 18%|█████████████▉                                                               | 673/3719 [42:08<2:26:43,  2.89s/it]

Error 404

 18%|██████████████▏                                                              | 684/3719 [42:46<2:23:28,  2.84s/it]

Error 404

 23%|█████████████████▋                                                           | 852/3719 [53:03<2:15:26,  2.83s/it]

Error 404

 26%|███████████████████▊                                                         | 954/3719 [59:17<2:02:27,  2.66s/it]

Error 404

 27%|████████████████████▏                                                      | 998/3719 [1:02:02<2:14:59,  2.98s/it]

Error 404

 27%|████████████████████▎                                                     | 1019/3719 [1:03:14<2:05:18,  2.78s/it]

Error 404

 28%|████████████████████▌                                                     | 1034/3719 [1:04:10<2:47:39,  3.75s/it]

Error 404

 30%|██████████████████████                                                    | 1108/3719 [1:08:43<1:59:50,  2.75s/it]

Error 404

 31%|██████████████████████▊                                                   | 1145/3719 [1:11:09<2:01:50,  2.84s/it]

Error 404

 31%|███████████████████████                                                   | 1158/3719 [1:11:58<2:45:03,  3.87s/it]

Error 404

 33%|████████████████████████▎                                                 | 1225/3719 [1:16:26<2:22:40,  3.43s/it]

Error 404

 34%|█████████████████████████                                                 | 1262/3719 [1:18:46<2:12:54,  3.25s/it]

Error 404

 35%|█████████████████████████▋                                                | 1290/3719 [1:20:34<2:01:29,  3.00s/it]

Error 404

 35%|██████████████████████████▏                                               | 1314/3719 [1:22:06<2:01:41,  3.04s/it]

Error 404

 37%|███████████████████████████                                               | 1358/3719 [1:25:03<2:04:09,  3.16s/it]

Error 404

 38%|███████████████████████████▉                                              | 1404/3719 [1:28:05<1:45:13,  2.73s/it]

Error 404

 40%|█████████████████████████████▋                                            | 1489/3719 [1:33:29<2:03:01,  3.31s/it]

Error 404

 40%|█████████████████████████████▉                                            | 1506/3719 [1:34:31<1:52:19,  3.05s/it]

Error 404

 42%|███████████████████████████████▎                                          | 1575/3719 [1:38:52<1:46:31,  2.98s/it]

Error 404

 43%|███████████████████████████████▊                                          | 1597/3719 [1:40:20<1:42:14,  2.89s/it]

Error 404

 45%|█████████████████████████████████                                         | 1659/3719 [1:44:47<2:17:15,  4.00s/it]

Error 404

 46%|█████████████████████████████████▊                                        | 1698/3719 [1:47:31<1:40:57,  3.00s/it]

Error 404

 47%|██████████████████████████████████▉                                       | 1754/3719 [1:51:13<1:37:08,  2.97s/it]

Error 404

 48%|███████████████████████████████████▎                                      | 1775/3719 [1:52:49<1:39:28,  3.07s/it]

Error 404

 49%|████████████████████████████████████▏                                     | 1816/3719 [1:55:28<1:43:16,  3.26s/it]

Error 404

 51%|█████████████████████████████████████▌                                    | 1889/3719 [2:00:29<1:38:48,  3.24s/it]

Error 404

 54%|████████████████████████████████████████▏                                 | 2020/3719 [2:10:08<1:55:34,  4.08s/it]

Error 404

 55%|████████████████████████████████████████▍                                 | 2035/3719 [2:11:10<1:55:46,  4.13s/it]

Error 404

 56%|█████████████████████████████████████████▋                                | 2094/3719 [2:15:15<1:46:13,  3.92s/it]

Error 404

 57%|██████████████████████████████████████████▎                               | 2127/3719 [2:17:28<1:27:47,  3.31s/it]

Error 404

 59%|███████████████████████████████████████████▌                              | 2189/3719 [2:21:56<1:18:21,  3.07s/it]

Error 404

 60%|████████████████████████████████████████████▍                             | 2235/3719 [2:24:54<1:10:57,  2.87s/it]

Error 404

 61%|█████████████████████████████████████████████▍                            | 2283/3719 [2:27:54<1:10:36,  2.95s/it]

Error 404

 63%|██████████████████████████████████████████████▍                           | 2335/3719 [2:31:15<1:05:43,  2.85s/it]

Error 404

 65%|████████████████████████████████████████████████▎                         | 2429/3719 [2:37:25<1:09:54,  3.25s/it]

Error 404

 68%|███████████████████████████████████████████████████▍                        | 2516/3719 [2:43:09<55:16,  2.76s/it]

Error 404

 69%|████████████████████████████████████████████████████▎                       | 2560/3719 [2:46:01<56:23,  2.92s/it]

Error 404

 70%|█████████████████████████████████████████████████████▏                      | 2601/3719 [2:48:43<54:19,  2.92s/it]

Error 404

 70%|████████████████████████████████████████████████████                      | 2618/3719 [2:49:47<1:09:50,  3.81s/it]

Error 404

 71%|█████████████████████████████████████████████████████▉                      | 2638/3719 [2:51:02<50:19,  2.79s/it]

Error 404

 72%|█████████████████████████████████████████████████████▎                    | 2680/3719 [2:53:55<1:09:09,  3.99s/it]

Error 404

 73%|███████████████████████████████████████████████████████▏                    | 2700/3719 [2:55:10<52:14,  3.08s/it]

Error 404

 73%|█████████████████████████████████████████████████████▉                    | 2711/3719 [2:55:53<1:02:15,  3.71s/it]

Error 404

 74%|████████████████████████████████████████████████████████                    | 2743/3719 [2:57:55<50:46,  3.12s/it]

Error 404

 80%|████████████████████████████████████████████████████████████▊               | 2975/3719 [3:14:01<35:41,  2.88s/it]

Error 404

 82%|██████████████████████████████████████████████████████████████▋             | 3066/3719 [3:20:40<39:47,  3.66s/it]

Error 404

 83%|███████████████████████████████████████████████████████████████▎            | 3098/3719 [3:23:04<34:39,  3.35s/it]

Error 404

 84%|████████████████████████████████████████████████████████████████▏           | 3138/3719 [3:26:02<33:20,  3.44s/it]

Error 404

 88%|██████████████████████████████████████████████████████████████████▌         | 3258/3719 [3:34:18<24:23,  3.17s/it]

Error 404

 88%|███████████████████████████████████████████████████████████████████▏        | 3287/3719 [3:36:14<21:18,  2.96s/it]

Error 404

 89%|███████████████████████████████████████████████████████████████████▉        | 3325/3719 [3:38:38<18:32,  2.82s/it]

Error 404

 92%|█████████████████████████████████████████████████████████████████████▌      | 3404/3719 [3:43:47<14:28,  2.76s/it]

Error 404

 92%|█████████████████████████████████████████████████████████████████████▉      | 3421/3719 [3:44:48<13:13,  2.66s/it]

Error 404

 95%|████████████████████████████████████████████████████████████████████████    | 3528/3719 [3:51:43<10:02,  3.16s/it]

Error 404

 95%|████████████████████████████████████████████████████████████████████████▏   | 3535/3719 [3:52:09<09:29,  3.09s/it]

Error 404

 97%|█████████████████████████████████████████████████████████████████████████▋  | 3605/3719 [3:56:53<05:55,  3.12s/it]

Error 404

 98%|██████████████████████████████████████████████████████████████████████████▋ | 3655/3719 [4:00:15<03:45,  3.52s/it]

Error 404

100%|████████████████████████████████████████████████████████████████████████████| 3719/3719 [4:05:05<00:00,  3.95s/it]


Parsing 98 page for mercedes in moskovskaya_oblast

  0%|                                                                                         | 0/3732 [00:00<?, ?it/s]

Parsing 99 page for mercedes in moskovskaya_oblast

  0%|▏                                                                              | 9/3732 [00:39<4:28:56,  4.33s/it]

Error 404

  1%|▌                                                                             | 28/3732 [01:59<3:28:44,  3.38s/it]

Error 404

  1%|▊                                                                             | 40/3732 [02:47<3:29:57,  3.41s/it]

Error 404

  2%|█▊                                                                            | 85/3732 [06:19<3:18:35,  3.27s/it]

Error 404

  3%|██▋                                                                          | 129/3732 [09:36<3:58:32,  3.97s/it]

Error 404

  5%|███▋                                                                         | 177/3732 [13:13<3:17:54,  3.34s/it]

Error 404

  6%|████▍                                                                        | 218/3732 [16:08<3:20:19,  3.42s/it]

Error 404

  7%|█████▎                                                                       | 258/3732 [19:05<3:15:40,  3.38s/it]

Error 404

  8%|█████▉                                                                       | 290/3732 [21:41<3:26:28,  3.60s/it]

Error 404

  9%|██████▌                                                                      | 318/3732 [23:36<2:53:50,  3.06s/it]

Error 404

  9%|███████▏                                                                     | 346/3732 [25:30<3:02:35,  3.24s/it]

Error 404

 12%|████████▉                                                                    | 432/3732 [31:18<2:48:48,  3.07s/it]

Error 404

 13%|██████████                                                                   | 487/3732 [35:02<2:50:21,  3.15s/it]

Error 404

 17%|████████████▋                                                                | 616/3732 [43:36<2:45:03,  3.18s/it]

Error 404

 18%|█████████████▊                                                               | 669/3732 [47:05<2:45:56,  3.25s/it]

Error 404

 19%|██████████████▎                                                              | 696/3732 [48:51<2:37:32,  3.11s/it]

Error 404

 20%|███████████████                                                              | 731/3732 [51:08<2:34:30,  3.09s/it]

Error 404

 22%|█████████████████                                                            | 830/3732 [57:44<2:30:55,  3.12s/it]

Error 404

 23%|█████████████████▌                                                           | 849/3732 [58:56<2:22:51,  2.97s/it]

Error 404

 23%|█████████████████▋                                                           | 858/3732 [59:33<3:20:45,  4.19s/it]

Error 404

 24%|██████████████████▎                                                        | 909/3732 [1:02:57<2:59:58,  3.83s/it]

Error 404

 25%|██████████████████▉                                                        | 940/3732 [1:05:06<3:20:02,  4.30s/it]

Error 404

 26%|███████████████████▏                                                       | 955/3732 [1:06:02<2:28:00,  3.20s/it]

Error 404

 26%|███████████████████▍                                                       | 969/3732 [1:07:01<3:10:22,  4.13s/it]

Error 404

 27%|███████████████████▊                                                      | 1001/3732 [1:09:12<2:17:32,  3.02s/it]

Error 404

 29%|█████████████████████▍                                                    | 1082/3732 [1:14:40<2:21:15,  3.20s/it]

Error 404

 30%|█████████████████████▉                                                    | 1104/3732 [1:16:21<2:44:09,  3.75s/it]

Error 404

 31%|██████████████████████▉                                                   | 1154/3732 [1:19:49<2:14:36,  3.13s/it]

Error 404

 31%|███████████████████████▎                                                  | 1175/3732 [1:21:16<2:20:08,  3.29s/it]

Error 404

 33%|████████████████████████▏                                                 | 1222/3732 [1:24:36<2:35:43,  3.72s/it]

Error 404

 34%|████████████████████████▉                                                 | 1255/3732 [1:26:55<2:20:44,  3.41s/it]

Error 404

 35%|█████████████████████████▉                                                | 1306/3732 [1:30:23<1:53:44,  2.81s/it]

Error 404

 38%|███████████████████████████▉                                              | 1406/3732 [1:38:05<2:34:37,  3.99s/it]

Error 404

 39%|████████████████████████████▌                                             | 1441/3732 [1:40:54<2:18:36,  3.63s/it]

Error 404

 40%|█████████████████████████████▎                                            | 1478/3732 [1:43:53<2:19:39,  3.72s/it]

Error 404

 43%|███████████████████████████████▉                                          | 1613/3732 [1:55:03<2:15:59,  3.85s/it]

Error 404

 44%|████████████████████████████████▊                                         | 1654/3732 [1:58:34<2:22:09,  4.10s/it]

Error 404

 45%|█████████████████████████████████▌                                        | 1691/3732 [2:02:14<4:17:03,  7.56s/it]

Error 404

 46%|█████████████████████████████████▊                                        | 1704/3732 [2:05:03<4:11:48,  7.45s/it]

Error 404

 47%|██████████████████████████████████▉                                       | 1762/3732 [2:10:24<2:33:36,  4.68s/it]

Error 404

 48%|███████████████████████████████████▏                                      | 1775/3732 [2:11:28<2:10:57,  4.01s/it]

Error 404

 50%|█████████████████████████████████████                                     | 1868/3732 [2:19:48<3:18:18,  6.38s/it]

Error 404

 50%|█████████████████████████████████████                                     | 1869/3732 [2:19:49<2:27:13,  4.74s/it]

Error 404

 51%|█████████████████████████████████████▌                                    | 1893/3732 [2:21:56<1:56:40,  3.81s/it]

Error 404

 53%|███████████████████████████████████████▌                                  | 1995/3732 [2:31:01<1:52:07,  3.87s/it]

Error 404

 55%|████████████████████████████████████████▋                                 | 2052/3732 [2:36:01<2:00:15,  4.29s/it]

Error 404

 57%|██████████████████████████████████████████▍                               | 2139/3732 [2:44:16<2:02:22,  4.61s/it]

Error 404

 59%|███████████████████████████████████████████▎                              | 2184/3732 [2:49:07<1:45:10,  4.08s/it]

Error 404

 59%|███████████████████████████████████████████▍                              | 2192/3732 [2:49:48<1:51:03,  4.33s/it]

Error 404

 61%|████████████████████████████████████████████▊                             | 2262/3732 [2:56:54<2:10:08,  5.31s/it]

Error 404

 61%|█████████████████████████████████████████████                             | 2270/3732 [2:57:32<1:34:02,  3.86s/it]

Error 404

 61%|█████████████████████████████████████████████▏                            | 2277/3732 [2:58:06<2:01:32,  5.01s/it]

Error 404

 63%|██████████████████████████████████████████████▎                           | 2334/3732 [3:03:34<1:49:42,  4.71s/it]

Error 404

 63%|██████████████████████████████████████████████▍                           | 2339/3732 [3:04:02<2:08:18,  5.53s/it]

Error 404

 65%|███████████████████████████████████████████████▉                          | 2418/3732 [3:11:15<1:12:25,  3.31s/it]

Error 404

 66%|████████████████████████████████████████████████▊                         | 2460/3732 [3:14:33<1:26:42,  4.09s/it]

Error 404

 68%|██████████████████████████████████████████████████▌                       | 2547/3732 [3:21:33<1:11:44,  3.63s/it]

Error 404

 69%|███████████████████████████████████████████████████▏                      | 2584/3732 [3:24:31<1:10:29,  3.68s/it]

Error 404

 71%|████████████████████████████████████████████████████▏                     | 2635/3732 [3:29:05<1:16:06,  4.16s/it]

Error 404

 71%|████████████████████████████████████████████████████▌                     | 2652/3732 [3:30:35<1:17:42,  4.32s/it]

Error 404

 73%|█████████████████████████████████████████████████████▊                    | 2714/3732 [3:35:50<1:00:27,  3.56s/it]

Error 404

 74%|██████████████████████████████████████████████████████▌                   | 2752/3732 [3:39:06<1:11:48,  4.40s/it]

Error 404

 74%|██████████████████████████████████████████████████████▊                   | 2762/3732 [3:40:11<1:22:00,  5.07s/it]

Error 404

 75%|███████████████████████████████████████████████████████▎                  | 2790/3732 [3:42:38<1:25:52,  5.47s/it]

Error 404

 75%|███████████████████████████████████████████████████████▌                  | 2801/3732 [3:43:39<1:16:54,  4.96s/it]

Error 404

 76%|████████████████████████████████████████████████████████                  | 2830/3732 [3:46:16<1:00:41,  4.04s/it]

Error 404

 77%|██████████████████████████████████████████████████████████▍                 | 2868/3732 [3:49:03<52:57,  3.68s/it]

Error 404

 80%|████████████████████████████████████████████████████████████▌               | 2976/3732 [3:57:32<59:16,  4.70s/it]

Error 404

 80%|█████████████████████████████████████████████████████████████               | 2996/3732 [3:59:16<50:02,  4.08s/it]

Error 404

 83%|███████████████████████████████████████████████████████████████▎            | 3110/3732 [4:07:32<31:51,  3.07s/it]

Error 404

 84%|███████████████████████████████████████████████████████████████▌            | 3124/3732 [4:08:37<50:43,  5.01s/it]

Error 404

 84%|███████████████████████████████████████████████████████████████▉            | 3140/3732 [4:09:48<46:35,  4.72s/it]

Error 404

 84%|████████████████████████████████████████████████████████████████▏           | 3149/3732 [4:10:31<39:57,  4.11s/it]

Error 404

 87%|██████████████████████████████████████████████████████████████████          | 3242/3732 [4:17:52<34:41,  4.25s/it]

Error 404

 87%|██████████████████████████████████████████████████████████████████▏         | 3248/3732 [4:18:24<42:13,  5.24s/it]

Error 404

 89%|███████████████████████████████████████████████████████████████████▉        | 3337/3732 [4:27:17<32:56,  5.00s/it]

Error 404

 90%|████████████████████████████████████████████████████████████████████▎       | 3352/3732 [4:28:53<44:01,  6.95s/it]

Error 404

 90%|████████████████████████████████████████████████████████████████████▌       | 3367/3732 [4:30:42<33:15,  5.47s/it]

Error 404

 90%|████████████████████████████████████████████████████████████████████▌       | 3369/3732 [4:30:58<41:55,  6.93s/it]

Error 404

 91%|█████████████████████████████████████████████████████████████████████▏      | 3399/3732 [4:34:39<29:28,  5.31s/it]

Error 404

 92%|█████████████████████████████████████████████████████████████████████▋      | 3419/3732 [4:36:27<22:32,  4.32s/it]

Error 404

 92%|█████████████████████████████████████████████████████████████████████▉      | 3433/3732 [4:37:52<24:35,  4.94s/it]

Error 404

 94%|███████████████████████████████████████████████████████████████████████▎    | 3502/3732 [4:44:03<15:20,  4.00s/it]

Error 404

 94%|███████████████████████████████████████████████████████████████████████▋    | 3522/3732 [4:45:42<13:35,  3.88s/it]

Error 404

 97%|█████████████████████████████████████████████████████████████████████████▌  | 3611/3732 [4:53:42<07:16,  3.61s/it]

Error 404

 99%|██████████████████████████████████████████████████████████████████████████▉ | 3681/3732 [4:58:46<02:56,  3.45s/it]

Error 404

100%|████████████████████████████████████████████████████████████████████████████| 3732/3732 [5:02:27<00:00,  4.86s/it]


Parsing 98 page for volkswagen in moskovskaya_oblast

  0%|                                                                                         | 0/3723 [00:00<?, ?it/s]

Parsing 99 page for volkswagen in moskovskaya_oblast

  3%|█▉                                                                            | 95/3723 [06:50<3:18:13,  3.28s/it]

Error 404

  3%|██▍                                                                          | 117/3723 [08:20<3:22:49,  3.37s/it]

Error 404

  4%|███▏                                                                         | 152/3723 [11:05<3:41:48,  3.73s/it]

Error 404

  6%|████▋                                                                        | 229/3723 [16:47<4:14:58,  4.38s/it]

Error 404

  7%|█████                                                                        | 242/3723 [17:41<3:23:01,  3.50s/it]

Error 404

  8%|██████                                                                       | 293/3723 [21:25<3:17:09,  3.45s/it]

Error 404

  9%|██████▉                                                                      | 335/3723 [24:16<2:51:26,  3.04s/it]

Error 404

 10%|███████▊                                                                     | 375/3723 [27:00<2:57:38,  3.18s/it]

Error 404

 10%|███████▉                                                                     | 386/3723 [27:43<2:54:03,  3.13s/it]

Error 404

 12%|█████████▎                                                                   | 449/3723 [32:05<2:51:15,  3.14s/it]

Error 404

 12%|█████████▍                                                                   | 457/3723 [32:34<2:47:16,  3.07s/it]

Error 404

 17%|████████████▉                                                                | 624/3723 [44:13<2:49:53,  3.29s/it]

Error 404

 17%|█████████████▎                                                               | 644/3723 [45:33<2:31:28,  2.95s/it]

Error 404

 20%|███████████████▍                                                             | 745/3723 [52:44<2:30:31,  3.03s/it]

Error 404

 22%|████████████████▉                                                            | 817/3723 [57:42<2:23:22,  2.96s/it]

Error 404

 25%|██████████████████▊                                                        | 934/3723 [1:05:46<2:22:42,  3.07s/it]

Error 404

 25%|███████████████████                                                        | 944/3723 [1:06:23<2:19:08,  3.00s/it]

Error 404

 26%|███████████████████▌                                                       | 973/3723 [1:08:22<2:25:36,  3.18s/it]

Error 404

 27%|████████████████████                                                       | 999/3723 [1:10:09<2:30:33,  3.32s/it]

Error 404

 28%|████████████████████▍                                                     | 1029/3723 [1:12:07<2:12:18,  2.95s/it]

Error 404

 30%|██████████████████████▏                                                   | 1115/3723 [1:18:00<2:22:30,  3.28s/it]

Error 404

 31%|███████████████████████▏                                                  | 1168/3723 [1:21:37<2:54:19,  4.09s/it]

Error 404

 33%|████████████████████████▋                                                 | 1244/3723 [1:26:51<2:17:20,  3.32s/it]

Error 404

 37%|███████████████████████████                                               | 1360/3723 [1:34:47<2:01:16,  3.08s/it]

Error 404

 38%|███████████████████████████▊                                              | 1400/3723 [1:37:33<1:56:30,  3.01s/it]

Error 404

 39%|████████████████████████████▌                                             | 1437/3723 [1:40:10<2:04:47,  3.28s/it]

Error 404

 40%|█████████████████████████████▌                                            | 1489/3723 [1:44:08<2:09:20,  3.47s/it]

Error 404

 41%|██████████████████████████████                                            | 1510/3723 [1:45:38<2:33:07,  4.15s/it]

Error 404

 43%|███████████████████████████████▉                                          | 1604/3723 [1:51:59<1:58:15,  3.35s/it]

Error 404

 46%|██████████████████████████████████                                        | 1716/3723 [1:59:46<2:00:19,  3.60s/it]

Error 404

 47%|██████████████████████████████████▌                                       | 1738/3723 [2:01:12<1:40:54,  3.05s/it]

Error 404

 47%|██████████████████████████████████▋                                       | 1743/3723 [2:01:34<2:11:41,  3.99s/it]

Error 404

 48%|███████████████████████████████████▊                                      | 1802/3723 [2:05:36<1:38:58,  3.09s/it]

Error 404

 48%|███████████████████████████████████▉                                      | 1805/3723 [2:05:47<1:41:26,  3.17s/it]

Error 404

 49%|████████████████████████████████████▏                                     | 1818/3723 [2:06:39<2:08:42,  4.05s/it]

Error 404

 50%|████████████████████████████████████▊                                     | 1854/3723 [2:09:07<2:11:59,  4.24s/it]

Error 404

 50%|█████████████████████████████████████▏                                    | 1871/3723 [2:10:15<1:29:36,  2.90s/it]

Error 404

 51%|█████████████████████████████████████▋                                    | 1895/3723 [2:11:56<2:03:22,  4.05s/it]

Error 404

 51%|█████████████████████████████████████▉                                    | 1909/3723 [2:12:57<1:45:27,  3.49s/it]

Error 404

 52%|██████████████████████████████████████▍                                   | 1932/3723 [2:14:27<1:22:54,  2.78s/it]

Error 404

 54%|████████████████████████████████████████▎                                 | 2026/3723 [2:20:53<1:31:47,  3.25s/it]

Error 404

 55%|████████████████████████████████████████▊                                 | 2055/3723 [2:22:52<1:29:37,  3.22s/it]

Error 404

 57%|██████████████████████████████████████████▍                               | 2137/3723 [2:28:29<1:22:52,  3.14s/it]

Error 404

 58%|███████████████████████████████████████████▎                              | 2177/3723 [2:31:12<1:23:15,  3.23s/it]

Error 404

 59%|███████████████████████████████████████████▎                              | 2179/3723 [2:31:20<1:34:45,  3.68s/it]

Error 404

 60%|████████████████████████████████████████████▎                             | 2231/3723 [2:34:51<1:18:54,  3.17s/it]

Error 404

 63%|██████████████████████████████████████████████▍                           | 2334/3723 [2:41:43<1:16:11,  3.29s/it]

Error 404

 65%|███████████████████████████████████████████████▊                          | 2403/3723 [2:46:22<1:03:00,  2.86s/it]

Error 404

 65%|███████████████████████████████████████████████▉                          | 2412/3723 [2:46:56<1:08:00,  3.11s/it]

Error 404

 66%|████████████████████████████████████████████████▉                         | 2459/3723 [2:50:16<1:07:54,  3.22s/it]

Error 404

 67%|█████████████████████████████████████████████████▊                        | 2508/3723 [2:53:40<1:10:36,  3.49s/it]

Error 404

 68%|██████████████████████████████████████████████████▋                       | 2548/3723 [2:56:25<1:02:29,  3.19s/it]

Error 404

 69%|███████████████████████████████████████████████████                       | 2569/3723 [2:57:48<1:02:38,  3.26s/it]

Error 404

 71%|█████████████████████████████████████████████████████▋                      | 2631/3723 [3:02:01<57:51,  3.18s/it]

Error 404

 73%|███████████████████████████████████████████████████████▋                    | 2731/3723 [3:09:01<55:55,  3.38s/it]

Error 404

 74%|██████████████████████████████████████████████████████▉                   | 2766/3723 [3:11:25<1:06:09,  4.15s/it]

Error 404

 74%|████████████████████████████████████████████████████████▌                   | 2771/3723 [3:11:42<49:03,  3.09s/it]

Error 404

 75%|█████████████████████████████████████████████████████████▏                  | 2801/3723 [3:13:44<53:32,  3.48s/it]

Error 404

 76%|██████████████████████████████████████████████████████████                  | 2846/3723 [3:16:47<44:49,  3.07s/it]

Error 404

 77%|██████████████████████████████████████████████████████████▌                 | 2869/3723 [3:18:21<47:10,  3.31s/it]

Error 404

 80%|████████████████████████████████████████████████████████████▌               | 2968/3723 [3:25:08<39:20,  3.13s/it]

Error 404

 82%|██████████████████████████████████████████████████████████████              | 3042/3723 [3:30:11<45:57,  4.05s/it]

Error 404

 82%|██████████████████████████████████████████████████████████████▏             | 3045/3723 [3:30:20<34:09,  3.02s/it]

Error 404

 82%|██████████████████████████████████████████████████████████████▍             | 3058/3723 [3:31:14<44:38,  4.03s/it]

Error 404

 83%|██████████████████████████████████████████████████████████████▉             | 3085/3723 [3:33:01<33:49,  3.18s/it]

Error 404

 85%|████████████████████████████████████████████████████████████████▊           | 3177/3723 [3:39:13<26:38,  2.93s/it]

Error 404

 90%|████████████████████████████████████████████████████████████████████▌       | 3359/3723 [3:51:52<21:15,  3.50s/it]

Error 404

 91%|█████████████████████████████████████████████████████████████████████▌      | 3406/3723 [3:55:02<16:16,  3.08s/it]

Error 404

 93%|██████████████████████████████████████████████████████████████████████▋     | 3464/3723 [3:58:55<12:49,  2.97s/it]

Error 404

 95%|████████████████████████████████████████████████████████████████████████▏   | 3537/3723 [4:03:55<10:15,  3.31s/it]

Error 404

 95%|████████████████████████████████████████████████████████████████████████▍   | 3548/3723 [4:04:39<11:15,  3.86s/it]

Error 404

 96%|████████████████████████████████████████████████████████████████████████▌   | 3557/3723 [4:05:15<11:01,  3.99s/it]

Error 404

 96%|████████████████████████████████████████████████████████████████████████▉   | 3576/3723 [4:06:30<07:38,  3.12s/it]

Error 404

 99%|██████████████████████████████████████████████████████████████████████████▉ | 3673/3723 [4:12:59<02:40,  3.20s/it]

Error 404

100%|████████████████████████████████████████████████████████████████████████████| 3723/3723 [4:16:10<00:00,  4.13s/it]


## Getting additional information from catalog (links from main DF)

In [811]:
if not os.path.exists('data/catalog_car_data'):
    os.makedirs('data/catalog_car_data')
    
for single_brand in models:
    for car_url in tqdm(df[df['brand'] == single_brand]['catalog_url'].value_counts().index.tolist()):
        if car_url != 'No catalog link':
            try:
                catalog_data = catalog_data.append(get_dicts_from_catalog(car_url), ignore_index=True)
            except NoSuchElementException:
                print('Error 404', end='\r')
    catalog_data.to_csv(f'data/catalog_car_data/{single_brand}_catalog_car_data.csv')
    catalog_data = pd.DataFrame()

100%|████████████████████████████████████████████████████████████████████████████████| 552/552 [42:50<00:00,  4.66s/it]


In [950]:
cars_list = glob.glob('C:\PyProjects\skillfactory_rds\module_6\data\car_data\*.csv') 
cars_df = pd.concat(map(pd.read_csv, cars_list))

catalog_cars_list = glob.glob('C:\PyProjects\skillfactory_rds\module_6\data\catalog_car_data\*.csv') 
catalog_df = pd.concat(map(pd.read_csv, catalog_cars_list))

In [951]:
del cars_df['Unnamed: 0']
del catalog_df['Unnamed: 0']
cars_df.reset_index(drop=True, inplace=True)
catalog_df.reset_index(drop=True, inplace=True)
catalog_df.drop_duplicates(subset=['catalog_url'], inplace=True, ignore_index=True)

In [952]:
merged_df = pd.merge(cars_df, catalog_df, on='catalog_url', how='left')

In [957]:
merged_df.to_pickle('data/20220401_msk_parsed_data.pkl', compression='zip')

In [956]:
merged_df.sample(3).T

Unnamed: 0,23299,10050,16386
bodytype,лифтбек,седан,хэтчбек 5 дв.
brand,Volkswagen,Mercedes-Benz,Skoda
car_url,https://auto.ru/cars/used/sale/volkswagen/polo...,https://auto.ru/cars/used/sale/mercedes/s_klas...,https://auto.ru/cars/used/sale/skoda/fabia/111...
catalog_url,https://auto.ru/catalog/cars/volkswagen/polo/2...,https://auto.ru/catalog/cars/mercedes/s_klasse...,https://auto.ru/catalog/cars/skoda/fabia/62233...
color,чёрный,синий,синий
customs,Растаможен,Растаможен,Растаможен
description,Машина в состонии новой.\nВозможна продажа в л...,"Оригинал ПТС, По факту один владелец, сейчас а...","Автомобиль в очень хорошем состоянии, техничес..."
drive,передний,полный,передний
engineDisplacement,1.4,2.9,1.4
enginePower,125.0,249.0,86.0
