In [18]:
import pandas as pd

import requests as rq

from bs4 import BeautifulSoup as bs

from datetime import datetime
from tqdm.notebook import tqdm
import time

In [16]:
# Функция parse_auto_links() возвращает ссылки на авто.
#
# -price_range(type list) задает диапозон цен по которым ищем авто.
#
# -num_of_pages(type int) задает количество страниц, среди которых ищем ссылки на авто.

def parse_auto_links(price_range, num_of_pages=99):
    
    # Время запуска функции
    begin_time = datetime.now()
    
    # Создаем список для нашых ссылок на авто.
    all_auto_links = []
    
    # Перебираем в цикле цены. Цена задается "от", 
    # т.е. "от 100_000 и выше".
    for price in price_range:
        
        # Создаем список, в который сложем все страницы с авто.
        all_auto_pages = []     
        
        print('Searching in price range > '+ str(price))
        
        # Заполняем созданный список страницами с авто.
        for page_number in range(1,num_of_pages+1):
            all_auto_pages.append('https://auto.ru/moskva/cars/bmw/used/?output_type=list&page={a}&price_from={b}&sort=price-asc'.format(a=page_number, b=price))
        
        # Перебираем в цилке список страниц с авто.
        # Делаем запрос страницу. После этого вытаскиваем с нее все ссылки на авто.
        for url in tqdm(all_auto_pages):
            
            response = rq.get(url)
            page = bs(response.text, 'lxml')
            search_links = page.find_all('a', class_='Link ListingItemTitle-module__link')
            
            for auto_link in search_links:
                all_auto_links.append(auto_link.get('href'))
        
        print('\n')
    print('Found {} links'.format(len(all_auto_links)))
    print('Done')
    
    # Выводим время выполнения функции
    print('Execution time: {}'.format(datetime.now()-begin_time))
    
    return all_auto_links

In [None]:
price_range = [1, 1_100_000]

auto_links = parse_auto_links(price_range)

In [None]:
# time = datetime.now()

# file=open('bmw_auto_links.txt','w')
# file.write('Time update: ' + str(time) + '\n')
# for link in auto_links:
#     file.write(link+'\n')

# file.close()

In [19]:
auto_links = []

file=open('bmw_auto_links.txt','r')

for link in file:
    auto_links.append(link[:-1])

In [99]:
# Функция parse_auto_data() собирает информацию об авто.
#
# -auto_links(type list) список ссылок на авто, полученый с помошью функции parse_auto_links

def parse_auto_data(auto_links):
    
    # Время запуска функции
    begin_time = datetime.now()
    
    # Создаем список словарей с данными об авто 
    all_auto = []
    
    # Список ссылок с ошибками
    error_links = []
    
    # Перебираем в цикле все ссылки на авто
    for url in tqdm(auto_links):
        
        auto_info = []
        
        #Создаем словарь с данными об авто
        auto = {}
        
        rp = rq.get(url)
        
        rp.encoding = 'utf-8'
        page = bs(rp.text, 'lxml')
        
        ################################################################
        # Ищем название модели
        car_name = page.find_all('div', class_='CardBreadcrumbs')
        
        # Добавляем имя в словарь
        try:
            auto['name'] = car_name[0].text.split('\xa0')
        except:
            print('Empty car_name')
            error_links.append(url)
            
        ###############################################################
        # Парсим всю техническую информацию об авто
        info = page.find_all('span', class_='CardInfo__cell')

        # Добавляем информацию об авто в словарь
        for data in info:
            auto_info.append(data.text)
            
        # Преобразуем список с информацией об авто в словарь, где нечетный индекс это key,
        # а четный индекс value
        for i in range(0,len(auto_info)-5,2):
            auto[auto_info[i]] = auto_info[i+1]
            
        ################################################################
        # Ищем ссылку на каталог с характеристиками модели
        car_catalog_info = page.find('a', class_='Link SpoilerLink CardCatalogLink SpoilerLink_type_default')
        try:
            catalog_info_url = car_catalog_info.get('href')
        except:
            print('Empty car_catalog_info')
            error_links.append(url)

        ################################################################
        # Ищем информацию о комплектации
        comp_info = []
        
        comp = page.find_all('li', class_='CardComplectation__itemContentEl')
        for info in comp:
            comp_info.append(info.text)
        
        auto['Комплектация'] = comp_info
        
        ################################################################
        # Ищем цену авто
        lisf_of_price = page.find_all('span', class_='OfferPriceCaption__price')
        
        # Добавляем цену в словарь
        for price in lisf_of_price:
            auto['Цена'] = price.text
            
        ###############################################################    
        # Заходим в "Характеристики модели в каталоге", чтобы найти доп. информацию
        rp_catalog = rq.get(catalog_info_url)
        
        rp_catalog.encoding = 'utf-8'
        catalog_page = bs(rp_catalog.text, 'lxml')
        
        extra_info = catalog_page.find_all('dl', class_='list-values clearfix')
        
        # Почему-то иногда команда возвращает пустой список, из-за этого прерывается
        # работа функции. Добавил исключение. Если список пустой, то сохраняем
        # адрес ссылки в которой не удалось собрать данные
        try:
            auto['numberOfDoors'] = extra_info[0].text
        except:
            print('Empty extra_info')
            error_links.append(url)
            
        all_auto.append(auto)
    
    print('Done')
    
    # Выводим время выполнения функции
    print('Execution time: {}'.format(datetime.now()-begin_time))
    
    return all_auto, error_links

In [105]:
data = parse_auto_data(auto_links[0:1000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_01.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Done
Execution time: 0:32:39.494932


In [107]:
data = parse_auto_data(auto_links[1000:2000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_02.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Done
Execution time: 0:39:11.830483


In [108]:
data = parse_auto_data(auto_links[2000:3000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_03.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Done
Execution time: 0:23:50.024930


In [109]:
data = parse_auto_data(auto_links[3000:4000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_04.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))

Empty car_name
Empty car_catalog_info

Done
Execution time: 0:23:29.582418


In [110]:
data = parse_auto_data(auto_links[4000:5000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_05.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Done
Execution time: 0:23:25.490257


In [111]:
data = parse_auto_data(auto_links[5000:6000])
df = pd.DataFrame(data=data[0])
df.to_csv('data_06.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=1000.0), HTML(value='')))


Done
Execution time: 0:23:16.609244


In [112]:
data = parse_auto_data(auto_links[6000:])
df = pd.DataFrame(data=data[0])
df.to_csv('data_07.csv', index=False)

HBox(children=(FloatProgress(value=0.0, max=598.0), HTML(value='')))

Empty extra_info
Empty car_name
Empty car_catalog_info

Done
Execution time: 0:13:02.779712
