Здесь будет производится скачивание и парсинг данных с сайта auto.ru

Задача: Оценка рыночной стоимости мотоцикла с пробегом 

Данные: https://auto.ru/moskva/mototsikly/all/ 
Целевая переменная: цена в рублях (!)

Признаки: 
1. Фирма изготовитель (!)
2. Пробег (!)
3. Тип 
4. Год выпуска 

5. Объем двигателя 
6. Мощность двигателя 
7. Тип двигателя 
8. Число цилиндров 
9. Число тактов 
10. Число передач 
11. Тип привода 
12. Наличие ABS 
13. Наличие электростартера 
14. Цвет 

15. Состояние 
16. Таможня 
17. Частное лицо или дилер 
18. Возможен ли торг 
19. Расстояние от Москвы 

Можно попробовать: 
20. Дата публикации объявления 
21. Число просмотров объявления 
22. Число фотографий в объявлении 
23. Длина комментария продавца

Как они будут называться в таблице, разделитель ',': 

0. price

1. manufacturer
2. mileage 
3. motorcycle_type
4. year 

5. engine_capacity
6. engine_power
7. engine_type 
8. cylinders 
9. strokes 
10. gears 
11. type_of_drive 
12. abs
13. starter 
14. color 

15. damaged (1 если требует ремонта, 0 если нет)
16. сustoms (1 - растаможен)
17. private (1 - частное лицо) 
18. bargaining - (1 если возможен торг) 
19. distance_from_moscow 
 
20. date 
21. visits 
22. photos 
23. length_of_comment

Алгоритм:
1. Скачать все страницы (есть номер страницы, если забанят - знаю, откуда продолжить)
2. Получить из них список ссылкок (просто парсинг)
3. Потом идти по каждой ссылке (есть номер ссылки, если забанят - знаю, откуда продолжить)

<b>Импорт библиотек</b>

In [14]:
import numpy as np
import pandas as pd
import requests
import time
from bs4 import BeautifulSoup

<b>Класс, описывающий мотоцикл</b>

In [15]:
class Motorcycle:
    def __init__(self, soup_motorcycle, index=None):
        self.soup = soup_motorcycle
        if (index is None):
            self.index = 0
        else:
            self.index = index
            
        self.warning_string_ = "Index: " + self.index + "; Warning: "
        
    def warning_(self, string):
        print(self.warning_string_ + string)
        
    def parse_information(self):
        self.price = self.get_price()
        if (self.price is None):
            return False
        
        self.manufacturer = self.get_manufacturer()
        if (self.manufacturer is None):
            return False
        
        self.mileage = self.get_mileage()
        if (self.mileage is None):
            return False
        
        self.year = self.get_year()
        
        # аналогично дописать для всех фичей
        # проверка на None в этой функции для других фичей не нужна 
        # (я выделил самые главные)
        # 
        return True
    
        
    def get_price(self):
        price = self.soup.select('h4.card__price-rur.card__price-rur_dropdown')
        if (price is not None):
            price = price[0].text
        else:
            self.warning_('price not found')
            price = None
        return price
    
    
    def get_manufacturer(self):
        manufacturer = self.soup.select('.link.link_theme_auto.link__control.i-bem')
        if (manufacturer is not None):
            manufacturer = manufacturer[5].text
        else:
            self.warning_('manufacturer not found')
            manufacturer = None
        return manufacturer
    
    def get_mileage(self):
        mileage = self.soup.select('dl.card__info > dd.card__info-value.card__info-value_bold')
        if (mileage is not None):
            mileage = manufacturer[1].text
        else:
            self.warning_('mileage not found')
            mileage = None
        return mileage
    
    def get_year(self):
        year = self.soup.select('dl.card__info > dd.card__info-value.card__info-value_bold')
        if (year is not None):
            year = manufacturer[0].text
        else:
            self.warning_('year not found')
            year = None
        return year
    
    def __repr__(self):
         return "Motorcycle class"
        
    def __str__(self):
        string = str(self.price) + ',' + str(self.manufacturer) + ',' + \
                    str(self.mileage) + ',' + str(self.year)
        return string

<b>Информация по подключению</b>

In [16]:
url_page_template = '''https://auto.ru/moskva/mototsikly/all/?beaten=1&custom_state_key=CLEARED
                    &geo_id=213geo_radius=1000&image=true&sort_offers=cr_date-DESC&top_days=off
                    &currency=RUR&output_type=list&page_num_offers='''

In [27]:
# Выбрать нужное
# Сайт с прокси: http://spys.one/proxys/RU/

#proxies = None
proxies = { 'https': '5.130.73.28:42362' }

<b>Вспомогательные функции для подключения</b>

In [18]:
def is_banned(soup):
    title = soup.select_one('h1.title')
    if (title is not None):
        if (title.text == 'ой…'):
            return True
    else:
        return False

In [19]:
def get_links(url_page, proxies=None, sleep=False, sleep_seconds=10):
    html_page = requests.get(url_page, proxies=proxies).content
    soup = BeautifulSoup(html_page, 'html.parser')
    
    if (is_banned(soup)):
        print("BANNED")
        return None
    
    if (sleep):
        time.sleep(np.random.randint(sleep_seconds))
          
    return soup.select('.link.link_theme_auto.listing-item__link.link__control.i-bem')

In [25]:
def get_motorcycle_soup(url_motorcycle, proxies=None, sleep=False, sleep_seconds=10):
    html_motorcycle = requests.get(url_motorcycle, proxies=proxies).content
    soup_motorcycle = BeautifulSoup(html_motorcycle, 'html.parser')
        
    if (is_banned(soup_motorcycle)):
        print("BANNED")
        return None
    
    if (sleep):
        time.sleep(np.random.randint(sleep_seconds))
        
    return soup_motorcycle

<b>Создание списка ссылок</b>

In [21]:
last_page = 99

with open('data/current_page.txt', 'r') as file:
    current_page = int(file.readline())
    current_link = int(file.readline())
    
with open('data/links.txt', 'a') as f_output:
    for page in range(current_page, last_page+1):
        links = get_links(url_page_template + str(page), proxies, True)
        
        if (links is None):
            print("Error while getting motorcycle links")
            current_page = page
            print("Page: " + str(current_page))
            print("Link: " + str(current_link))
            break
        
        for link in links:
            print(str(current_link) + '. '+ link['href'], file=f_output)
            current_link += 1
        
        current_page = page + 1
        
with open('data/current_page.txt', 'w') as f_output:
    print(current_page, file=f_output)
    print(current_link, file=f_output)

BANNED
Error while getting motorcycle links
Page: 16
Link: 556


<b>Основной цикл (не работает пока)</b>

In [28]:
with open('data/current_parce_link.txt', 'r') as file:
    current_parce_link = int(file.readline())

with open('data/links.txt', 'r') as links_file:
    with open('data/motorcycles.txt', 'a') as motorcycle_file:
        for i, link in enumerate(links_file):
            if (i < current_parce_link):
                continue

            link = link[link.find('h'):]
        
            soup = get_motorcycle_soup(link, proxies, True)
            if (soup is None):
                print("Error while getting motorcycle information")
                print("Link: " + str(current_parce_link))
                break

            motorcycle = Motorcycle(soup, current_parce_link)
            if (motorcycle.parse_information() is not None):
                print(motorcycle, file=motorcycle_file)
            else:
                print("Error while parsing motorcycle information")
                print("Link: " + str(current_parce_link))
                
            current_parce_link += 1
            
with open('data/current_parce_link.txt', 'w') as f_output:
    print(current_parce_link, file=f_output)

TypeError: must be str, not int

Все, что ниже - черновик, для того, чтобы что то отдельное потестить

Если банит, то можно скачать один раз в отдельной ячейке, и потом просто по ней делать (чтобы не перекачивать)