In [1]:
!pip install selenium
!apt-get update
!apt-get install chromium-driver

Collecting selenium
  Downloading selenium-4.29.0-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.29.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.29.0-py3-none-any.whl (9.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.5/9.5 MB[0m [31m42.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio-0.29.0-py3-none-any.whl (492 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m492.9/492.9 kB[0m [31m26.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio_websocket-0.12.2-py3-none-any.whl (21 kB)
Downloading outcome-1.3.0.post0-py2.py3-

In [2]:
import time
import logging
from bs4 import BeautifulSoup
from selenium.webdriver import Chrome, ChromeOptions
import pandas as pd
from tqdm import tqdm

# Настройка логирования
log_file = "links_log.txt"
with open(log_file, "w") as f:
    f.write("Логирование начато\n")

logging.getLogger().handlers.clear()

logging.basicConfig(
    filename=log_file,
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s",
    encoding="utf-8"
)

In [3]:
def web_driver():
    options = ChromeOptions()
    options.add_argument("--no-sandbox")
    options.add_argument("--headless")
    options.add_argument("--disable-gpu")
    options.add_argument("--window-size=1920,1200")
    options.add_argument("--disable-dev-shm-usage")
    return Chrome(options=options)

In [4]:
def parse_car_details(url, browser):
    """ Функция парсит данные одного объявления"""
    try:
        browser.get(url)
        time.sleep(2)
        soup = BeautifulSoup(browser.page_source, 'html.parser')

        # Извлечение марки, модели и версии
        breadcrumbs = soup.find('div', {'data-marker': 'breadcrumbs'})
        if breadcrumbs:
            items = breadcrumbs.find_all('span', {'itemprop': 'name'})
            if len(items) >= 4:
                brand = items[-3].text.strip()
                model = items[-2].text.strip()
                version = items[-1].text.strip()
            else:
                brand, model, version = None, None, None
        else:
            brand, model, version = None, None, None

        # Извлечение цены
        price_span = soup.find('span', {'data-marker': 'item-view/item-price'})
        price = price_span.text.strip().replace('\xa0', ' ') if price_span else None

        # Извлечение характеристик
        params = {}
        params_block = soup.find('div', {'data-marker': 'item-view/item-params'})
        if params_block:
            for param in params_block.find_all('li'):
                key = param.find('span', {'class': 'styles-module-noAccent-l9CMS'})
                if key:
                    key_text = key.text.strip().replace(':', '')
                    value_text = param.text.replace(key.text, '').strip()
                    params[key_text] = value_text

        # Извлечение адреса
        address_span = soup.select_one('div[itemprop="address"] span.style-item-address__string-wt61A')
        address = address_span.text.strip() if address_span else None

        return {
            'URL': url,
            'Brand': brand,
            'Model': model,
            'Version': version,
            'Price': price,
            'Address': address,
            **params
        }

    except Exception as e:
        logging.error(f"Ошибка при парсинге {url}: {e}")
        return None

def get_ad_links(browser, page, base_url):
    """Получает ссылки на объявления с указанной страницы, делая до 3 попыток при необходимости (если с первого раза не получилось)"""
    max_retries = 3
    for attempt in range(1, max_retries + 1):
        try:
            listing_url = f'https://www.avito.ru/all/avtomobili?p={page}'
            browser.get(listing_url)
            time.sleep(3)
            soup = BeautifulSoup(browser.page_source, 'html.parser')

            ad_elements = soup.find_all('a', attrs={'data-marker': 'item-title'})
            ad_links = [base_url + a.get('href') for a in ad_elements if a.get('href')]

            if ad_links:
                return ad_links
            else:
                logging.warning(f"Попытка {attempt}: На странице {page} не найдено объявлений.")
                time.sleep(3)

        except Exception as e:
            logging.error(f"Ошибка при загрузке страницы {page}: {e}")

    logging.error(f"Не удалось получить ссылки на объявления с {page} страницы после {max_retries} попыток.")
    return []

In [5]:
FROM = 1 # Страница с которой начинаем (включительно)
TO = 6 # Страница которой заканчиваем (включительно)
SAVE_EVERY = 5 # Как часто сохраняем

def parse_avito():
    """Парсит объявления и сохраняет данные в CSV каждые 5 страниц."""
    browser = web_driver()
    base_url = 'https://www.avito.ru'
    car_data = []
    pages_processed = 0

    logging.info("Начало парсинга")

    for page in tqdm(range(FROM, TO+1), desc="Обработка страниц"):
        try:
            ad_links = get_ad_links(browser, page, base_url)

            if not ad_links:
                continue

            for link in tqdm(ad_links, desc=f"Объявления на стр. {page}", leave=False):
                data = parse_car_details(link, browser)
                if data:
                    car_data.append(data)

            pages_processed += 1
            logging.info(f"Страница {page} обработана, собрано {len(ad_links)} ссылок")

            # Сохранение CSV каждые несколько страниц
            if pages_processed % SAVE_EVERY == 0:
                df = pd.DataFrame(car_data)
                filename = f'cars_data_part_{page}.csv'
                df.to_csv(filename, index=False)
                logging.info(f"Сохранено {len(car_data)} записей в {filename}")
                car_data = []

        except Exception as e:
            logging.error(f"Ошибка на странице {page}: {e}")

    # Если остались несохраненные данные:
    if car_data:
        df = pd.DataFrame(car_data)
        df.to_csv('cars_data_final.csv', index=False)
        logging.info(f"Финальное сохранение {len(car_data)} записей в cars_data_final.csv")

    browser.quit()
    logging.info("Парсинг завершен!")

    logging.shutdown()

parse_avito()

Обработка страниц:   0%|          | 0/6 [00:00<?, ?it/s]
Объявления на стр. 1:   0%|          | 0/50 [00:00<?, ?it/s][A
Объявления на стр. 1:   2%|▏         | 1/50 [00:16<13:52, 16.98s/it][A
Объявления на стр. 1:   4%|▍         | 2/50 [00:26<10:08, 12.67s/it][A
Объявления на стр. 1:   6%|▌         | 3/50 [00:38<09:33, 12.21s/it][A
Объявления на стр. 1:   8%|▊         | 4/50 [02:38<42:01, 54.81s/it][A
Объявления на стр. 1:  10%|█         | 5/50 [03:15<36:19, 48.44s/it][A
Объявления на стр. 1:  12%|█▏        | 6/50 [03:24<25:39, 34.98s/it][A
Объявления на стр. 1:  14%|█▍        | 7/50 [03:36<19:41, 27.47s/it][A
Объявления на стр. 1:  16%|█▌        | 8/50 [03:46<15:20, 21.92s/it][A
Объявления на стр. 1:  18%|█▊        | 9/50 [03:59<13:00, 19.04s/it][A
Объявления на стр. 1:  20%|██        | 10/50 [04:06<10:14, 15.36s/it][A
Объявления на стр. 1:  22%|██▏       | 11/50 [04:16<09:02, 13.90s/it][A
Объявления на стр. 1:  24%|██▍       | 12/50 [04:25<07:48, 12.34s/it][A
Объявления н