In [None]:
pip install selenium

In [None]:
pip install webdriver-manager

In [None]:
from bs4 import BeautifulSoup
import requests
from requests import get
import time
import random
import pandas as pd
from time import sleep
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import numpy as np
from datetime import datetime
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import os

In [None]:
URL_TEMPLATE = 'https://www.avito.ru/all/avtomobili?p='
PAUSE_DURATION_SECONDS = 5
MAX_PAGES = 100  # Количество страниц для парсинга

def parse_page(soup):
    car_blocks = soup.find_all('div', class_='iva-item-root-_lk9K photo-slider-slider-S15A_ iva-item-list-rfgcH iva-item-redesign-rop6P iva-item-responsive-_lbhG items-item-My3ih items-listItem-Gd1jN js-catalog-item-enum')

    names = []
    prices = []
    photos = []
    descriptions = []
    cities = []
    ad_ids = [] 
    ad_descriptions = []  
    time_updates = []
    parsing_times = []
    ad_paths = []

    for car in car_blocks:
        # текущее время парсинга
        current_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        parsing_times.append(current_time)
        
        # Парсинг названия
        try:
            name_tag = car.find('a', {"class": "styles-module-root-iSkj3 styles-module-root_noVisited-qJP5D"})
            if name_tag and 'title' in name_tag.attrs:
                name = name_tag['title'].strip()
            else:
                name = np.nan
        except:
            name = np.nan

        # Парсинг цены
        try:
            price_tag = car.find('meta', {"itemprop": "price"})
            if price_tag and 'content' in price_tag.attrs:
                price = price_tag['content']
            else:
                price = np.nan
        except:
            price = np.nan

        # Парсинг фото
        try:
            photo_tag = car.find('img', {"class": "photo-slider-image-YqMGj"})
            if photo_tag and 'src' in photo_tag.attrs:
                photo = photo_tag['src']
            else:
                photo = np.nan
        except:
            photo = np.nan
       
        # Парсинг описания
        try:
            description_tag = car.find('p', {"data-marker": "item-specific-params"})
            if description_tag:
                description = description_tag.text.strip()
            else:
                description = np.nan
        except:
            description = np.nan

        # Парсинг города и автодилера
        try:
            city_tags = car.find_all('span', {"class": "styles-module-noAccent-l9CMS"})
            if city_tags:
                city = ', '.join([tag.text.strip() for tag in city_tags])
            else:
                city = np.nan
        except:
            city = np.nan

        # Парсинг ad_id
        try:
            ad_id = car['data-item-id']  # Извлекаем ad_id из атрибута data-item-id
        except:
            ad_id = np.nan

        # Парсинг ad_description
        try:
            ad_description_tag = car.find('meta', {"itemprop": "description"})
            if ad_description_tag and 'content' in ad_description_tag.attrs:
                ad_description = ad_description_tag['content'].strip().replace('\n', '')
            else:
                ad_description = np.nan
        except:
            ad_description = np.nan

         # Парсинг ссылки объявления
        try:
            ad_path_tag = car.find('a', {"class": "styles-module-root-iSkj3 styles-module-root_noVisited-qJP5D"})
            if ad_path_tag and 'href' in ad_path_tag.attrs:
                ad_path = 'https://www.avito.ru'+ ad_path_tag['href'].strip()
            else:
                ad_path = np.nan
        except:
            ad_path = np.nan

        # Парсинг времени поднятия
        try:
            time_update_tag = car.find('p', {"class": "styles-module-root-o3j6a styles-module-size_s-xb_uK styles-module-size_s-__aUd stylesMarningNormal-module-root-_BXZU stylesMarningNormal-module-paragraph-s-_lGjQ styles-module-noAccent-l9CMS"})
            if time_update_tag:
                time_update_full_text = time_update_tag.text.strip()
                # Разделяем текст на слова и берём первые два слова
                time_update_words = time_update_full_text.split()
                if len(time_update_words) >= 2:
                    time_update = ' '.join(time_update_words[:2])
                else:
                    time_update = time_update_full_text
            else:
                time_update = np.nan
        except:
            time_update = np.nan
                            
        # Добавляем данные в списки
        names.append(name)
        prices.append(price)
        photos.append(photo)
        descriptions.append(description)
        cities.append(city)
        ad_ids.append(ad_id)  # Добавляем ad_id в список
        ad_descriptions.append(ad_description)  # Добавляем ad_description в список
        time_updates.append(time_update)
        ad_paths.append(ad_path)

    # Возвращаем DataFrame из спарсенных данных
    df_page = pd.DataFrame({
        'name': names,
        'price': prices,
        'photo': photos,
        'description': descriptions,
        'city': cities,
        'ad_id': ad_ids,  
        'ad_description': ad_descriptions,
        'time_update': time_updates,
        'parsing_time': parsing_times,
        'ad_path': ad_paths
    })

    return df_page


def main():
    all_cars_df = pd.DataFrame()

    # Проверяем, существует ли файл с уже спарсенными данными
    if os.path.exists('cars_data.csv'):
        # Загружаем существующий файл, если он есть
        all_cars_df = pd.read_csv('cars_data.csv')

    for page_num in range(1, MAX_PAGES + 1):
        print(f"Парсим страницу {page_num}...")

        try:
            # Пробуем загрузить страницу
            url = URL_TEMPLATE + str(page_num)
            driver.get(url)
            sleep(PAUSE_DURATION_SECONDS)

            # Получаем HTML-код страницы
            page_source = driver.page_source

            # Парсим HTML с BeautifulSoup
            soup = BeautifulSoup(page_source, 'html.parser')

            # Парсим данные на текущей странице и добавляем их в DataFrame
            df_page = parse_page(soup)
            all_cars_df = pd.concat([all_cars_df, df_page], ignore_index=True)

            # Сохраняем промежуточный результат после каждой страницы
            all_cars_df.to_csv('cars_data.csv', index=False, encoding='utf-8-sig')

        except TimeoutException:
            print(f"Ошибка: страница {page_num} не загрузилась, пропускаем...")
            continue
        except Exception as e:
            print(f"Произошла ошибка на странице {page_num}: {e}")
            continue

    print("Парсинг завершен.")
    print(all_cars_df.head())  # Для отладки выводим первые строки DataFrame

    # Сохраняем итоговый DataFrame
    all_cars_df.to_csv('cars_data.csv', index=False, encoding='utf-8-sig')


if __name__ == '__main__':
    try:
        service = Service(executable_path=ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service)
        main()
    except Exception as e:
        print(e)
    finally:
        driver.quit()


In [None]:
# преобразование видимости датафрейма
pd.set_option('display.max_colwidth', None)

pd.set_option('display.width', 200)

In [None]:
# Теперь сбрасываем эти опции
pd.reset_option('display.width')
pd.reset_option('display.max_colwidth')


In [None]:
df_cars = pd.read_csv('cars_data.csv')
df_cars.head()

In [None]:
df_cars[['name', 'description', 'city', 'price', 'ad_id', 'ad_description', ]].head(10)