### Библиотеки

In [7]:
import requests
from bs4 import BeautifulSoup
import csv
from time import sleep
from random import randint

import pandas as pd

### Параметры

In [8]:
# BASE_URL = "https://www.chitai-gorod.ru/search?phrase=психология&page="
BASE_URL = 'https://www.chitai-gorod.ru/catalog/books/klassicheskaya-proza-110003?page='
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
PAGES = 10
OUTPUT_FILE = "books.csv"

### Функции для парсинга фичей на странице

#### Новая и старая цена

In [9]:
def parse_price(container):
    prices = []
    for part in container.stripped_strings:
        if '₽' in part:
            prices.append(part.replace('₽', '').replace('\xa0', '').strip())
    return {
        'current': prices[0] if len(prices) > 0 else None,
        'old': prices[1] if len(prices) > 1 else None
    }

#### Название книги

In [10]:
def parse_title(container):
    title_tag = container.find('h1')
    title = title_tag.get_text(strip=True)
    
    return title

#### Оценки

In [11]:
def parse_reviews(soup):

    # средняя оценка
    try:
        avg_rating = soup.find('span', class_="product-review-range__count").text.strip()
    except:
        avg_rating = None

    # количество оценок
    try:
        cnt_reviews = soup.find('div', class_='star-rating__statistics').text.replace('\xa0', '').strip()
    except:
        cnt_reviews = None
    
    return {
        'avg_rating': avg_rating,
        'cnt_reviews': cnt_reviews
    }


#### Характеристики книги

In [12]:
def parse_article(soup):
    divs = []
    result = {}

    for div in soup.select('section div', class_='product-detail-features__item'):
        divs.append(div)
    
    for div in divs:
        # # Обработка описания
        # article = div.find('article')
        # if article:
        #     description = ' '.join(article.stripped_strings)
        #     result['Описание'] = description
        #     continue
        
        # Обработка информационных блоков
        spans = div.find_all('span', limit=1)
        if not spans:
            continue
            
        key = spans[0].get_text(strip=True)
        value_element = spans[0].find_next_sibling()
        
        if not value_element:
            continue
            
        value = ' '.join(value_element.stripped_strings)
        result[key] = value
    
    return result

### Парсер одной книги

In [13]:
def parse_product_page(url, HEADERS=HEADERS):
    response = requests.get(url, headers=HEADERS)
    if response.status_code != 200:
        return {}
    
    soup = BeautifulSoup(response.text, "html.parser")
    result = {}

    # Ссылка
    result['link'] = url
    
    # Цена
    try:
        price_container = soup.find("div", class_="product-offer-price")
        price_data = parse_price(price_container)
        current_price = f"{price_data['current']} ₽" if price_data['current'] else None
        old_price = f"{price_data['old']} ₽" if price_data['old'] else None
    except:
        current_price = None
        old_price = None

    result['current_price'] = current_price
    result['old_price'] = old_price


    # Оценки
    try:
        review_data = parse_reviews(soup)
    except:
        review_data = {}

    result.update(review_data)
        

    # Название
    try:
        title_container = soup.find("div", class_="detail-product__header")
        title = parse_title(title_container)
        # title_tag = title_container.find('h1')
        # title = title_tag.get_text(strip=True)
    except:
        title = None

    result['title'] = title


    # Автор
    try:
        author_container = soup.find('div', class_="product-info-authors detail-product__header-authors")
        author = author_container.text.strip().split(',')[0]
    except:
        author = None
    
    result['author'] = author


    # Характеристики
    try:
        article_data = parse_article(soup)
    except:
        article_data = {}
    
    result.update(article_data)
    
    return result

### Парсер страницы

In [14]:
from tqdm import tqdm

def parse_page(BASE_URL, HEADERS, page_num):
    books = []

    # страница с выдачей
    url = f"{BASE_URL}{page_num}"
    response = requests.get(url, headers=HEADERS)

    # открываем страницу
    if response.status_code != 200:
        print(f"Ошибка {response.status_code} на странице {page_num}")
        return []
    
    # суп страницы
    soup = BeautifulSoup(response.text, "html.parser")
    
    # проходимся по книгам
    for item in tqdm(soup.find_all("article", class_="product-card")):

        # ищем ссылку на страницу книги
        links = []
        try:  
            # Находим тег <a> с атрибутом href, содержащим "/product/"
            link_tag = item.find("a", href=lambda x: x and x.startswith("/product/"))
            link = "https://www.chitai-gorod.ru" + link_tag["href"]
        except Exception as e:
            link = "Нет ссылки"
        
        # парсим страницу книги
        book_data = parse_product_page(link)
        
        # добавляем инфу по книге в список
        books.append(book_data)
        
    return books

### Функция большого парсера

In [17]:
def parse_site(BASE_URL=BASE_URL, HEADERS=HEADERS, PAGES=PAGES):
    all_books = []

    for page_num in range(1, PAGES + 1):
        print(f'Парсим страницу номер: {page_num}')
        
        books_page = parse_page(BASE_URL=BASE_URL, HEADERS=HEADERS, page_num=page_num)
    
        all_books += books_page
        print(len(all_books))

    return pd.DataFrame(all_books)

In [16]:
def save_data(all_books, OUTPUT_FILE):
    all_books.to_csv(OUTPUT_FILE, index=False)

In [18]:
result = parse_site(PAGES=60)
result

Парсим страницу номер: 1


100%|██████████| 60/60 [00:43<00:00,  1.37it/s]


60
Парсим страницу номер: 2


100%|██████████| 60/60 [00:42<00:00,  1.40it/s]


120
Парсим страницу номер: 3


100%|██████████| 60/60 [00:48<00:00,  1.24it/s]


180
Парсим страницу номер: 4


100%|██████████| 60/60 [00:44<00:00,  1.34it/s]


240
Парсим страницу номер: 5


100%|██████████| 60/60 [00:44<00:00,  1.36it/s]


300
Парсим страницу номер: 6


100%|██████████| 60/60 [00:43<00:00,  1.37it/s]


360
Парсим страницу номер: 7


100%|██████████| 60/60 [00:43<00:00,  1.36it/s]


420
Парсим страницу номер: 8


100%|██████████| 60/60 [00:42<00:00,  1.40it/s]


480
Парсим страницу номер: 9


100%|██████████| 60/60 [00:47<00:00,  1.28it/s]


540
Парсим страницу номер: 10


100%|██████████| 60/60 [00:42<00:00,  1.40it/s]


600
Парсим страницу номер: 11


100%|██████████| 60/60 [00:47<00:00,  1.26it/s]


660
Парсим страницу номер: 12


100%|██████████| 60/60 [00:44<00:00,  1.35it/s]


720
Парсим страницу номер: 13


100%|██████████| 60/60 [00:44<00:00,  1.34it/s]


780
Парсим страницу номер: 14


100%|██████████| 60/60 [00:48<00:00,  1.25it/s]


840
Парсим страницу номер: 15


100%|██████████| 60/60 [00:42<00:00,  1.41it/s]


900
Парсим страницу номер: 16


100%|██████████| 60/60 [00:41<00:00,  1.44it/s]


960
Парсим страницу номер: 17


100%|██████████| 60/60 [00:43<00:00,  1.38it/s]


1020
Парсим страницу номер: 18


100%|██████████| 60/60 [00:44<00:00,  1.34it/s]


1080
Парсим страницу номер: 19


100%|██████████| 60/60 [00:42<00:00,  1.41it/s]


1140
Парсим страницу номер: 20


100%|██████████| 60/60 [00:42<00:00,  1.42it/s]


1200
Парсим страницу номер: 21


100%|██████████| 60/60 [00:43<00:00,  1.37it/s]


1260
Парсим страницу номер: 22


100%|██████████| 60/60 [00:43<00:00,  1.39it/s]


1320
Парсим страницу номер: 23


100%|██████████| 60/60 [00:40<00:00,  1.48it/s]


1380
Парсим страницу номер: 24


100%|██████████| 60/60 [00:42<00:00,  1.42it/s]


1440
Парсим страницу номер: 25


100%|██████████| 60/60 [00:43<00:00,  1.38it/s]


1500
Парсим страницу номер: 26


100%|██████████| 60/60 [00:43<00:00,  1.38it/s]


1560
Парсим страницу номер: 27


100%|██████████| 60/60 [00:43<00:00,  1.39it/s]


1620
Парсим страницу номер: 28


100%|██████████| 60/60 [00:42<00:00,  1.41it/s]


1680
Парсим страницу номер: 29


100%|██████████| 60/60 [00:43<00:00,  1.39it/s]


1740
Парсим страницу номер: 30


100%|██████████| 60/60 [00:46<00:00,  1.30it/s]


1800
Парсим страницу номер: 31


100%|██████████| 60/60 [00:42<00:00,  1.41it/s]


1860
Парсим страницу номер: 32


100%|██████████| 60/60 [00:40<00:00,  1.47it/s]


1920
Парсим страницу номер: 33


100%|██████████| 60/60 [00:40<00:00,  1.47it/s]


1980
Парсим страницу номер: 34


100%|██████████| 60/60 [00:42<00:00,  1.41it/s]


2040
Парсим страницу номер: 35


100%|██████████| 60/60 [00:41<00:00,  1.45it/s]


2100
Парсим страницу номер: 36


100%|██████████| 60/60 [00:44<00:00,  1.34it/s]


2160
Парсим страницу номер: 37


100%|██████████| 60/60 [00:43<00:00,  1.39it/s]


2220
Парсим страницу номер: 38


100%|██████████| 60/60 [00:41<00:00,  1.44it/s]


2280
Парсим страницу номер: 39


100%|██████████| 60/60 [00:39<00:00,  1.51it/s]


2340
Парсим страницу номер: 40


100%|██████████| 60/60 [00:39<00:00,  1.53it/s]


2400
Парсим страницу номер: 41


100%|██████████| 60/60 [00:40<00:00,  1.49it/s]


2460
Парсим страницу номер: 42


100%|██████████| 60/60 [00:45<00:00,  1.32it/s]


2520
Парсим страницу номер: 43


100%|██████████| 60/60 [00:41<00:00,  1.44it/s]


2580
Парсим страницу номер: 44


100%|██████████| 60/60 [00:41<00:00,  1.46it/s]


2640
Парсим страницу номер: 45


100%|██████████| 60/60 [00:40<00:00,  1.48it/s]


2700
Парсим страницу номер: 46


100%|██████████| 60/60 [00:40<00:00,  1.49it/s]


2760
Парсим страницу номер: 47


100%|██████████| 60/60 [00:41<00:00,  1.44it/s]


2820
Парсим страницу номер: 48


100%|██████████| 60/60 [00:45<00:00,  1.33it/s]


2880
Парсим страницу номер: 49


100%|██████████| 60/60 [00:45<00:00,  1.32it/s]


2940
Парсим страницу номер: 50


100%|██████████| 60/60 [00:41<00:00,  1.46it/s]


3000
Парсим страницу номер: 51


100%|██████████| 60/60 [00:40<00:00,  1.47it/s]


3060
Парсим страницу номер: 52


100%|██████████| 60/60 [00:39<00:00,  1.53it/s]


3120
Парсим страницу номер: 53


100%|██████████| 60/60 [00:40<00:00,  1.49it/s]


3180
Парсим страницу номер: 54


100%|██████████| 60/60 [00:40<00:00,  1.48it/s]


3240
Парсим страницу номер: 55


100%|██████████| 60/60 [00:40<00:00,  1.49it/s]


3300
Парсим страницу номер: 56


100%|██████████| 60/60 [00:40<00:00,  1.46it/s]


3360
Парсим страницу номер: 57


100%|██████████| 60/60 [00:41<00:00,  1.43it/s]


3420
Парсим страницу номер: 58


100%|██████████| 60/60 [00:45<00:00,  1.33it/s]


3480
Парсим страницу номер: 59


100%|██████████| 60/60 [00:41<00:00,  1.46it/s]


3540
Парсим страницу номер: 60


100%|██████████| 60/60 [00:41<00:00,  1.43it/s]

3600





Unnamed: 0,link,current_price,old_price,avg_rating,cnt_reviews,title,author,ID товара,Издательство,Издательский бренд,...,Количество страниц,Размер,Тип обложки,Тираж,"Вес, г",Возрастные ограничения,Переводчик,Художник,Тип комикса,Разделы комикса
0,https://www.chitai-gorod.ru/product/skorb-sata...,312 ₽,400 ₽,4.1,925 оценок,Скорбь Сатаны,Мария Корелли,2772938,АСТ,Neoclassic,...,512,2.1x11.5x18,Мягкий переплёт,30000,250,16+,,,,
1,https://www.chitai-gorod.ru/product/1984-novyy...,312 ₽,400 ₽,4.1,1341 оценка,1984 (новый перевод),Джордж Оруэлл,2918634,АСТ,Neoclassic,...,320,2.4x11.5x18,Мягкий переплёт,30000,200,16+,,,,
2,https://www.chitai-gorod.ru/product/prestuplen...,303 ₽,388 ₽,4.2,1288 оценок,Преступление и наказание,Федор Достоевский,2465295,АСТ,Neoclassic,...,672,2.5x17.5x18,Мягкий переплёт,30000,319,12+,,,,
3,https://www.chitai-gorod.ru/product/chelovek-n...,284 ₽,365 ₽,4.5,363 оценки,Человек недостойный,Дадзай Осаму,3032403,АСТ,Neoclassic,...,192,1.5x11.5x18,Мягкий переплёт,25000,132,16+,,,,
4,https://www.chitai-gorod.ru/product/tri-tovari...,413 ₽,530 ₽,4.2,1269 оценок,Три товарища,Эрих Ремарк,2666861,АСТ,Neoclassic,...,480,2.5x11.6x18.1,Мягкий переплёт,30000,300,12+,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3595,https://www.chitai-gorod.ru/product/drakula-sa...,2207 ₽,2831 ₽,3.7,53 оценки,Дракула. Самая полная версия. Коллекционное ил...,Брэм Стокер,2976255,Эксмо,Издательство Алгоритм,...,448,2.6x17x24,Твёрдый переплёт,1500,760,16+,,,,
3596,https://www.chitai-gorod.ru/product/vremya-i-b...,1103 ₽,1415 ₽,4.3,42 оценки,Время и боги. Дочь короля Эльфландии,Лорд Дансейни,2958378,Иностранка,,...,784,3.8x14.5x21.7,Твёрдый переплёт,3000,860,16+,,,,
3597,https://www.chitai-gorod.ru/product/roza-mira-...,1011 ₽,1297 ₽,3.8,29 оценок,Роза Мира,Даниил Андреев,2903592,Эксмо,,...,704,3.4x14x20.6,Твёрдый переплёт,2000,638,16+,,,,
3598,https://www.chitai-gorod.ru/product/priyut-gre...,505 ₽,648 ₽,4.0,27 оценок,Приют Грез (новый перевод),Эрих Ремарк,2946441,АСТ,Neoclassic,...,256,1.8x13x20.5,Твёрдый переплёт,1500,230,16+,,,,


In [19]:
save_data(result, OUTPUT_FILE=OUTPUT_FILE)