In [7]:
import random
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
import time

# Настройки Chrome
options = Options()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36")

driver = webdriver.Chrome(options=options)

# --- Собираем ссылки на заведения со всех страниц ---
all_firm_links = set()
for page in range(1, 3):  # 2 страниц
    print(f"📄 Загружаем страницу {page}...")
    search_url = f"https://2gis.kz/almaty/search/рестораны и кафе/rubricId/161/page/{page}/?m=76.903857,43.246691/14.35"
    driver.get(search_url)
    time.sleep(5)

    # Прокрутка вниз
    for _ in range(3):
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(2)

    soup = BeautifulSoup(driver.page_source, "html.parser")
    place_links = soup.find_all("a", href=True)
    firm_links = [
        "https://2gis.kz" + link['href']
        for link in place_links
        if "/firm/" in link['href'] and "/tab" not in link['href']
    ]
    all_firm_links.update(firm_links)

# Выбор 20 случайных заведений
unique_links = list(all_firm_links)
random.shuffle(unique_links)
selected_links = unique_links[:25]
print(f"\n🔎 Найдено {len(unique_links)} заведений. Выбрано {len(selected_links)} случайных для парсинга.")

# --- Парсим отзывы по заведениям ---
reviews_data = []

for i, place_url in enumerate(selected_links, start=1):
    print(f"\n📍 Обрабатывается {i}/{len(selected_links)}: {place_url}")
    try:
        driver.get(place_url)
        time.sleep(5)

        # Переход на вкладку "Отзывы"
        try:
            review_tab = WebDriverWait(driver, 5).until(
                EC.element_to_be_clickable((By.XPATH, "//a[contains(@href, '/tab/reviews')]"))
            )
            review_tab.click()
            time.sleep(5)
        except:
            print("⚠ Нет вкладки 'Отзывы', пропускаем.")
            continue

        # Название заведения
        soup = BeautifulSoup(driver.page_source, "html.parser")
        name_tag = soup.find("h1", class_="_1x89xo5")
        name = name_tag.get_text(strip=True) if name_tag else "Не найдено"

        # Средняя оценка и количество оценок
        try:
            rating_value = driver.find_element(By.CLASS_NAME, "_y10azs").text.strip()
        except:
            rating_value = "Нет данных"
        try:
            rating_count = driver.find_element(By.CLASS_NAME, "_jspzdm").text.strip().split(" ")[0]
        except:
            rating_count = "Нет данных"

        # Прокрутка для подгрузки отзывов
        for _ in range(10):
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(2)

        # Отзывы (до 50)
        review_blocks = driver.find_elements(By.XPATH, "//div[@class='_1k5soqfl']")[:50]
        for block in review_blocks:
            try:
                user = block.find_element(By.XPATH, ".//span[@class='_16s5yj36']").get_attribute("title")
            except:
                user = "Не указано"
            try:
                date = block.find_element(By.XPATH, ".//div[@class='_a5f6uz']").text
            except:
                date = "Не указана"
            try:
                comment = block.find_element(By.XPATH, ".//div[@class='_49x36f']").text
            except:
                comment = "Комментарий отсутствует"
            try:
                stars = block.find_elements(By.XPATH, ".//div[@class='_1fkin5c']/span")
                rating = len(stars)
            except:
                rating = "Не оценено"

            reviews_data.append({
                "Пользователь": user,
                "Дата": date,
                "Комментарий": comment,
                "Рейтинг": rating,
                "Название заведения": name,
                "Средняя оценка": rating_value,
                "Кол-во оценок": rating_count
            })

    except Exception as e:
        print(f"❌ Ошибка при обработке {place_url}: {e}")
        continue

# --- Сохраняем результат ---
data = pd.DataFrame(reviews_data)
data.to_csv("2gis_review.csv", index=False, encoding='utf-8-sig')
print(f"\n✅ Парсинг завершен! Сохранено {len(data)} отзывов.")
driver.quit()

📄 Загружаем страницу 1...
📄 Загружаем страницу 2...

🔎 Найдено 24 заведений. Выбрано 24 случайных для парсинга.

📍 Обрабатывается 1/24: https://2gis.kz/almaty/firm/70000001059420089?stat=eyJwYXJlbnRUYWJJZCI6ImIxNGY5NzYwLTMwMTctNDM5NC04ZDgyLWJhMDMwYWNkMjEwOCIsImZvcmtFdmVudE9yZGluYWwiOjIsInVpRWxlbWVudCI6eyJuYW1lIjoicGxhY2VDYXJkTWluaSIsIm93bmVyTmFtZSI6InNlYXJjaFJlc3VsdHNMaXN0IiwicG9zaXRpb24iOjIwfSwicGxhY2VJdGVtIjp7ImVudGl0eSI6eyJpZCI6IjcwMDAwMDAxMDU5NDIwMDg5IiwidHlwZSI6ImJyYW5jaCIsInNlZ21lbnRJbmZvIjp7ImJhc2VMb2NhbGUiOiJydV9LWiIsInNlZ21lbnRJZCI6IjY3In19LCJnZW9Qb3NpdGlvbiI6eyJsb24iOjc2Ljk0NTM0MiwibGF0Ijo0My4yNDQ0MTR9LCJhZHNTZWFyY2giOnRydWUsIm1haW5SdWJyaWMiOiI1MTQ1OSIsImlzRGVsZXRlZCI6ZmFsc2UsIm9yZyI6IjcwMDAwMDAxMDU5NDIwMDg4IiwiY29udGV4dFJ1YnJpYyI6IjE2MSIsImhhc01vZGVsIjpmYWxzZSwicmVzdWx0Q2xhc3MiOjIsInBvc2l0aW9uIjoyMH0sInNlYXJjaFJlc3VsdHNMaXN0Ijp7InNpemUiOjIwNDUsInNlYXJjaEhhc2giOiJmNTFjNDZiZS1hNjRmLTQ4NmEtOGNmNy00YWNlZGQyMzUwYWMiLCJzZWFyY2hUeXBlIjoyLCJmaXJzdFJlc3VsdENsYXNzIjoyLCJjb250ZXh0UnVic