In [1]:
import requests
from bs4 import BeautifulSoup
import time
import csv
import logging
import random
from urllib.parse import urljoin
from datetime import datetime

# Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('review_parser.log', encoding='utf-8'),
        logging.StreamHandler()
    ]
)

class ReviewParser:
    def __init__(self, base_url="https://irecommend.ru"):
        self.base_url = base_url
        self.session = requests.Session()
        self.setup_session()
        
    def setup_session(self):
        """Настройка сессии с реалистичными заголовками"""
        self.session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
            'Accept-Encoding': 'gzip, deflate, br',
            'Connection': 'keep-alive',
            'Referer': 'https://irecommend.ru/',
        })

    def get_page(self, url, retries=3, delay=2):
        """Получение страницы с обработкой ошибок"""
        for attempt in range(retries):
            try:
                time.sleep(random.uniform(delay, delay * 2))
                
                response = self.session.get(url, timeout=15)
                
                if response.status_code == 200:
                    # Проверяем, что получили контент с отзывами
                    if 'smTeaser' in response.text or 'reviewBlock' in response.text:
                        return response.text
                    else:
                        logging.warning(f"Страница {url} не содержит отзывов")
                        return None
                else:
                    logging.warning(f"Статус код {response.status_code} для {url}")
                    
            except Exception as e:
                logging.error(f"Ошибка при запросе {url} (попытка {attempt+1}): {e}")
            
            if attempt < retries - 1:
                time.sleep(delay * (attempt + 1))
        
        return None

    def parse_reviews_from_list(self, html):
        """Парсинг всех отзывов со страницы списка"""
        soup = BeautifulSoup(html, 'html.parser')
        reviews_data = []
        
        # Находим все блоки с отзывами
        review_blocks = soup.find_all('div', class_='smTeaser')
        
        for block in review_blocks:
            review_data = self.parse_review_preview(block)
            if review_data:
                reviews_data.append(review_data)
        
        logging.info(f"Найдено отзывов на странице: {len(reviews_data)}")
        return reviews_data

    def parse_review_preview(self, block):
        """Парсинг превью отзыва из списка"""
        try:
            # Основная информация
            product_elem = block.find('div', class_='productName')
            product_name = product_elem.get_text(strip=True) if product_elem else "Неизвестный продукт"
            
            author_elem = block.find('div', class_='authorName')
            author_name = author_elem.get_text(strip=True) if author_elem else "Аноним"
            
            # Рейтинг
            rating = self.extract_rating(block)
            
            # Дата и время
            date_elem = block.find('span', class_='date-created')
            time_elem = block.find('span', class_='time-created')
            date_created = date_elem.get_text(strip=True) if date_elem else ""
            time_created = time_elem.get_text(strip=True) if time_elem else ""
            
            # Заголовок и текст превью
            title_elem = block.find('div', class_='reviewTitle')
            title = title_elem.get_text(strip=True) if title_elem else ""
            
            teaser_elem = block.find('span', class_='reviewTeaserText')
            teaser_text = teaser_elem.get_text(strip=True) if teaser_elem else ""
            
            # Ссылка на полный отзыв
            link_elem = block.find('a', class_='reviewTextSnippet')
            review_url = urljoin(self.base_url, link_elem['href']) if link_elem and link_elem.get('href') else ""
            
            return {
                'product_name': product_name,
                'author': author_name,
                'rating': rating,
                'date_created': date_created,
                'time_created': time_created,
                'title': title,
                'teaser_text': teaser_text,
                'review_url': review_url,
                'scraped_at': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            }
            
        except Exception as e:
            logging.error(f"Ошибка при парсинге превью отзыва: {e}")
            return None

    def parse_full_review(self, url):
        """Парсинг полной версии отзыва"""
        html = self.get_page(url)
        if not html:
            return None
            
        soup = BeautifulSoup(html, 'html.parser')
        review_block = soup.find('div', class_='reviewBlock')
        
        if not review_block:
            logging.warning(f"Не найден блок отзыва для {url}")
            return None
            
        try:
            # Полный текст отзыва
            review_body = review_block.find('div', itemprop='reviewBody')
            full_text = self.clean_text(review_body) if review_body else ""
            
            # Дополнительная информация
            experience = self.extract_experience(review_block)
            pluses = self.extract_pluses(review_block)
            minuses = self.extract_minuses(review_block)
            verdict = self.extract_verdict(review_block)
            
            # Рейтинг из мета-тега
            rating_meta = review_block.find('meta', itemprop='ratingValue')
            rating = rating_meta['content'] if rating_meta else ""
            
            return {
                'full_text': full_text,
                'experience': experience,
                'pluses': ' | '.join(pluses),
                'minuses': ' | '.join(minuses),
                'verdict': verdict,
                'detailed_rating': rating
            }
            
        except Exception as e:
            logging.error(f"Ошибка при парсинге полного отзыва {url}: {e}")
            return None

    def extract_rating(self, block):
        """Извлечение рейтинга из звезд"""
        try:
            rating_elem = block.find('div', class_='starsRating')
            if rating_elem:
                # Ищем класс с рейтингом
                for cls in rating_elem.get('class', []):
                    if 'fivestarWidgetStatic-' in cls:
                        return cls.split('-')[-1]
                
                # Считаем заполненные звезды
                stars = rating_elem.find_all('div', class_='star')
                filled = sum(1 for star in stars if star.find('div', class_='on'))
                return str(filled)
        except Exception as e:
            logging.warning(f"Ошибка при извлечении рейтинга: {e}")
        
        return "0"

    def extract_experience(self, review_block):
        """Извлечение опыта использования"""
        try:
            experience_elem = review_block.find('div', class_='item-data')
            return experience_elem.get_text(strip=True) if experience_elem else ""
        except:
            return ""

    def extract_pluses(self, review_block):
        """Извлечение достоинств"""
        try:
            plus_block = review_block.find('div', class_='plus')
            if plus_block:
                plus_items = plus_block.find_all('li')
                return [item.get_text(strip=True) for item in plus_items]
        except:
            pass
        return []

    def extract_minuses(self, review_block):
        """Извлечение недостатков"""
        try:
            minus_block = review_block.find('div', class_='minus')
            if minus_block:
                minus_items = minus_block.find_all('li')
                return [item.get_text(strip=True) for item in minus_items]
        except:
            pass
        return []

    def extract_verdict(self, review_block):
        """Извлечение вердикта (рекомендует/не рекомендует)"""
        try:
            verdict_elem = review_block.find('span', class_='verdict')
            return verdict_elem.get_text(strip=True) if verdict_elem else ""
        except:
            return ""

    def clean_text(self, element):
        """Очистка текста от HTML тегов"""
        if not element:
            return ""
        
        # Сохраняем переносы строк
        for br in element.find_all("br"):
            br.replace_with("\n")
        
        text = element.get_text(separator='\n')
        
        # Очистка от лишних пробелов
        lines = [line.strip() for line in text.split('\n')]
        lines = [line for line in lines if line]
        
        return '\n'.join(lines)

    def scrape_reviews(self, start_url, pages=5):
        """Основной метод для сбора отзывов"""
        all_reviews = []
        
        for page in range(pages):
            if page == 0:
                url = start_url
            else:
                url = f"{start_url}?page={page}"
            
            logging.info(f"Обработка страницы {page + 1}: {url}")
            
            html = self.get_page(url)
            if not html:
                logging.warning(f"Не удалось загрузить страницу {page + 1}")
                continue
            
            # Парсим отзывы со страницы списка
            previews = self.parse_reviews_from_list(html)
            
            for i, preview in enumerate(previews, 1):
                logging.info(f"Обработка отзыва {i}/{len(previews)}: {preview['title'][:30]}...")
                
                # Получаем полный текст отзыва
                full_data = self.parse_full_review(preview['review_url'])
                
                if full_data:
                    # Объединяем данные
                    complete_review = {**preview, **full_data}
                    all_reviews.append(complete_review)
                else:
                    # Сохраняем хотя бы превью
                    preview['full_text'] = preview.get('teaser_text', '')
                    all_reviews.append(preview)
                
                # Задержка между запросами
                time.sleep(random.uniform(1, 3))
            
            logging.info(f"Страница {page + 1} обработана. Всего отзывов: {len(all_reviews)}")
            
            # Задержка между страницами
            if page < pages - 1:
                time.sleep(random.uniform(2, 4))
        
        return all_reviews

    def save_to_csv(self, reviews, filename):
        """Сохранение отзывов в CSV файл"""
        if not reviews:
            logging.error("Нет данных для сохранения")
            return False
            
        try:
            # Определяем все возможные поля
            fieldnames = [
                'product_name', 'author', 'rating', 'date_created', 'time_created',
                'title', 'teaser_text', 'full_text', 'experience', 'pluses', 
                'minuses', 'verdict', 'detailed_rating', 'review_url', 'scraped_at'
            ]
            
            with open(filename, 'w', newline='', encoding='utf-8') as f:
                writer = csv.DictWriter(f, fieldnames=fieldnames)
                writer.writeheader()
                
                for review in reviews:
                    # Записываем только существующие поля
                    row = {field: review.get(field, '') for field in fieldnames}
                    writer.writerow(row)
            
            logging.info(f"Успешно сохранено {len(reviews)} отзывов в {filename}")
            return True
            
        except Exception as e:
            logging.error(f"Ошибка при сохранении в CSV: {e}")
            return False

# Пример использования
def main():
    # URL страницы с отзывами (замените на актуальный)
    START_URL = "https://irecommend.ru/catalog/reviews/939-13393"
    
    parser = ReviewParser()
    
    logging.info("Начало парсинга отзывов...")
    
    # Собираем отзывы (например, с 3 страниц)
    reviews = parser.scrape_reviews(START_URL, pages=1)
    
    if reviews:
        # Сохраняем в CSV
        filename = f"reviews_{datetime.now().strftime('%Y%m%d_%H%M')}.csv"
        parser.save_to_csv(reviews, filename)
        
        # Выводим статистику
        logging.info(f"Собрано отзывов: {len(reviews)}")
        logging.info(f"Первый отзыв: {reviews[0]['title']}")
        logging.info(f"Текст первого отзыва: {reviews[0]['full_text'][:100]}...")
    else:
        logging.error("Не удалось собрать отзывы")

if __name__ == "__main__":
    main()

2025-10-18 22:32:04,583 - INFO - Начало парсинга отзывов...
2025-10-18 22:32:04,586 - INFO - Обработка страницы 1: https://irecommend.ru/catalog/reviews/939-13393


KeyboardInterrupt: 

In [4]:
import pandas as pd

In [41]:
df = pd.read_csv('reviews_20251018_2220.csv')
df.head(2)

Unnamed: 0,product_name,author,rating,date_created,time_created,title,teaser_text,full_text,experience,pluses,minuses,verdict,detailed_rating,review_url,scraped_at
0,Чипсы картофельные Twister Колбаски гриль с го...,Санду Мадан,3,18.10.2025,18:04,Перебор с остротой,"Я ел эти чипсы очень долго, еще года 2 назад с...","Я ел эти чипсы очень долго, еще года 2 назад с...",год или более,Стоимость,Слишком острые | Химозное послевкусие,не рекомендует,3.0,https://irecommend.ru/content/perebor-s-ostrotoi,2025-10-18 22:15:41
1,"Чипсы картофельные Lays ""Оливье с перепелкой""",Olga Bogdanova,4,17.10.2025,18:14,"В пачках Lay's запахло Новым годом🎄⛄, пробую н...",Приветствую всех На улицах ещё не закончился з...,Приветствую всех\n👋\nНа улицах ещё не закончил...,149 руб.,В меру соленые | Есть схожесть во вкусе с олив...,Мало мясной ароматики | Необычный вкус,рекомендует,4.0,https://irecommend.ru/content/v-pachkakh-lays-...,2025-10-18 22:15:41


In [11]:
!pip install psycopg2

Collecting psycopg2
  Obtaining dependency information for psycopg2 from https://files.pythonhosted.org/packages/88/5a/18c8cb13fc6908dc41a483d2c14d927a7a3f29883748747e8cb625da6587/psycopg2-2.9.11-cp313-cp313-win_amd64.whl.metadata
  Downloading psycopg2-2.9.11-cp313-cp313-win_amd64.whl.metadata (5.1 kB)
Downloading psycopg2-2.9.11-cp313-cp313-win_amd64.whl (2.7 MB)
   ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/2.7 MB 217.8 kB/s eta 0:00:13
    --------------------------------------- 0.0/2.7 MB 306.8 kB/s eta 0:00:09
   - -------------------------------------- 0.1/2.7 MB 660.7 kB/s eta 0:00:04
   --- ------------------------------------ 0.3/2.7 MB 1.2 MB/s eta 0:00:03
   ------- -------------------------------- 0.5/2.7 MB 1.9 MB/s eta 0:00:02
   ------------- -------------------------- 0.9/2.7 MB 2.9 MB/s eta 0:00:01
   ---------------------- ------


[notice] A new release of pip is available: 23.2.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [40]:
import psycopg2

In [44]:
from sqlalchemy import create_engine
import pandas as pd

# Create SQLAlchemy engine
engine = create_engine('postgresql+psycopg2://airflow:airflow@localhost:5433/airflow')

df['combined_created'] = pd.to_datetime(df['date_created'] + ' ' + df['time_created'])
display(df.head(2))

# Now use the engine with to_sql
df.to_sql(
    name='reviews',
    schema='parser', 
    con=engine,
    if_exists='append',
    index=False
)

  df['combined_created'] = pd.to_datetime(df['date_created'] + ' ' + df['time_created'])


Unnamed: 0,product_name,author,rating,date_created,time_created,title,teaser_text,full_text,experience,pluses,minuses,verdict,detailed_rating,review_url,scraped_at,combined_created
0,Чипсы картофельные Twister Колбаски гриль с го...,Санду Мадан,3,18.10.2025,18:04,Перебор с остротой,"Я ел эти чипсы очень долго, еще года 2 назад с...","Я ел эти чипсы очень долго, еще года 2 назад с...",год или более,Стоимость,Слишком острые | Химозное послевкусие,не рекомендует,3.0,https://irecommend.ru/content/perebor-s-ostrotoi,2025-10-18 22:15:41,2025-10-18 18:04:00
1,"Чипсы картофельные Lays ""Оливье с перепелкой""",Olga Bogdanova,4,17.10.2025,18:14,"В пачках Lay's запахло Новым годом🎄⛄, пробую н...",Приветствую всех На улицах ещё не закончился з...,Приветствую всех\n👋\nНа улицах ещё не закончил...,149 руб.,В меру соленые | Есть схожесть во вкусе с олив...,Мало мясной ароматики | Необычный вкус,рекомендует,4.0,https://irecommend.ru/content/v-pachkakh-lays-...,2025-10-18 22:15:41,2025-10-17 18:14:00


40

In [68]:
df1 = pd.read_sql(sql = "select max(combined_created) from parser.reviews", con = engine)

In [69]:
df1

Unnamed: 0,max
0,2025-10-18 18:04:00


In [67]:
data = df1['max'].iloc[0]
data

Timestamp('2025-10-18 18:04:00')

In [54]:
import numpy as np

In [33]:
import requests
from bs4 import BeautifulSoup
import time
import csv
import logging
import random
from urllib.parse import urljoin
from datetime import datetime

# Настройка логирования
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('irecommend_parser.log', encoding='utf-8'),
        logging.StreamHandler()
    ]
)

class IRecommendCacheParser:
    def __init__(self, base_url="https://irecommend.ru"):
        self.base_url = base_url
        self.session = requests.Session()
        self.setup_session()
        
    def setup_session(self):
        """Настройка сессии"""
        self.session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
        })

    def get_through_cached_services(self, url):
        """Получение страницы через кэшированные сервисы"""
        cached_services = [
            self._try_google_cache,
            self._try_archive_org,
        ]
        
        for service in cached_services:
            html = service(url)
            if html:
                return html
            time.sleep(random.uniform(2, 5))
        
        return None

    def _try_google_cache(self, url):
        """Попытка через Google Cache"""
        try:
            cache_url = f"https://webcache.googleusercontent.com/search?q=cache:{url}"
            response = self.session.get(cache_url, timeout=15)
            if response.status_code == 200 and self._validate_content(response.text):
                logging.info("✅ Успех через Google Cache")
                return response.text
        except Exception as e:
            logging.warning(f"Google Cache не сработал: {e}")
        return None

    def _try_archive_org(self, url):
        """Попытка через Archive.org"""
        try:
            # Пробуем разные даты для поиска актуальных данных
            dates = ["20241019", "20241018", "20241015", "20241010", "20241001"]
            for date in dates:
                archive_url = f"https://web.archive.org/web/{date}/{url}"
                response = self.session.get(archive_url, timeout=15)
                if response.status_code == 200 and self._validate_content(response.text):
                    logging.info(f"✅ Успех через Archive.org ({date})")
                    return response.text
        except Exception as e:
            logging.warning(f"Archive.org не сработал: {e}")
        return None

    def _validate_content(self, html):
        """Проверка что контент содержит отзывы"""
        required_elements = ['smTeaser', 'productName', 'reviewTitle']
        return any(element in html for element in required_elements)

    def parse_reviews_list(self, html):
        """Парсинг списка отзывов"""
        if not html:
            return []
            
        soup = BeautifulSoup(html, 'html.parser')
        reviews = []
        
        # Ищем блоки с отзывами
        review_blocks = soup.find_all('div', class_='smTeaser')
        
        for block in review_blocks:
            review_data = self.parse_review_block(block)
            if review_data:
                reviews.append(review_data)
        
        logging.info(f"📝 Найдено отзывов: {len(reviews)}")
        return reviews

    def parse_review_block(self, block):
        """Парсинг одного блока отзыва"""
        try:
            # Название продукта
            product_elem = block.find('div', class_='productName')
            product_name = product_elem.get_text(strip=True) if product_elem else "Неизвестный продукт"
            
            # Автор
            author_elem = block.find('div', class_='authorName')
            author_name = author_elem.get_text(strip=True) if author_elem else "Аноним"
            
            # Рейтинг
            rating = self.extract_rating_from_block(block)
            
            # Дата и время
            date_elem = block.find('span', class_='date-created')
            time_elem = block.find('span', class_='time-created')
            date_created = date_elem.get_text(strip=True) if date_elem else ""
            time_created = time_elem.get_text(strip=True) if time_elem else ""
            
            # Заголовок
            title_elem = block.find('div', class_='reviewTitle')
            title = title_elem.get_text(strip=True) if title_elem else ""
            
            # Текст превью
            teaser_elem = block.find('span', class_='reviewTeaserText')
            teaser_text = teaser_elem.get_text(strip=True) if teaser_elem else ""
            
            # Ссылка на полный отзыв
            link_elem = block.find('a', class_='reviewTextSnippet')
            review_url = urljoin(self.base_url, link_elem['href']) if link_elem and link_elem.get('href') else ""
            
            return {
                'product_name': product_name,
                'author': author_name,
                'rating': rating,
                'date_created': date_created,
                'time_created': time_created,
                'title': title,
                'teaser_text': teaser_text,
                'review_url': review_url,
                'scraped_at': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            }
            
        except Exception as e:
            logging.error(f"Ошибка парсинга блока: {e}")
            return None

    def extract_rating_from_block(self, block):
        """Извлечение рейтинга"""
        try:
            rating_elem = block.find('div', class_='starsRating')
            if rating_elem:
                # Ищем класс с рейтингом в формате fivestarWidgetStatic-X
                for cls in rating_elem.get('class', []):
                    if 'fivestarWidgetStatic-' in cls:
                        return cls.split('-')[-1]
                
                # Альтернативный метод: считаем заполненные звезды
                stars = rating_elem.find_all('div', class_='star')
                filled_stars = sum(1 for star in stars if star.find('div', class_='on'))
                return str(filled_stars)
        except Exception as e:
            logging.warning(f"Ошибка извлечения рейтинга: {e}")
        return "0"

    def parse_full_review(self, url):
        """Парсинг полного отзыва"""
        if not url:
            return {}
            
        logging.info(f"🔍 Парсим полный отзыв: {url}")
        html = self.get_through_cached_services(url)
        
        if not html:
            logging.warning(f"Не удалось загрузить полный отзыв: {url}")
            return {}
            
        soup = BeautifulSoup(html, 'html.parser')
        review_data = {}
        
        try:
            review_block = soup.find('div', class_='reviewBlock')
            if not review_block:
                return {}
            
            # Полный текст отзыва
            review_body = review_block.find('div', itemprop='reviewBody')
            if review_body:
                review_data['full_text'] = self.clean_text(review_body)
            else:
                review_data['full_text'] = ""
            
            # Опыт использования (стоимость и т.д.)
            experience_data = self.extract_experience_info(review_block)
            review_data['experience'] = experience_data
            
            # Достоинства
            pluses = self.extract_pluses(review_block)
            review_data['pluses'] = ' | '.join(pluses) if pluses else ""
            
            # Недостатки
            minuses = self.extract_minuses(review_block)
            review_data['minuses'] = ' | '.join(minuses) if minuses else ""
            
            # Вердикт
            verdict = self.extract_verdict(review_block)
            review_data['verdict'] = verdict
            
            # Дополнительная информация
            additional_info = self.extract_additional_info(review_block)
            review_data.update(additional_info)
            
            logging.info(f"✅ Полный отзыв: {len(review_data.get('full_text', ''))} символов")
            
        except Exception as e:
            logging.error(f"Ошибка парсинга полного отзыва: {e}")
        
        return review_data

    def extract_experience_info(self, review_block):
        """Извлечение информации об опыте использования"""
        try:
            extra_info = review_block.find('div', class_='extraInfo')
            if extra_info:
                item_data = extra_info.find('div', class_='item-data')
                if item_data:
                    return item_data.get_text(strip=True)
        except:
            pass
        return ""

    def extract_pluses(self, review_block):
        """Извлечение достоинств"""
        try:
            plus_block = review_block.find('div', class_='plus')
            if plus_block:
                plus_items = plus_block.find_all('li')
                return [item.get_text(strip=True) for item in plus_items]
        except:
            pass
        return []

    def extract_minuses(self, review_block):
        """Извлечение недостатков"""
        try:
            minus_block = review_block.find('div', class_='minus')
            if minus_block:
                minus_items = minus_block.find_all('li')
                return [item.get_text(strip=True) for item in minus_items]
        except:
            pass
        return []

    def extract_verdict(self, review_block):
        """Извлечение вердикта"""
        try:
            conclusion = review_block.find('div', class_='conclusion')
            if conclusion:
                verdict_elem = conclusion.find('span', class_='verdict')
                if verdict_elem:
                    return verdict_elem.get_text(strip=True)
        except:
            pass
        return ""

    def extract_additional_info(self, review_block):
        """Извлечение дополнительной информации"""
        info = {}
        try:
            # Дата публикации из полного отзыва
            date_elem = review_block.find('span', class_='dtreviewed')
            if date_elem:
                info['full_date'] = date_elem.get_text(strip=True)
            
            # Рейтинг из полного отзыва (для проверки)
            rating_meta = review_block.find('meta', itemprop='ratingValue')
            if rating_meta:
                info['rating_verified'] = rating_meta.get('content', '')
                
        except:
            pass
        
        return info

    def clean_text(self, element):
        """Очистка текста"""
        if not element:
            return ""
        
        for br in element.find_all("br"):
            br.replace_with("\n")
        
        text = element.get_text(separator='\n')
        lines = [line.strip() for line in text.split('\n')]
        lines = [line for line in lines if line]
        
        return '\n'.join(lines)

    def scrape_page(self, page_url, max_reviews=10, get_full_reviews=True):
        """Сбор отзывов с конкретной страницы"""
        logging.info(f"🚀 Сбор данных со страницы: {page_url}")
        
        # Получаем страницу через кэш
        html = self.get_through_cached_services(page_url)
        
        if not html:
            logging.error(f"❌ Не удалось получить данные со страницы: {page_url}")
            return []
        
        # Парсим список отзывов
        preview_reviews = self.parse_reviews_list(html)
        
        if not preview_reviews:
            logging.warning(f"❌ На странице {page_url} не найдено отзывов")
            return []
        
        # Ограничиваем количество
        preview_reviews = preview_reviews[:max_reviews]
        
        complete_reviews = []
        successful_full = 0
        
        for i, preview in enumerate(preview_reviews, 1):
            logging.info(f"🔄 Обработка отзыва {i}/{len(preview_reviews)}: {preview['title'][:50]}...")
            
            if get_full_reviews and preview['review_url']:
                # Получаем полные данные отзыва
                full_data = self.parse_full_review(preview['review_url'])
                
                if full_data:
                    complete_review = {**preview, **full_data}
                    complete_reviews.append(complete_review)
                    successful_full += 1
                else:
                    # Если не удалось получить полные данные, используем превью
                    preview['full_text'] = preview.get('teaser_text', '')
                    complete_reviews.append(preview)
            else:
                # Используем только превью данные
                preview['full_text'] = preview.get('teaser_text', '')
                complete_reviews.append(preview)
            
            # Задержка между обработкой отзывов
            if i < len(preview_reviews):
                time.sleep(random.uniform(2, 4))
        
        logging.info(f"🎉 Сбор завершен! Полные отзывы: {successful_full}/{len(complete_reviews)}")
        return complete_reviews

    def scrape_multiple_pages(self, base_url, pages, max_reviews_per_page=5):
        """Сбор отзывов с нескольких страниц"""
        all_reviews = []
        
        for page in pages:
            if page == 1:
                page_url = base_url
            else:
                page_url = f"{base_url}?page={page}"
            
            logging.info(f"📄 Обработка страницы {page}")
            
            page_reviews = self.scrape_page(page_url, max_reviews_per_page, get_full_reviews=True)
            all_reviews.extend(page_reviews)
            
            # Задержка между страницами
            if page < pages[-1]:
                time.sleep(random.uniform(5, 10))
        
        # Удаляем дубликаты (на случай если отзывы повторяются на разных страницах)
        unique_reviews = self.remove_duplicates(all_reviews)
        return unique_reviews

    def remove_duplicates(self, reviews):
        """Удаление дубликатов отзывов"""
        seen = set()
        unique = []
        
        for review in reviews:
            # Создаем уникальный ключ на основе заголовка и автора
            key = (review['title'], review['author'])
            if key not in seen:
                seen.add(key)
                unique.append(review)
        
        return unique

    def save_to_csv(self, reviews, filename):
        """Сохранение в CSV"""
        if not reviews:
            logging.error("Нет данных для сохранения")
            return False
            
        try:
            fieldnames = [
                'product_name', 'author', 'rating', 'date_created', 'time_created',
                'title', 'teaser_text', 'full_text', 'experience', 'pluses', 
                'minuses', 'verdict', 'full_date', 'rating_verified', 'review_url', 
                'scraped_at'
            ]
            
            with open(filename, 'w', newline='', encoding='utf-8') as f:
                writer = csv.DictWriter(f, fieldnames=fieldnames)
                writer.writeheader()
                
                for review in reviews:
                    row = {field: review.get(field, '') for field in fieldnames}
                    writer.writerow(row)
            
            logging.info(f"💾 Сохранено {len(reviews)} отзывов в {filename}")
            return True
            
        except Exception as e:
            logging.error(f"Ошибка сохранения: {e}")
            return False

# Функции для разных сценариев использования
def scrape_single_page(page_number=1):
    """Сбор данных с одной страницы"""
    parser = IRecommendCacheParser()
    
    if page_number == 1:
        url = "https://irecommend.ru/catalog/reviews/939-13393"
    else:
        url = f"https://irecommend.ru/catalog/reviews/939-13393?page={page_number}"
    
    reviews = parser.scrape_page(url, max_reviews=10, get_full_reviews=True)
    return reviews

def scrape_multiple_pages(page_numbers):
    """Сбор данных с нескольких страниц"""
    parser = IRecommendCacheParser()
    
    reviews = parser.scrape_multiple_pages(
        base_url="https://irecommend.ru/catalog/reviews/939-13393",
        pages=page_numbers,
        max_reviews_per_page=5
    )
    return reviews

def main():
    """Тестирование разных сценариев"""
    logging.info("🎯 Запуск парсера iRecommend через кэш")
    
    # Сценарий 1: Одна страница
    # reviews = scrape_single_page(page_number=1)
    
    # Сценарий 2: Несколько страниц
    #reviews = scrape_multiple_pages(page_numbers=[1, 2, 3])
    
    # Сценарий 3: Конкретная страница (например, 99)
    reviews = scrape_single_page(page_number=93)
    
    if reviews:
        filename = f"irecommend_reviews_{datetime.now().strftime('%Y%m%d_%H%M')}.csv"
        parser = IRecommendCacheParser()
        success = parser.save_to_csv(reviews, filename)
        
        if success:
            logging.info(f"✅ Успешно собрано отзывов: {len(reviews)}")
            
            # Статистика
            full_text_count = sum(1 for r in reviews if r.get('full_text') and len(r['full_text']) > 500)
            pluses_count = sum(1 for r in reviews if r.get('pluses'))
            minuses_count = sum(1 for r in reviews if r.get('minuses'))
            
            logging.info(f"📊 Статистика:")
            logging.info(f"   - Полные тексты: {full_text_count}")
            logging.info(f"   - С плюсами: {pluses_count}") 
            logging.info(f"   - С минусами: {minuses_count}")
            
            if reviews:
                sample = reviews[0]
                logging.info(f"📄 Пример отзыва: '{sample['title']}'")
        else:
            logging.error("❌ Ошибка сохранения данных")
    else:
        logging.error("❌ Не удалось собрать данные")

if __name__ == "__main__":
    main()

2025-10-19 23:38:06,763 - INFO - 🎯 Запуск парсера iRecommend через кэш
2025-10-19 23:38:06,784 - INFO - 🚀 Сбор данных со страницы: https://irecommend.ru/catalog/reviews/939-13393?page=93
2025-10-19 23:38:21,402 - ERROR - ❌ Не удалось получить данные со страницы: https://irecommend.ru/catalog/reviews/939-13393?page=93
2025-10-19 23:38:21,410 - ERROR - ❌ Не удалось собрать данные


In [14]:
!pip install cloudscraper fp.free-proxy



ERROR: Could not find a version that satisfies the requirement fp.free-proxy (from versions: none)
ERROR: No matching distribution found for fp.free-proxy

[notice] A new release of pip is available: 23.2.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd

In [None]:
df = pd.read_csv('irecommend_reviews_20251019_2303.csv')
df.head(1)

Unnamed: 0,product_name,author,rating,date_created,time_created,title,teaser_text,full_text,experience,pluses,minuses,verdict,full_date,rating_verified,review_url,scraped_at
0,"Чипсы картофельные Lays ""Оливье с перепелкой""",гелла раньше пела,5,19.10.2025,21:47,Осенний Новый год часть вторая. Удалось ли Lay...,"ВСЕМ ПРИВЕТЫ) Не скажу, что часто ем чипсы, ...","ВСЕМ ПРИВЕТЫ)\nНе скажу, что часто ем чипсы, е...",149 рублей,В меру соленые | Есть схожесть во вкусе с олив...,"Вкус улетучился на завтра, словно прошлый год ...",рекомендует,"19 Октябрь, 2025 - 21:47",5,https://irecommend.ru/content/osennii-novyi-go...,2025-10-19 23:02:35


In [31]:
df = pd.read_csv('irecommend_reviews_20251019_2335.csv')
display(df)
df['full_text'][3]


Unnamed: 0,product_name,author,rating,date_created,time_created,title,teaser_text,full_text,experience,pluses,minuses,verdict,full_date,rating_verified,review_url,scraped_at
0,Чипсы картофельные Lava Lava Крабо-ниндзя,XeniumX,3,,,"Так ли хороши чипсы от бумажного блогера, как ...","Всем привет! Я думаю, многие родители, у кого ...","Всем привет! Я думаю, многие родители, у кого ...",,,,,,,,2025-10-19 23:34:35
1,Чипсы картофельные Lorenz Crunchips X-Cut смет...,katerina_5512,5,,,Очень качественные чипсы по невысокой цене!,Чипсы картофельные рифленые «Crunchips X-Cut» ...,Чипсы картофельные рифленые «Crunchips X-Cut» ...,,,,,,,,2025-10-19 23:34:35
2,Чипсы картофельные Lays Моцарелла с песто,katerina_5512,5,,,Вкусы чипсов с каждым разом становятся менее б...,Чипсы из натурального картофеля Lays со вкусом...,Чипсы из натурального картофеля Lays со вкусом...,,,,,,,,2025-10-19 23:34:35
3,Чипсы TWISTER Сыр,Екатерина1703niz,5,,,Хрустящие и легкие сырные чипсы🧀,Всем привет! Иногда очень хочется чем-нибудь п...,Всем привет! Иногда очень хочется чем-нибудь п...,,,,,,,,2025-10-19 23:34:35
4,Чипсы картофельные Lays Рифленые Острые крылышки,katerina_5512,5,,,Насколько удачна новинка?,Чипсы из натурального картофеля Lays рифленые ...,Чипсы из натурального картофеля Lays рифленые ...,,,,,,,,2025-10-19 23:34:35


'Всем привет! Иногда очень хочется чем-нибудь похрустеть, чипсами какими-нибудь вкусными Последнее приобретение это чипсы - TWISTER со вкусом сыра от Московского картофеля.Продаются данные чипсы во всех супермаркетах и обычных магазинах, цена за упаковку 70 грамм в районе 60 рублей.'