In [1]:
import requests
import gzip
import shutil
import os
import time
import pandas as pd
from bs4 import BeautifulSoup
import re
import json
import random
from collections import defaultdict
import numpy as np

class BalancedAmazonDatasetDownloader:
    def __init__(self):
        self.dataset_url = "http://snap.stanford.edu/data/bigdata/amazon/amazon-meta.txt.gz"
        self.local_gz_path = "amazon-meta.txt.gz"
        self.local_txt_path = "amazon-meta.txt"
        self.output_csv_path = "amazon_balanced_products.csv"
        self.images_dir = "amazon_balanced_images"
        
        os.makedirs(self.images_dir, exist_ok=True)

    def download_dataset(self):
        """Скачивает архив с датасетом"""
        print("Скачивание датасета...")
        response = requests.get(self.dataset_url, stream=True)
        with open(self.local_gz_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print("Датасет скачан!")

    def extract_dataset(self):
        """Распаковывает архив"""
        print("Распаковка архива...")
        with gzip.open(self.local_gz_path, 'rb') as f_in:
            with open(self.local_txt_path, 'wb') as f_out:
                shutil.copyfileobj(f_in, f_out)
        print("Архив распакован!")

    def parse_and_balance_products(self, max_products_per_group=3000, total_target=40000):
        """Парсит товары и балансирует по категориям"""
        print("Парсинг товаров с балансировкой по категориям...")
        
        products_by_group = defaultdict(list)
        group_counter = defaultdict(int)
        
        current_product = {}
        current_categories = []
        collecting_categories = False
        product_count = 0
        line_count = 0
        
        with open(self.local_txt_path, 'r', encoding='utf-8', errors='ignore') as f:
            for line in f:
                line_count += 1
                line = line.strip()
                
                if line.startswith('Id:'):
                    if current_product:
                        current_product['categories'] = current_categories
                        group = current_product.get('group', 'Unknown')
                        
                        if group_counter[group] < max_products_per_group:
                            products_by_group[group].append(current_product)
                            group_counter[group] += 1
                            product_count += 1
                        
                        if product_count >= total_target:
                            break
                    
                    current_product = {}
                    current_categories = []
                    collecting_categories = False
                
                elif line.startswith('ASIN:'):
                    current_product['asin'] = line.split(': ')[1].strip()
                
                elif line.startswith('title:'):
                    current_product['title'] = line[6:].strip()
                
                elif line.startswith('group:'):
                    current_product['group'] = line[6:].strip()
                
                elif line.startswith('salesrank:'):
                    current_product['salesrank'] = line[10:].strip()
                
                elif line.startswith('similar:'):
                    parts = line.split()
                    if len(parts) > 1:
                        current_product['similar_count'] = parts[1]
                        if len(parts) > 2:
                            current_product['similar_asins'] = '|'.join(parts[2:])
                
                elif line.startswith('categories:'):
                    collecting_categories = True
                
                elif collecting_categories and line.startswith('|'):
                    current_categories.append(line)
                
                elif line.startswith('reviews:'):
                    collecting_categories = False
                    parts = line.split()
                    if 'total:' in line and len(parts) >= 8:
                        current_product['reviews_total'] = parts[2]
                        current_product['reviews_avg_rating'] = parts[7]
                
                elif not line:
                    collecting_categories = False
                
                if line_count % 500000 == 0:
                    print(f"Обработано строк: {line_count:,}, Найдено товаров: {product_count}")
                    print(f"Распределение по группам: {dict(group_counter)}")
        
        if current_product and product_count < total_target:
            current_product['categories'] = current_categories
            group = current_product.get('group', 'Unknown')
            if group_counter[group] < max_products_per_group:
                products_by_group[group].append(current_product)
                group_counter[group] += 1
                product_count += 1
        
        all_products = []
        for group_products in products_by_group.values():
            all_products.extend(group_products)
        
        df = pd.DataFrame(all_products)
        if not df.empty:
            df.to_csv(self.output_csv_path, index=False, encoding='utf-8')
            print(f"Данные сохранены в {self.output_csv_path}")
            print(f"Найдено товаров: {len(all_products)}")
            
            print("\nДетальное распределение по группам:")
            for group, count in group_counter.items():
                if count > 0:
                    percentage = (count / len(all_products)) * 100
                    print(f"{group:15} {count:5} товаров ({percentage:5.1f}%)")
        
        return all_products, group_counter

    def download_amazon_image(self, session, asin):
        """Пытается скачать изображение с Amazon используя различные методы"""
        # Современные URL шаблоны Amazon
        image_urls = [
            f"https://m.media-amazon.com/images/I/{asin}.jpg",
            f"https://m.media-amazon.com/images/I/{asin}._AC_SL1500_.jpg",
            f"https://m.media-amazon.com/images/I/{asin}._AC_SL1000_.jpg",
            f"https://m.media-amazon.com/images/I/{asin}._AC_UL1500_.jpg",
            f"https://m.media-amazon.com/images/I/{asin}._AC_SX679_.jpg",
            f"https://images-na.ssl-images-amazon.com/images/I/{asin}.jpg",
            f"https://images-na.ssl-images-amazon.com/images/I/{asin}._AC_SL1500_.jpg",
        ]
        
        for image_url in image_urls:
            try:
                response = session.get(image_url, timeout=10, headers={
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
                    'Accept': 'image/webp,image/apng,image/*,*/*;q=0.8',
                    'Accept-Language': 'en-US,en;q=0.9',
                    'Referer': 'https://www.amazon.com/'
                })
                
                if (response.status_code == 200 and 
                    len(response.content) > 5000 and  # Минимальный размер 5KB
                    'image' in response.headers.get('content-type', '') and
                    not response.url.endswith('.gif')):
                    return response.content
                    
            except Exception as e:
                continue
        
        # Попробуем через API или альтернативные источники
        try:
            # Альтернативный метод - через сервисы изображений
            alt_urls = [
                f"https://ws-na.amazon-adsystem.com/widgets/q?_encoding=UTF8&MarketPlace=US&ASIN={asin}&ServiceVersion=20070822&ID=AsinImage&WS=1&Format=SL250",
                f"https://images.amazon.com/images/P/{asin}.01._SCLZZZZZZZ_.jpg",
            ]
            
            for alt_url in alt_urls:
                try:
                    response = session.get(alt_url, timeout=8)
                    if (response.status_code == 200 and 
                        len(response.content) > 3000 and
                        'image' in response.headers.get('content-type', '')):
                        return response.content
                except:
                    continue
                    
        except:
            pass
        
        return None

    def download_balanced_images(self, all_products, target_total=40000, max_per_group=2000):
        """Скачивает изображения сбалансированно по группам"""
        print(f"Скачивание сбалансированных изображений. Цель: {target_total}")
        
        downloaded = 0
        downloaded_by_group = defaultdict(int)
        failed_downloads = []
        
        session = requests.Session()
        session.headers.update({
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
            'Accept-Language': 'en-US,en;q=0.5',
            'Connection': 'keep-alive',
        })
        
        # Группируем товары по группам
        products_by_group = defaultdict(list)
        for product in all_products:
            group = product.get('group', 'Unknown')
            products_by_group[group].append(product)
        
        # Перемешиваем товары внутри каждой группы
        for group in products_by_group:
            random.shuffle(products_by_group[group])
        
        # Скачиваем с балансировкой
        max_attempts = len(all_products) * 2
        attempt = 0
        
        while downloaded < target_total and attempt < max_attempts:
            attempt += 1
            
            # Выбираем группу с наименьшим количеством скачанных изображений
            available_groups = [
                g for g in products_by_group.keys() 
                if products_by_group[g] and downloaded_by_group[g] < max_per_group
            ]
            
            if not available_groups:
                break
                
            # Приоритет для групп с малым количеством скачанных
            group_to_download = min(available_groups, key=lambda g: downloaded_by_group[g])
            
            # Берем товар из этой группы
            product = products_by_group[group_to_download].pop(0)
            asin = product.get('asin')
            
            if not asin:
                continue
            
            try:
                image_content = self.download_amazon_image(session, asin)
                
                if image_content:
                    image_path = os.path.join(self.images_dir, f"{asin}.jpg")
                    with open(image_path, 'wb') as f:
                        f.write(image_content)
                    
                    downloaded += 1
                    downloaded_by_group[group_to_download] += 1
                    
                    if downloaded % 100 == 0:
                        print(f"Скачано: {downloaded}/{target_total} - {group_to_download}: {downloaded_by_group[group_to_download]}")
                else:
                    failed_downloads.append({'asin': asin, 'group': group_to_download, 'reason': 'No image found'})
                    
            except Exception as e:
                failed_downloads.append({'asin': asin, 'group': group_to_download, 'reason': str(e)})
            
            # Задержка для избежания блокировки
            time.sleep(0.1 + random.uniform(0, 0.2))
            
            # Прогресс
            if downloaded % 500 == 0:
                print(f"Общий прогресс: {downloaded}/{target_total}")
                print(f"По группам: {dict(downloaded_by_group)}")
        
        # Сохраняем информацию о неудачных скачиваниях
        if failed_downloads:
            failed_df = pd.DataFrame(failed_downloads)
            failed_df.to_csv('failed_downloads.csv', index=False, encoding='utf-8')
        
        print(f"\nСкачивание завершено! Успешно: {downloaded} изображений")
        print("Распределение по группам:")
        for group, count in downloaded_by_group.items():
            if count > 0:
                percentage = (count / downloaded) * 100 if downloaded > 0 else 0
                print(f"  {group:15} {count:5} ({percentage:5.1f}%)")
        
        return downloaded, downloaded_by_group

    def create_balanced_dataset(self, all_products):
        """Создает сбалансированный финальный датасет"""
        image_files = [f for f in os.listdir(self.images_dir) if f.endswith('.jpg')]
        
        print(f"Найдено изображений: {len(image_files)}")
        
        image_asins = {f.replace('.jpg', '') for f in image_files}
        final_products = [p for p in all_products if p.get('asin') in image_asins]
        
        if final_products:
            df = pd.DataFrame(final_products)
            df['has_image'] = True
            df['image_filename'] = df['asin'] + '.jpg'
            
            df.to_csv('final_balanced_dataset.csv', index=False, encoding='utf-8')
            
            balance_stats = df['group'].value_counts()
            print(f"\nБаланс в финальном датасете ({len(final_products)} товаров):")
            print("=" * 40)
            for group, count in balance_stats.items():
                percentage = (count / len(final_products)) * 100
                print(f"{group:15} {count:5} ({percentage:5.1f}%)")
            
            counts = balance_stats.values
            if len(counts) > 1:
                balance_score = np.std(counts) / np.mean(counts)
                print(f"\nКоэффициент вариации: {balance_score:.3f}")
                
                if balance_score < 0.5:
                    print("✓ Датасет хорошо сбалансирован!")
                else:
                    print("⚠ Датасет имеет перекос")
            
        else:
            print("Нет товаров с изображениями!")
        
        return final_products

    def clean_up(self):
        """Очищает временные файлы"""
        if os.path.exists(self.local_gz_path):
            os.remove(self.local_gz_path)
        if os.path.exists(self.local_txt_path):
            os.remove(self.local_txt_path)
        print("Временные файлы удалены")

def main():
    downloader = BalancedAmazonDatasetDownloader()
    
    try:
        downloader.download_dataset()
        downloader.extract_dataset()
        
        print("\n" + "="*60)
        print("БАЛАНСИРОВКА ДАТАСЕТА")
        print("="*60)
        
        products, group_stats = downloader.parse_and_balance_products(
            max_products_per_group=2000, 
            total_target=30000
        )
        
        if not products:
            print("Не найдено товаров. Завершаем работу.")
            return
        
        print("\n" + "="*60)
        print("СКАЧИВАНИЕ ИЗОБРАЖЕНИЙ")
        print("="*60)
        
        downloaded_count, download_stats = downloader.download_balanced_images(
            products, 
            target_total=20000,  # Уменьшаем цель для теста
            max_per_group=1000
        )
        
        print("\n" + "="*60)
        print("ФИНАЛЬНЫЙ ДАТАСЕТ")
        print("="*60)
        
        final_products = downloader.create_balanced_dataset(products)
        
        print("\n" + "="*60)
        print("ПРОЦЕСС ЗАВЕРШЕН!")
        print("="*60)
        print(f"Итоговый размер датасета: {len(final_products)} пар")
        
    except Exception as e:
        print(f"Произошла ошибка: {e}")
        import traceback
        traceback.print_exc()
    
    finally:
        downloader.clean_up()

if __name__ == "__main__":
    main()

Скачивание датасета...
Датасет скачан!
Распаковка архива...
Архив распакован!

БАЛАНСИРОВКА ДАТАСЕТА
Парсинг товаров с балансировкой по категориям...
Обработано строк: 500,000, Найдено товаров: 5741
Распределение по группам: {'Unknown': 183, 'Book': 2000, 'Music': 2000, 'DVD': 696, 'Video': 860, 'Toy': 2}
Обработано строк: 1,000,000, Найдено товаров: 7462
Распределение по группам: {'Unknown': 415, 'Book': 2000, 'Music': 2000, 'DVD': 1378, 'Video': 1667, 'Toy': 2}
Обработано строк: 1,500,000, Найдено товаров: 8545
Распределение по группам: {'Unknown': 582, 'Book': 2000, 'Music': 2000, 'DVD': 1960, 'Video': 2000, 'Toy': 2, 'Video Games': 1}
Обработано строк: 2,000,000, Найдено товаров: 8774
Распределение по группам: {'Unknown': 771, 'Book': 2000, 'Music': 2000, 'DVD': 2000, 'Video': 2000, 'Toy': 2, 'Video Games': 1}
Обработано строк: 2,500,000, Найдено товаров: 8961
Распределение по группам: {'Unknown': 958, 'Book': 2000, 'Music': 2000, 'DVD': 2000, 'Video': 2000, 'Toy': 2, 'Video Games'

In [1]:
import gzip
import shutil
import os
import pandas as pd
from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import seaborn as sns

class AmazonCategoryAnalyzer:
    def __init__(self):
        self.dataset_url = "http://snap.stanford.edu/data/bigdata/amazon/amazon-meta.txt.gz"
        self.local_gz_path = "amazon-meta.txt.gz"
        self.local_txt_path = "amazon-meta.txt"
        
    def download_dataset(self):
        """Скачивает архив с датасетом"""
        print("Скачивание датасета...")
        import requests
        response = requests.get(self.dataset_url, stream=True)
        with open(self.local_gz_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print("Датасет скачан!")

    def extract_dataset(self):
        """Распаковывает архив"""
        print("Распаковка архива...")
        with gzip.open(self.local_gz_path, 'rb') as f_in:
            with open(self.local_txt_path, 'wb') as f_out:
                shutil.copyfileobj(f_in, f_out)
        print("Архив распакован!")

    def analyze_categories(self, max_products=100000):
        """Анализирует категории товаров"""
        print("Анализ категорий товаров...")
        
        # Счетчики для статистики
        group_counter = Counter()
        main_category_counter = Counter()
        all_categories = []
        products_by_group = defaultdict(list)
        
        current_product = {}
        current_categories = []
        collecting_categories = False
        product_count = 0
        line_count = 0
        
        with open(self.local_txt_path, 'r', encoding='utf-8', errors='ignore') as f:
            for line in f:
                line_count += 1
                line = line.strip()
                
                if line.startswith('Id:'):
                    # Обрабатываем предыдущий товар
                    if current_product:
                        group = current_product.get('group', 'Unknown')
                        group_counter[group] += 1
                        
                        # Анализируем категории
                        for category in current_categories:
                            all_categories.append(category)
                            # Извлекаем основную категорию (первую после |)
                            parts = category.split('|')
                            if len(parts) > 1:
                                main_category = parts[1].strip()
                                main_category_counter[main_category] += 1
                        
                        products_by_group[group].append(current_product)
                        product_count += 1
                        if product_count >= max_products:
                            break
                    
                    current_product = {}
                    current_categories = []
                    collecting_categories = False
                
                elif line.startswith('ASIN:'):
                    current_product['asin'] = line.split(': ')[1].strip()
                
                elif line.startswith('title:'):
                    current_product['title'] = line[6:].strip()
                
                elif line.startswith('group:'):
                    current_product['group'] = line[6:].strip()
                
                elif line.startswith('categories:'):
                    collecting_categories = True
                
                elif collecting_categories and line.startswith('|'):
                    current_categories.append(line)
                
                elif line.startswith('reviews:'):
                    collecting_categories = False
                
                # Прогресс
                if line_count % 100000 == 0:
                    print(f"Обработано строк: {line_count}, Товаров: {product_count}")
        
        # Обрабатываем последний товар
        if current_product:
            group = current_product.get('group', 'Unknown')
            group_counter[group] += 1
            for category in current_categories:
                all_categories.append(category)
                parts = category.split('|')
                if len(parts) > 1:
                    main_category = parts[1].strip()
                    main_category_counter[main_category] += 1
        
        return {
            'group_counter': group_counter,
            'main_category_counter': main_category_counter,
            'all_categories': all_categories,
            'products_by_group': products_by_group,
            'total_products': product_count
        }

    def print_statistics(self, stats):
        """Выводит статистику по категориям"""
        print("\n" + "="*60)
        print("СТАТИСТИКА КАТЕГОРИЙ AMAZON")
        print("="*60)
        
        print(f"\nВсего товаров проанализировано: {stats['total_products']:,}")
        
        # Статистика по группам
        print(f"\n{'='*40}")
        print("РАСПРЕДЕЛЕНИЕ ПО ГРУППАМ ТОВАРОВ:")
        print(f"{'='*40}")
        for group, count in stats['group_counter'].most_common():
            percentage = (count / stats['total_products']) * 100
            print(f"{group:20} {count:8,} ({percentage:5.1f}%)")
        
        # Топ основных категорий
        print(f"\n{'='*40}")
        print("ТОП-20 ОСНОВНЫХ КАТЕГОРИЙ:")
        print(f"{'='*40}")
        for category, count in stats['main_category_counter'].most_common(20):
            percentage = (count / stats['total_products']) * 100
            print(f"{category:30} {count:8,} ({percentage:5.1f}%)")
        
        # Общая информация
        print(f"\n{'='*40}")
        print("ОБЩАЯ ИНФОРМАЦИЯ:")
        print(f"{'='*40}")
        print(f"Всего уникальных групп: {len(stats['group_counter'])}")
        print(f"Всего уникальных основных категорий: {len(stats['main_category_counter'])}")
        print(f"Всего категорий (всех уровней): {len(stats['all_categories'])}")

    def visualize_statistics(self, stats):
        """Визуализирует статистику"""
        # Создаем папку для графиков
        os.makedirs('category_plots', exist_ok=True)
        
        # График распределения по группам
        plt.figure(figsize=(12, 8))
        groups = [item[0] for item in stats['group_counter'].most_common()]
        counts = [item[1] for item in stats['group_counter'].most_common()]
        
        plt.bar(groups, counts)
        plt.title('Распределение товаров по группам', fontsize=16)
        plt.xlabel('Группа товаров', fontsize=12)
        plt.ylabel('Количество товаров', fontsize=12)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.savefig('category_plots/group_distribution.png', dpi=300, bbox_inches='tight')
        plt.close()
        
        # График топ-20 основных категорий
        plt.figure(figsize=(14, 10))
        top_categories = [item[0] for item in stats['main_category_counter'].most_common(20)]
        top_counts = [item[1] for item in stats['main_category_counter'].most_common(20)]
        
        plt.barh(top_categories, top_counts)
        plt.title('Топ-20 основных категорий товаров', fontsize=16)
        plt.xlabel('Количество товаров', fontsize=12)
        plt.tight_layout()
        plt.savefig('category_plots/top_categories.png', dpi=300, bbox_inches='tight')
        plt.close()
        
        # Круговая диаграмма для основных групп
        plt.figure(figsize=(10, 8))
        groups_for_pie = [item[0] for item in stats['group_counter'].most_common(10)]
        counts_for_pie = [item[1] for item in stats['group_counter'].most_common(10)]
        
        plt.pie(counts_for_pie, labels=groups_for_pie, autopct='%1.1f%%')
        plt.title('Распределение товаров по основным группам (Топ-10)', fontsize=14)
        plt.savefig('category_plots/group_pie_chart.png', dpi=300, bbox_inches='tight')
        plt.close()

    def export_detailed_stats(self, stats):
        """Экспортирует детальную статистику в CSV"""
        # Статистика по группам
        group_stats = []
        for group, count in stats['group_counter'].most_common():
            percentage = (count / stats['total_products']) * 100
            group_stats.append({
                'group': group,
                'count': count,
                'percentage': percentage
            })
        
        group_df = pd.DataFrame(group_stats)
        group_df.to_csv('group_statistics.csv', index=False, encoding='utf-8')
        
        # Статистика по основным категориям
        category_stats = []
        for category, count in stats['main_category_counter'].most_common():
            percentage = (count / stats['total_products']) * 100
            category_stats.append({
                'category': category,
                'count': count,
                'percentage': percentage
            })
        
        category_df = pd.DataFrame(category_stats)
        category_df.to_csv('category_statistics.csv', index=False, encoding='utf-8')
        
        print("\nДетальная статистика экспортирована в:")
        print("- group_statistics.csv")
        print("- category_statistics.csv")

    def analyze_specific_group(self, stats, group_name, top_n=10):
        """Анализирует конкретную группу товаров"""
        if group_name not in stats['products_by_group']:
            print(f"Группа '{group_name}' не найдена!")
            return
        
        products = stats['products_by_group'][group_name]
        print(f"\nАнализ группы '{group_name}':")
        print(f"Количество товаров: {len(products):,}")
        
        # Анализ категорий внутри группы
        group_categories = Counter()
        for product in products:
            if 'categories' in product:
                for category in product['categories']:
                    parts = category.split('|')
                    if len(parts) > 1:
                        main_cat = parts[1].strip()
                        group_categories[main_cat] += 1
        
        print(f"\nТоп-{top_n} категорий в группе '{group_name}':")
        for category, count in group_categories.most_common(top_n):
            percentage = (count / len(products)) * 100
            print(f"  {category:30} {count:6} ({percentage:5.1f}%)")

    def clean_up(self):
        """Очищает временные файлы"""
        if os.path.exists(self.local_gz_path):
            os.remove(self.local_gz_path)
        if os.path.exists(self.local_txt_path):
            os.remove(self.local_txt_path)
        print("Временные файлы удалены")

def main():
    analyzer = AmazonCategoryAnalyzer()
    
    try:
        # Скачиваем и распаковываем датасет
        analyzer.download_dataset()
        analyzer.extract_dataset()
        
        # Анализируем категории (первые 100,000 товаров)
        stats = analyzer.analyze_categories(max_products=100000)
        
        # Выводим статистику
        analyzer.print_statistics(stats)
        
        # Визуализируем результаты
        analyzer.visualize_statistics(stats)
        print("\nГрафики сохранены в папке 'category_plots/'")
        
        # Экспортируем детальную статистику
        analyzer.export_detailed_stats(stats)
        
        # Анализ конкретных групп (пример)
        print("\n" + "="*60)
        print("АНАЛИЗ КОНКРЕТНЫХ ГРУПП:")
        print("="*60)
        
        # Анализируем несколько популярных групп
        popular_groups = ['Book', 'Music', 'DVD', 'Video', 'Electronics']
        for group in popular_groups:
            if group in stats['group_counter']:
                analyzer.analyze_specific_group(stats, group)
        
    except Exception as e:
        print(f"Произошла ошибка: {e}")
        import traceback
        traceback.print_exc()
    
    finally:
        # Очистка
        analyzer.clean_up()

if __name__ == "__main__":
    main()

Скачивание датасета...
Датасет скачан!
Распаковка архива...
Архив распакован!
Анализ категорий товаров...
Обработано строк: 100000, Товаров: 3536
Обработано строк: 200000, Товаров: 6809
Обработано строк: 300000, Товаров: 10690
Обработано строк: 400000, Товаров: 14503
Обработано строк: 500000, Товаров: 18396
Обработано строк: 600000, Товаров: 21940
Обработано строк: 700000, Товаров: 25636
Обработано строк: 800000, Товаров: 29434
Обработано строк: 900000, Товаров: 33026
Обработано строк: 1000000, Товаров: 36543
Обработано строк: 1100000, Товаров: 40253
Обработано строк: 1200000, Товаров: 44117
Обработано строк: 1300000, Товаров: 47866
Обработано строк: 1400000, Товаров: 51563
Обработано строк: 1500000, Товаров: 54957
Обработано строк: 1600000, Товаров: 58616
Обработано строк: 1700000, Товаров: 62104
Обработано строк: 1800000, Товаров: 65780
Обработано строк: 1900000, Товаров: 69140
Обработано строк: 2000000, Товаров: 72795
Обработано строк: 2100000, Товаров: 76622
Обработано строк: 22000