In [39]:
from huggingface_hub import hf_hub_download
import zstandard as zstd
import io
import json
import random
from scripts.utils import clean_text

In [40]:
PARQUET_FILE_NAME = "goods_data_100k.parquet"
CSV_FILE_NAME = "goods_data_100k.csv"
XLS_FILE_NAME = "goods_data_100k.xlsx"


In [41]:
# Укажите нужные файлы (изменяйте этот список по необходимости)
file_names = [
    "basket-01.json.zst",
    "basket-02.json.zst",
    # "basket-03.json.zst",
    # "basket-04.json.zst",
]

# Основные параметры
max_total_items = 100000  # Сколько всего записей мы хотим получить
min_description_length = 150  # Минимальная длина описания для фильтрации
max_description_length = 1000

print(f"Будем загружать файлы: {file_names}")
print(f"Целевое количество записей: {max_total_items}")
print(f"Минимальная длина описания: {min_description_length} символов")

Будем загружать файлы: ['basket-01.json.zst', 'basket-02.json.zst']
Целевое количество записей: 100000
Минимальная длина описания: 150 символов


In [42]:
print("=" * 50)
print("Начинаю загрузку файлов...")

file_paths = []
for i, filename in enumerate(file_names):
    print(f"Загрузка файла {i+1}/{len(file_names)}: {filename}")
    
    try:
        file_path = hf_hub_download(
            repo_id="nyuuzyou/wb-products",  # Репозиторий с данными
            filename=filename,               # Имя файла для скачивания
            repo_type='dataset'              # Тип репозитория
        )
        file_paths.append(file_path)
        print(f"  ✓ Успешно загружен: {file_path}")
    except Exception as e:
        print(f"  ✗ Ошибка при загрузке {filename}: {e}")

print(f"Всего загружено файлов: {len(file_paths)}")

Начинаю загрузку файлов...
Загрузка файла 1/2: basket-01.json.zst
  ✓ Успешно загружен: C:\Users\Admin\.cache\huggingface\hub\datasets--nyuuzyou--wb-products\snapshots\0e3062c1f1b0f690494844c4465e220fa4ec8260\basket-01.json.zst
Загрузка файла 2/2: basket-02.json.zst
  ✓ Успешно загружен: C:\Users\Admin\.cache\huggingface\hub\datasets--nyuuzyou--wb-products\snapshots\0e3062c1f1b0f690494844c4465e220fa4ec8260\basket-02.json.zst
Всего загружено файлов: 2


In [43]:
print("=" * 50)
print("Начинаю сбор данных из всех файлов...")

all_candidates = []
buffer_multiplier = 2  # Берем в 2 раза больше данных, чем нужно, чтобы было что перемешивать
target_buffer_size = max_total_items * buffer_multiplier

print('target_buffer_size:', target_buffer_size)

for i, file_path in enumerate(file_paths):
    print(f"Чтение файла {i+1}/{len(file_paths)}: {file_names[i]}")
    
    items_in_this_file = 0
    try:
        with open(file_path, "rb") as compressed:  # Открываем как бинарный файл
            # Создаем декомпрессор для формата Zstandard
            dctx = zstd.ZstdDecompressor()
            
            # Создаем поток для чтения распакованных данных
            stream = dctx.stream_reader(compressed)
            
            # Оборачиваем поток в текстовый ридер с UTF-8 кодировкой
            text_stream = io.TextIOWrapper(stream, encoding="utf-8")
            
            # Читаем файл построчно (каждая строка - отдельный JSON объект)
            for line in text_stream:
                try:
                    obj = json.loads(line)  # Парсим JSON строку
                    
                    # Фильтруем по длине описания
                    if len(obj.get("description", "")) > min_description_length \
                        and len(obj.get("description", "")) < max_description_length:
                        all_candidates.append(obj)
                        items_in_this_file += 1
                except json.JSONDecodeError:
                    # Пропускаем некорректные JSON строки
                    continue
                
                # Если собрали достаточно данных, прерываем чтение
                if len(all_candidates) >= target_buffer_size:
                    print(f"  Достигнут буфер в {target_buffer_size} записей")
                    break
                    
        print(f"  ✓ Извлечено записей: {items_in_this_file}")
        
    except Exception as e:
        print(f"  ✗ Ошибка при чтении файла: {e}")
    
    # Если уже собрали достаточно данных, останавливаемся
    if len(all_candidates) >= target_buffer_size:
        break

print(f"\nВсего собрано кандидатов: {len(all_candidates)}")
print(f"\nПример кандидата: {all_candidates[0]}")

Начинаю сбор данных из всех файлов...
target_buffer_size: 200000
Чтение файла 1/2: basket-01.json.zst
  Достигнут буфер в 200000 записей
  ✓ Извлечено записей: 200000

Всего собрано кандидатов: 200000

Пример кандидата: {'imt_id': 10000004, 'nm_id': 13349982, 'imt_name': 'Индийская косметика Шри Шри Таттва Масло для тела Body Oil (кокос, чандан, ракта чандан) 200 мл', 'subj_name': 'Масла', 'subj_root_name': 'Красота', 'nm_colors_names': 'ярко-желтый', 'vendor_code': 'OilBodyCoconRakt0', 'description': 'Высококонцентрированное массажное масло, состоящее из растительных масел, обладающих разогревающим эффектом. Это масло идеально подходит для антицеллюлитного массажа, поскольку усиливает кровообращение и дренажные процессы. В составе есть СО2-экстракт жгучего перца, который помогает убрать застойные явления и уменьшить эффект апельсиновой корки. В целом масло хорошо питает кожу, делает ее более эластичной, подтянутой. Если пройти курс процедур, антицеллюлитный эффект просто поражает.', '

In [44]:
print("=" * 50)
print("Перемешиваю данные...")

# Перемешиваем все собранные записи
random.shuffle(all_candidates)

print(f"Данные перемешаны")
print(f"Беру первые {max_total_items} записей из перемешанного списка")

# Берем нужное количество записей из перемешанного списка
selected = all_candidates[:max_total_items]

print(f"Итоговый размер выборки: {len(selected)} записей")

Перемешиваю данные...
Данные перемешаны
Беру первые 100000 записей из перемешанного списка
Итоговый размер выборки: 100000 записей


In [45]:
print("=" * 50)
print("Обеспечение равномерного распределения по категориям...")

# Создаем словарь для группировки по категориям
from collections import defaultdict
categories_dict = defaultdict(list)

# Группируем записи по subj_name
# @TODO
# надо брать список категорий из всех товаров. сейчас берется из выборки, там могут быть
# двлеко не все !!!
for item in all_candidates:
    category = item.get('subj_name', 'Без категории')
    categories_dict[category].append(item)

print(f"Найдено категорий: {len(categories_dict)}")

# Определяем сколько записей взять из каждой категории
target_per_category = max_total_items // len(categories_dict)
print(f"Будем брать примерно по {target_per_category} записей из каждой категории")

# Собираем равномерную выборку
uniform_selected = []
for category, items in categories_dict.items():
    # Перемешиваем записи внутри категории
    random.shuffle(items)
    
    # Берем нужное количество записей из категории
    items_to_take = min(target_per_category, len(items))
    uniform_selected.extend(items[:items_to_take])
    
    print(f"  Категория '{category}': {len(items)} всего, взято {items_to_take}")

print(f"Предварительная выборка: {len(uniform_selected)} записей")

# Если не набрали достаточно, добираем из остатков
if len(uniform_selected) < max_total_items:
    print(f"\nДобираем до {max_total_items} записей...")
    
    # Собираем все оставшиеся записи
    remaining_items = []
    for category, items in categories_dict.items():
        if len(items) > target_per_category:
            remaining_items.extend(items[target_per_category:])
    
    random.shuffle(remaining_items)
    
    # Сколько нужно добрать
    need_more = max_total_items - len(uniform_selected)
    uniform_selected.extend(remaining_items[:need_more])
    
    print(f"Добрано из остатков: {min(need_more, len(remaining_items))}")

# Заменяем исходный список
all_candidates = uniform_selected
print(f"Итоговое количество кандидатов: {len(all_candidates)}")

Обеспечение равномерного распределения по категориям...
Найдено категорий: 3573
Будем брать примерно по 27 записей из каждой категории
  Категория 'Фонарики бытовые': 89 всего, взято 27
  Категория 'Ремни': 869 всего, взято 27
  Категория 'Игрушечные музыкальные инструменты': 83 всего, взято 27
  Категория 'Трусы': 1192 всего, взято 27
  Категория 'Чехлы для телефонов': 3672 всего, взято 27
  Категория 'Пряжа': 268 всего, взято 27
  Категория 'Кондиционеры для волос': 224 всего, взято 27
  Категория 'Поильники': 21 всего, взято 21
  Категория 'Шторы интерьерные': 656 всего, взято 27
  Категория 'Ювелирные браслеты': 633 всего, взято 27
  Категория 'Фотоальбомы': 330 всего, взято 27
  Категория 'Чехлы-книжки для телефонов': 504 всего, взято 27
  Категория 'Чехлы для наушников': 296 всего, взято 27
  Категория 'Кремы': 1351 всего, взято 27
  Категория 'Чехлы для чемоданов': 40 всего, взято 27
  Категория 'Жилеты': 302 всего, взято 27
  Категория 'Кровати детские': 40 всего, взято 27
  Ка

In [46]:
print("=" * 50)
print("РЕЗУЛЬТАТЫ С УЧЕТОМ НОВЫХ КРИТЕРИЕВ:")

if selected:
    # Показываем первую запись
    print("\nПервая запись в финальной выборке:")
    print("-" * 50)
    print(json.dumps(selected[0], ensure_ascii=False, indent=2))
    print("-" * 50)
    
    # Статистика
    print(f"\nОБЩАЯ СТАТИСТИКА:")
    print(f"• Всего записей: {len(selected)}")
    
    # Длина описания (мин/макс/средняя)
    desc_lengths = [len(item.get("description", "")) for item in selected]
    min_desc_len = min(desc_lengths)
    max_desc_len = max(desc_lengths)
    avg_desc_len = sum(desc_lengths) / len(selected)
    
    print(f"\n• ДЛИНА ОПИСАНИЯ:")
    print(f"  - Минимальная: {min_desc_len} символов")
    print(f"  - Максимальная: {max_desc_len} символов")
    print(f"  - Средняя: {avg_desc_len:.1f} символов")
    print(f"  - Целевой диапазон: 100-200 символов")
    
    # Проверка соответствия критериям
    out_of_range = sum(1 for length in desc_lengths if length < 100 or length > 200)
    print(f"  - Записей вне диапазона: {out_of_range} ({out_of_range/len(selected)*100:.1f}%)")
    
    # Распределение по категориям (subj_name)
    from collections import Counter
    categories = [item.get('subj_name', 'Без категории') for item in selected]
    category_counter = Counter(categories)
    
    print(f"\n• РАСПРЕДЕЛЕНИЕ ПО КАТЕГОРИЯМ (subj_name):")
    print(f"  - Всего уникальных категорий: {len(category_counter)}")
    
    # Вычисляем равномерность распределения
    counts = list(category_counter.values())
    avg_count = sum(counts) / len(counts)
    max_diff = max(counts) - min(counts)
    uniformity_score = 1 - (max_diff / avg_count) if avg_count > 0 else 0
    
    print(f"  - Среднее количество на категорию: {avg_count:.1f}")
    print(f"  - Максимальное в категории: {max(counts)}")
    print(f"  - Минимальное в категории: {min(counts)}")
    print(f"  - Оценка равномерности: {uniformity_score:.2%}")
    
    print(f"\n  Топ-10 категорий по количеству записей:")
    for category, count in category_counter.most_common(10):
        percentage = count / len(selected) * 100
        print(f"    - {category}: {count} записей ({percentage:.1f}%)")
    
    # Уникальные бренды
    brands = [item.get("brand_name", "Не указан") for item in selected]
    unique_brands = set(brands)
    
    print(f"\n• БРЕНДЫ:")
    print(f"  - Уникальных брендов: {len(unique_brands)}")
    
    brand_counter = Counter(brands)
    print(f"  - Топ-5 самых частых брендов:")
    for brand, count in brand_counter.most_common(5):
        percentage = count / len(selected) * 100
        print(f"    - {brand}: {count} записей ({percentage:.1f}%)")
    
    # Дополнительная информация о корневых категориях
    root_categories = [item.get('subj_root_name', 'Без корневой категории') for item in selected]
    root_counter = Counter(root_categories)
    
    print(f"\n• КОРНЕВЫЕ КАТЕГОРИИ (subj_root_name):")
    print(f"  - Уникальных корневых категорий: {len(root_counter)}")
    print(f"  - Распределение:")
    for root_cat, count in root_counter.most_common(5):
        percentage = count / len(selected) * 100
        print(f"    - {root_cat}: {count} записей ({percentage:.1f}%)")
    
    # Примеры из выборки (демонстрация разнообразия)
    print(f"\n• ПРИМЕРЫ ЗАПИСЕЙ (первые 5):")
    for i, item in enumerate(selected[:5]):
        desc_len = len(item.get("description", ""))
        category = item.get('subj_name', 'N/A')
        print(f"{i+1}. {item.get('brand_name', 'N/A')}")
        print(f"   Категория: {category}")
        print(f"   Название: {item.get('imt_name', 'N/A')[:60]}...")
        print(f"   Длина описания: {desc_len} символов")
        if i < 4:
            print()
    
    # Сводка по критериям отбора
    print(f"\n• СВОДКА ПО КРИТЕРИЯМ ОТБОРА:")
    print(f"  ✓ Длина описания: 100-200 символов")
    print(f"  ✓ Равномерное распределение по категориям")
    print(f"  ✓ Итоговое количество: {len(selected)} записей")
    
    # Гистограмма длин описаний (текстовая)
    print(f"\n• ГИСТОГРАММА ДЛИН ОПИСАНИЙ:")
    bins = [100, 120, 140, 160, 180, 200]
    for i in range(len(bins)-1):
        start, end = bins[i], bins[i+1]
        count = sum(1 for length in desc_lengths if start <= length < end)
        percentage = count / len(desc_lengths) * 100
        bar = "█" * int(percentage / 2)  # Один символ = 2%
        print(f"  {start:3}-{end:3} символов: {count:4} ({percentage:5.1f}%) {bar}")
    
    # Считаем записи с длиной ровно 200
    exactly_200 = sum(1 for length in desc_lengths if length == 200)
    if exactly_200 > 0:
        print(f"  Ровно 200 символов: {exactly_200} записей")
        
else:
    print("Не удалось собрать ни одной записи. Проверьте параметры фильтрации.")

РЕЗУЛЬТАТЫ С УЧЕТОМ НОВЫХ КРИТЕРИЕВ:

Первая запись в финальной выборке:
--------------------------------------------------
{
  "imt_id": 10230671,
  "nm_id": 13662098,
  "imt_name": "Ночник-проектор от USB с 12-ю насадками",
  "subj_name": "Фонарики бытовые",
  "subj_root_name": "Электроника",
  "nm_colors_names": "",
  "vendor_code": "04122353",
  "description": "Ночной USB проектор с насадками используется для подсветки в автомобиле и дома. С его помощью можно создать романтическую и уютную обстановку, улучшить себе настроение. Миниатюрное приспособление не требует много места для хранения. Для работы проектора его необходимо подключить через разъем USB к любому работающему устройству. Декоративный проектор светится за счет диода. Светодиод отличается яркостью и низким уровнем энергопотребления. Главное преимущество проектора - возможность использовать его буквально всюду. Ресурс работы светильника около 50000 часов. Мощность: 0,15 Вт. Размер: 22.6х1.5 см. ",
  "brand_name": "NPOSS"

In [None]:
# for i in range(1, 100):
#     print(selected[i]['description'])

Стильный ремень, выполненный из натуральной кожи. Украсит ваш повседневный гардероб. Пряжка крепится к ремню на болтовом соединении, что позволяет при необходимости снять пряжку и подрезать ремень до нужной длины.
Ксилофон — это музыкальная игрушка с деревянными разноцветными клавишами. У него приятный звук, он небольшой – можно взять с собой в гости или на дачу. Игрушка яркая – привлекает внимание детей.Игрушка музыкальная - ксилофон (12 тонов + 2 палочки), в коробке способствует развитию музыкального слуха, воображения, цветового, эмоционального, визуального, слухового восприятия и мелкой моторики.
Honey Body - комфортная поддержка. Трусы классической конструкции "слипы" с высокой посадкой. Выполнены из эластичного хлопкового полотна и мягкого кружева с фигурным краем. Приятно прилегают к телу и сглаживают силуэт. Обращаем ваше внимание, что наши изделия проходят обязательный контроль качества, и разница по ширине изделий находится в допустимых пределах согласно требованиям ГОСТ. Узо

In [55]:
import re
import emoji
from typing import List, Dict, Any
import json
from tqdm import tqdm

def clean_text1(text: str, remove_emojis: bool = True, 
                    remove_urls: bool = True, 
                    remove_mentions: bool = True,
                    remove_hashtags: bool = False,
                    remove_extra_spaces: bool = True,
                    remove_special_chars: bool = False) -> str:
    """
    Очищает текст поста от нежелательных элементов.
    
    Args:
        text: исходный текст
        remove_emojis: удалять эмодзи/смайлики
        remove_urls: удалять URL ссылки
        remove_mentions: удалять упоминания (@username)
        remove_hashtags: удалять хэштеги (#тег)
        remove_extra_spaces: удалять лишние пробелы
        remove_special_chars: удалять специальные символы (оставить только буквы/цифры/пробелы)
        
    Returns:
        str: очищенный текст
    """
    if not isinstance(text, str):
        return ""
    
    cleaned = text

    replacement = ' '
    
    # 1. Удаление эмодзи и смайликов
    if remove_emojis:
        # Используем библиотеку emoji для удаления эмодзи
        cleaned = emoji.replace_emoji(cleaned, replacement)
        
        # Дополнительно удаляем常见ные символы эмодзи (на всякий случай)
        emoji_pattern = re.compile("["
            u"\U0001F600-\U0001F64F"  # эмоции
            u"\U0001F300-\U0001F5FF"  # символы и пиктограммы
            u"\U0001F680-\U0001F6FF"  # транспорт и символы
            u"\U0001F1E0-\U0001F1FF"  # флаги
            u"\U00002702-\U000027B0"  # различные символы
            u"\U000024C2-\U0001F251"  # дополнительные
            u"\U0001F900-\U0001F9FF"  # дополнительные эмодзи
            u"\U0001FA70-\U0001FAFF"  # дополнительные эмодзи
            u"\U00002600-\U000026FF"  # различные символы
            u"\U00002700-\U000027BF"  # символы Dingbats
            "]+", flags=re.UNICODE)
        cleaned = emoji_pattern.sub(replacement, cleaned)
    
    # 2. Удаление URL
    if remove_urls:
        url_pattern = re.compile(r'https?://\S+|www\.\S+')
        cleaned = url_pattern.sub(replacement, cleaned)
    
    # 3. Удаление упоминаний (@username)
    if remove_mentions:
        mention_pattern = re.compile(r'@\w+')
        cleaned = mention_pattern.sub(replacement, cleaned)
    
    # 4. Удаление хэштегов
    if remove_hashtags:
        hashtag_pattern = re.compile(r'#\w+')
        cleaned = hashtag_pattern.sub(replacement, cleaned)
    
    # 5. Удаление специальных символов (оставляем только буквы, цифры и пробелы)
    if remove_special_chars:
        # Оставляем кириллицу, латиницу, цифры и пробелы
        special_chars_pattern = re.compile(r'[^а-яА-Яa-zA-Z0-9\s]')
        cleaned = special_chars_pattern.sub(replacement, cleaned)
    
    # 6. Удаление лишних пробелов
    if remove_extra_spaces:
        # Заменяем множественные пробелы на один
        cleaned = re.sub(r'\s+', replacement, cleaned)
        # Удаляем пробелы в начале и конце
        cleaned = cleaned.strip()
    
    return cleaned

In [None]:
selected = [
    {
        **item,
        'description': clean_text1(item.get('description') or '')
    }
    for item in selected
]

In [None]:
# for i in range(1, 100):
#     print(selected[i]['description'])

Стильный ремень, выполненный из натуральной кожи. Украсит ваш повседневный гардероб. Пряжка крепится к ремню на болтовом соединении, что позволяет при необходимости снять пряжку и подрезать ремень до нужной длины.
Ксилофон — это музыкальная игрушка с деревянными разноцветными клавишами. У него приятный звук, он небольшой – можно взять с собой в гости или на дачу. Игрушка яркая – привлекает внимание детей.Игрушка музыкальная - ксилофон (12 тонов + 2 палочки), в коробке способствует развитию музыкального слуха, воображения, цветового, эмоционального, визуального, слухового восприятия и мелкой моторики.
Honey Body - комфортная поддержка. Трусы классической конструкции "слипы" с высокой посадкой. Выполнены из эластичного хлопкового полотна и мягкого кружева с фигурным краем. Приятно прилегают к телу и сглаживают силуэт. Обращаем ваше внимание, что наши изделия проходят обязательный контроль качества, и разница по ширине изделий находится в допустимых пределах согласно требованиям ГОСТ. Узо

In [57]:
import csv

print("=" * 50)
print("СОХРАНЕНИЕ В PARQUET И CSV ФОРМАТЫ:")

import pandas as pd
import os
from pathlib import Path

# Создаем папку для сохранения, если её нет
output_dir = os.path.join(os.getcwd(), "data", "goods")
Path(output_dir).mkdir(parents=True, exist_ok=True)
print(f"✓ Создана/проверена папка: {output_dir}")

# Преобразуем данные в DataFrame для удобной работы
print("\nПреобразую данные в DataFrame...")
try:
    df = pd.DataFrame(selected)
    print(f"✓ DataFrame создан. Размер: {df.shape[0]} строк × {df.shape[1]} столбцов")
    
    # Выводим информацию о столбцах
    print(f"\nСтолбцы в данных ({len(df.columns)}):")
    for i, col in enumerate(df.columns, 1):
        print(f"  {i:2}. {col}")
    
except Exception as e:
    print(f"✗ Ошибка при создании DataFrame: {e}")
    df = None

if df is not None:
    # 1. Сохранение в Parquet (бинарный формат, эффективный для анализа)
    print("\n" + "-" * 30)
    print("Сохранение в Parquet формат...")
    
    parquet_path = os.path.join(output_dir, PARQUET_FILE_NAME)
    try:
        # Сохраняем в Parquet с использованием snappy сжатия
        df.to_parquet(parquet_path, engine='pyarrow', compression='snappy')
        
        # Получаем размер файла
        file_size_mb = os.path.getsize(parquet_path) / (1024 * 1024)
        print(f"✓ Parquet файл сохранен: {parquet_path}")
        print(f"  Размер файла: {file_size_mb:.2f} MB")
        print(f"  Сжатие: snappy")
        print(f"  Столбцы: {len(df.columns)}")
        
    except Exception as e:
        print(f"✗ Ошибка при сохранении Parquet: {e}")
        
        # Попробуем без сжатия
        try:
            df.to_parquet(parquet_path, engine='pyarrow', compression=None)
            file_size_mb = os.path.getsize(parquet_path) / (1024 * 1024)
            print(f"✓ Parquet файл сохранен без сжатия: {file_size_mb:.2f} MB")
        except Exception as e2:
            print(f"✗ Ошибка при сохранении без сжатия: {e2}")

    # 2. Сохранение в CSV (текстовый формат, удобный для Excel)
    print("\n" + "-" * 30)
    print("Сохранение в CSV формат...")
    
    csv_path = os.path.join(output_dir, CSV_FILE_NAME)
    try:
        # Сохраняем в CSV с кодировкой UTF-8
        df.to_csv(csv_path, index=False, encoding='utf-8-sig', sep='||')
        
        # Получаем размер файла
        file_size_mb = os.path.getsize(csv_path) / (1024 * 1024)
        print(f"✓ CSV файл сохранен: {csv_path}")
        print(f"  Размер файла: {file_size_mb:.2f} MB")
        print(f"  Кодировка: UTF-8")

        
    except Exception as e:
        print(f"✗ Ошибка при сохранении CSV: {e}")

    # # 3. Сохранение в Excel (если нужен)
    # print("\n" + "-" * 30)
    # print("Сохранение в Excel формат (опционально)...")
    
    # excel_path = os.path.join(output_dir, XLS_FILE_NAME)
    # try:
    #     # Используем openpyxl как движок
    #     df.to_excel(excel_path, index=False, engine='openpyxl')
        
    #     file_size_mb = os.path.getsize(excel_path) / (1024 * 1024)
    #     print(f"✓ Excel файл сохранен: {excel_path}")
    #     print(f"  Размер файла: {file_size_mb:.2f} MB")
        
    # except ImportError:
    #     print("✗ Для сохранения в Excel требуется установить openpyxl:")
    #     print("  pip install openpyxl")
    # except Exception as e:
    #     print(f"✗ Ошибка при сохранении Excel: {e}")

    # 4. Создаем README файл с информацией о данных
    print("\n" + "-" * 30)
    print("Создание README файла...")
    
    readme_path = os.path.join(output_dir, "README.md")
    try:
        with open(readme_path, "w", encoding="utf-8") as f:
            f.write("# Данные товаров\n\n")
            f.write(f"## Общая информация\n")
            f.write(f"- Дата создания: {pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
            f.write(f"- Количество записей: {len(df)}\n")
            f.write(f"- Количество столбцов: {len(df.columns)}\n")
            f.write(f"- Источники файлов: {', '.join(file_names)}\n\n")
            
            f.write("## Файлы\n")
            f.write("1. `goods_data.parquet` - данные в Parquet формате (рекомендуется для анализа)\n")
            f.write("2. `goods_data.csv` - данные в CSV формате с разделителем-запятой\n")
            f.write("3. `goods_data.tsv` - данные в TSV формате с разделителем-табуляцией\n")
            f.write("4. `goods_data.xlsx` - данные в Excel формате\n\n")
            
            f.write("## Столбцы\n")
            f.write("| № | Имя столбца | Тип данных | Описание |\n")
            f.write("|---|------------|------------|----------|\n")
            
            # Определяем типы данных
            for i, col in enumerate(df.columns, 1):
                dtype = str(df[col].dtype)
                # Простое описание на основе имени столбца
                description = {
                    'imt_id': 'ID товара в системе',
                    'nm_id': 'Артикул товара',
                    'imt_name': 'Название товара',
                    'subj_name': 'Название подкатегории',
                    'subj_root_name': 'Название основной категории',
                    'nm_colors_names': 'Цвета товара',
                    'vendor_code': 'Артикул поставщика',
                    'description': 'Описание товара',
                    'brand_name': 'Название бренда'
                }.get(col, 'Неизвестное поле')
                
                f.write(f"| {i} | {col} | {dtype} | {description} |\n")
            
            f.write("\n## Статистика\n")
            f.write(f"- Средняя длина описания: {avg_desc_len:.1f} символов\n")
            f.write(f"- Уникальных брендов: {len(unique_brands)}\n")
            f.write(f"- Минимальная длина описания для отбора: {min_description_length} символов\n")
        
        print(f"✓ README файл создан: {readme_path}")
        
    except Exception as e:
        print(f"✗ Ошибка при создании README: {e}")

    # 5. Выводим сводную информацию
    print("\n" + "=" * 50)
    print("СВОДНАЯ ИНФОРМАЦИЯ О СОХРАНЕННЫХ ДАННЫХ:")
    print(f"Папка с данными: {output_dir}")
    print(f"Файлы сохранены в следующие форматы:")
    
    # Проверяем какие файлы создались
    files_created = []
    for file_name in ["goods_data.parquet", "goods_data.csv", "goods_data.tsv", 
                      "goods_data.xlsx", "README.md"]:
        file_path = os.path.join(output_dir, file_name)
        if os.path.exists(file_path):
            size_kb = os.path.getsize(file_path) / 1024
            files_created.append(f"  • {file_name}: {size_kb:.1f} KB")
    
    if files_created:
        for file_info in files_created:
            print(file_info)
    else:
        print("  ✗ Файлы не были созданы")
    
    print(f"\nКоличество записей: {len(df):,}".replace(",", " "))
    print(f"Количество столбцов: {len(df.columns)}")
    
    # Показываем первые 3 записи для проверки
    print(f"\nПервые 3 записи для проверки:")
    print("-" * 80)
    for i in range(min(3, len(df))):
        print(f"Запись #{i+1}:")
        print(f"  Бренд: {df.iloc[i].get('brand_name', 'N/A')}")
        print(f"  Название: {df.iloc[i].get('imt_name', 'N/A')[:50]}...")
        print(f"  Описание: {df.iloc[i].get('description', 'N/A')[:80]}...")
        print("-" * 80)
        
else:
    print("✗ Не удалось создать DataFrame. Проверьте данные.")

print("\n" + "=" * 50)
print("СОХРАНЕНИЕ ЗАВЕРШЕНО!")

СОХРАНЕНИЕ В PARQUET И CSV ФОРМАТЫ:
✓ Создана/проверена папка: d:\Projects\thesis\data\goods

Преобразую данные в DataFrame...
✓ DataFrame создан. Размер: 100000 строк × 9 столбцов

Столбцы в данных (9):
   1. imt_id
   2. nm_id
   3. imt_name
   4. subj_name
   5. subj_root_name
   6. nm_colors_names
   7. vendor_code
   8. description
   9. brand_name

------------------------------
Сохранение в Parquet формат...
✓ Parquet файл сохранен: d:\Projects\thesis\data\goods\goods_data_100k.parquet
  Размер файла: 52.93 MB
  Сжатие: snappy
  Столбцы: 9

------------------------------
Сохранение в CSV формат...
✗ Ошибка при сохранении CSV: "delimiter" must be a 1-character string

------------------------------
Создание README файла...
✓ README файл создан: d:\Projects\thesis\data\goods\README.md

СВОДНАЯ ИНФОРМАЦИЯ О СОХРАНЕННЫХ ДАННЫХ:
Папка с данными: d:\Projects\thesis\data\goods
Файлы сохранены в следующие форматы:
  • goods_data.parquet: 153.3 KB
  • goods_data.csv: 414.6 KB
  • goods_d

In [None]:
df.heead()