In [None]:
"""Скрипт для получения одного случайного примера товара из датасета."""

import pandas as pd
from pathlib import Path
import numpy as np

# Пути к файлам
# Определяем корень проекта (на уровень выше папки notebooks)
project_root = Path(__file__).parent.parent if '__file__' in globals() else Path().resolve().parent.parent
# Если запускается из ноутбука, используем текущую директорию и поднимаемся на уровень выше
if not (project_root / "data").exists():
    project_root = Path().resolve()
    if project_root.name == "notebooks":
        project_root = project_root.parent

raw_data_path = project_root / "data/raw/lamoda_reviews.csv"
output_path = project_root / "data/interim/one_example.csv"

print("=" * 80)
print("ЗАГРУЗКА ДАННЫХ")
print("=" * 80)

# Загружаем данные
df = pd.read_csv(raw_data_path)
print(f"Загружено отзывов: {len(df)}")
print(f"Уникальных товаров (SKU): {df['product_sku'].nunique()}")

# Получаем список уникальных SKU
unique_skus = df['product_sku'].unique()
print(f"\nСписок уникальных SKU: {len(unique_skus)}")

# Выбираем случайный SKU
np.random.seed(42)  # Для воспроизводимости
random_sku = np.random.choice(unique_skus)
print(f"\nВыбранный случайный SKU: {random_sku}")

# Фильтруем данные по выбранному SKU
one_example_df = df[df['product_sku'] == random_sku].copy()

print(f"\nКоличество отзывов для выбранного товара: {len(one_example_df)}")
print(f"Название товара: {one_example_df['name'].iloc[0] if 'name' in one_example_df.columns else 'N/A'}")
print(f"Категория: {one_example_df['good_type'].iloc[0] if 'good_type' in one_example_df.columns else 'N/A'}")

# Сохраняем в interim
one_example_df.to_csv(output_path, index=False, encoding='utf-8')
print(f"\n✓ Данные сохранены в: {output_path}")
print("=" * 80)


ЗАГРУЗКА ДАННЫХ
Загружено отзывов: 1774267
Уникальных товаров (SKU): 254307

Список уникальных SKU: 254307

Выбранный случайный SKU: MP002XM0CZ0B

Количество отзывов для выбранного товара: 6
Название товара: Кеды
Категория: Shoes

✓ Данные сохранены в: /Users/a.danyarov/Library/CloudStorage/GoogleDrive-abdaniarov@gmail.com/Мой диск/02 Education/01 CU master/lamoda-bootcamp/data/interim/one_example.csv
