In [1]:
import json

import glob
from pathlib import Path
import numpy as np
import pandas as pd
import plotly.express as px

## Загрузка датасета

In [2]:
PATH = "..\\src\\data\\komus\\dataset.json"

In [3]:
with open(PATH, "r", encoding="UTF-8") as file:
    data = json.load(file)

In [4]:
print(len(data))

83755


## Обработка категорий

In [5]:
categories = set()

for product in data:
    categories.update(product["category"])

In [6]:
len(categories)

1406

## Распределение по атрибутам по категориям

In [7]:
category_attribute = {}

In [8]:
for product in data:
    for category in product["category"]:

        if category not in category_attribute:
            category_attribute[category] = {}

        # if "Количество позиций" not in category_attribute[category]:
        #     category_attribute[category]["Количество позиций"] = 0

        # category_attribute[category]["Количество позиций"] += 1

        for attribute in product["attributes"]:
            if attribute not in category_attribute[category]:
                category_attribute[category][attribute] = 0

            category_attribute[category][attribute] += 1


## Отображение разложения

Список категорий

In [9]:
print(*category_attribute.keys(), sep="\n")

Карандаши
Карандаши чернографитные
Коллекции ежедневников
Канцелярия
Пленка стрейч упаковочная
Ящики, лотки, пленка
Пленка упаковочная
Пленка пищевая
Пленка упаковочная хозяйственная
Расходные материалы для 3D принтеров
3D принтеры, сканеры и расходные материалы
Абразивные расходники
Адаптеры питания и PoE инжекторы
Адаптеры питания
Аэраторы и скарификаторы
Садовая техника
Аэрогриль
Аккумуляторы и блоки питания для этикет-принтеров
Аккумуляторы и зарядные устройства для инструмента
Мыши
Аксессуары
Клавиатуры
Эргономика рабочего места
Подставки для ноутбуков и мобильных устройств
Гаджеты
Аксессуары для фото-видеотехники
Аксессуары для фотоаппаратов
Карты памяти
Сумки для фотоаппаратов
Аксессуары для гаджетов
Аксессуары для ИБП
Аксессуары для камер видеонаблюдения
Аксессуары для кофемашин
Аксессуары для крупной бытовой техники
Аксессуары для маникюра и педикюра
Смарт-часы и фитнес-браслеты
Аксессуары для мобильных устройств
Кабели и коннекторы
Кабели для мобильных устройств
Внешние аккум

Отображение по ключу распределение атрибутов в категории

In [10]:
CATEGORY = "Карандаши"
data_dict = category_attribute[CATEGORY]

In [11]:
# Сортировка по значениям (по убыванию)
sorted_items = sorted(data_dict.items(), key=lambda x: x[1], reverse=True)

# Разделение на списки ключей и значений
sorted_keys = [item[0] for item in sorted_items]
sorted_values = [item[1] for item in sorted_items]

# Создание DataFrame (необязательно, но удобно для plotly)
import pandas as pd
df = pd.DataFrame({'Атрибут': sorted_keys, 'Количество': sorted_values})

# Создание графика
fig = px.bar(
    df,
    x='Атрибут',
    y='Количество',
    title=f'График отсортированных значений для категории: {CATEGORY}',
    # labels={'Категория': 'Позиция', 'Значение': 'Количество'},
    color='Количество',  # Цветовая шкала
    text='Количество'    # Отображение значений над столбцами
)

# Настройка визуализации
fig.update_traces(texttemplate='%{text:.2s}', textposition='auto')
fig.update_layout(showlegend=False)

# Отображение графика
fig.show()
print(len(data_dict.keys()))

20


In [None]:
# sorted_items = sorted(data_dict.items(), key=lambda x: x[1], reverse=True)

# Разделение на списки ключей и значений
keys = [item for item in category_attribute.keys()]
values = [len(item) for item in category_attribute.values()]

# Создание DataFrame (необязательно, но удобно для plotly)
import pandas as pd
df = pd.DataFrame({'Атрибут': keys, 'Количество': values})

# Создание графика
fig = px.bar(
    df,
    x='Атрибут',
    y='Количество',
    title=f'График',
    # labels={'Категория': 'Позиция', 'Значение': 'Количество'},
    color='Количество',  # Цветовая шкала
    text='Количество'    # Отображение значений над столбцами
)

# Настройка визуализации
fig.update_traces(texttemplate='%{text:.2s}', textposition='auto')
fig.update_layout(showlegend=False)

# Отображение графика
fig.show()

## Сравнение пересечения категорий у товаров

In [9]:
category_dict = {}

In [10]:
for product in data:
    for category in product["category"]:

        if category not in category_dict:
            category_dict[category] = []

        category_dict[category].append(product)

In [14]:
CATEGORY = "Детям"

len(category_dict[CATEGORY])

for product in category_dict[CATEGORY]:
    print(product["title"], product["category"])

Часы настенные Troyka 77771712 (30.5x30.5x5 см) ['Часы', 'Часы и метеостанции', 'Интерьерные часы', 'Детям']
Конструктор NDPlay Робототехника Энергия ветра 6 в 1(на солнечной батарее) ['Конструкторы робототехнические', 'Детям']
Тесто для лепки Genio Kids Тираннозавр 3 в 1 ['Наборы для творчества и лепки', 'Детям']
Настольная игра Имаджинариум ['Детям']
Настольная игра Имаджинариум Детство ['Детям']
Набор для творчества Lori Химические опыты Цветная лава красная ['Наборы для творчества и лепки', 'Детям']
Головоломка Эврика Круглые пятнашки №3 (98718) ['Головоломки', 'Детям']
Настольная игра Десятое королевство Морской бой ['Детям']
Набор досок для выжигания Тридевятое царство Динозавры (5 штук) ['Наборы для творчества и лепки', 'Детям']
Часы для шахмат механические ['Детям']
Подставка-органайзер для канцелярских принадлежностей Deli 6 отделений 25.9x10.3x15 см (E9110) ['Подставки для ручек', 'Канцелярия', 'Канцелярские наборы и подставки', 'Детям', 'Настольные подставки и наборы']
Конст

In [23]:
with open("categories.txt", "w", encoding="utf-8") as file:
    file.write("\n".join([category for category in sorted(category_dict.keys())]))


In [11]:
import json

def dict_to_json(d):
    rounded = {k: round(v, 2) if isinstance(v, (int, float)) else v for k, v in d.items()}
    return json.dumps(rounded, ensure_ascii=False, indent=4)

d = {'TP': 997,
 'FP': 74,
 'FN': 347,
 'Precision': 0.930905695611578,
 'Recall': 0.7418154761904762,
 'F1-score': 0.825672877846791}

print(dict_to_json(d))

{
    "TP": 997,
    "FP": 74,
    "FN": 347,
    "Precision": 0.93,
    "Recall": 0.74,
    "F1-score": 0.83
}
