In [1]:
from pathlib import Path
import pandas as pd

In [11]:
DATA_DIR = Path().resolve().parent / "data"
RAW_DIR = DATA_DIR / "raw"
PROCESSED_DIR = DATA_DIR / "processed"

In [3]:
train_csv = DATA_DIR / "raw" / "ml_ozon_сounterfeit_train.csv"

In [4]:
df = pd.read_csv(train_csv)

In [5]:
df.shape

(197198, 45)

In [6]:
df.head(3)

Unnamed: 0,id,resolution,brand_name,description,name_rus,CommercialTypeName4,rating_1_count,rating_2_count,rating_3_count,rating_4_count,...,ExemplarReturnedCountTotal30,ExemplarReturnedCountTotal90,ExemplarReturnedValueTotal7,ExemplarReturnedValueTotal30,ExemplarReturnedValueTotal90,ItemVarietyCount,ItemAvailableCount,seller_time_alive,ItemID,SellerID
0,159385,0,ACTRUM,"Мешки пылесборники для пылесоса PHILIPS, 10 шт...","Мешки для пылесоса PHILIPS TRIATLON, синтетиче...",Пылесборник,6.0,4.0,4.0,3.0,...,11.0,50.0,730.171845,896.528847,1043.118191,1.0,1.0,1860.0,78312,1218
1,288616,0,Red Line,Защитная силиконовая крышка обьектива GoPro He...,Защитная крышка Redline на экшн-камеру GoPro (...,Крышка для объектива,,,,,...,26.0,54.0,993.043882,1137.421611,1188.608,1.0,1.0,1757.0,141999,1374
2,108090,0,Talwar Brothers,Плоский медиатор из кости толщиной 0.6 мм<br/>...,Медиатор для гитары Acura GP-PB6,Аксессуар для музыкального инструмента,0.0,0.0,1.0,0.0,...,16.0,34.0,800.822138,1174.069505,1224.798286,1.0,1.0,1722.0,53306,1448


In [7]:
list(df.columns)


['id',
 'resolution',
 'brand_name',
 'description',
 'name_rus',
 'CommercialTypeName4',
 'rating_1_count',
 'rating_2_count',
 'rating_3_count',
 'rating_4_count',
 'rating_5_count',
 'comments_published_count',
 'photos_published_count',
 'videos_published_count',
 'PriceDiscounted',
 'item_time_alive',
 'item_count_fake_returns7',
 'item_count_fake_returns30',
 'item_count_fake_returns90',
 'item_count_sales7',
 'item_count_sales30',
 'item_count_sales90',
 'item_count_returns7',
 'item_count_returns30',
 'item_count_returns90',
 'GmvTotal7',
 'GmvTotal30',
 'GmvTotal90',
 'ExemplarAcceptedCountTotal7',
 'ExemplarAcceptedCountTotal30',
 'ExemplarAcceptedCountTotal90',
 'OrderAcceptedCountTotal7',
 'OrderAcceptedCountTotal30',
 'OrderAcceptedCountTotal90',
 'ExemplarReturnedCountTotal7',
 'ExemplarReturnedCountTotal30',
 'ExemplarReturnedCountTotal90',
 'ExemplarReturnedValueTotal7',
 'ExemplarReturnedValueTotal30',
 'ExemplarReturnedValueTotal90',
 'ItemVarietyCount',
 'ItemAvailab

### Идентификаторы и метки

* **id** — уникальный идентификатор записи (товара). Используется для формирования submission.csv.
* **resolution** — целевая метка (target). 0 — оригинал, 1 — контрафакт. Только в тренировочном датасете.
* **ItemID** — внутренний идентификатор товара на платформе.
* **SellerID** — идентификатор продавца.

---

### Текстовые признаки

* **brand\_name** — бренд товара. Может быть важен для выявления подделок известных брендов.
* **description** — текстовое описание товара. Используется для NLP-модели (анализ контента, ключевые слова).
* **name\_rus** — название товара на русском языке. Может дублировать description, но проще для извлечения сущностей.
* **CommercialTypeName4** — категориальный признак: категория/тип товара (например, «смартфон», «аксессуар»).

---

### Рейтинги и отзывы

* **rating\_1\_count** … **rating\_5\_count** — количество отзывов по 1–5 звёзд
* **comments\_published\_count** — количество комментариев к товару.
* **photos\_published\_count** — количество фото, добавленных продавцом.
* **videos\_published\_count** — количество видео товара.

---

### Ценовые и временные признаки

* **PriceDiscounted** — скидка на товар (в процентах или валюте). Может быть индикатором подозрительно низкой цены.
* **item\_time\_alive** — сколько времени товар доступен на платформе (например, в днях).

---

### Продажи и возвраты

* **item\_count\_fake\_returns7/30/90** — количество «поддельных» возвратов за последние 7/30/90 дней (может быть рассчитано по определённой логике).
* **item\_count\_sales7/30/90** — количество продаж за 7/30/90 дней.
* **item\_count\_returns7/30/90** — количество возвратов за 7/30/90 дней.
* **GmvTotal7/30/90** — валовый товарооборот (GMV) за 7/30/90 дней.

---

### Принятые и возвращённые образцы

* **ExemplarAcceptedCountTotal7/30/90** — количество принятых образцов товара за период.
* **OrderAcceptedCountTotal7/30/90** — количество принятых заказов за период.
* **ExemplarReturnedCountTotal7/30/90** — количество возвращённых образцов товара.
* **ExemplarReturnedValueTotal7/30/90** — суммарная стоимость возвращённых товаров.

---

### Разные количественные признаки

* **ItemVarietyCount** — количество вариаций товара (цвет, размер и т.п.).
* **ItemAvailableCount** — сколько товаров доступно на платформе.
* **seller\_time\_alive** — сколько времени продавец зарегистрирован на платформе.



In [8]:
df_resolution_1 = df[df['resolution'] == 1]

In [13]:
df_resolution_1.head(10)

Unnamed: 0,id,resolution,brand_name,description,name_rus,CommercialTypeName4,rating_1_count,rating_2_count,rating_3_count,rating_4_count,...,ExemplarReturnedCountTotal30,ExemplarReturnedCountTotal90,ExemplarReturnedValueTotal7,ExemplarReturnedValueTotal30,ExemplarReturnedValueTotal90,ItemVarietyCount,ItemAvailableCount,seller_time_alive,ItemID,SellerID
42,29522,1,Logitech G,• СЕНСОР ИГРОВОГО КЛАССА<br/><br/>Точное отс...,"Logitech G102 LIGHTSYNC, фиолетовый, проводная...",Мышь,,,,,...,6.0,31.0,0.0,1035.21503,1235.968114,1.0,1.0,1184.0,14810,3369
87,443663,1,,,Кабель USB - Lightning (для iPhone) Remax RC-1...,Кабель для мобильных устройств,1.0,0.0,0.0,0.0,...,58.0,170.0,937.124838,1059.898805,1176.738214,5.0,5.0,1034.0,215836,27
177,341634,1,Kingston,Карт-ридер Kingston MobileLite Plus SD с интер...,"Карт-ридер Kingston MobileLite Plus SD, USB 3....",Картридер,,,,,...,0.0,0.0,0.0,0.0,0.0,1.0,1.0,860.0,168024,11359
306,294377,1,Logitech G,Беспроводная мышь M185 Grey - это беспроводна...,"Logitech G Мышь беспроводная, серый",Мышь,,,,,...,1.0,4.0,904.521307,904.529352,952.783754,1.0,1.0,555.0,144778,10684
400,252976,1,PLUS ULTRA,"Наушники с беспроводным подключением, которые ...",Беспроводные Hаушники JBL LIVE 650BT - NC Blac...,Наушники Bluetooth,,,,,...,7.0,35.0,0.0,1047.331254,1196.508935,1.0,1.0,330.0,124301,9149
419,50700,1,Sony,Беспроводной контроллер DualShock 4 v2.<br/><b...,"Беспроводной геймпад для ПС/ПК/Android, Белый",Геймпад для игровой приставки,1.0,2.0,1.0,0.0,...,11.0,33.0,902.049697,1026.362013,1146.560122,1.0,1.0,276.0,25320,4581
445,231490,1,,MX Master 3 обладает удивительной точностью и ...,"Мышь беспроводная Logitech MX Master 3S, черный",Мышь,,,,,...,10.0,74.0,821.205579,1078.375373,1282.175082,2.0,2.0,210.0,113658,584
451,270641,1,Logitech G,"""Мышка Logitech G502 x lightspeed black - это ...","Logitech G Игровая мышь беспроводная G502 , че...",Мышь,,,,,...,3.0,10.0,1052.106698,1145.917727,1307.909595,1.0,1.0,196.0,133076,5721
482,333022,1,Sony,,Игровая консоль PS 5 CFI-1200A,Игровая приставка Playstation,1.0,0.0,0.0,0.0,...,5.0,29.0,992.458876,1019.211414,1174.262588,1.0,1.0,153.0,163958,6124
522,148117,1,Logitech G,Веб-камера C922 Pro Stream упрощает работу с п...,"Logitech G Web-камера с микрофоном, черный",Веб-камера,,,,,...,1.0,1.0,1103.988284,1104.00736,1104.005964,1.0,1.0,66.0,72713,786


In [23]:
def avg_rate(row):
    if row["rating_1_count"] == None:
        return None
    rating = 0
    rate_count = 0
    for i in range(1, 6):
        rate_key = f"rating_{i}_count"
        rating += row[rate_key] * i
        rate_count += row[rate_key]
    return rating/rate_count

### Убедимся, что у всех записей либо проставлены все оценки, либо вообще не проставлены

In [40]:
def check_row(row):
    return row.isna().all() or row.notna().all()
result = df[[f"rating_{i}_count" for i in range(1, 6)]].apply(check_row, axis=1)
(~result).sum()

np.int64(0)

### Теперь меняем 5 колонок на одну со средним значением

In [41]:
def avg_rate(row):
    if row["rating_1_count"] == None:
        return None
    rating = 0
    rate_count = 0
    for i in range(1, 6):
        rate_key = f"rating_{i}_count"
        rating += row[rate_key] * i
        rate_count += row[rate_key]
    return rating/rate_count

In [42]:
df["rating"] = df[[f"rating_{i}_count" for i in range(1, 6)]].apply(avg_rate, axis=1)

In [43]:
df = df.drop(columns=[f"rating_{i}_count" for i in range(1, 6)])

In [44]:
df.head(10)

Unnamed: 0,id,resolution,brand_name,description,name_rus,CommercialTypeName4,comments_published_count,photos_published_count,videos_published_count,PriceDiscounted,...,ExemplarReturnedCountTotal90,ExemplarReturnedValueTotal7,ExemplarReturnedValueTotal30,ExemplarReturnedValueTotal90,ItemVarietyCount,ItemAvailableCount,seller_time_alive,ItemID,SellerID,rating
0,159385,0,ACTRUM,"Мешки пылесборники для пылесоса PHILIPS, 10 шт...","Мешки для пылесоса PHILIPS TRIATLON, синтетиче...",Пылесборник,3.0,6.0,0.0,688.436773,...,50.0,730.171845,896.528847,1043.118191,1.0,1.0,1860.0,78312,1218,4.040816
1,288616,0,Red Line,Защитная силиконовая крышка обьектива GoPro He...,Защитная крышка Redline на экшн-камеру GoPro (...,Крышка для объектива,,,,663.157297,...,54.0,993.043882,1137.421611,1188.608,1.0,1.0,1757.0,141999,1374,
2,108090,0,Talwar Brothers,Плоский медиатор из кости толщиной 0.6 мм<br/>...,Медиатор для гитары Acura GP-PB6,Аксессуар для музыкального инструмента,0.0,0.0,0.0,606.573197,...,34.0,800.822138,1174.069505,1224.798286,1.0,1.0,1722.0,53306,1448,4.0
3,415607,0,,"Игра Sonic Frontiers для PlayStation 5, русски...","Игра Sonic Frontiers для PlayStation 5, русски...",Видеоигра,,,,856.755162,...,6.0,0.0,913.530121,982.789171,3.0,3.0,1692.0,202599,715,
4,332391,0,,Disney Classic Games: Aladdin and The Lion Kin...,"Игра Aladdin and Lion King (PlayStation 4, анг...",Видеоигра,0.0,0.0,0.0,822.274833,...,6.0,0.0,913.54217,982.783783,3.0,3.0,1692.0,163725,715,1.0
5,139903,0,,Включает:\n\n- Набор Cross Gen для Call of Dut...,Игра Call of Duty Modern Warfare-2 Cross-Gen E...,Видеоигра,,,,892.232101,...,6.0,0.0,913.526156,982.781713,3.0,3.0,1692.0,68645,715,
6,30559,0,,"Нож саблевидный для мясорубки Philips HR2724, ...",Нож саблевидный для мясорубки Philips (кв. 9 мм),Запчасти для мясорубки,2.0,0.0,0.0,619.620106,...,767.0,1074.568077,1215.169272,1314.483926,3.0,3.0,1683.0,15306,2759,3.333333
7,319690,0,,"Гайка зажимная для мясорубки под решетку Д-53,...",Гайка зажимная для для кух. комбайна Philips H...,Запчасти для мясорубки,1.0,0.0,0.0,663.138504,...,767.0,1074.57626,1215.162423,1314.500236,3.0,3.0,1683.0,157310,2759,1.666667
8,79124,0,,Решётка для мясорубки KitFort 2101 обрезная (м...,"Решётка для мясорубки KitFort KT-2101, 2103, 2...",Запчасти для мясорубки,2.0,1.0,0.0,613.977188,...,767.0,1074.568696,1215.154426,1314.50773,3.0,3.0,1683.0,39370,2759,3.666667
9,393163,0,Телетай,Сим-карта Телетай тарифный план Все для общени...,Телетай SIM-карта (Вся Россия),SIM-карта,27.0,7.0,1.0,503.567436,...,2.0,0.0,462.81588,545.648989,1.0,1.0,1607.0,192392,11969,3.73913


In [45]:
df.to_csv(PROCESSED_DIR / "fix_rating.csv")