У нас есть данные о наиболее частых добавлениях товаров в избранные на Ozon за период с 29.05.2021 по 29.08.2021. Этот период практически полносью охватывает лето 2021 (за вычетом нескольких дней) и поэтому представляет достаточно полную выборку. 

Состав данных:
- название бренда
- бренд
- ссылка на товар на Ozon
- категории товара с 1 по 4 уровень
- количество добавлений в избранное за последние 30 дней
- дата последнего появления товара в наличии

Этап работы в Питоне будет включать в себя подготовку данных и первичный статистический анализ. Итоговый вариант данных будет визуализирован в Tableau. 

Импортируем библиотеки, нужные нам для работы, и объединяем нужные нам файлы в один датасет.

In [17]:
import pandas as pd
import numpy as np

df = pd.concat(map(pd.read_excel, ['chto-dobavlyaut-v-izbrannoe_-29_05_2021-27_06_2021.xlsx', 'chto-dobavlyaut-v-izbrannoe_-26_06_2021-25_07_2021.xlsx', 'chto-dobavlyaut-v-izbrannoe_-31_07_2021-29_08_2021.xlsx']), ignore_index = True)
df.head()

Unnamed: 0,Название товара,Бренд,Ссылка на товар,Категория 1 уровня,Категория 2 уровня,Категория 3 уровня,Категория 4 уровня,"Количество добавлений в избранное, 30 дней",Последнее появление в наличии
0,"Игровая консоль PlayStation 5, белый",PlayStation,https://www.ozon.ru/product/178337786,ТВ и аудио,Игровые приставки и аксессуары TV&Audio,Игровая приставка TV&Audio,Игровая приставка,3576,2020-12-21
1,"La Roche-Posay Anthelios Fluido Invisible, Фл...",La Roche-Posay,https://www.ozon.ru/product/149766687,Красота и здоровье,Косметика для ухода за кожей,Загар,Солнцезащитное средство,3066,2021-06-06
2,Настольная игра GaGa Games Чпок,GAGA Games,https://www.ozon.ru/product/221133850,Товары для мам и детей,Взрослое творчество и хобби,Настольные игры для взрослых,Развлекательная настольная игра для взрослых,2996,2021-06-12
3,"Игровая консоль PlayStation 5 Digital Edition,...",PlayStation,https://www.ozon.ru/product/207702519,ТВ и аудио,Игровые приставки и аксессуары TV&Audio,Игровая приставка TV&Audio,Игровая приставка,2528,2021-04-06
4,Barbie Коллекционная кукла BarbieStyle,Barbie,https://www.ozon.ru/product/265045539,Товары для мам и детей,Игрушки,Куклы и аксессуары,Кукла коллекционная детская,2406,2021-06-11


Нам не очень нужна колонка с ссылками на товары, это ненужное загромождение данных. Давайте её удалим.

In [19]:
df = df.drop(['Ссылка на товар'], axis = 1)

In [20]:
df.head() # всё нормально удалилось

Unnamed: 0,Название товара,Бренд,Категория 1 уровня,Категория 2 уровня,Категория 3 уровня,Категория 4 уровня,"Количество добавлений в избранное, 30 дней",Последнее появление в наличии
0,"Игровая консоль PlayStation 5, белый",PlayStation,ТВ и аудио,Игровые приставки и аксессуары TV&Audio,Игровая приставка TV&Audio,Игровая приставка,3576,2020-12-21
1,"La Roche-Posay Anthelios Fluido Invisible, Фл...",La Roche-Posay,Красота и здоровье,Косметика для ухода за кожей,Загар,Солнцезащитное средство,3066,2021-06-06
2,Настольная игра GaGa Games Чпок,GAGA Games,Товары для мам и детей,Взрослое творчество и хобби,Настольные игры для взрослых,Развлекательная настольная игра для взрослых,2996,2021-06-12
3,"Игровая консоль PlayStation 5 Digital Edition,...",PlayStation,ТВ и аудио,Игровые приставки и аксессуары TV&Audio,Игровая приставка TV&Audio,Игровая приставка,2528,2021-04-06
4,Barbie Коллекционная кукла BarbieStyle,Barbie,Товары для мам и детей,Игрушки,Куклы и аксессуары,Кукла коллекционная детская,2406,2021-06-11


Теперь давайте посмотрим общий список параметров, тип данных каждой колонки (мало ли, надо что-то поменять) и количество пропусков по колонкам.

In [21]:
df.info()

# по типам данных всё хорошо

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 8 columns):
 #   Column                                      Non-Null Count  Dtype         
---  ------                                      --------------  -----         
 0   Название товара                             29843 non-null  object        
 1   Бренд                                       28688 non-null  object        
 2   Категория 1 уровня                          30000 non-null  object        
 3   Категория 2 уровня                          30000 non-null  object        
 4   Категория 3 уровня                          30000 non-null  object        
 5   Категория 4 уровня                          30000 non-null  object        
 6   Количество добавлений в избранное, 30 дней  30000 non-null  int64         
 7   Последнее появление в наличии               30000 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(6)
memory usage: 1.8+ MB


Теперь давайте разберёмся с пропусками. Они находятся только в текстовых колонках "Название товара" и "Бренд", поэтому пропуски можно заменить словом "Неизвестно".

In [22]:
df['Название товара'].fillna(value='Неизвестно', inplace=True)
df['Бренд'].fillna(value='Неизвестно', inplace=True)

In [23]:
df.isnull().sum()

# пропусков больше нет

Название товара                               0
Бренд                                         0
Категория 1 уровня                            0
Категория 2 уровня                            0
Категория 3 уровня                            0
Категория 4 уровня                            0
Количество добавлений в избранное, 30 дней    0
Последнее появление в наличии                 0
dtype: int64

Теперь посмотрим, есть ли полные дубликаты строк.

In [24]:
df[df.duplicated()]

Unnamed: 0,Название товара,Бренд,Категория 1 уровня,Категория 2 уровня,Категория 3 уровня,Категория 4 уровня,"Количество добавлений в избранное, 30 дней",Последнее появление в наличии
2219,"Чемодан на колесиках пластиковый Lcase, ""Ромбик""",L'case,Одежда,Аксессуары для взрослых и детей,Чемодан,"Чемодан жесткий (алюминий, пластик)",102,2021-06-09
5334,Платье женское,Технобренд,Одежда,Взрослая одежда,Основная одежда женская,"Платье, сарафан женские",59,2021-06-10
6656,Чемодан,Sofiya VIP,Одежда,Аксессуары для взрослых и детей,Чемодан,"Чемодан жесткий (алюминий, пластик)",52,2021-06-04
7768,Пижама ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Домашняя одежда женская,"Пижама, ночная сорочка женская",47,2021-06-05
8753,Пижама ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Домашняя одежда женская,"Пижама, ночная сорочка женская",44,2021-06-12
12352,Футболка ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Основная одежда женская,Футболка женская,130,2021-07-08
12623,Детский трикотажный набор: боди без рукавов дл...,Me&We,Одежда,Детская одежда,Одежда для новорожденных,Боди для новорожденных,123,2021-07-09
14382,Пижама ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Домашняя одежда женская,"Пижама, ночная сорочка женская",88,2021-07-09
14543,Футболка ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Основная одежда женская,Футболка женская,86,2021-07-06
15159,Пижама ТВОЕ,ТВОЕ,Одежда,Взрослая одежда,Домашняя одежда женская,"Пижама, ночная сорочка женская",80,2021-07-07


Дубликаты есть, теперь их надо удалить.

In [25]:
df.drop_duplicates(inplace=True)

In [26]:
df[df.duplicated()] # дубликатов больше нет

Unnamed: 0,Название товара,Бренд,Категория 1 уровня,Категория 2 уровня,Категория 3 уровня,Категория 4 уровня,"Количество добавлений в избранное, 30 дней",Последнее появление в наличии


Теперь давайте посмотрим, есть ли выбросы в колонке "Количество добавлений в избранное, 30 дней" (в других колонках выбросы невозможны из-за типа и смысла данных).

In [27]:
# транспонируем таблицу, чтобы потом можно было создать новый столец с интерквартильным размахом
df_stat = df[['Количество добавлений в избранное, 30 дней']].describe().T

# столбец с интерквартильным размахом
df_stat['iqr'] = df_stat['75%'] - df_stat['25%']

# определяем нижнюю и верхнюю границу допустимых значений
df_stat['lower_bound'] = df_stat['25%'] - 1.5 * df_stat['iqr']
df_stat['upper_bound'] = df_stat['75%'] + 1.5 * df_stat['iqr']

# создаём дополнительный признак, который показывает, есть ли выбросы по каждой из границ
df_stat['any_outlier_min'] = np.where(df_stat['lower_bound'] - df_stat['min'] > 0, 'yes', 'no')
df_stat['any_outlier_max'] = np.where(df_stat['max'] - df_stat['upper_bound'] > 0, 'yes', 'no')

df_stat

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,iqr,lower_bound,upper_bound,any_outlier_min,any_outlier_max
"Количество добавлений в избранное, 30 дней",29974.0,106.544472,152.112592,40.0,54.0,70.0,109.0,6028.0,55.0,-28.5,191.5,no,yes


Выбросы есть с большей стороны, надо их удалить.

In [28]:
df.drop(df[df['Количество добавлений в избранное, 30 дней'] > 191.5].index, inplace=True)

Теперь можно посмотреть базовую статистику.

In [29]:
df.describe(include='all', datetime_is_numeric=True) # datetime_is_numeric=True - новое изменение pandas

Unnamed: 0,Название товара,Бренд,Категория 1 уровня,Категория 2 уровня,Категория 3 уровня,Категория 4 уровня,"Количество добавлений в избранное, 30 дней",Последнее появление в наличии
count,27197,27197,27197,27197,27197,27197,27197.0,27197
unique,23468,6655,21,147,666,2890,,
top,Пижама ТВОЕ,Нет бренда,Одежда,Взрослая одежда,Основная одежда женская,Антистрессовая игрушка,,
freq,162,1796,6199,2414,994,336,,
mean,,,,,,,77.860279,2021-07-02 04:23:11.977056512
min,,,,,,,40.0,2020-06-03 00:00:00
25%,,,,,,,53.0,2021-06-10 00:00:00
50%,,,,,,,66.0,2021-07-06 00:00:00
75%,,,,,,,93.0,2021-08-06 00:00:00
max,,,,,,,191.0,2021-08-14 00:00:00


Можно выделить несколько интересных моментов:
- самые популярные вещи не имеют чёткой аффиляции с брендом
- в то же время, смотря на популярное название, нельзя исключать вероятности, что аффиляция с брендом отражена в названии
- самой популярной категорией для добавления в избранное является одежда

И так, мы подготовили данные и провели первичный анализ. Теперь мы можем выгрузить получившийся датасет в формат csv и загрузить его в Tableau для визуализации.

In [30]:
df.to_csv('ozon_summer2021.csv', index=False)

Ссылка на дашборд в Tableau: https://public.tableau.com/views/_17127407217810/-10?:language=en-US&publish=yes&:sid=&:display_count=n&:origin=viz_share_link