# Анализ интернет-торговли парфюмерией на eBay

Источник данных: https://www.kaggle.com/datasets/kanchana1990/perfume-e-commerce-dataset-2024/data

Исследовательский анализ данных электронной торговли парфюмерией за 2024 год в интернет-магаизе eBay. Набор данных содержит информацию о 2000 наименованиях парфюмерных товаров, разделенную на два датасета с мужской и женской парфюмерией отдельно, каждый из которых хранит по 1000 товаров.

В файле `parfume_dashboard_analysis.ipynb` проведена предварительная работа с данными и зафиксированы наблюдения о данных, а все визуализации, необходимые для анализа реализованы инструментами `Power BI` и сохраненны в папке репозитория в файлах `perfume_dashboard.pdf` и `perfume_dashboard.pbix`.

Эта работа направлена на практическое применение `Power BI` для построения дашбордов и анализ тенденций интернет-рынка парфюмерии и предпочтений потребитей.






**Ход исследования:**

* Изучение общей информации о данных;
* Подготовка данных:
    - Предобработка данных;

    - Добавление дополнительных полей в таблицу;
* Исследовательский анализ данных (построение дашборда):
    - Распределение продаж и цен между женской и мужской парфюмерией;

    * Анализ популярности парфюмерных брендов;

    * Популярность различных типов парфюмерной продукции;

    * Анализ рынка парфюмерной продукции относительно стран;

    * Как цена парфюмерной продукции влияет на продажи;
* Итоги исследования.

In [1]:
# импорт необходимых библиотек

import pandas as pd
import numpy as np

## Данные

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
df_m = pd.read_csv('/content/gdrive/MyDrive/analysis_git/ebay_mens_perfume.csv') # датасет с мужской парфюмерией
df_w = pd.read_csv('/content/gdrive/MyDrive/analysis_git/ebay_womens_perfume.csv') # датасет с женской парфюмерией

In [4]:
print("Датасет мужской парфюмерии:")
display(df_m.sample(5))
print("\nДатасет женской парфюмерии:")
display(df_w.sample(5))

Датасет мужской парфюмерии:


Unnamed: 0,brand,title,type,price,priceWithCurrency,available,availableText,sold,lastUpdated,itemLocation
591,Cologne,Ferragamo - Mens Cologne NEW and Wrapped. 3.4 ...,Eau de Toilette,14.99,US $14.99,7.0,7 available / 72 sold,72.0,"May 11, 2024 07:37:49 PDT","Cabot, Arkansas, United States"
40,UOMO,Valentino Uomo EDT Perfume For Men 3.4oz / 100...,Eau de Toilette,54.99,US $54.99,,Last One / 8 sold,8.0,"May 22, 2024 19:02:53 PDT","Peekskill, New York, United States"
642,Davidoff,Cool Water by Davidoff 4.2 oz EDT Cologne for ...,Eau de Toilette,25.23,US $25.23/ea,,"Limited quantity available / 40,130 sold",40130.0,"May 24, 2024 05:18:15 PDT","Hackensack, New Jersey, United States"
473,Polo Ralph Lauren,Polo Blue by Ralph Lauren 4.2oz Men's Eau de T...,Eau de Toilette,33.99,US $33.99/ea,8.0,8 available / 89 sold,89.0,"May 24, 2024 05:53:37 PDT","Fenton, Michigan, United States"
451,Unbranded,"3 bottles*Men's parfum Bundle* , &- Brand New,...",Eau de Parfum,25.99,US $25.99/ea,10.0,More than 10 available / 38 sold,38.0,"Mar 09, 2024 18:25:15 PST","Spring Hill, Florida, United States"



Датасет женской парфюмерии:


Unnamed: 0,brand,title,type,price,priceWithCurrency,available,availableText,sold,lastUpdated,itemLocation
149,Lake&skye,Lake & Skye 11 11 Eau De Parfum 3.4oz (WITHOU...,Eau de Parfum,99.99,US $99.99/ea,2.0,2 available / 3 sold,3.0,"May 23, 2024 20:28:37 PDT","Elgin, Illinois, United States"
280,Juicy Couture,VIVA LA JUICY ROSE COUTURE by Juicy Couture 3....,Eau de Parfum,34.6,US $34.60/ea,89.0,"89 available / 1,833 sold",1833.0,"May 24, 2024 10:13:07 PDT","Dallas, Texas, United States"
848,Estée Lauder,Knowing by Estee Lauder 2.5 oz EDP Perfume for...,Eau de Parfum,42.69,US $42.69/ea,10.0,More than 10 available / 868 sold,868.0,"May 23, 2024 08:22:07 PDT","Hackensack, New Jersey, United States"
491,KENZO,Kenzo Jungle Elephant by Kenzo EDP For Women 3...,Eau de Parfum,38.99,US $38.99,10.0,More than 10 available / 57 sold,57.0,"May 08, 2024 10:46:42 PDT","Miami, Florida, United States"
368,Jessica McClintock,Jessica McClintock Perfume 1.7 oz EDP For Wome...,Eau de Parfum,18.99,US $18.99/ea,73.0,73 available / 886 sold,886.0,"May 22, 2024 22:59:15 PDT","Dallas, Texas, United States"


In [None]:
display(df_m.info())
print()
df_w.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   brand              999 non-null    object 
 1   title              1000 non-null   object 
 2   type               997 non-null    object 
 3   price              1000 non-null   float64
 4   priceWithCurrency  1000 non-null   object 
 5   available          889 non-null    float64
 6   availableText      997 non-null    object 
 7   sold               994 non-null    float64
 8   lastUpdated        947 non-null    object 
 9   itemLocation       1000 non-null   object 
dtypes: float64(3), object(7)
memory usage: 78.2+ KB


None


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   brand              999 non-null    object 
 1   title              1000 non-null   object 
 2   type               998 non-null    object 
 3   price              1000 non-null   float64
 4   priceWithCurrency  1000 non-null   object 
 5   available          869 non-null    float64
 6   availableText      992 non-null    object 
 7   sold               984 non-null    float64
 8   lastUpdated        927 non-null    object 
 9   itemLocation       1000 non-null   object 
dtypes: float64(3), object(7)
memory usage: 78.2+ KB


In [None]:
display(f'Число строк в датасете df_m: {len(df_m)}', df_m.isna().sum())
print()
display(f'Число строк в датасете df_w: {len(df_w)}', df_w.isna().sum())

'Число строк в датасете df_m: 1000'

brand                  1
title                  0
type                   3
price                  0
priceWithCurrency      0
available            111
availableText          3
sold                   6
lastUpdated           53
itemLocation           0
dtype: int64




'Число строк в датасете df_w: 1000'

brand                  1
title                  0
type                   2
price                  0
priceWithCurrency      0
available            131
availableText          8
sold                  16
lastUpdated           73
itemLocation           0
dtype: int64

Согласно документации к данным:

* `brand` — бренд парфюма;
* `title` — наименование товара;
* `type` — тип парфюма (например: туалетная вода, парфюмированная вода);
* `price` — цена;
* `priceWithCurrency` — цена с указанием валюты;
* `available` — количество товаров в наличии;
* `availableText` — текстовое описание наличия товара;
* `sold` — количество проданных товаров;
* `lastUpdated` — время последнего обновления объявления;
* `itemLocation` — местоположение товара;

Есть пропуски в столбцах `brand`, `type`, `available`, `availableText`, `sold` и `lastUpdated`. Систематизируем наши находки.


| Столбец        | Количество пропусков в df_m   | Количество пропусков в df_w   | Замена пропусков  |  Доп. действия |
| ------------- |:-------------:|:-----:|:-----:|:---------:|
| **brand**    | 1 | 1 | не требуется | удалить строки с NaN |
| **title**    | 0 | 0 | не требуется | удалить столбец |
| **type**    | 3 | 2 | не требуется | удалить строки с NaN |
| **price**    | 0 | 0 | не требуется | не требуется |
| **priceWithCurrency**    | 0 | 0 | удалить строки | проверить валюты |
| **available**    | 111 | 131 | 0 | привести к int |
| **availableText**    | 3 | 8 | не требуется | удалить столбец |
| **sold**    | 6 | 16 | 0 | привести к int |
| **lastUpdated**    | 53 | 73 | не требуется | вытащить месяц |
| **itemLocation**    | 0 | 0 | не требуется | вытащить страну и город |


## Подготовка данных

### предобработка данных

Сначала удалим ненужные столбцы и приведем названия оставшихся к удобному виду. Столбец `priceWithCurrency`, вопреки опасениям, содержит только цены в долларах US, поэтому его тоже просто удалим.

In [5]:
df_m = df_m.drop(['title', 'priceWithCurrency', 'availableText'], axis=1)
df_w = df_w.drop(['title', 'priceWithCurrency', 'availableText'], axis=1)

In [6]:
df_m.rename(columns={'lastUpdated': 'updated', 'itemLocation': 'location'}, inplace=True)
df_w.rename(columns={'lastUpdated': 'updated', 'itemLocation': 'location'}, inplace=True)

Удалим строки с пустыми значениями в столбцах `brand` и `type`:

In [7]:
df_m.dropna(subset=['brand', 'type'], inplace=True)
df_w.dropna(subset=['brand', 'type'], inplace=True)

заменим пустые значения в столбцах `available` и `sold` на нули, так как пропуски в этих столбцах означают, что товара не осталось в наличии или ни одна единица товара еще не была продана.

In [8]:
df_m[['available', 'sold']] = df_m[['available', 'sold']].fillna(0)
df_w[['available', 'sold']] = df_w[['available', 'sold']].fillna(0)

Осталось лишь поменять тип данных в столбцах `available` и `sold` на целочисленный:

In [9]:
df_m['available'] = df_m['available'].astype('Int64')
df_w['available'] = df_w['available'].astype('Int64')

df_m['sold'] = df_m['sold'].astype('Int64')
df_w['sold'] = df_w['sold'].astype('Int64')

### Добавление дополнительных полей в таблицы

Добавим дополнительный столбцы с месяцем, страной и общей выручкой каждой позиции духов:

In [10]:
df_m['month'] = df_m['updated'].apply(lambda x: str(x).split()[0])
df_m['month'] = df_m['month'].replace('nan', np.nan)

df_w['month'] = df_w['updated'].apply(lambda x: str(x).split()[0])
df_w['month'] = df_w['month'].replace('nan', np.nan)

In [11]:
df_m['country'] = df_m['location'].apply(lambda x: str(x).split(', ')[-1])
df_w['country'] = df_w['location'].apply(lambda x: str(x).split(', ')[-1])

In [12]:
df_m = df_m.drop('updated', axis = 1)
df_w = df_w.drop('updated', axis = 1)

In [13]:
df_m['revenue'] = df_m['sold'] * df_m['price']
df_w['revenue'] = df_w['sold'] * df_w['price']

In [14]:
print("Датасет мужской парфюмерии:")
display(df_m.sample(5))
print("\nДатасет женской парфюмерии:")
display(df_w.sample(5))

Датасет мужской парфюмерии:


Unnamed: 0,brand,type,price,available,sold,location,month,country,revenue
148,Bvlgari,Eau De Toilette,45.68,10,5,"Sacramento, California, United States",May,United States,228.4
368,Rasasi,Eau de Parfum,45.0,8,37,"San Diego, California, United States",May,United States,1665.0
943,Dana,Eau de Cologne,14.99,10,647,"Orlando, Florida, United States",Feb,United States,9698.53
323,Armaf,Eau de Parfum,43.45,10,955,"Houston, Texas, United States",May,United States,41494.75
929,Afnan,Eau de Parfum,6.94,10,131,"Midway City, California, United States",May,United States,909.14



Датасет женской парфюмерии:


Unnamed: 0,brand,type,price,available,sold,location,month,country,revenue
928,Estée Lauder,Eau de Parfum,23.99,8,26,"Hemet, California, United States",May,United States,623.74
780,Narciso Rodriguez,Eau de Parfum,125.0,6,6,"New York, New York, United States",May,United States,750.0
921,HUGO BOSS,Eau de Parfum,29.79,10,541,"Hackensack, New Jersey, United States",May,United States,16116.39
966,Yves Saint Laurent,Eau de Parfum,35.88,8,3,"Houston,Texas,HongKong, China",May,China,107.64
659,Davidoff,Eau de Toilette,15.99,10,98,"New York, New York, United States",May,United States,1567.02


Сделаем общий датасет

In [18]:
df_m['gender'] = 'муж.'
df_w['gender'] = 'жен.'

# Объединяем df_m и df_w
df_combined = pd.concat([df_m, df_w], ignore_index=True)
df_combined.sample(5)

Unnamed: 0,brand,type,price,available,sold,location,month,country,revenue,gender
1481,Clinique,SKIN_MOISTURIZER,23.0,0,102,"Edison, New Jersey, United States",May,United States,2346.0,жен.
1749,Ariana Grande,Eau de Parfum,35.99,9,49,"Laughlin, Nevada, United States",May,United States,1763.51,жен.
1228,Calvin Klein,Eau de Toilette,25.69,11,169,"Dallas, Texas, United States",May,United States,4341.61,жен.
1813,Armaf,Fragrances,26.31,3,20,"Brooklyn, New York, United States",May,United States,526.2,жен.
727,As Show,Eau de Toilette,47.99,6,16,"California,United States, Hong Kong",May,Hong Kong,767.84,муж.


In [16]:
df_m.to_csv('/content/gdrive/MyDrive/analysis_git/df_m.csv', index=False)
df_w.to_csv('/content/gdrive/MyDrive/analysis_git/df_w.csv', index=False)
df_combined.to_csv('/content/gdrive/MyDrive/analysis_git/df_combined.csv', index=False)

## Исследовательский анализ данных

Дашборд доступен в папке репозитория в файлах: `perfume_dashboard.pdf` и `perfume_dashboard.pbix`

Дальнейшие наблюдения и выводы будут основаны на нем.

**Основные вопросы к данным:**

* Каково распределение продаж и цен между женской и мужской парфюмерией, продаваемой в интернете?

* Отличаются ли чем-то рынки мужкой и женской парфюмерии и чем именно?

* Каковы портреты покупателей из представленных в датасете регионов?

* Какие бренды наиболее популярны относительно пола и региона?

* Какие типы парфюмерной продукции более популярны?

* Как цена парфюмерной продукции влияет на продажи?

### Распределение продаж и цен между женской и мужской парфюмерией

В среднем, мужская парфюмерная продукция на ebay покупается чаще чем женская почти на 20%. Средняя стоимость мужских духов, представленных в интернет-магазине тоже выше, чем стоимость женских. В среднем одну позицию мужского парфюма покупают почти в полтора раза чаще, чем позицию женского парфюма.

В связи с этим и общая выручка магазина от продажи мужской парфюмерии гораздо выше, чем от продажи женской.

Чем это можно объяснить? Возможно, это связано с тем, что женщины препочитают покупать перфюмерную продукцию в физических магазинах, где можно проверить запах каждого товара и выбрать продукт на его основе.



### Анализ популярности парфюмерных брендов

**Топ-5 наиболее прибыльными брендами парфюма можно назвать:**
 1. `Versace`
 2. `Calvin Klein`
 3. `Dolce&Gabbana`
 4. `Davidoff`
 5. `Azzaro`

При этом, у бренда `Azzaro` судя по всему покупают исключительно мужскую парфюмерию, либо же товары этого бренда, относящиеся к женскому парфюму, не были предтсавлены в исследуемом магазине на момент получения данных, и несмотря на это бренд вошел в топ-5 по суммарно полученной выручке магазина, составляющей `1.7 млн.` долларов.

Если строить Топ-5 не по суммарной выручке, а по количеству продаж, то на пятом месте `Azzaro` сместит бренд `Burberry`.

**Топ-5 брендов, у которых наиболее часто покупается женская парфюмерия:**
 1. `Calvin Klein`
 2. `Versace`
 3. `Elisabeth Taylor`
 4. `Dolce&Gabbana`
 5. `Vera Wang`

**Топ-5 брендов, у которых наиболее часто покупается мужская парфюмерия:**
 1. `Versace`
 2. `Davidoff`
 3. `Calvin Klein`
 4. `Azzaro`
 5. `Dolce&Gabbana`

### Популярность различных типов парфюмерной продукции

Как и следовало ожидать, наиболее часто покупаемыми являются **туалетная** и **парфюмированная вода**. При этом туалетная вода покупается в два раза чаще, чем парфюм.

Основную долю всего купленного парфюма составляет женский парфюм (22% из 27% всего проданного парфюма), в то время как среди туалетной воды большую долю продаж составляет мужская продукция туалетной воды (46% из 61% всей проданной туалетной воды).

На третьем месте по популярности стоят **одеколоны** (4.3%), которые практически в равных долях покупаются как среди женщин. так и среди мужчин.



### Анализ рынка парфюмерной продукции относительно стран

В наборе данных наиболее широко представлены товары из Соединенных Штатов Америки. На втором месте находятся товары из Китая, а на третьем - из Канады.

Если сравнивать страны не по количеству предлагаемых товаров, а по средней полученной выручке, то на втором месте после Соединенных Штатов находится Бразилия, а на третьем - Израиль, которые сильно выделяются тем, что в этих регионах представлена только продукция мужской парфюмерии.

В результате Топ-5 странами по средней выручке можно назвать:
 1. `США`
 2. `Бразилия`
 3. `Израиль`
 4. `Индия`
 5. `Болгария`

 Про болгарию стоит сказать, что в ней представлены только продукция женской парфюмерии.

### Как цена парфюмерной продукции влияет на продажи?

По графику можно заметить, что чем ниже стоимость товара, тем чаще встречаются высокие показатели продаж. При стоимости до 50 долларов, продажи распределены от 0 до 40 тыс.. После цены в 50 долларов уже не встречается продаж, превысивших порог в 10 тыс. и чем сильнее поднимается цена, тем ниже становятся продажи.

Разницы между мужской и женской продукцией в этом вопросе практически нет, распределения выглядят очень похожими.



## Выводы

**Женский парфюм**

В целом женский парфюм показывает гораздо более низкие показатели продаж по сравнению с мужским парфюмом, предположительно из-за того, что женщины предпочитают преобретать парфюмерную продукцию в физических магазинах, а не на ebay.

* **Наиболее популярные бренды:**
     1. `Calvin Klein`
     2. `Versace`
     3. `Elisabeth Taylor`
     4. `Dolce&Gabbana`
     5. `Vera Wang`

* В среднем женщины тратят на парфюм от 18 до 38 долларов.

* Среди женского парфюма наиболее предпочтительны товары, относящиеся к категории `парфюмированная вода`


**Мужской парфюм**

Показатели мужского парфюма сильно выше, чем женского. Товары этой категории чаще покупают и при этом их средняя цена значительно выше, из-за чего растет и общая выручка от продажи мужской парфюмерии.

* **Наиболее популярные бренды**:
     1. `Versace`
     2. `Davidoff`
     3. `Calvin Klein`
     4. `Azzaro`
     5. `Dolce&Gabbana`

* В среднем мужчины тратят на парфюм от 25 до 54 долларов.

* Среди мужского парфюма наиболее предпочтительны товары, относящиеся к категории `туалетная вода`

Без деления на мужской и женский парфюм, можно выделить следующий топ наиболее прибыльных брендов парфюмерной продукции:

 1. `Versace`
 2. `Calvin Klein`
 3. `Dolce&Gabbana`
 4. `Davidoff`
 5. `Azzaro`
