## Подготовить отчет по месяцам


+ Число покупок всего
+ Выручка
+ Число возвратов
+ Доля возвратов
+ Выручка без учетов возвратов
+ Сумма возвратов

По результатам отчета найти:

+ Месяц с наибольшим процентом возвратов
+ Месяц с наименьшей выручкой
+ Подготовить отчет по продуктам:

сравнить возвраты в срезе по продуктам, 
сравнить выручку в срезе по продуктам

Подготовить отчет по покупателям:
+ число уникальных покупателей
+ процент покупателей с числом покупок больше 1
+ сохранить все покупки таких покупателей

In [1]:
# загрузка библиотеки
import pandas as pd

In [2]:
# загрузка данных в датафрейм
sales_data = pd.read_excel('sales_data.xlsx')

In [3]:
# просмотр датафрейма
sales_data.head()

Unnamed: 0,Product,Date,Quantity,Revenue,Category,Customer ID,Is Returned
0,Product A,2021-08-21,6,73.59,Category 3,4745,False
1,Product C,2021-07-24,4,68.88,Category 1,5345,True
2,Product D,2021-10-30,1,98.15,Category 1,6735,False
3,Product C,2021-08-20,10,70.8,Category 2,6370,False
4,Product B,2021-07-29,8,75.13,Category 3,9326,False


In [4]:
# посмотрим, когда была сделана последняя запись
sales_data['Date'].max()

Timestamp('2021-12-31 00:00:00')

In [5]:
# первая запись
sales_data['Date'].min()

Timestamp('2021-01-01 00:00:00')

In [6]:
sales_data['Date']

0     2021-08-21
1     2021-07-24
2     2021-10-30
3     2021-08-20
4     2021-07-29
         ...    
995   2021-06-13
996   2021-02-18
997   2021-10-18
998   2021-02-24
999   2021-05-07
Name: Date, Length: 1000, dtype: datetime64[ns]

In [7]:
# замена значений для удобства чтения
sales_data['Is Returned'] = sales_data['Is Returned'].replace([True, False], ['returned', 'not returned'])

In [8]:
# просмотр результата
sales_data['Is Returned'].head(3)

0    not returned
1        returned
2    not returned
Name: Is Returned, dtype: object

In [9]:
# создание новой колонки с новым типом даты (месяц)
sales_data['Month'] = sales_data['Date'].astype('datetime64[M]')

In [10]:
# создание таблицы с агрегированными данными
annual_sales_report = sales_data \
    .groupby('Month', as_index=False) \
    .agg(Total_sales = ('Product', 'count'), Total_revenue = ('Revenue', 'sum'))

In [11]:
# смотрим на результат
annual_sales_report

Unnamed: 0,Month,Total_sales,Total_revenue
0,2021-01-01,76,4197.2
1,2021-02-01,84,4253.56
2,2021-03-01,85,4441.78
3,2021-04-01,83,4440.08
4,2021-05-01,86,4828.2
5,2021-06-01,91,5132.39
6,2021-07-01,74,4218.08
7,2021-08-01,97,4815.18
8,2021-09-01,85,4816.22
9,2021-10-01,76,4357.53


In [12]:
# таблица для продуктов, которые были возвращены
sales_data[sales_data['Is Returned'] == 'returned']

Unnamed: 0,Product,Date,Quantity,Revenue,Category,Customer ID,Is Returned,Month
1,Product C,2021-07-24,4,68.88,Category 1,5345,returned,2021-07-01
7,Product B,2021-04-27,7,22.08,Category 1,6357,returned,2021-04-01
8,Product A,2021-02-12,2,87.42,Category 2,8998,returned,2021-02-01
9,Product C,2021-06-07,2,36.21,Category 3,1491,returned,2021-06-01
10,Product A,2021-10-08,4,18.26,Category 2,8756,returned,2021-10-01
...,...,...,...,...,...,...,...,...
990,Product E,2021-02-03,3,34.02,Category 1,2110,returned,2021-02-01
992,Product C,2021-04-26,8,36.92,Category 3,7893,returned,2021-04-01
993,Product C,2021-05-27,10,51.76,Category 3,1153,returned,2021-05-01
996,Product D,2021-02-18,8,68.12,Category 2,7645,returned,2021-02-01


In [13]:
# данные о продажах, которые не были возвращены
sales_data[sales_data['Is Returned'] == 'not returned']

Unnamed: 0,Product,Date,Quantity,Revenue,Category,Customer ID,Is Returned,Month
0,Product A,2021-08-21,6,73.59,Category 3,4745,not returned,2021-08-01
2,Product D,2021-10-30,1,98.15,Category 1,6735,not returned,2021-10-01
3,Product C,2021-08-20,10,70.80,Category 2,6370,not returned,2021-08-01
4,Product B,2021-07-29,8,75.13,Category 3,9326,not returned,2021-07-01
5,Product B,2021-04-07,3,82.41,Category 1,8688,not returned,2021-04-01
...,...,...,...,...,...,...,...,...
991,Product C,2021-06-26,2,61.55,Category 1,6524,not returned,2021-06-01
994,Product E,2021-09-25,7,95.33,Category 3,1246,not returned,2021-09-01
995,Product C,2021-06-13,9,67.34,Category 3,9996,not returned,2021-06-01
997,Product D,2021-10-18,9,11.33,Category 3,7312,not returned,2021-10-01


In [14]:
# создание сводной таблицы с суммой и количеством заказов с возвратом и без
sales_report = pd.pivot_table(sales_data, values='Revenue', index='Month', columns='Is Returned', aggfunc=['sum', 'count'])

In [15]:
# смотрим на результат
sales_report

Unnamed: 0_level_0,sum,sum,count,count
Is Returned,not returned,returned,not returned,returned
Month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2021-01-01,1818.56,2378.64,34,42
2021-02-01,1651.37,2602.19,34,50
2021-03-01,2289.94,2151.84,42,43
2021-04-01,2347.98,2092.1,41,42
2021-05-01,2291.16,2537.04,40,46
2021-06-01,2600.69,2531.7,43,48
2021-07-01,2489.3,1728.78,40,34
2021-08-01,2491.73,2323.45,47,50
2021-09-01,2351.99,2464.23,40,45
2021-10-01,2276.8,2080.73,38,38


In [16]:
# переименовываем столбцы 
annual_sales_report['returns'] = sales_report['count']['returned'].values

In [17]:
annual_sales_report['returned_amount'] = sales_report['sum']['returned'].values

In [18]:
annual_sales_report['returns_persentage'] = round(annual_sales_report['returns'] / annual_sales_report['Total_sales'] * 100, 2)

In [19]:
# смотрим на результат
annual_sales_report

Unnamed: 0,Month,Total_sales,Total_revenue,returns,returned_amount,returns_persentage
0,2021-01-01,76,4197.2,42,2378.64,55.26
1,2021-02-01,84,4253.56,50,2602.19,59.52
2,2021-03-01,85,4441.78,43,2151.84,50.59
3,2021-04-01,83,4440.08,42,2092.1,50.6
4,2021-05-01,86,4828.2,46,2537.04,53.49
5,2021-06-01,91,5132.39,48,2531.7,52.75
6,2021-07-01,74,4218.08,34,1728.78,45.95
7,2021-08-01,97,4815.18,50,2323.45,51.55
8,2021-09-01,85,4816.22,45,2464.23,52.94
9,2021-10-01,76,4357.53,38,2080.73,50.0


In [20]:
# выводим топ 3 месяца с наибольшим числом возвратов
annual_sales_report.sort_values('returns_persentage', ascending=False).head(3)

Unnamed: 0,Month,Total_sales,Total_revenue,returns,returned_amount,returns_persentage
1,2021-02-01,84,4253.56,50,2602.19,59.52
0,2021-01-01,76,4197.2,42,2378.64,55.26
11,2021-12-01,76,4125.62,41,2178.45,53.95


In [21]:
# выводим топ 3 месяца с наименьшей выручкой
annual_sales_report.sort_values('Total_revenue').head(3)

Unnamed: 0,Month,Total_sales,Total_revenue,returns,returned_amount,returns_persentage
11,2021-12-01,76,4125.62,41,2178.45,53.95
0,2021-01-01,76,4197.2,42,2378.64,55.26
6,2021-07-01,74,4218.08,34,1728.78,45.95


In [22]:
# добавим колонку, в которой факт возврата заменим на 1, а его отсутсвие на 0
sales_data['Is Returned_'] = sales_data['Is Returned'].replace(['returned', 'not returned'], [1,0])

In [23]:
# смотрим на результат
sales_data

Unnamed: 0,Product,Date,Quantity,Revenue,Category,Customer ID,Is Returned,Month,Is Returned_
0,Product A,2021-08-21,6,73.59,Category 3,4745,not returned,2021-08-01,0
1,Product C,2021-07-24,4,68.88,Category 1,5345,returned,2021-07-01,1
2,Product D,2021-10-30,1,98.15,Category 1,6735,not returned,2021-10-01,0
3,Product C,2021-08-20,10,70.80,Category 2,6370,not returned,2021-08-01,0
4,Product B,2021-07-29,8,75.13,Category 3,9326,not returned,2021-07-01,0
...,...,...,...,...,...,...,...,...,...
995,Product C,2021-06-13,9,67.34,Category 3,9996,not returned,2021-06-01,0
996,Product D,2021-02-18,8,68.12,Category 2,7645,returned,2021-02-01,1
997,Product D,2021-10-18,9,11.33,Category 3,7312,not returned,2021-10-01,0
998,Product D,2021-02-24,7,51.35,Category 1,2637,returned,2021-02-01,1


In [29]:
# расчет процента возвратов и продажи по продуктам
sales_data.groupby('Product', as_index=False) \
    .agg(return_ratio=('Is Returned_', 'mean'), total_revenue=('Revenue', 'sum'))

Unnamed: 0,Product,return_ratio,total_revenue
0,Product A,0.502463,11690.93
1,Product B,0.532967,9712.35
2,Product C,0.62037,11593.69
3,Product D,0.460733,10144.77
4,Product E,0.5,11256.92


In [25]:
# подсчет количества уникальных покупателей
sales_data['Customer ID'].nunique()

952

In [26]:
users_df = sales_data.groupby('Customer ID', as_index=False) \
    .agg(total_products=('Product', 'count'))

In [27]:
# количество покупателей, сделавших более 1 заказа
users_id = users_df[users_df['total_products'] > 1]['Customer ID']

In [28]:
# фильтруем датасет по пользователям, сделавшим более 1 заказа
sales_data[sales_data['Customer ID'].isin(users_id)]

Unnamed: 0,Product,Date,Quantity,Revenue,Category,Customer ID,Is Returned,Month,Is Returned_
0,Product A,2021-08-21,6,73.59,Category 3,4745,not returned,2021-08-01,0
6,Product E,2021-09-15,8,75.86,Category 2,2877,not returned,2021-09-01,0
10,Product A,2021-10-08,4,18.26,Category 2,8756,returned,2021-10-01,1
11,Product A,2021-03-08,9,28.27,Category 2,5358,not returned,2021-03-01,0
31,Product E,2021-12-18,6,13.59,Category 3,7324,returned,2021-12-01,1
...,...,...,...,...,...,...,...,...,...
947,Product C,2021-12-07,9,62.51,Category 1,7187,not returned,2021-12-01,0
961,Product B,2021-03-23,8,60.21,Category 1,2039,returned,2021-03-01,1
967,Product A,2021-09-08,1,47.87,Category 1,9486,returned,2021-09-01,1
979,Product A,2021-03-02,10,10.32,Category 2,4690,returned,2021-03-01,1
