На основе уже знакомого тебе тестового набора данных из первого задания посчитай следующие метрики в тетрадке Jupyter Notebook:
* Delivery rate
* Open rate
* Click to Open rate
* Unsubscribe rate
* Выяви лучшую тему
* И лучший день недели (для планирования рассылок)


In [1]:
# импортируем библиотеки
import pandas as pd
import datetime as dt

import numpy as np
import matplotlib.pyplot as plt

from io import BytesIO
import requests
import re

import warnings
warnings.simplefilter('ignore')

In [2]:
# задаем настройки отображения
pd.options.display.float_format = '{:,.2f}'.format
pd.options.display.max_colwidth = 150 
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', 1000)
pd.set_option('display.max_rows', 200)

In [3]:
# функция, забирающая данные из гугл-таблиц
def download(spreadsheet_id):
    url = 'https://docs.google.com/spreadsheets/d/{}/export?format=xlsx'.format(spreadsheet_id)
    r = requests.get(url)
    return pd.read_excel(BytesIO(r.content))

In [4]:
# присваиваем переменной загруженную таблицу
data = download("1NVEr062eowesdXxZ7OkaRdjC7r-QB8b62tv1j2cs2cs")
data.head()

Unnamed: 0,Название рассылки,Название кампании,Направление,Месяц,Дата,Год,Номер недели,День недели,День недели.1,Время,Веб-версия,Тема письма,Сегмент,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,UTM Метка,Пользователей на сайте,Воронка продаж. Шаг 1,Воронка продаж. Шаг 2,Воронка продаж. Шаг 3
0,Название рассылки 1,Название кампании 1,Email,Октябрь,2021-10-27,2021,43,3,03-среда,19:24:00,#ССЫЛКА,Тема письма 1,Сегмент 1,780789.0,741749.55,148349.91,17801.99,39039.45,7417.5,Метка 1,16377.83,6336.58,6209.85,5154.18
1,Название рассылки 10,Название кампании 10,Email,Ноябрь,2021-11-05,2021,45,5,05-пятница,12:02:00,#ССЫЛКА,Тема письма 10,Сегмент 2,719370.0,683401.5,123012.27,11071.1,35968.5,6834.02,Метка 10,10296.13,3558.34,3095.76,2538.52
2,Название рассылки 100,Название кампании 100,Email,Апрель,2022-04-11,2022,15,1,01-понедельник,16:26:00,#ССЫЛКА,Тема письма 100,Сегмент 3,1201415.0,1141344.25,182615.08,15339.67,60070.75,11413.44,Метка 100,13959.1,3369.73,2864.27,2262.77
3,Название рассылки 101,Название кампании 101,Email,Апрель,2022-04-12,2022,15,2,02-вторник,16:26:00,#ССЫЛКА,Тема письма 101,Сегмент 1,1393827.0,1324135.65,264827.13,10328.26,69691.35,13241.36,Метка 101,8985.58,5116.39,4277.3,3207.98
4,Название рассылки 102,Название кампании 102,Email,Апрель,2022-04-13,2022,15,3,03-среда,16:26:00,#ССЫЛКА,Тема письма 102,Сегмент 2,1276821.0,1212979.95,218336.39,15720.22,63841.05,12129.8,Метка 102,10846.95,2816.95,2287.37,1669.78


In [5]:
# фунция для получения общей информации о датасетах
def get_info(df, df_name):
    print(f'Общая информация о таблице - {df_name}')
    print(df.info() , '\n') # общую информацию
    print('*'*50)
    print(f'Количество NaN значений в таблице - {df_name}', '\n') 
    print(df.isna().sum()) # количество пропусков
    print('*'*50)
    print(f'Число дубликатов в таблице - {df_name}', '\n') 
    print(df.duplicated().sum()) # количество дубликатов

In [6]:
# вызываем функцию
get_info(data, 'data')

Общая информация о таблице - data
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218 entries, 0 to 217
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Название рассылки       218 non-null    object        
 1   Название кампании       218 non-null    object        
 2   Направление             218 non-null    object        
 3   Месяц                   218 non-null    object        
 4   Дата                    218 non-null    datetime64[ns]
 5   Год                     218 non-null    int64         
 6   Номер недели            218 non-null    int64         
 7   День недели             218 non-null    int64         
 8   День недели.1           218 non-null    object        
 9   Время                   218 non-null    object        
 10  Веб-версия              218 non-null    object        
 11  Тема письма             218 non-null    object        
 12  Сегмент         

* 218 строк
* Числовые данные с "Отправлено" по "Воронка продаж" тип float, в исходной таблице отображен int.
* NaN и дубликаты отсутствуют

In [7]:
# Выбираем столбцы с числами с плавающей точкой
float_cols = data.select_dtypes(include=['float64']).columns
# Преобразуем эти столбцы к целочисленному типу
data[float_cols] = data[float_cols].applymap(np.int64)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218 entries, 0 to 217
Data columns (total 24 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   Название рассылки       218 non-null    object        
 1   Название кампании       218 non-null    object        
 2   Направление             218 non-null    object        
 3   Месяц                   218 non-null    object        
 4   Дата                    218 non-null    datetime64[ns]
 5   Год                     218 non-null    int64         
 6   Номер недели            218 non-null    int64         
 7   День недели             218 non-null    int64         
 8   День недели.1           218 non-null    object        
 9   Время                   218 non-null    object        
 10  Веб-версия              218 non-null    object        
 11  Тема письма             218 non-null    object        
 12  Сегмент                 218 non-null    object    

In [8]:
# удалим воронку
data.drop(data.columns [[19, 20, 21, 22, 23]], axis= 1 , inplace= True ) 

**Расчет основных метрик**

In [9]:
# Delivery rate
data['delivery_rate'] = data['Доставлено']/data['Отправлено']*100
data['delivery_rate'].describe()

count   218.00
mean     97.65
std       1.08
min      95.00
25%      98.00
50%      98.00
75%      98.50
max      98.50
Name: delivery_rate, dtype: float64

Средняя доставляемость 97,65%. По данным unisender.com: "нормальным значением delivery rate считают показатель равный 95% и выше". 

In [10]:
# Open rate
data['open_rate'] = data['Открытия']/data['Доставлено']*100
data['open_rate'].describe()

count   218.00
mean     13.76
std       3.39
min       9.20
25%      11.05
50%      13.99
75%      17.43
max      20.00
Name: open_rate, dtype: float64

Средняя открываемость 13.76%. По данным unisender.com: "Нормального или среднего open rate не существует. Результаты зависят от сферы бизнеса, качества контента, аудитории, сезонности и десятка других показателей. Согласно исследованию Mindbox, максимальная медиана OR (число, которое находится в середине набора чисел, если его упорядочить по возрастанию) в 2022 году была зафиксирована в сфере недвижимости (36%), а минимальная — в сфере ювелирных товаров (11%)".

In [11]:
# Click to Open rate
data['ctor'] = data['Клики']/data['Открытия']*100
data['ctor'].describe()

count   218.00
mean      8.12
std       2.63
min       3.90
25%       7.20
50%       8.40
75%       9.00
max      12.00
Name: ctor, dtype: float64

CTOR в среднем 8,12%, колеблется от 3,9% до 12%. Хороший CTOR, по данным сервиса email-рассылок SendGrid, — от 20 до 30%.

In [12]:
# Unsubscribe rate
data['ur'] = data['Отписки']/data['Отправлено']*100
data['ur'].describe()

count   218.00
mean      2.42
std       4.10
min       0.15
25%       0.56
50%       0.62
75%       0.89
max      12.80
Name: ur, dtype: float64

UR (Unlikes Rate) = (Количество отписавшихся / Общее количество подписчиков) * 100%
По данным data не очевидно общее число подписчиков. Вероятно, оно зависит от сегмента и иных параметров. Примем за общее число подписчиков рассылки число отправленных писем.

В среднем 2,42%. Максимальное значение в 5 раз больше среднего. Некоторые темы, очевидно, были неудачными.

**Выявляем лучшую тему**

In [13]:
# посмотрим на объем рассылок
data[['Отправлено']].describe()

Unnamed: 0,Отправлено
count,218.0
mean,1476655.67
std,587458.73
min,510034.0
25%,930482.5
50%,1497056.0
75%,1988811.0
max,2492076.0


Самая большая рассылка почти в 5 раз больше самой маленькой 

In [14]:
#рассылки, после которых отписалось человек, больше, чем среднее значение отписок
ur_avg = 2.42 # среднее значение отписок по всем рассылккам
u_mail = data.loc[(data['ur'] > ur_avg) ]
u_mail.describe()

Unnamed: 0,Год,Номер недели,День недели,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,delivery_rate,open_rate,ctor,ur
count,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0,36.0
mean,2021.33,33.06,3.19,1596791.11,1567121.33,206202.75,17201.67,29668.83,184210.03,98.17,13.21,8.21,11.56
std,0.48,22.25,1.72,570987.25,559430.74,96850.58,10692.55,12112.11,67852.15,0.24,3.68,2.71,0.97
min,2021.0,1.0,1.0,560494.0,549284.0,82863.0,3231.0,11209.0,71406.0,98.0,9.2,3.9,10.78
25%,2021.0,3.0,1.0,1084843.75,1065820.5,130312.25,8760.0,18016.25,117600.75,98.0,11.05,7.2,10.78
50%,2021.0,46.0,4.0,1638312.5,1605546.0,182148.5,14888.5,28864.5,182183.5,98.0,11.05,8.4,10.83
75%,2022.0,50.0,5.0,2156240.25,2113115.0,253297.0,21777.0,42292.25,236255.0,98.5,17.43,9.0,12.74
max,2022.0,52.0,5.0,2434236.0,2385551.0,390973.0,46527.0,48684.0,303771.0,98.5,18.0,12.0,12.8


В рассылки с отписками попали 36 строк, это 16.51% всех рассылок. Объем рассылок различается те же приблизительно, в 5 раз. Нельзя сказать, что количество отписок связано только с их количеством.

In [15]:
# проверим корреляцию
corr = data[['Отправлено', 'Отписки']].corr().round(2)
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,Отправлено,Отписки
Отправлено,1.0,0.27
Отписки,0.27,1.0


Для трактовки силы связи между двумя наблюдаемыми величинами используется шкала Чеддока. Она определяет тесноту связи следующим образом:

* 0 – полное отсутствие связи;
* 0 – 0.3 – очень слабая;
* 0.3 – 0.5 – слабая;
* 0.5 – 0.7 – средняя;
* 0.7 – 0.9 – высокая;
* 0.9 – 1 – очень высокая.
* 1 – абсолютная взаимозависимость.

В данном случае корреляция 0,27 - очень слабая. Действительно нельзя сказать, что количество отписок связано только с количеством писем в рассылке.

In [16]:
#рассылки, после которых отписалось человек, меньше, чем 75% отписок
ur_sigm = 0.89 # среднее значение отписок по всем рассылккам
sigm_mail = data.loc[(data['ur'] < ur_sigm) ]
sigm_mail.describe()

Unnamed: 0,Год,Номер недели,День недели,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,delivery_rate,open_rate,ctor,ur
count,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0,177.0
mean,2021.4,26.79,3.51,1463583.25,1429305.77,194752.87,15705.41,34276.49,8806.61,97.62,13.74,8.11,0.6
std,0.49,17.37,1.39,592315.26,579774.19,91925.72,9154.03,20433.41,5036.33,1.08,3.28,2.62,0.23
min,2021.0,1.0,1.0,510034.0,499833.0,50529.0,1970.0,8136.0,1036.0,95.0,9.2,3.9,0.15
25%,2021.0,12.0,3.0,925705.0,907637.0,127471.0,9826.0,18417.0,4754.0,97.0,11.05,7.2,0.55
50%,2021.0,26.0,4.0,1502112.0,1457691.0,176109.0,13269.0,31744.0,7953.0,98.0,14.0,8.4,0.59
75%,2022.0,45.0,5.0,1956368.0,1917240.0,259110.0,19750.0,42147.0,11785.0,98.0,17.43,9.0,0.88
max,2022.0,52.0,6.0,2492076.0,2441118.0,436664.0,47292.0,118932.0,21833.0,98.5,18.0,12.0,0.89


Осталось 177 строк, чуть более 81% от общего числа рассылок.

In [17]:
#отфильтруем рассылки, которые лучше открывают
or_sigm = 17.43
sigm_mail = sigm_mail.loc[(sigm_mail['open_rate'] > or_sigm) ]
sigm_mail.describe()

Unnamed: 0,Год,Номер недели,День недели,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,delivery_rate,open_rate,ctor,ur
count,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0,29.0
mean,2021.45,26.31,3.24,1423064.93,1394283.62,249006.62,18514.41,28780.31,9191.69,97.97,17.88,7.76,0.62
std,0.51,18.46,1.66,661959.26,649098.9,115468.27,10180.73,14058.46,6177.06,0.44,0.23,2.5,0.24
min,2021.0,2.0,1.0,542459.0,534322.0,96177.0,5947.0,8136.0,1290.0,97.0,17.43,3.9,0.15
25%,2021.0,8.0,2.0,838103.0,821340.0,147841.0,11762.0,16762.0,4236.0,98.0,18.0,7.2,0.49
50%,2021.0,33.0,4.0,1470010.0,1425909.0,248536.0,15260.0,26204.0,7021.0,98.0,18.0,8.4,0.57
75%,2022.0,45.0,5.0,2054933.0,2013834.0,362490.0,26765.0,42147.0,13331.0,98.0,18.0,9.0,0.88
max,2022.0,52.0,6.0,2475420.0,2425911.0,436664.0,47262.0,51320.0,21833.0,98.5,18.0,12.0,0.89


Осталось 29 рассылок. Среднее число кликликабельности из открытых писем снизилось, максимум, минимум и медиана кликабельности не изменились. 

In [18]:
# отфильтруем рассылки, где активнее кликают
ctor_sigm = 9
sigm_mail = sigm_mail.loc[(sigm_mail['ctor'] > ctor_sigm) ]
sigm_mail.describe()

Unnamed: 0,Год,Номер недели,День недели,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,delivery_rate,open_rate,ctor,ur
count,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
mean,2021.25,30.0,3.25,1353752.0,1322399.75,233731.5,28047.25,31351.25,8389.25,97.75,17.71,12.0,0.65
std,0.5,13.64,0.96,796116.71,777680.45,135926.21,16311.26,20201.56,4149.24,0.5,0.33,0.0,0.15
min,2021.0,10.0,2.0,624983.0,612483.0,110247.0,13229.0,12499.0,3613.0,97.0,17.43,12.0,0.57
25%,2021.0,27.25,2.75,736438.25,721709.25,126666.75,15199.25,14728.0,6020.5,97.75,17.43,12.0,0.58
50%,2021.0,35.0,3.5,1242132.5,1208736.0,215411.5,25849.0,30793.0,8306.5,98.0,17.71,12.0,0.58
75%,2021.25,37.75,4.0,1859446.25,1809426.5,322476.25,38697.0,47416.25,10675.25,98.0,18.0,12.0,0.65
max,2022.0,40.0,4.0,2305760.0,2259644.0,393856.0,47262.0,51320.0,13331.0,98.0,18.0,12.0,0.88


Остались 4 рассылки, с максимальным ctor

In [19]:
sigm_mail

Unnamed: 0,Название рассылки,Название кампании,Направление,Месяц,Дата,Год,Номер недели,День недели,День недели.1,Время,Веб-версия,Тема письма,Сегмент,Отправлено,Доставлено,Открытия,Клики,Баунсы (Все ошибки),Отписки,delivery_rate,open_rate,ctor,ur
50,Название рассылки 144,Название кампании 144,Email,Август,2021-08-17,2021,33,2,02-вторник,12:04:00,#ССЫЛКА,Тема письма 144,Сегмент 2,2305760,2259644,393856,47262,46115,13331,98.0,17.43,12.0,0.58
55,Название рассылки 149,Название кампании 149,Email,Сентябрь,2021-09-16,2021,37,4,04-четверг,12:04:00,#ССЫЛКА,Тема письма 149,Сегмент 1,624983,612483,110247,13229,12499,3613,98.0,18.0,12.0,0.58
65,Название рассылки 158,Название кампании 158,Email,Октябрь,2021-10-06,2021,40,3,03-среда,12:04:00,#ССЫЛКА,Тема письма 158,Сегмент 3,1710675,1659354,298683,35842,51320,9790,97.0,18.0,12.0,0.57
200,Название рассылки 83,Название кампании 83,Email,Март,2022-03-10,2022,10,4,04-четверг,14:33:00,#ССЫЛКА,Тема письма 83,Сегмент 1,773590,758118,132140,15856,15471,6823,98.0,17.43,12.0,0.88


Основываясь на данных расчитанных выше можно казать, что лучшая тема для рассылки 158. При максимальной открываемости и равной кликабельности у нее самый низкий рейтинг отписок из оставшихся тем. 

**Лучший день недели (для планирования рассылок)**

In [20]:
# рассылки по дням недели
data['День недели'].value_counts().sort_values()

6     5
2    25
1    34
3    40
4    54
5    60
Name: День недели, dtype: int64

Больше всего рассылок отправлено в пятницу - 60 и четверг - 54, меньше всего в субботу - 5, в воскресенье рассылки не проводились.

In [21]:
# число писем по дням недели
data.groupby('День недели')\
  .agg({'Отправлено':['median','mean','min','max']})\
  .style.format("{:.2f}")

Unnamed: 0_level_0,Отправлено,Отправлено,Отправлено,Отправлено
Unnamed: 0_level_1,median,mean,min,max
День недели,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,1621765.0,1584478.26,542459.0,2478293.0
2,1271610.0,1414105.12,551502.0,2492076.0
3,1291406.5,1358124.15,510034.0,2451610.0
4,1626899.0,1580614.33,624983.0,2458586.0
5,1462671.0,1456354.8,553518.0,2470588.0
6,873732.0,1125324.0,566216.0,2010902.0


Меньше всего писем было в субботних рассылках, больше всего во вторник. 

In [22]:
# как отписывались по дням недели
data.groupby('День недели')\
  .agg({'ur':['median','mean','min','max']})\
  .style.format("{:.2f}")

Unnamed: 0_level_0,ur,ur,ur,ur
Unnamed: 0_level_1,median,mean,min,max
День недели,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,0.61,4.06,0.15,12.8
2,0.66,1.99,0.55,12.74
3,0.62,1.39,0.15,10.83
4,0.66,1.78,0.15,12.74
5,0.64,3.09,0.15,12.8
6,0.55,0.54,0.48,0.59


В среднем чаще всего отписываются от рассылок в пятницу и понедельник, реже в субботу и среду. По вторникам самое высокое минимальное значение отписок.

In [23]:
# в какие дни письма открывали
data.groupby('День недели')\
  .agg({'open_rate':['median','mean','min','max']})\
  .style.format("{:.2f}")

Unnamed: 0_level_0,open_rate,open_rate,open_rate,open_rate
Unnamed: 0_level_1,median,mean,min,max
День недели,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,11.05,13.59,9.2,18.0
2,11.05,13.49,9.2,20.0
3,14.41,14.33,9.2,20.0
4,14.0,13.7,9.2,18.0
5,12.51,13.66,9.2,18.0
6,14.41,13.8,9.2,18.0


Минимум одинаковый во все дни. Максимальная открываемость во вторник и среду. В среднем по окрываемости среда лидирует. В медиане среда и суббота.

In [24]:
# кликабельность по дням недели
data.groupby('День недели')\
  .agg({'ctor':['median','mean','min','max']})\
  .style.format("{:.2f}")

Unnamed: 0_level_0,ctor,ctor,ctor,ctor
Unnamed: 0_level_1,median,mean,min,max
День недели,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,8.4,8.14,3.9,12.0
2,9.0,8.98,3.9,12.0
3,8.4,8.01,3.9,12.0
4,8.4,7.91,3.9,12.0
5,8.4,8.13,3.9,12.0
6,8.4,6.84,3.9,9.0


В среднем и медианном значении лучше кликали по ссылкам в открытых письмах во вторник. Меньше всего в субботу.

Исходя из показателей кликабельности и отписок лучший день - среда. Перспективный день - суббота. 