<a href="https://colab.research.google.com/github/ElenaMtk/Projects_for_charity_organizations./blob/main/%22%D0%9D%D0%9A%D0%9E_%D0%B1%D0%BE%D0%BB%D1%8C%D0%BD%D0%B8%D1%86%D0%B0_%D1%81_%D0%B8%D0%B7%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F%D0%BC%D0%B8_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Исследование эффективности маркетингового подхода НКО "Благотворительная больница"



В ходе текущего исследования мы проанализируем эффективность маркетингового подхода НКО "Благотворительная больница" на основании данных о пожертвованиях и рекламных кампаниях за 2023год.

**Цель исследования** - используя имеющиеся "сырые" данные выявить любые инсайты и точки роста, которые могут быть полезны для планирования дальнейших рекламных кампаний НКО, а так же их деятельности в целом.

Учитывая, что данных очень мало и взяты они из различных источников, потребуется их качественная предобработка и подготовка перед проведение непосредственно исследования.

В связи с этим, исследование будет иметь несколько этапов:
1. Обзор данных и предобработка данных к анализу.
3. Исследовательский анализ данных.
4. Маркетинговый анализ данных
5. Составление рекомендаций для заказчика.


## 1.Обзор данных и предобработка данных.

Для начала загрузим и изучим имеющиеся у нас данные.

In [441]:
#импортируем необходимые библиотеки
import numpy as np
import pandas as pd
import datetime as dt
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

###1.1. Датасет "adgrants-charityhospital".

Этот датасет представляет собой выгрузку из личного кабинета Яндекс.Директ. При этом, здесь структурно размещены две таблицы.

***Первая таблица*** - это общие метрики и их значения: строки 2 и 3 в таблице.

*Вторая таблица* - это основная информация по каждой рекламной кампании.

При чтении файла учтем этот момент и сохраним разные данные в разные переменные, создав две таблицы для дальнейшей работы.

In [442]:
#прочитаем первые строки и сохраним их в переменную с названием metrics
metrics = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/adgrants-charityhospital.csv',
                      sep=';',
                      header=1,
                      nrows=1)

metrics

Unnamed: 0,Всего,Unnamed: 1,Ср.расход за день (руб.),Показы,Взвешенные показы,Клики,CTR (%),wCTR (%),Расход (руб.),Ср. цена клика (руб.),Ср. ставка за клик (руб.),Ср. позиция показов,Ср. объём трафика,Ср. позиция кликов,Отказы (%),Ср. цена тыс. показов (руб.),Глубина (стр.),Конверсия (%),Цена цели (руб.),Конверсии,Рентабельность,Доля рекламных расходов,Доход (руб.),Прибыль (руб.),Сумма ВC,Цена ВC (руб.),Доля ВC (%),Проигрывание 25% ролика,Проигрывание 50% ролика,Проигрывание 75% ролика,Проигрывание 100% ролика,Доля проигрываний 25% ролика (%),Доля проигрываний 50% ролика (%),Доля проигрываний 75% ролика (%),Доля проигрываний 100% ролика (%),Ср. цена досмотра 100% ролика (руб.),"Видимые показы, стандарт MRC","Невидимые показы, стандарт MRC","Неустановленные показы, стандарт MRC","Доля измеряемых показов, стандарт MRC (%)","Доля видимых показов, стандарт MRC (%)"
0,с 19.07.2022 по 19.07.2023,,546802,9853586,985358600,41243,42,42,82567064,2002,2915,-,10000,-,3705,8379,121,119,167819,492,-20,12461,66260000,-16307064,11255,733619,27,117682,83308,69513,62947,119,85,71,64,131169,7348,11157,0,10000,3971


Полученная таблица не очень удобна для работы. "Перевернем" ее и уберем столбцы "Всего" с указанием периола и "Unnamed" с пустой ячейкой.

In [443]:
#транспонируем таблицу, удалим ненужные (тепрь уже) строки
metrics = (metrics
           .T
           .drop(index=['Всего','Unnamed: 1'])
           .reset_index())

#дадим столбцам понятные значения
metrics.columns = ['metrics','values']

In [444]:
#посмотрим информацию о таблицу и саму таблицу
print(metrics.info())
metrics

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39 entries, 0 to 38
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   metrics  39 non-null     object
 1   values   39 non-null     object
dtypes: object(2)
memory usage: 752.0+ bytes
None


Unnamed: 0,metrics,values
0,Ср.расход за день (руб.),546802
1,Показы,9853586
2,Взвешенные показы,985358600
3,Клики,41243
4,CTR (%),042
5,wCTR (%),042
6,Расход (руб.),82567064
7,Ср. цена клика (руб.),2002
8,Ср. ставка за клик (руб.),2915
9,Ср. позиция показов,-


У нас имеется выгрузка по 39ти метрикам. При этом, можно заметить, что метрики `"Показы"/"Взвешенные показы"` и `"CTR"/"wCTR"` имеют одинаковые значения.
Вообще, взвешенные показы и "wCTR" - это метрики, скорректированные на объем трафика. Это полезные и важные показатели, но в нашем случае они не отличаются от обычных метрик.

Что бы в дальнейшем не создавать путаницы, удалим строки со взвешенными метриками.

Кроме того, значение метрик `"Ср. позиция показов"` и `"Ср. позиция кликов"` в таблице не отображено. Возможно, в настройках отчетности в личном кабинете не было установлено "галочки" возле этих метрик, поэтому информация о них в отчет не попала. Удалим эти строки тоже.

Так же, в столбце "values" данные хранятся не в числовом формате, приведем их к корректному типу для удобства дальнейшей работы с ними.

In [445]:
#удалим строки и поправим индексы
metrics = (metrics
          .drop(index=[2,5,9,11])
          .reset_index(drop=True)
          )

In [446]:
#заменим запятые на точки и приведем столбец VALUES к типу данных float
metrics['values'] = (metrics['values']
                     .astype('str')
                     .str
                     .replace(',','.')
                     .convert_dtypes())

Первая таблица готова. Теперь подготовим вторую таблицу по выгрузке с Яндекс.Директ.

In [447]:
#прочитаем таблицу, начиная с пятой строки и сохраним в переменную add_info
full_info = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/adgrants-charityhospital.csv',
                      sep=';',
                      skiprows=4)

#укажем, что все столбцы должны отображаться
pd.set_option('display.max_columns', None)
full_info.head()

Unnamed: 0,Дата,Кампания,№ Кампании,Метка,Условие показа,Пол,Уровень платежеспособности,Возраст,Показы,Взвешенные показы,Клики,CTR (%),wCTR (%),Расход (руб.),Ср. цена клика (руб.),Ср. ставка за клик (руб.),Ср. позиция показов,Ср. объём трафика,Ср. позиция кликов,Отказы (%),Ср. цена тыс. показов (руб.),Глубина (стр.),Конверсия (%),Цена цели (руб.),Конверсии,Рентабельность,Доля рекламных расходов,Доход (руб.),Прибыль (руб.),Сумма ВC,Цена ВC (руб.),Доля ВC (%),Проигрывание 25% ролика,Проигрывание 50% ролика,Проигрывание 75% ролика,Проигрывание 100% ролика,Доля проигрываний 25% ролика (%),Доля проигрываний 50% ролика (%),Доля проигрываний 75% ролика (%),Доля проигрываний 100% ролика (%),Ср. цена досмотра 100% ролика (руб.),"Видимые показы, стандарт MRC","Невидимые показы, стандарт MRC","Неустановленные показы, стандарт MRC","Доля измеряемых показов, стандарт MRC (%)","Доля видимых показов, стандарт MRC (%)"
0,15.01.2023,Команда#2 / Бот / СПб,82164908,без метки,благотворительность,не определен,Остальные,не определен,7,700,0,0,0,0,-,-,-,10000,-,-,0,-,-,-,-,-,-,0,0,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
1,15.01.2023,Команда#2 / Бот / СПб,82164908,без метки,благотворительность,не определен,Остальные,младше 18,4,400,0,0,0,0,-,-,-,10000,-,-,0,-,-,-,-,-,-,0,0,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
2,15.01.2023,Команда#2 / Бот / СПб,82164908,без метки,благотворительность,не определен,Остальные,18-24,2,200,0,0,0,0,-,-,-,10000,-,-,0,-,-,-,-,-,-,0,0,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
3,15.01.2023,Команда#2 / Бот / СПб,82164908,без метки,благотворительность,не определен,Остальные,25-34,1,100,0,0,0,0,-,-,-,10000,-,-,0,-,-,-,-,-,-,0,0,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
4,15.01.2023,Команда#2 / Бот / СПб,82164908,без метки,благотворительность,не определен,Остальные,35-44,1,100,0,0,0,0,-,-,-,10000,-,-,0,-,-,-,-,-,-,0,0,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


В полученной таблице 46 столбцов, при этом, в некоторых их них значения отсутствуют. Отсутвующие значения отмечены символом "-".

Для удобства дальнейшей работы, заменим этот символ на значение NaN (т.е.удалим значение, другими словами).

In [448]:
full_info = full_info.replace('-', np.nan)

Теперь проверим наличие явных дубликатов в датасете и удалим их при наличии.

In [449]:
#проверим наличие дубликатов
full_info.duplicated().sum()

25

In [450]:
#удалим дубликаты
full_info = full_info.drop_duplicates()

#Убедимся, что дубликатов больше нет
full_info.duplicated().sum()

0

Теперь изучим основную информацию о датасете.

In [451]:
full_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 307998 entries, 0 to 308022
Data columns (total 46 columns):
 #   Column                                     Non-Null Count   Dtype  
---  ------                                     --------------   -----  
 0   Дата                                       307998 non-null  object 
 1   Кампания                                   307998 non-null  object 
 2   № Кампании                                 307998 non-null  int64  
 3   Метка                                      307998 non-null  object 
 4   Условие показа                             307998 non-null  object 
 5   Пол                                        307998 non-null  object 
 6   Уровень платежеспособности                 307998 non-null  object 
 7   Возраст                                    307998 non-null  object 
 8   Показы                                     307998 non-null  int64  
 9   Взвешенные показы                          307998 non-null  object 
 10  Клики   

Таблица содержит 46 столбцов и 307998 строк.

При этом, есть ряд моментов, которые могут усложнить дальнейшую работу:
1. **Название столбцов содержат пробелы, запятые, точки и скобки** - заменим все пробелы на символ "_", удалим запятые, точки и скобки.
2.  **Присутствуют столбцы, в которых данные отсутствуют или встречаются крайне редко** - проанализируем каждый такой столбец и примем решение о его удалении из датасета.
3. **Почти во всех столбцах тип данных не соответствует содержащимся в них значениям** - скорректируем тип данных для тех столбцов, где это необходимо.



In [452]:
#заменим пробелы и запятые в названиях столбцов, уберем скобки, точки и запятые
full_info.columns = (full_info
                      .columns
                      .str.replace(' ', '_', regex=False)
                      .str.replace('.', '', regex=False)
                      .str.replace(',', '', regex=False)
                      .str.replace('(', '', regex=False)
                      .str.replace(')', '', regex=False)
                      .str.replace('_%', '', regex=False)
                      .str.replace('%', 'пр', regex=False))

In [453]:
full_info.columns

Index(['Дата', 'Кампания', '№_Кампании', 'Метка', 'Условие_показа', 'Пол',
       'Уровень_платежеспособности', 'Возраст', 'Показы', 'Взвешенные_показы',
       'Клики', 'CTR', 'wCTR', 'Расход_руб', 'Ср_цена_клика_руб',
       'Ср_ставка_за_клик_руб', 'Ср_позиция_показов', 'Ср_объём_трафика',
       'Ср_позиция_кликов', 'Отказы', 'Ср_цена_тыс_показов_руб', 'Глубина_стр',
       'Конверсия', 'Цена_цели_руб', 'Конверсии', 'Рентабельность',
       'Доля_рекламных_расходов', 'Доход_руб', 'Прибыль_руб', 'Сумма_ВC',
       'Цена_ВC_руб', 'Доля_ВC', 'Проигрывание_25пр_ролика',
       'Проигрывание_50пр_ролика', 'Проигрывание_75пр_ролика',
       'Проигрывание_100пр_ролика', 'Доля_проигрываний_25пр_ролика',
       'Доля_проигрываний_50пр_ролика', 'Доля_проигрываний_75пр_ролика',
       'Доля_проигрываний_100пр_ролика', 'Ср_цена_досмотра_100пр_ролика_руб',
       'Видимые_показы_стандарт_MRC', 'Невидимые_показы_стандарт_MRC',
       'Неустановленные_показы_стандарт_MRC',
       'Доля_измеряемых

Для того, что бы понять, какие столбцы имеет смысл оставлять для анализа, посмотрим, какая доля пропусков в каждом из них.

In [454]:
pd.DataFrame(round(full_info.isna().mean()*100,)).style.background_gradient('coolwarm')

Unnamed: 0,0
Дата,0.0
Кампания,0.0
№_Кампании,0.0
Метка,0.0
Условие_показа,0.0
Пол,0.0
Уровень_платежеспособности,0.0
Возраст,0.0
Показы,0.0
Взвешенные_показы,0.0


По полученной шкале хорошо заметно, что, несмотря на большое кол-во самих столбцов, большая часть данных отсутствует.

Столбцы, где доля пропусков составляет 97-100% не имеет смысл использовать для анализа, так как получается слишком маленькая выборка.

Так же мы уже определили, что взвешенные метрики имеют одинаковые значения с метриками, нескорректированными на трафик, а потому не имеет смысл оставлять столбцы с дублированными данными.

 Таким образом, следующие столбцы будут удалены из таблицы:
 - 'Взвешенные_показы';
 - 'wCTR';
 - 'Ср_позиция_показов';
 - 'Ср_позиция_кликов';
 - 'Отказы_%';
 - 'Цена_цели_руб',
 - 'Рентабельность',
 - 'Доля_рекламных_расходов';
 - 'Сумма_ВC',
 - 'Цена_ВC_руб',
 - 'Доля_ВC_%';
 - 'Ср_цена_досмотра_100%_ролика_руб';
 - 'Видимые_показы_стандарт_MRC';
 - 'Невидимые_показы_стандарт_MRC';
 - 'Неустановленные_показы_стандарт_MRC',
 - 'Доля_измеряемых_показов_стандарт_MRC_%',
 - 'Доля_видимых_показов_стандарт_MRC_%'.

Столбец 'Конверсии', несмотря на очень маленькое кол-во данных в них, оставим. Так как отсутствие значения в столбце Конверсия - это отсутствие конверсии, важный для анализа показатель.

Для этих столбцов заполним пропуски значением "0".



In [455]:
#приведем столбец с датой к типу datetime
full_info['Дата'] = (pd.to_datetime(full_info['Дата'], format="%d.%m.%Y"))
full_info['Конверсии'] = full_info['Конверсии'].astype('float')

In [456]:
full_info = full_info.drop(full_info.columns[[9, 12, 16, 18, 19, 21, 22, 23, 25, 26, 29, 30, 31, 40, 41, 42, 43, 44, 45]],
                           axis= 1)

In [457]:
full_info['Конверсии'] = full_info['Конверсии'].fillna(0)

Теперь в таблице остались только те столбы, в которых присутствует хотя бы 10% значений.

Однако, можно заметить, что в столбце "Доходы", хоть нет пропусков, встречается в основном значение "0". Похоже на то, что эта метрика не была настроена в Личном кабинете корректно. А значит, нет смысла анализировать ее и все производные от дохода метрики нельзя считать корректными.

 <span style="color:red">***!! Стоит дополнительно обратить внимание заказчика на этот момент. Возможно, есть смысл  разобраться в настройках для того, что бы получать более качественные данные для последующего анализа!! ***</span>



In [458]:
full_info['Доход_руб'].value_counts()

0,00         307960
200,00           20
30200,00          8
400,00            3
600,00            2
301800,00         1
100200,00         1
1000,00           1
1400,00           1
10200,00          1
Name: Доход_руб, dtype: int64

Всего 38 строк из 307998 имеют значения, отличные от 0. С большой долей вероятности, наша гипотеза о настройках этой метрики верна.

Значит, этот столбец, а так же столбец "Прибыль" (так как значения в нем рассчитываются на основании данных из Дохода) так же удаляем из датасета.

In [459]:
full_info = full_info.drop (['Доход_руб',	'Прибыль_руб'], axis= 1)

Осталось поменять тип данных в столбцах с датой и маркетинговыми метриками (столбцы 10-23).

In [460]:
#приведем столбец с датой к типу datetime
full_info['Дата'] = (pd.to_datetime(full_info['Дата'], format="%d.%m.%Y"))

In [461]:
full_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 307998 entries, 0 to 308022
Data columns (total 25 columns):
 #   Column                          Non-Null Count   Dtype         
---  ------                          --------------   -----         
 0   Дата                            307998 non-null  datetime64[ns]
 1   Кампания                        307998 non-null  object        
 2   №_Кампании                      307998 non-null  int64         
 3   Метка                           307998 non-null  object        
 4   Условие_показа                  307998 non-null  object        
 5   Пол                             307998 non-null  object        
 6   Уровень_платежеспособности      307998 non-null  object        
 7   Возраст                         307998 non-null  object        
 8   Показы                          307998 non-null  int64         
 9   Клики                           307998 non-null  int64         
 10  CTR                             307998 non-null  object 

In [462]:
#циклом заменим запятую на точку и тип данных в каждом столбце

for number in range(10,16):
  full_info[full_info.columns[number]] = (full_info[full_info.columns[number]]
                                          .str
                                          .replace(',','.')
                                          .astype('float'))

for number in range(17,25):
  full_info[full_info.columns[number]] = (full_info[full_info.columns[number]]
                                          .str
                                          .replace(',','.')
                                          .astype('float'))



In [463]:
full_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 307998 entries, 0 to 308022
Data columns (total 25 columns):
 #   Column                          Non-Null Count   Dtype         
---  ------                          --------------   -----         
 0   Дата                            307998 non-null  datetime64[ns]
 1   Кампания                        307998 non-null  object        
 2   №_Кампании                      307998 non-null  int64         
 3   Метка                           307998 non-null  object        
 4   Условие_показа                  307998 non-null  object        
 5   Пол                             307998 non-null  object        
 6   Уровень_платежеспособности      307998 non-null  object        
 7   Возраст                         307998 non-null  object        
 8   Показы                          307998 non-null  int64         
 9   Клики                           307998 non-null  int64         
 10  CTR                             307998 non-null  float64

Теперь обе таблицы готовы к проведению исследования.

Подготовим остальные данные.

### 1.2. Датасет "donors".

In [464]:
#считаем данные и сохраним в переменную donors
donors = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/donors.xlsx')

donors.head()

Unnamed: 0,ID,Тип донора,Дата первого пожертвования,Сумма первого пожертвования,Кампания первого пожертвования,Метки донора,Кампании,Платёжные операторы,Дата последнего пожертвования,Сумма последнего пожертвования,Кампания последнего пожертвования,Общая сумма пожертвований,Валюта,Код
0,833,разовый,"21.06.2023, 18:43",3000.0,На уставную деятельность и содержание организации,,На уставную деятельность и содержание организации,MIXPLAT,"21.06.2023, 18:43",3000.0,На уставную деятельность и содержание организации,3000,₽,2285
1,832,постоянный,"20.06.2023, 16:36",500.0,На уставную деятельность и содержание организации,,На уставную деятельность и содержание организации,MIXPLAT,"20.06.2023, 16:40",500.0,На уставную деятельность и содержание организации,500,₽,2286
2,831,постоянный,"20.06.2023, 10:39",500.0,На уставную деятельность и содержание организации,,На уставную деятельность и содержание организации,MIXPLAT,"20.06.2023, 10:39",500.0,На уставную деятельность и содержание организации,500,₽,1479
3,830,разовый,"20.06.2023, 09:09",1000.0,На уставную деятельность и содержание организации,,На уставную деятельность и содержание организации,MIXPLAT,"20.06.2023, 09:09",1000.0,На уставную деятельность и содержание организации,1000,₽,2288
4,829,постоянный,"19.06.2023, 23:03",100.0,На уставную деятельность и содержание организации,,На уставную деятельность и содержание организации,MIXPLAT,"19.06.2023, 23:03",100.0,На уставную деятельность и содержание организации,100,₽,2289


In [465]:
#изучим информацию о датасете
donors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 813 entries, 0 to 812
Data columns (total 14 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ID                                 813 non-null    int64  
 1   Тип донора                         813 non-null    object 
 2   Дата первого пожертвования         795 non-null    object 
 3   Сумма первого пожертвования        795 non-null    float64
 4   Кампания первого пожертвования     795 non-null    object 
 5   Метки донора                       0 non-null      float64
 6   Кампании                           795 non-null    object 
 7   Платёжные операторы                795 non-null    object 
 8   Дата последнего пожертвования      795 non-null    object 
 9   Сумма последнего пожертвования     795 non-null    float64
 10  Кампания последнего пожертвования  795 non-null    object 
 11  Общая сумма пожертвований          813 non-null    int64  

Датасет состоит из 14 столбцов и содержит 813 строк.

Для подготовки данных исправим следующие проблемы:
- **пробелы в названиях столбцов** - заменим на символ "_";
- **в столбце "Метки донора" отсутствуют все значения** - удалим этот столбец из датасета;
- **данные о датах переводов хранятся в некорректном формате** - преобразуем их в тип datetime;
- проверим данные на наличие явных и неявных дубликатов.
- создадим дополнительный столбец с разницей между первый и последним платежом;
- создадим отдельные столбцы с датой и временем первого платежа и последнего платежа(по этим датам попробуем отследить зависимость между пожертвованиями и рекламными акциями);
- создадим отдельный столбец с информацией о дне недели, когда был сделан платеж.


In [466]:
#внесем изменения в названия столбцов
donors.columns = (donors.columns.str.replace(' ', '_', regex=False))

In [467]:
#удалим столбец "Метки донора", который не содержит данных
donors = donors.drop(['Метки_донора'], axis= 1)

In [468]:
#преобразуем тип данных в столбцах с датой
for name in ['Дата_первого_пожертвования', 'Дата_последнего_пожертвования']:
  donors[name] = (donors[name].str.replace(',',' '))
  donors[name] = pd.to_datetime(donors[name], format="%d.%m.%Y %H:%M")

Теперь проверим данные на наличие дубликатов.

In [469]:
#поверим наличие явных дубликатов
donors.duplicated().sum()

0

Явных дубликатов нет. Проверим столбцы с текстовыми значениями на наличие неявных дубликатов: ошибок/опечаток или различающегося написания одних данных.

In [470]:
#выведем уникальные значения каждого из столбцов
for column in ['Тип_донора', 'Кампания_первого_пожертвования', 'Кампании', \
               'Платёжные_операторы', 'Кампания_последнего_пожертвования', 'Валюта']:

               print('Список уникальных значений из столбца', column, "\n" , donors[column].value_counts())
               print('')
               print('- - - - - - - - - - - - - ')

Список уникальных значений из столбца Тип_донора 
 разовый       666
постоянный    147
Name: Тип_донора, dtype: int64

- - - - - - - - - - - - - 
Список уникальных значений из столбца Кампания_первого_пожертвования 
 На уставную деятельность и содержание организации    792
#Больничкабежит                                        3
Name: Кампания_первого_пожертвования, dtype: int64

- - - - - - - - - - - - - 
Список уникальных значений из столбца Кампании 
 На уставную деятельность и содержание организации                     791
#Больничкабежит                                                         3
#Больничкабежит, На уставную деятельность и содержание организации      1
Name: Кампании, dtype: int64

- - - - - - - - - - - - - 
Список уникальных значений из столбца Платёжные_операторы 
 MIXPLAT                        765
MIXPLAT, Сбербанк Эквайринг     16
MIXPLAT, Квитанции               8
Сбербанк Эквайринг               6
Name: Платёжные_операторы, dtype: int64

- - - - - - - - - - -

Опечаток и ошибок в данных нет.

По полученным данным можно заметить, что практически все плательщики отправляли пожертвования в рамках установленной плагином Лейка(на сайте НКО) кампании `"На уставную деятельность и содержание организации"`. Есть так же единичные значения `"#Больничкабежит"`. Однако, их количество крайне мало для практической пользы в анализе. Таким образом, оставлять эти столбцы для дальнейшего анализа не имеет смысла, так как назначение/кампания всех платежей одинаковы.

При этом, стобец "Кампании" аккумулирует информацию из столбцов "Кампания_первого_пожертвования" и "Кампания_последнего пожертвования", а в столбце "Валюта" единственный для всех строк вариант - символ рубля.

В связи с этим:
- удалим столбцы "Кампания_первого_пожертвования", "Кампания_последнего пожертвования", "Кампании" и "Валюта"

Кроме того, во всех столбцах есть строки, где значения отсутсвуют. Посмотрим, совпадают ли они для каждого из столбцов.

In [471]:
#удаляем столбцы
donors = donors.drop(['Кампания_первого_пожертвования', 'Кампании', 'Кампания_последнего_пожертвования', 'Валюта'], axis= 1)

In [472]:
#проверим строки с отсутствующими значениями
donors.query('Платёжные_операторы.isna()')

Unnamed: 0,ID,Тип_донора,Дата_первого_пожертвования,Сумма_первого_пожертвования,Платёжные_операторы,Дата_последнего_пожертвования,Сумма_последнего_пожертвования,Общая_сумма_пожертвований,Код
155,677,разовый,NaT,,,NaT,,0,2440
156,676,разовый,NaT,,,NaT,,0,1928
178,654,разовый,NaT,,,NaT,,0,2463
193,639,разовый,NaT,,,NaT,,0,1857
252,580,разовый,NaT,,,NaT,,0,2049
301,531,разовый,NaT,,,NaT,,0,2586
304,528,разовый,NaT,,,NaT,,0,2589
315,517,разовый,NaT,,,NaT,,0,1980
327,505,разовый,NaT,,,NaT,,0,2612
420,407,разовый,NaT,,,NaT,,0,2705


В таблице есть строки, в которых отсутствют какие-либо значение, вообще. Эти данные непригодны для анализа, поэтому удалим эти строки.

**!!Можно дополнительно уточнить, пок акой причине эти данные не прогрузились. Возможно, данные потерялись при выгрузке из системы. Но, возможно, это ошибки при проведении платежей по типу "платеж не прощшел", "сбой страницы при оплате" и прочие технические сложности на сайте.**

**Если это так, то нужно разобраться и минимизирвоать такие случаи, что бы не потерять тех, кто желает пожертвовать деньги, но технически не может это сделать!!**

In [473]:
#оставляем в таблице только те данные, где есть инфо по платежным операторам
donors = donors.query('Платёжные_операторы.notna()').reset_index(drop=True)

In [474]:
donors.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 795 entries, 0 to 794
Data columns (total 9 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   ID                              795 non-null    int64         
 1   Тип_донора                      795 non-null    object        
 2   Дата_первого_пожертвования      795 non-null    datetime64[ns]
 3   Сумма_первого_пожертвования     795 non-null    float64       
 4   Платёжные_операторы             795 non-null    object        
 5   Дата_последнего_пожертвования   795 non-null    datetime64[ns]
 6   Сумма_последнего_пожертвования  795 non-null    float64       
 7   Общая_сумма_пожертвований       795 non-null    int64         
 8   Код                             795 non-null    int64         
dtypes: datetime64[ns](2), float64(2), int64(3), object(2)
memory usage: 56.0+ KB


Теперь в таблице только строки, в которых содержатся данные.

Осталось добавить дополнительные столбцы.

Для того, что бы не путать названия столбцов, переименуем столбец 'Дата_первого_пожертвования' в `'Первое_пожертвование'`, а 'Дата_последнего_пожертвования' в `'Последнее_пожертвование'`.

Так же, для лучшего визуального восприятия таблицы переименуюм столбцы:
- `Сумма_первого_пожертвования` в "Первая_сумма"
- `Сумма_последнего_пожертвования` в "Последняя_сумма"
- `Общая_сумма_пожертвований` в "Общая_сумма"

In [475]:
#переименуем столбцы
donors = donors.rename(columns={'Дата_первого_пожертвования':'Первое_пожертвование',
                                'Дата_последнего_пожертвования':'Последнее_пожертвование',
                                'Сумма_первого_пожертвования':'Первая_сумма',
                                'Сумма_последнего_пожертвования':'Последняя_сумма',
                                'Общая_сумма_пожертвований':'Общая_сумма'})

In [476]:
#добавим новые столбцы только с датой и только со временем
donors['Первая_дата'] = donors['Первое_пожертвование'].dt.date
donors['Первое_время_часы'] = donors['Первое_пожертвование'].dt.hour
donors['Первый_день_недели'] = donors['Первое_пожертвование'].dt.weekday

donors['Последняя_дата'] = donors['Последнее_пожертвование'].dt.date
donors['Последнее_время_часы'] = donors['Последнее_пожертвование'].dt.hour
donors['Последний_день_недели'] = donors['Последнее_пожертвование'].dt.weekday

#добавим столбец с кол-вом дней междй последним и первым платежом
donors['Дни_между_платежами'] = ((donors['Последнее_пожертвование'] - donors['Первое_пожертвование'])
                                 .dt
                                 .days)

### 1.3. Датасет "clients".

In [477]:
#считаем данные и сохраним в переменную clients
clients = pd.read_excel('/content/drive/MyDrive/Colab Notebooks/clients.xlsx')

clients.head(30)

Unnamed: 0,id,Первый платеж,Подписки вкл,Подписки выкл,Типы оплаты,Платежей за год,Сумма за год,Средний платеж в год,Всего платежей,Сумма всего,Средний платеж,Сумма за месяц,Страны,Регионы,Последний платеж,код
0,707634,2021-12-28 16:54:52,0,0,карта,0,0,0.0,0,0,0,0,,,2021-12-28 16:54:52,1118
1,789437,2022-03-12 00:16:40,0,0,карта,0,0,0.0,0,0,0,0,,,2022-03-12 00:16:40,1119
2,1078426,2022-11-23 12:55:04,0,0,,0,0,0.0,0,0,0,0,,,2022-11-23 12:55:04,1120
3,1078667,2022-11-23 16:28:46,0,0,,1,500,500.0,1,500,500,0,Россия,Ленинградская обл.,2022-11-23 16:28:46,1121
4,708416,2021-12-29 17:04:26,0,0,карта,1,1000,1000.0,1,1000,1000,0,Россия,Кунене,2021-12-29 17:04:26,1122
5,1077969,2022-11-22 22:30:19,0,0,,0,0,0.0,0,0,0,0,,,2022-11-22 22:32:33,1123
6,709306,2021-12-31 08:53:56,0,0,карта,1,1000,1000.0,1,1000,1000,0,Россия,Бамиан,2021-12-31 08:53:56,1124
7,709438,2021-12-31 17:11:20,0,0,карта,1,300,300.0,1,300,300,0,Россия,Москва,2022-10-05 09:51:42,1125
8,710192,2022-01-04 12:02:12,0,0,карта,1,500,500.0,1,500,500,0,Россия,Cuando Cubango,2022-01-04 12:02:12,1126
9,1028279,2022-10-16 01:18:05,1,0,карта,2,600,300.0,2,600,300,0,Россия,Санкт-Петербург,2022-11-16 01:18:04,1127


In [478]:
#изучим основную информацию о датасете
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1166 entries, 0 to 1165
Data columns (total 16 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id                    1166 non-null   int64         
 1   Первый платеж         1166 non-null   datetime64[ns]
 2   Подписки вкл          1166 non-null   int64         
 3   Подписки выкл         1166 non-null   int64         
 4   Типы оплаты           998 non-null    object        
 5   Платежей за год       1166 non-null   int64         
 6   Сумма за год          1166 non-null   int64         
 7   Средний платеж в год  1166 non-null   object        
 8   Всего платежей        1166 non-null   int64         
 9   Сумма всего           1166 non-null   int64         
 10  Средний платеж        1166 non-null   object        
 11  Сумма за месяц        1166 non-null   int64         
 12  Страны                922 non-null    object        
 13  Регионы           

В таблице clients 1166 строк и 16 столбцов. В некоторых ячейках данные отсутствуют.

В рамках предобработки данных исправим:
- **пробелы в названиях столбцов** - заменим на символ "_";
- поверим данные на наличие дубликатов;
- **в столбцах "Средний платеж в год" и "Средний платеж" данные хранятся в некорректном формате** - преобразуем в числовой формат;
- определим, какие столбцы нужны для дальнейшей работы, а какие не имеют достаточно данных;
- добавим столбцы с указанием только даты платежей без времени, с временем отдельно, с указанием дня недели и кол-вом дней между платежами.

In [479]:
#внесем изменения в названия столбцов
clients.columns = (clients.columns.str.replace(' ', '_'))

In [480]:
#проверим данные на наличие явных дубликатов
clients.duplicated().sum()

0

Явных дубликастов в данных нет.

Перед преобразованием данных в столбцах "Средний платеж в год" и "Средний платеж" проверим, есть ли необходимость, как в предыдущих датасетах, заименить "," на точку ".".

In [481]:
#ввыедем список уникальных значений столбца
clients['Средний_платеж'].unique()

array([0, 500, 1000, 300, 50, 200, 220, 350, 100, 59, 3000, 5000, 450,
       10000, 700, 30000, '53.33', 400, 1050, 2000, 800, 150, 750, 155,
       '422.22', 1800, 4500, 4750, 2890, 600, 1500, 1300, 555, '242.85',
       243, 11500, '136.36', 1250, 250, '833.33', 55, '50.33', '50.62',
       470, 1499, '1058.82', 20, 13000, 27500, '538.46', '261.53',
       '311.11', 108, 75, 325, 125, '1285.71', 5500, 550, 17500, 19,
       '9173.33', '666.66', 340, 246, 6500, 175, 650, '487.5', '437.5',
       '2888.88', 960, 510, 900, 548, 443, 375, '766.66', 475, '333.33',
       '862.5', '192.85', 310, 1100, '122.22', 50000, 2500, 199, 160,
       25000, 14, 17000, '143.75', 725, '313.33', 3800, '36.66', 10, 280,
       525, 4600, 25500, '390.9', 12500, '58.33', '46.75', 3500, 275,
       '5333.33', '587.5', 49, 270, datetime.datetime(2023, 5, 12, 0, 0),
       12000, 30, 2450, '310.52', '126.2', 7000, 2200], dtype=object)

Все числа представленны в корректном формате, но есть одно значение, которое является датой. Проверим, что это за ошибка.

In [482]:
h = dt.datetime(2023, 5, 12, 0, 0)
clients.query('Средний_платеж == @h')

Unnamed: 0,id,Первый_платеж,Подписки_вкл,Подписки_выкл,Типы_оплаты,Платежей_за_год,Сумма_за_год,Средний_платеж_в_год,Всего_платежей,Сумма_всего,Средний_платеж,Сумма_за_месяц,Страны,Регионы,Последний_платеж,код
1104,1462173,2023-05-07 21:30:53,0,0,"карта,терм,СБП",2,25,2023-05-12 00:00:00,2,25,2023-05-12 00:00:00,0,Россия,Санкт-Петербург,2023-05-07 21:36:26,2222


В одной из строк "Средние платежи" имеют значение даты. Это ошибка, исправим ее и внесем в эти ячейки корректные значения.

Рассчитаем их путем деления значения столбца "Сумма" на кол-во платеже за период.

In [483]:
#заменим некорректные значения и сразу преобразуем данные в столбце в тип float
for cell in ['Средний_платеж_в_год', 'Средний_платеж']:
    clients.loc[clients[cell] == h, cell] = \
        clients.loc[clients['Средний_платеж'] == h,'Сумма_всего']/ clients.loc[clients['Средний_платеж'] == h,'Всего_платежей']

    clients[cell] = clients[cell].astype('float')

Теперь посмотрим, из каких стран совершаются пожертвования.

In [484]:
#выведем список уникальных значений столбца Страны
clients['Страны'].unique()

array([nan, 'Россия', 'Нидерланды\nРоссия\nСША', 'Россия\nСША',
       'Нидерланды', 'Чехия', 'Белоруссия', 'США', 'Латвия', 'Грузия',
       'Швеция', 'Сингапур', 'Латвия\nРоссия', 'Германия',
       'США\nФинляндия', 'Россия\nСербия\nСША', 'Финляндия', 'Венгрия',
       'Нидерланды\nРоссия', 'Франция', 'Армения', 'Канада', 'ОАЭ',
       'Литва', 'Германия\nРоссия', 'Россия\nЭстония', 'Турция',
       'Швейцария', 'Вьетнам', 'Греция\nРоссия\nСША', 'Испания',
       'Казахстан', 'Румыния', 'Великобритания',
       'Нидерланды\nРоссия\nФинляндия', 'Киргизия', 'Сербия', 'Польша',
       'Монголия', 'Россия\nВеликобритания', 'Дания\nРоссия\nСША',
       'США\nТурция', 'США\nЭстония', 'Болгария\nКазахстан', 'Эстония',
       'Кипр', 'Шри-Ланка', 'Италия', 'Австрия', 'Аргентина', 'Бельгия',
       'Япония', 'Израиль', 'Португалия', 'ндия Индия', 'Россия\nТаиланд',
       'Германия\nСША', 'Россия\nШвейцария', 'ОАЭ\nЭстония', 'Таиланд',
       'Белоруссия\nРоссия', 'Германия\nНидерланды\nРосс

На полученных данных можноу видеть, что некоторые люди, перечисляющие пожертвования, совершают платежи из разных стран.

Этому может быть разные объяснения. С большой долей вероятности, учитывая политическую и экономическую ситуацию в мире, можно предположить, что люди совершают пожертвования, не выключив при этом VPN.

Однако, не исключено, что человенк перемещается в течении времени, когда делает донаты.

В любом из случаев, кажется логичным предположение, что если среди стран указана "Россия", то с большей долей вероятности пожертвования совершал россиянин (через VPN или во время перемещений по миру).

В связи с этим, для удобства анализа, для всех ячеек, где среди стран есть Россия, мы оставим только одно значение "Россия".

Для остальных стран оставим только страну, указанную первой.

Так же, исправим опечатку в ячейке с названием "ндия Индия" - заменим на "Индия".



In [485]:
def set_country(country):
  '''функция принимает столбец и прооверяет значение в ячейке.
  Если в ячейке попадается слово "Россия", то функция возвращает его в качестве
  единственного значения в ячейке.
  Если в ячейке "ндия Индия", то функция возвращаетс "Индия".
  Если в строке встречается комбинация "\n", то функция оставляет только первую страну.
  '''

  if 'Россия' in country:
    return 'Россия'
  if 'ндия' in country:
    return 'Индия'
  if '\n' in country:
    return country.partition('\n')[0]
  else:
    return country


In [486]:
#применим функцию к строкам в столбце Страны, где нет пропусков
clients.loc[clients['Страны'].notna(), 'Страны'] = clients.loc[clients['Страны'].notna(), 'Страны'].apply(set_country)

In [487]:
#проверим, все ли корректно было исправлено.
clients['Страны'].unique()

array([nan, 'Россия', 'Нидерланды', 'Чехия', 'Белоруссия', 'США',
       'Латвия', 'Грузия', 'Швеция', 'Сингапур', 'Германия', 'Индия',
       'Венгрия', 'Франция', 'Армения', 'Канада', 'ОАЭ', 'Литва',
       'Турция', 'Швейцария', 'Вьетнам', 'Испания', 'Казахстан',
       'Румыния', 'Великобритания', 'Киргизия', 'Сербия', 'Польша',
       'Монголия', 'Болгария', 'Эстония', 'Кипр', 'Шри-Ланка', 'Италия',
       'Австрия', 'Аргентина', 'Бельгия', 'Япония', 'Израиль',
       'Португалия', 'Таиланд', 'ЮАР'], dtype=object)

Теперь для каждого клиента определена одна страна.

В таблице так же есть столбец "Регионы". Посмотрим, какие значения присутствуют в здесь.


In [488]:
clients['Регионы'].unique()

array([nan, 'Ленинградская обл.', 'Кунене', 'Бамиан', 'Москва',
       'Cuando Cubango', 'Санкт-Петербург', 'Бие',
       'Арагацотнская область', 'Святой Георгий', 'Красноярский край',
       'Северная Голландия', 'Кандагар\nПриморский край',
       'Свердловская обл.', 'Минская область', 'Армавир', 'Корча',
       'Смоленская обл.', 'Рига', 'Нижняя Карталиния', 'Тбилиси',
       'Джаузджан', 'Кабул', 'Лен Стокгольм', 'Влёра',
       'Архангельская обл.', 'Кунене\nСанкт-Петербург', 'Айбак',
       'Кабинда\nРига', 'Кунене\nЛенинградская обл.', 'Дибра',
       'Cuando Cubango\nМосква', 'Кукес', 'Хост', 'Ла-Масана', 'Лори',
       'Кунене\nПсковская обл.', 'Пактия', 'Сент-Джон',
       'Кунене\nТверская обл.', 'Арарат', 'Бенго', 'Уусимаа', 'Тирана',
       'Татарстан', 'Кунене\nХакасия', 'Барбуда\nКурская обл.',
       'Сюникская область', 'Ереван', 'Святой Марии\nОмская обл.',
       'Cuando Cubango\nМосковская обл.\nМосква', 'Кунене\nМосква',
       'Урузган', 'Парван', 'Сюникская обл

С регионами ситуация похожая на ситуацию со столбцов "Страны". Для многих плательщиков указано несколько регионов. При чем, для некоторых указаны комбинации регионов из разных стран. Причиной может быть та же проблоема с платежами через включенный VPN.

Что бы проанализировать ситуацию по регионам оставим в каждой строке по одному названию:
- для строк, в которых присутствует "Санкт-Петербург",
 "Московская обл", "Ленинградская обл" и "Москва" оставим только эти значения по аналогии с вышеописанным алгоритмом замены значений на "Россиия" в столбце "Страны";
- для остальных строк укажем последний регион из списка (так как в большинстве случаев последний регион больше похож на корректное название. Например, `'Кунене\nМинская область'`).

In [489]:
#зададим функцию
def set_region(region):

  if 'Ленинградская обл' in region:
    return 'Ленинградская обл'
  if 'Санкт-Петербург' in region:
    return 'Санкт-Петербург'
  if 'Москва' in region:
    return 'Москва'
  if 'Московская обл' in region:
    return 'Московская обл'
  if '\n' in region:
    return region.partition('\n')[-1]
  else:
    return region

In [490]:
#применим функцию к строкам, в которых присутствуют значения
clients.loc[clients['Регионы'].notna(), 'Регионы'] = clients.loc[clients['Регионы'].notna(), 'Регионы'].apply(set_region)

Можно так же заметить, что в столбце "Регионы" иногда попадаются значения, не соответствующие Стране. Например, для клиентов из России указаны регионы Кунене, Святой Георгий, Арагацотнская область. Это некорректная информация, обратим на это внимание при исследовании географии платежей.

**Для проведения будущих исследований можно более детально изучить насройки выгрузки и проведения платежей, что бы понять, как формируется информация о регионах. Для НКО корректная разбивка по регионам может быть полезна. Такую информацию можно дополнительно анализировать, определив наиболее платежеспособные области и регионы и скорректировать рекламные кампании.**

Так же у нас нет точной информации относительно столбцов "Платежей за год", "Сумма за год" и "Средний платеж в год".
Неизвестно, какой год имеется ввиду - календарный, год с момента первого платежа или иной показатель.

В нашем случае актуальнее использовать для анализа столбцы "Всего_платежей", "Сумма всего" и "Средний платеж". Так как эти столбцы охватывают период, между датами первого и последнего платежа.

**Эту информацию так же было бы хорошо дополнительно уточнить, так как она может быть полезна для проведения статистического анализа**

Кроме того, столбец 'Сумма_за_месяц', как будто, содержит только значение "0".

Проверим.

In [491]:
#выведем список уникальных значений из столбца
clients['Сумма_за_месяц'].unique()

array([0])

Гипотеза подтвердилась, в столбце 'Сумма_за_месяц' присутствует только одно значение - 0.

Такие данные нам для анализа не будут полезными.

Таким образом, уберем из таблицы следующие столбцы:
- Платежей_за_год,
- Сумма_за_год,
- Средний_платеж_в_год,
- Сумма_за_месяц

А столбец "Дата_первого_платежа", с указанием даты без времени, создадим.

In [492]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1166 entries, 0 to 1165
Data columns (total 16 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id                    1166 non-null   int64         
 1   Первый_платеж         1166 non-null   datetime64[ns]
 2   Подписки_вкл          1166 non-null   int64         
 3   Подписки_выкл         1166 non-null   int64         
 4   Типы_оплаты           998 non-null    object        
 5   Платежей_за_год       1166 non-null   int64         
 6   Сумма_за_год          1166 non-null   int64         
 7   Средний_платеж_в_год  1166 non-null   float64       
 8   Всего_платежей        1166 non-null   int64         
 9   Сумма_всего           1166 non-null   int64         
 10  Средний_платеж        1166 non-null   float64       
 11  Сумма_за_месяц        1166 non-null   int64         
 12  Страны                922 non-null    object        
 13  Регионы           

In [493]:
#удалим столбцы
clients = clients.drop(clients.columns[[5,6,7,11]], axis= 1)

In [494]:
#создадим стобец с датой

#добавим новые столбцы только с датой и только со временем
clients['Дата_первого_платежа'] = clients['Первый_платеж'].dt.date
clients['Время_первого_платежа'] = clients['Первый_платеж'].dt.hour
clients['День_первого_платежа'] = clients['Первый_платеж'].dt.weekday

#donors['Дата_последнего_пожертвования'] = pd.to_datetime([d.date() for d in donors['Последнее_пожертвование']])
clients['Дата_последнего_платежа'] = clients['Последний_платеж'].dt.date
clients['Время_последнего_платежа'] = clients['Последний_платеж'].dt.hour
clients['День_последнего_платежа'] = clients['Последний_платеж'].dt.weekday


#clients['Дата_первого_платежа'] = pd.to_datetime(clients['Первый_платеж'].dt.date)

Помимо столбцов, непригодных для анализа, в таблице встречаются строки, где все показатели равны 0. Похожая ситуация была в таблице donors, только там значения в принципе отсутствовали.

Удалим эти строки, так как в них нет данных для анализа.

**Для заказчика аналогичные рекомендации - попробовать выяснить причины появления этих строк.**

In [495]:
#зададим список строк, в которых все значения равны нулю
index = (clients
         .loc[(clients[['Всего_платежей', 'Сумма_всего', 'Средний_платеж']] == 0)
             .all(axis=1)]
         .index)

In [496]:
#исключим из датасета эти строки
clients = clients.drop(index).reset_index(drop=True)

Так же, как для таблицы donors добавим столбец с указанием кол-ва дней между платежами.

In [497]:
#добавим столбец с кол-вом дней междй последним и первым платежом
clients['Дни_между_платежами'] = ((clients['Последний_платеж'] - clients['Первый_платеж'])
                                 .dt
                                 .days)

In [498]:
clients.head()

Unnamed: 0,id,Первый_платеж,Подписки_вкл,Подписки_выкл,Типы_оплаты,Всего_платежей,Сумма_всего,Средний_платеж,Страны,Регионы,Последний_платеж,код,Дата_первого_платежа,Время_первого_платежа,День_первого_платежа,Дата_последнего_платежа,Время_последнего_платежа,День_последнего_платежа,Дни_между_платежами
0,1078667,2022-11-23 16:28:46,0,0,,1,500,500.0,Россия,Ленинградская обл,2022-11-23 16:28:46,1121,2022-11-23,16,2,2022-11-23,16,2,0
1,708416,2021-12-29 17:04:26,0,0,карта,1,1000,1000.0,Россия,Кунене,2021-12-29 17:04:26,1122,2021-12-29,17,2,2021-12-29,17,2,0
2,709306,2021-12-31 08:53:56,0,0,карта,1,1000,1000.0,Россия,Бамиан,2021-12-31 08:53:56,1124,2021-12-31,8,4,2021-12-31,8,4,0
3,709438,2021-12-31 17:11:20,0,0,карта,1,300,300.0,Россия,Москва,2022-10-05 09:51:42,1125,2021-12-31,17,4,2022-10-05,9,2,277
4,710192,2022-01-04 12:02:12,0,0,карта,1,500,500.0,Россия,Cuando Cubango,2022-01-04 12:02:12,1126,2022-01-04,12,1,2022-01-04,12,1,0


### 1.4. Вывод.

В рамках предобработки данных в исходные таблицы были внесены корректировки и сиправления:
1. Провериди данные на наличие дубликатов и удалили задвоенные строки.

2. Символ пробела в названиях столбцов был заменен на символ "_".

3. Преобразован формат данных в столбцах, где тип данных не соответствовал хранящимся в нем значениям: строковые данные вместо дат и числовых данных;

4. Из таблиц удалены столбцы и строки, непредставляющие ценности для анализа:
  - столбцы, где значение отсутствуют полностью или более, чем на 90%,
  - столбцы и строки, где значение для каждой числовой ячейки  равняется нулю,
  - столбцы, в которых для всех записей значения одинаковые,
  - столбцы, в которых значения дублируют другие столбцы.

5. В таблицы donors и clients добавлены дополнительные столбцы с датой первого и последнего платежа без указания времени и с указанием кол-ва дня, прошедших между первым и последним платекжом.

**!!Для проведения будущих исследований можно более детально изучить насройки выгрузки и проведения платежей, что бы понять, как формируется информация о регионах. Для НКО корректная разбивка по регионам может быть полезна. Такую информацию можно дополнительно анализировать, определив наиболее платежеспособные области и регионы и скорректировать рекламные кампании.**

**Так же у нас нет точной информации относительно столбцов "Платежей за год", "Сумма за год" и "Средний платеж в год". Неизвестно, какой год имеется ввиду - календарный, год с момента первого платежа или иной показатель.**


## 2.Исследовательский анализ временных особенностей данных.

### 2.1. Изучение таблиц donors и clients на наличие пересекающихся данных.

В связи с тем, что у нас есть две выгрузки из разных неуточненных источников, сществует вероятность, что одни и те же платежи отражены в обеих таблицах. В таком случае могут возникнуть искажения в результатах анализа.

Поэтому для начала проверим, есть ли пересечения по плательщикам (по полю "код") и их платежам.

In [499]:
#создадим список кодов, которые есть в таблице donors
donors_codes = donors['Код'].unique()

#отфильтруем данные из clients, оставив только те строки, значение "код" которых встречается в donors
#и посчитаем кол-во плательщиков, попавших в обе выгрузки
print('Кол-во плательщиков, попавших в обе выгрузки:', len(clients.query('код in @donors_codes')))


Кол-во плательщиков, попавших в обе выгрузки: 491


Информация о платежах от 491 плательщика попала в обе выгрузки. Если не откорректировать эту информацию, есть вероятность искажения статистических данных (например, распределение платежей по дням, или средние суммы за определенный период времени).

Для того, что бы исключить такие ситуации, сравним даты первых и последних платежей. В случае, если в обеих таблицах зафиксированы одни и те же платежи (даты совпадают), удалим их из одной из таблиц.

Для удобства работы с пересекающимися данными, соединим данные о датах платежей из обеих таблиц.

In [500]:
cross_payers = (clients.query('код in @donors_codes')[['Дата_первого_платежа', 'Дата_последнего_платежа', 'код']]
                .merge(donors[['Первая_дата', 'Последняя_дата', 'Код']],
                       how = 'inner', left_on='код', right_on='Код')
)

In [501]:
cross_payers.head()

Unnamed: 0,Дата_первого_платежа,Дата_последнего_платежа,код,Первая_дата,Последняя_дата,Код
0,2022-11-23,2022-11-23,1121,2022-11-23,2022-11-23,1121
1,2021-12-31,2022-10-05,1125,2022-10-05,2022-10-05,1125
2,2022-10-16,2022-11-16,1127,2023-03-16,2023-05-16,1127
3,2022-09-18,2023-05-18,1146,2023-02-18,2023-06-18,1146
4,2023-03-15,2023-03-15,1147,2023-03-15,2023-03-15,1147


Теперь сравним даты платежей и определим, в какой из таблиц остается каждая строчка.

При распределении будем опираться на следующие критерии:
1. **Если первые даты и последние даты в обеих таблицах одинаковы, значит одни и те же платежи отражены в обеих таблицах.**

Таблица clients более информативная, так как содержит более точную информацию о кол-ве и сумме платежей, а так же о регионе плательщика. Поэтому оставим данные в ней, а из таблицы donors сформируем дополнительную таюблицу filt_donors и эти данные удалим.

Таблицу filt_donors будем использовать для анализа количественных данных. А donors используем отдельно для анализа типа доноров, так как в таблице clients этой информации нет.

2. **Если дата первого платежа в таблице client совпадает с датой последнего платежа в этой же таблице и с датой первого или последнего платежа в таблице donors, значит этот платеж из clients уже отражен в donors. При этом, в donors так же отражены и другие платежи этого плательщика.**

В этом случае создадим новую таблицу filt_clients и данные удалим из нее, а оставим в donors.


3. **Если дата первого платежа в таблице donors совпадает с датой последнего платежа в этой же таблице и с датой первого или последнего платежа в таблице clients, значит здесь ситуация, аналогичная пункту 2.**

В этом случае данные удалим из donors и оставим в clients.

Далее работать по общим рассчетам будем с отфильтрованными таблицами. А анализировать особенности платежей, которые отображены в одной из таблиц и не отражены в другой, будем по полным таблицам.

4. **В случае, если для одного плательщика даты первого или последнего платежа в разных таблицах совпадают** оставляем данные в обеих таблицах, но код этого плательщика вынесем в отдельный список: same_first_date для совпадений по первой дате и same_last_date для совпадений по последней дате.

Эти данные будем использовать при построении визуализаций.

In [502]:
def choose_table(row):

  first_date_clients = row['Дата_первого_платежа']
  first_date_donors = row['Первая_дата']

  last_date_clients = row['Дата_последнего_платежа']
  last_date_donors = row['Последняя_дата']

  if first_date_clients==first_date_donors and last_date_clients==last_date_donors:
    return 'clients'

  if first_date_clients==last_date_clients and (first_date_clients==first_date_donors or first_date_clients==last_date_donors):
    return 'donors'

  if first_date_donors==last_date_donors and (last_date_donors==first_date_clients or last_date_donors==last_date_clients):
    return 'clients'

  if first_date_clients==first_date_donors and last_date_clients != last_date_donors:
    return 'общая первая дата'

  if last_date_clients==last_date_donors and first_date_clients != first_date_donors:
    return 'общая последняя дата'

  return 'оставить в обеих'

In [503]:
#применим функцию и создадим столбец, в котором укажем, в какой таблице остается строка
cross_payers['Таблица'] = cross_payers.apply(choose_table, axis=1)

In [504]:
#создадим списки кодов для каждой таблицы
donors_codes = cross_payers.query('Таблица == "donors"')['код'].unique()
clients_codes = cross_payers.query('Таблица == "clients"')['код'].unique()
codes_for_both = cross_payers.query('Таблица != "donors" & Таблица != "clients"')['код'].unique()


same_first_date = cross_payers.query('Таблица == "общая первая дата"')['код'].unique()
same_last_date = cross_payers.query('Таблица == "общая последняя дата"')['код'].unique()

In [505]:
#оставляем в таблице filt_donors только те данные, коды которых не попали в clients_codes
filt_donors = donors.query('Код not in @clients_codes')

#оставляем в таблице filt_clients только те данные, коды которых не попали в donors_codes
filt_clients = clients.query('код not in @donors_codes')

Таким образом мы сформировали 2 отфильтрованные выгрузки из платежных систем, на основании которых постараемся выявить закономерности и особенности платежей по времени.

### 2.2. Изучение временных особенностей и закономерностей.

Посмотрим, данные за какой период мы имеем.

In [506]:
print('Датасет "full_info"')
print("Минимальная дата в датасете", full_info['Дата'].min())
print("Максимальная дата в датасете", full_info['Дата'].max())

Датасет "full_info"
Минимальная дата в датасете 2023-01-15 00:00:00
Максимальная дата в датасете 2023-07-19 00:00:00


In [507]:
print('Датасет "filt_donors"')
print("Минимальная дата в датасете", filt_donors['Первое_пожертвование'].min())
print("Максимальная дата в датасете", filt_donors['Последнее_пожертвование'].max())

Датасет "filt_donors"
Минимальная дата в датасете 2022-06-15 14:19:00
Максимальная дата в датасете 2023-06-24 00:16:00


In [508]:
print('Датасет "filt_clients"')
print("Минимальная дата в датасете", filt_clients['Первый_платеж'].min())
print("Максимальная в датасете", filt_clients['Последний_платеж'].max())

Датасет "filt_clients"
Минимальная дата в датасете 2021-11-17 14:39:43
Максимальная в датасете 2023-06-02 03:11:53


У нас имеются следующие данные:
- выгрузка из Яндекс.Директ охватывает рекламные кампании за полгода -  **с 15.01.2023 по 19.07.2023**.
- таблица donors содержит информацию о плательщиках, совершивших пожертвования в период **с 15.06.2022 по 24.06.2023**.
- в таблице clients собраны данные за самый длительный период - **17.11.2021 по 02.06.2023**.

С помошью гистограммы отобразим кол-во платежей, совершенных в течении всего периода. Так же отметим на графике период, когда проходили рекламные кампании, о которых у нас имеется информация.

Кроме того, учитывая, что имеющиеся у нас данные охватывают период до и после начала СВО, тоже отметим это на графике, что бы отслежить, изменилась ли активность людей, желающих внести пожертвования.

Для того, что бы максимально точно отобразить кол-во совершенных платежей, мы используем и последние и первые даты пожертвований в обеих таблицах.
А для того, что бы никакой платеж не задвоился воспользуемся списками кодов для плательщиков с одинаковыми первыми или последними датами.

In [509]:
#формируем список дат из clients, при этом исключим первые даты платежей,
#попавших в обе таблицы. Они отразятся в списке из donors
clients_date = filt_clients.query('код not in @same_first_date')['Дата_первого_платежа']
clients_date = clients_date.append(filt_clients.query('Дата_первого_платежа != Дата_последнего_платежа')['Дата_последнего_платежа'])


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.



In [510]:
#формируем список дат из donors, при этом исключим последние даты платежей,
#попавших в обе таблицы. Они уже отразились в списке из clients
donors_date = filt_donors.query('Код not in @same_last_date')['Последняя_дата']
donors_date = donors_date.append(filt_donors.query('Первая_дата != Последняя_дата')['Первая_дата'])


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.



In [511]:
fig = go.Figure()
fig.add_trace(go.Histogram(x=donors_date,
                           name='donors'))
fig.add_trace(go.Histogram(x=clients_date,
                           name='clients',
                           opacity=0.5))

#закрасим на графике период, когда проходили рекламные кампании
fig.add_vrect(
    x0=full_info['Дата'].min(),
    x1=full_info['Дата'].max(),
    label=dict(
        text="Время проведения рекламы",
        textposition="top center",
        font=dict(size=15, family="Times New Roman"),
    ),
    fillcolor="green",
    opacity=0.15,
    line_width=0,
)

#добавляем линию, обозначающую начало СВО
fig.add_vline(x=datetime(2022,2,24),
              line_width=3,
              line_dash="dash",
              line_color="red")

#оформляем график
fig.update_layout(title='Распределение совершенных пожертвований во времени',
                   xaxis_title='дата',
                   yaxis_title='кол-во платежей',
                  barmode='stack')
fig.show()

На полученном графике хорошо заметно, что люди совершают пожертвования не равномерно.

Если предположить, что мы владеем полными данными и имеем полную картину платежей за указанный период, то можно отметить следующие особенности:
1. ***В период с мая по июль 2022 года*** включительно отмечается максимальное снижение показателя. Количество платежей в июне и июле не превышает отметку в 25 шт, а в августе цифра не доходит даже до 10.

Возможно, это связано с начатой в конце феврале СВО и введением экономических и политических санкций для России. Как раз к лету, когда жители страны поняли, что ситуация не разрешится в скором времени, многие стали уезжать из страны. Кроме того, начали закрываться многие компании, сокращая людей с рабочих мест. Все это могло неблагоприятно отразится на платежеспособности граждан и на их желании участвовать в благотворительности.

Что мы,предположительно, и наблюдаем на графике.

До этого момента, однако, кол-во пожертвований не превышало 100 платежей в месяц. А чаще всего - значительно меньше.

2. ***В период с 1го августа по 30е ноября 2022 года*** ситуация значительно улучшилась, пожертвования стали более равномерными - от 60 до 90 платежей в месяц.

3. ***С декабря 2022 года*** кол-во пожертвований стало больше, в среднем - более 150 платежей в месяц. При этом можно заметить, что в период проведения известных нам рекламных кампаний количество пожертвований значительно выше показателей за другие периоды.

Если ранее 15.01.23 так же проводились рекламные кампании, то можно сказать, что они имели меньший успех, чем те кампании, о которых отражена информация в выгрузке full_info.

4. ***Март и Май 2023г.*** Эти периоды выделяются на графике -  количество пожертвований здесь максимальные и составляют более 300 платежей в месяц.

Для того, что бы посмотреть, могли ли вызвать рекламные кампании такой всплеск активности, построим диаграмму Ганта. Отметим на ней все рекламные акции, а так же два наиболее успешных месяца, и проанализируем результаты.

In [512]:
#сгруппируем таблицу с рекламными кампаниями по их номеру и отобразим дату начала и окончания
campaigns = full_info.groupby('№_Кампании')['Дата'].agg(['min','max']).reset_index()

#преобразуем номера кампаний в строку для отображения на графике
campaigns['№_Кампании'] = campaigns['№_Кампании'].astype('str')

In [513]:
fig = px.timeline(campaigns, x_start='min', x_end='max', y='№_Кампании')

#покрасим март
fig.add_vrect(
    x0=datetime(2023,3,1),
    x1=datetime(2023,3,31),
    fillcolor="green",
    opacity=0.15,
    line_width=0,
)

#покрасим май
fig.add_vrect(
    x0=datetime(2023,5,1),
    x1=datetime(2023,5,31),
    fillcolor="red",
    opacity=0.15,
    line_width=0,
)

fig.update_layout(title='Периоды проведения рекламных кампаний',
                   xaxis_title='дата')

fig.show()

По диаграмме Ганта видно, что самый успешные месяцы приходятся на период, в котором пересекаются несколько рекламных кампаний.

***На март 2023 года*** попало 14 рекламных кампаний - это больше половины от всех проведенных за имеющийся период, 10 из которых начались и закончили в марте, а еще 4 продлились на несколько месяцев.

***Май 2023 года*** так же попадает на пересечние большого кол-во рекламных кампаний - 7 кампаний, почти в середине их работы.

Возможно, именно большое кол-во рекламных кампаний способствовало высокой активности среди благотворителей. Что говорит о том, что настройка рекламы действительно имеет смысл.

**!!Однако, для можно дополнительно проверить эти периоды на предмет проведения каких=то дополнительных мероприятий. Возможно, это какие-то оффлайн акции или фестивали, которые привлекали людей к пожертвованиям. В этом случае говорить о влиянии рекламных кампаний на количество платежей будет не совсем корректно.!!**

К оценке эффективности каждой из рекламных кампаний мы вернемся в следующем разделе.

А сейчас посмотрим, в какие дни недели и время суток пользователи наиболее активно совершают пожертвования.

In [514]:
#подготовим списки по времени(час в сутках) платежам из каждой таблицы
donors_time = filt_donors.query('Код not in @same_last_date')['Последнее_время_часы']
donors_time = donors_time.append(filt_donors.query('Первая_дата != Последняя_дата')['Первое_время_часы'])

clients_time = filt_clients.query('код not in @same_first_date')['Время_первого_платежа']
clients_time = clients_time.append(filt_clients.query('Дата_первого_платежа != Дата_последнего_платежа')['Время_последнего_платежа'])


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.



In [515]:
#построим гистограмму с распределение кол-ва пожертвований в течении суток
fig = go.Figure()
fig.add_trace(go.Histogram(x=donors_time,
                           name='donors'))
fig.add_trace(go.Histogram(x=clients_time,
                           name='clients',
                           opacity=0.5))


fig.update_layout(title='Распределение совершенных пожертвований в течении суток',
                   xaxis_title='время',
                   yaxis_title='кол-во платежей',
                  barmode='stack')

fig.show()

Меньше всего пожертвований совершается, что ожидаемо, в ночные часы - на диаграмме хорошо видно, что в период с часу ночи до шести утра пользователи наименее активны.

А ***наиболее активно пользователи отправляют пожертовования в 21-22 часа вечера***. Это можно объяснить тем, что пользователи возвращаются домой с работы и имеют возможность заняться такими делами, как платежи и прочее.

***Второй пик активности приходится на 14 часов дня*** - это похоже на то, что работающее население уделяет время благотворительности в обеденный перерыв.

Так же можно заметить ***повышенную активность в 10 часов утра и в 18 часов вечера***. Возможно, это можно связать с дорогой на работу/с работы, когда есть возможность еще/уже не думать о домашних/рабочих делах.

Проверим, есть ли закономерности по активности плательщиков в течении недели.

In [516]:
#подготовим списки дней недели по платежам из таблиц
donors_weekday = filt_donors.query('Код not in @same_last_date')['Последний_день_недели']
donors_weekday = donors_weekday.append(filt_donors.query('Первая_дата != Последняя_дата')['Первый_день_недели'])

clients_weekday = filt_clients.query('код not in @same_first_date')['День_первого_платежа']
clients_weekday = clients_weekday.append(filt_clients.query('Дата_первого_платежа != Дата_последнего_платежа')['День_последнего_платежа'])


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.


The series.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.



In [517]:
#построим гистограмму с распределение кол-ва пожертвований в течении недели
fig = go.Figure()

fig.add_trace(go.Histogram(x=donors_weekday,
                           name='donors'))
fig.add_trace(go.Histogram(x=clients_weekday,
                           name='clients',
                           opacity=0.5))


fig.update_layout(title='Распределение совершенных пожертвований по дням недели ',
                   xaxis_title='день недели',
                   yaxis_title='кол-во платежей',
                  barmode='stack')
fig.show()

На полученном графике видно, что активность благотворителей нарастает волнообразно с понедельника к четвергу, после чего идет на спад.

Меньше всего пожертвований приходится на начало недели - понедельник и вторник. Со среды активность увеличивается и достигает своего пика в четверг. К выходным кол-во платежей снова уменьшается.

### 2.3. Вывод.

Для того, что бы провести качественный анализ временных особенностей данных и выявить закономерности в совершении платежей, были проведены следующие корректировки:
- определены платежи, информация о которых попала в обе выгрузки;
- отфильтрованны данные и созданы дополнительные таблицы filt_donors и filt_clients, на основании которых проводился анализ распределения платежей во времени;
- созданы списки плательщиков, для которых есть совпадения в двух таблицах по первому или последнему платежу. Эти списки также учитывались при подсчете платежей по месяцам/дням недели/времени.

**Результаты.**

В ходе исследования были выявлены следующие закономерности:

1. ***В период с мая по июль 2022 года*** включительно отмечается максимальное снижение показателя. Количество платежей в июне и июле не превышает отметку в 25 шт, а в августе цифра не доходит даже до 10.
Возможно, это связано с начатой в конце феврале СВО и введением экономических и политических санкций для России.

До этого момента, однако, кол-во пожертвований тоже не было слишком высоким и не превышало 100 платежей в месяц. А чаще всего - значительно меньше.

2. ***В период с 1го августа по 30е ноября 2022 года ситуация значительно улучшилась***, пожертвования стали более равномерными - от 60 до 90 платежей в месяц.

3. ***В период проведения известных нам рекламных кампаний*** количество пожертвований значительно выше показателей за другие периоды.

4. ***Март и Май 2023г.*** - наиболее успешные месяцы: количество пожертвований здесь максимальные и составляют более 300 платежей в месяц.

Эти месяцы приходятся на пересечение несколько рекламных кампаний. Возможно, именно большое кол-во рекламных кампаний способствовало высокой активности среди благотворителей. Что говорит о том, что настройка рекламы действительно имеет смысл.

5. В течении дня, наибольшая активность благотворителей наблюдается в 21 час вечера и далее, а так же в 14 часов дня. Так же хорошая активность приходится на 10 утра и 18 часов вечера.

6. ***Со среды по пятницу*** пожертвования совершаются наиболее активно. При этом, в четверг кол-во платежей доходит допикового значения. В то время, как понедельник и вторник -самые неэффективные дни.

**Рекомендации.**

Если опиратьсч исключительно на имеющиеся данные, можно сказать, что рекламные кампании благоприятно влияют на кол-во пожертвований. А если учитывать выявленные в ходе анализа закономерности, то можно сформулировать следующую рекомендацию:

**Увеличить кол-во показов рекламы в наиболее активные часы в течении дня. При этом, смечтить акцент на середину недели - среда-пятница.

**!!Однако, для получения полноценной картины желательно дополнительно проверить наиболее успешные месяца(март и мая) на предмет проведения НКО каких-то дополнительных мероприятий. Возможно, это какие-то оффлайн акции или фестивали, которые привлекали людей к пожертвованиям. В этом случае говорить о влиянии рекламных кампаний на количество платежей будет не совсем корректно.!!**







## 3.Изучение показателей, отображенных в таблице donors.

Со слов заказчика, таблица donors - это выгрузка с сайта Благотворительной больницы.

Посмотрим, какие особенности и закономерности можно выявить на их основании.

In [518]:
donors.head()

Unnamed: 0,ID,Тип_донора,Первое_пожертвование,Первая_сумма,Платёжные_операторы,Последнее_пожертвование,Последняя_сумма,Общая_сумма,Код,Первая_дата,Первое_время_часы,Первый_день_недели,Последняя_дата,Последнее_время_часы,Последний_день_недели,Дни_между_платежами
0,833,разовый,2023-06-21 18:43:00,3000.0,MIXPLAT,2023-06-21 18:43:00,3000.0,3000,2285,2023-06-21,18,2,2023-06-21,18,2,0
1,832,постоянный,2023-06-20 16:36:00,500.0,MIXPLAT,2023-06-20 16:40:00,500.0,500,2286,2023-06-20,16,1,2023-06-20,16,1,0
2,831,постоянный,2023-06-20 10:39:00,500.0,MIXPLAT,2023-06-20 10:39:00,500.0,500,1479,2023-06-20,10,1,2023-06-20,10,1,0
3,830,разовый,2023-06-20 09:09:00,1000.0,MIXPLAT,2023-06-20 09:09:00,1000.0,1000,2288,2023-06-20,9,1,2023-06-20,9,1,0
4,829,постоянный,2023-06-19 23:03:00,100.0,MIXPLAT,2023-06-19 23:03:00,100.0,100,2289,2023-06-19,23,0,2023-06-19,23,0,0


### 3.1. Исследование типов доноров.

In [519]:
donors['Тип_донора'].value_counts()

разовый       648
постоянный    147
Name: Тип_донора, dtype: int64

В таблице есть два вида доноров: постоянный, их 147 человек, и разовый, 648.

Следуя логике можно предположить, что ***постоянный донор*** - это благотворитель, имеющий подписку и регулярно совершающий пожертвования.

А ***разовый*** - это донор, совершающий пожертвования без оформления подписки. При этом, он может так же совершать пожертвования на регулярной основе.

Соответственно, мы ожидаем, что все постоянные пользователи имеют более одного платежа за охваченный период, а среди разовых пользователей может встречаться различное кол-во платежей: от 1 и более.

Проверим эту гипотезу.

In [520]:
#сгруппируем данные по типу пользователя и посчитаем, есть ли среди постоянных плательщиков такие,
#кто совершил лишь один платеж (кол-во дней между платежами равно 0)
donors.query('Дни_между_платежами == 0').groupby('Тип_донора')['Код'].count()

Тип_донора
постоянный     44
разовый       429
Name: Код, dtype: int64

Гипотеза не подтвердилась.

Среди постоянных доноров почти треть совершила лишь один платеж: 44 человека из 147.

Учитывая, что на сайте "Благотворительная больница" на вкладке "ПОМОЧЬ" по умолчанию выбраны регулярные платежи, можно предположить, что эти 44 человека провели первый платеж на сайте по предвыбранным настройкам как регулярный. А уже потом отключили подписку до списания денежных средств в следующем месяце.

**!!Чтобы результаты анализа были наиболее корректными, желательно дополнительно уточнить принцип назначения типа донора, а так же получить информацию об отключении подписок. Имея эту информацию, можно будет точно отследить платежи по подпискам.!!**

Так же, возможно, другие платежи этих доноров,совершенные в рамках подписки,  не попали в данную выгрузку.

Эту гипотезу проверим, сравнив платежи в двух таблицах: clients и donors.


In [521]:
#создадим список кодов изучаемых 44х плательщиков
wrong_type_codes = donors.query('Дни_между_платежами == 0 & Тип_донора=="постоянный"')['Код'].unique()

Посмотрим, сколько таких плательщиков из donors попали в clients.

In [522]:
#проверим наличие записей об этих плательщак в таблице с пересекающимися пользователями
print('Кол-во записей с одинаковыми кодами:', len(cross_payers.query('код in @wrong_type_codes')))

Кол-во записей с одинаковыми кодами: 25


Только о 25 донорах есть информацич во второй таблице.

Значит, для остальных 19 человек, скорее всего, верно первое преджположение об отключении подписок. Тип этих пользователей мы заменим на "разовый".

Так же, на "разовый" заменим тип донора у благотворителей, для которых в таблице clients и donors указаны сведения об одном и том же единственном платеже.

In [523]:
#отфильтруем из списка wrong_type_codes тех плательщиков, для которых в таблице clients есть информация о других платежах
right_type_codes = cross_payers.query('код in @wrong_type_codes & (Дата_первого_платежа!=Первая_дата or Дата_последнего_платежа!=Последняя_дата)')['код'].unique()

wrong_type_codes = [x for x in wrong_type_codes if x not in right_type_codes]

Теперь для всех записей в таблице donors, где указан тип "постоянный", но есть информация только об одном платеже, и код плательщика не входит в список right_type_codes, мы заменим тип донора на "разовый".

In [524]:
donors.loc[donors['Код'].isin(wrong_type_codes), 'Тип_донора'] = 'разовый'

Теперь посмотрим, какие суммы были пожертвованны за изучаемый период.

### 3.2. Изучение финансовых поступлений от благотворителей.

Для начала убедимся, что в стобце "Общая сумма" нет ошибок.

Для этого убедимся, что для каждого постоянного плательщика, общая сумма больше или равна суммы первого и последнего платежей.

In [525]:
def check_amount(row):

  days = row['Дни_между_платежами']
  first_sum = row['Первая_сумма']
  last_sum = row['Последняя_сумма']
  total = row['Общая_сумма']

  if days == 0:
    total = last_sum
    return total

  else:
    if first_sum+last_sum <= total:
      return total
    else:
      total = first_sum+last_sum
      return total


In [526]:
donors['Сумма_всего'] = donors.apply(check_amount, axis=1)

Теперь посчитаем, сколько денег принесли благотворители НКО через сайт за период с 2022-06-15 по 2023-06-24.

In [527]:
print('Общая сумма пожертвований, совершенных через сайт, составила', donors['Сумма_всего'].sum(),'руб.')

Общая сумма пожертвований, совершенных через сайт, составила 1372860.0 руб.


Почти за год в фонд было пожертвовано почти 1,5 млн рублей - 1372860 рублей.

Посмотрим на то, какие суммы поступают с разбивкой по типу донора.
Для этого сгруппируем таблицу и посчитаем общие суммы пожерстований, а так же рассчитаем средние и наиболее часто встречающиеся показатели.

In [528]:
#посчитаем кол-во доноров и общую сумму пожертвований для каждого типа
donors_types = (donors
                .groupby('Тип_донора')
                .agg({'Код':'count',
                      'Сумма_всего':'sum',
                      'Первая_сумма':'median'})
                .reset_index()
                .rename(columns={'Код':'Кол-во',
                                 'Первая_сумма':'Средний_платеж'})
)

#округлим столбец со среднем платежем
donors_types['Средний_платеж'] = round(donors_types['Средний_платеж'],1)

#добавим столбец с рассчетом средней суммы на донора
donors_types['Средний_вклад_донора'] = round(donors_types['Сумма_всего']/donors_types['Кол-во'])


In [529]:
donors_types

Unnamed: 0,Тип_донора,Кол-во,Сумма_всего,Средний_платеж,Средний_вклад_донора
0,постоянный,109,282921.0,300.0,2596.0
1,разовый,686,1089939.0,450.0,1589.0


Для большей наглядности построим визуализацию: несколько диаграмм и графиков, отображающих показатели из таблицы donors_types.

In [530]:
#зададим сетку для построения графиков
fig = make_subplots(rows=1,
                    cols=4,
                    subplot_titles=('Кол-во доноров','Средний платеж','Общая сумма','Средний вклад донора')
)

#размещаем графики
fig.add_trace(go.Bar(x=donors_types['Тип_донора'], y=donors_types['Кол-во'], text=donors_types['Кол-во']), row=1, col=1)

fig.add_trace(go.Bar(x=donors_types['Тип_донора'], y=donors_types['Средний_платеж'], text=donors_types['Средний_платеж']), row=1, col=2)

fig.add_trace(go.Bar(x=donors_types['Тип_донора'], y=donors_types['Сумма_всего'], text=donors_types['Сумма_всего']), row=1, col=3)

fig.add_trace(go.Bar(x=donors_types['Тип_донора'], y=donors_types['Средний_вклад_донора'], text=donors_types['Средний_вклад_донора']), row=1, col=4)


fig.update_layout(showlegend=False,
                 height=500)

fig.show()

Кол-во благотворителей, которые совершают пожертвования без подписки значительно больше - 686 человек против 109 имеющих подписку.

Средний (за усредненное значение мы взяли медиану, так как среди значений,наверняка, есть выбросы) платеж для разовых доноров так же чуть выше. Поэтому и общая сумма взносов за весь период для разовых доноров значительно превышает сумму для постоянных.

Однако, при этом, **средний вклад постоянного донора значительно превышает средний вклад разового донора.** Для разового средний вклад составляет всего 1588рублей, а для постоянного - на тысячу больше - 2575 рублей.

Это обусловлено тем, что постоянные пользователь совершают пожертвования регулярно. То есть на каждого постоянного донора приходится минимум 2 платежа за указанный период.

**!!На основании полученных данных можно сказать, что имеет смысл сделать акцент на привлечение постоянных благотворителей.!!**

Теперь посмотрим, какой, имеется разброс среди значений платежей и общего вклада каждого донора.

In [531]:
#построим боксплот распределения значений первого платежа
fig = px.box(donors,
             y="Первая_сумма",
             color="Тип_донора"
            )
fig.update_layout(title_text='Распределение значений первого платежа',
                   xaxis_title='тип донора',
                   yaxis_title='сумма, рубли')
fig.show()

На графике хорошо заметно, что для разовых пользователей более характерно совершать крупные пожертвования. Здесь можно увидеть значений в несколько десятков тысяч рублей, в то время как самый крупный платеж, сделанный постоянным донором - 10 тысяч рублей. И выбросов значительно меньше, чем у разовых.

При этом, самый минимальный платеж одинаков для всех типов доноров и составляет 10 рублей.

Посмотрим, какие суммы пожертвований наиболее популярны. При этом, исключим из данных выбросы, что бы диаграмма получилась более читаемой и наглядной.


In [532]:
#построим гистаграмму  значений первого платежа без учета выбросов
fig = px.histogram(donors.query('Первая_сумма < 2000'),
             x='Первая_сумма',
             color="Тип_донора"
            )

fig.update_layout(title_text='Частота значений первого платежа без учета выбросов',
                   xaxis_title='тип донора',
                   yaxis_title='сумма, рубли')
fig.show()


Наиболее популярными платежами для всех типов доноров являются суммы в 300-350 рублей, 500-550 рублей и 1000-1050 рублей.

Возможно, это связано с преднастроенными суммами на странице пожертвований на сайте, из которых пользователи могли выбрать кликом на одну из кнопок.





Посмотрим, как обстоят дела с общей суммой платежей за год для каждого донора.

In [533]:
#построим боксплот распределения значений общего платежа
fig = px.box(donors,
             y="Сумма_всего",
             color="Тип_донора"
            )

fig.update_layout(title_text='Распределение значений общего вклада донора',
                   xaxis_title='тип донора',
                   yaxis_title='сумма, рубли')
fig.show()

На графике постоянных доноров появились значения до 40000 рублей. Медиана и верхнее значений боксплота по постояггым донорам выше, чем эти же показатели у разовых доноров.

При этом, минимальное значение для разовых пользователей остается на уровне 10 рублей, а 25% сумм не превышают 300рублей. В то время, как для постоянных минимальный показатель увеличился до 20, а значение первого квартиля - 500 рублей.

Отличаются так же и верхние значения, учитывающие максимальные суммы без выбросов. Здесь постоянные доноры имеют показатель в 6000рублей проти 2500 рублей у разовых доноров.


### 3.3. Вывод.

На сайте Благотворительной больницы есть два типа доноров: разовые и постоянные. ПОстоянные доноры - это те, которые оформили подписку на платежи.

Однако, учитывая, что на сайте  на вкладке "ПОМОЧЬ" по умолчанию выбраны регулярные платежи, можно предположить, есть люди, которые провели первый платеж по предвыбранным на сайте настройкам как регулярный. А уже потом отключили подписку до списания денежных средств в следующем месяце.

**!!Чтобы результаты анализа были наиболее корректными, желательно дополнительно уточнить принцип назначения типа донора, а так же получить информацию об отключении подписок. Имея эту информацию, можно будет точно отследить платежи по подпискам.!!**

При этом, кол-во благотворителей, которые совершают пожертвования без подписки значительно больше - 686 человек против 109 имеющих подписку.

Наиболее популярными платежами для всех типов доноров являются суммы в 300-350 рублей, 500-550 рублей и 1000-1050 рублей.

Поэтому и общая сумма взносов за весь период для разовых доноров значительно превышает сумму для постоянных.

Однако, при этом, средний вклад постоянного донора значительно превышает средний вклад разового донора.

Это обусловлено тем, что постоянные пользователь совершают пожертвования регулярно. То есть на каждого постоянного донора приходится минимум 2 платежа за указанный период.

Тем не менее, разовые пользователи чаще совершают крупные переводы, сумма которых может доходить до нескольких десятков рублей.

**!!На основании полученных данных можно сказать, что имеет смысл сделать дополнительный акцент на привлечение постоянных благотворителей. Но при этом, разовые так же важны.!!**

## 4.Изучение показателей, отображенных в таблице clients.

### 4.1.Изучение данных о подписках плательщиков.

Теперь изучим данные, которые хранятся в таблице clients.

Для начала посмотрим, какие значения хранятся в столбцах о подписках и определим, что они значат.

In [534]:
for name in ['Подписки_вкл', 'Подписки_выкл']:
  print('Значений в столбце', name)
  print(clients[name].value_counts())
  print()
  print('-----------')

Значений в столбце Подписки_вкл
0    725
1    227
2      3
Name: Подписки_вкл, dtype: int64

-----------
Значений в столбце Подписки_выкл
0    836
1     96
2     16
3      6
4      1
Name: Подписки_выкл, dtype: int64

-----------


В столбце Подписки_вкл всего 3 варианта значений:0, 1, 2.
При этом, значение 2 встречается всего 3 раза.

Можно предположить, что это буллевы значения, где 0 - подписки отключены, 1 - включены, а 2 - ошибочное значение.

Посчитаем, какое кол-во разовых и постоянных платежей есть для каждого из значений.

In [535]:
#пройдемся циклом по каждому из значений в столбце и выведем общее кол-во доноров,
# кол-во, совершивших один платеже и их долю к общему числк
for number in clients['Подписки_вкл'].unique():

  value = number

  print('Значение', value)

  print('Общее кол-во доноров:', len(clients.query('Подписки_вкл == @value')))

  print('Кол-во доноров, совершивших один платеж:',
        len(clients.query('Подписки_вкл == @value & Дни_между_платежами==0')))

  print('Доля совершивших один платеж от общего кол-ва:',
        round(len(clients.query('Подписки_вкл == @value & Дни_между_платежами==0'))/
              len(clients.query('Подписки_вкл == @value'))*100,1),
        '%')

  print()
  print('--------------------------')
  print()

Значение 0
Общее кол-во доноров: 725
Кол-во доноров, совершивших один платеж: 531
Доля совершивших один платеж от общего кол-ва: 73.2 %

--------------------------

Значение 1
Общее кол-во доноров: 227
Кол-во доноров, совершивших один платеж: 8
Доля совершивших один платеж от общего кол-ва: 3.5 %

--------------------------

Значение 2
Общее кол-во доноров: 3
Кол-во доноров, совершивших один платеж: 0
Доля совершивших один платеж от общего кол-ва: 0.0 %

--------------------------



Среди пользователей, со значением "0" большая часть, более 70%, совершила лишь один платеж, в то время, как среди значений "1" один платеж совершило лишь 3,5% благотворителей.
Доноры со значение "2" все совершали несколько платежей.

Гипотеза о присвоении номера, как логического значения, кажется правильной. Поэтому6 будем руководствоваться ей и примем 0 - за отключенные подписки, а 1 и 2 за включенные.

Для удобства заменим их на буллевы значения.

In [536]:
#зададим функ-цию, которая заменит 0 на False, а 1 и 2 - на True
def bool_values(value):

  if value == 0:
    return False
  else:
    return True

In [537]:
#применим к столбцу 'Подписки_вкл'
clients['Подписки_вкл'] = clients['Подписки_вкл'].apply(bool_values)

Следуя логики присвоения значений в столбце "Подписки_вкл", можно ожидать, что в столбце "Подписки_выкл" так же хранятся буллевы значения.

Однако, мы уже опредедлили, что в этом столбце имеется 5 вариантов значений: цифры от 0 до 4.

Посмотрим, есть взаимосвязь между значениями в стобце "Подписки_вкл" и "Подписки_выкл".

In [538]:
for number in clients['Подписки_выкл'].unique():

  value = number

  print('Значение', value)

  print('Общее кол-во доноров:', len(clients.query('Подписки_выкл == @value')))

  print('Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл":',
        len(clients.query('Подписки_выкл == @value & Подписки_вкл==0')))

  print('Доля неимеющих от общего кол-ва:',
        round(len(clients.query('Подписки_выкл == @value & Подписки_вкл==0'))/
              len(clients.query('Подписки_выкл == @value'))*100,1),
        '%')

  print()
  print('--------------------------')
  print()

Значение 0
Общее кол-во доноров: 836
Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл": 635
Доля неимеющих от общего кол-ва: 76.0 %

--------------------------

Значение 1
Общее кол-во доноров: 96
Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл": 76
Доля неимеющих от общего кол-ва: 79.2 %

--------------------------

Значение 3
Общее кол-во доноров: 6
Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл": 3
Доля неимеющих от общего кол-ва: 50.0 %

--------------------------

Значение 2
Общее кол-во доноров: 16
Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл": 10
Доля неимеющих от общего кол-ва: 62.5 %

--------------------------

Значение 4
Общее кол-во доноров: 1
Кол-во доноров, неимеющих подписку согласно столбцу "Подписки_вкл": 1
Доля неимеющих от общего кол-ва: 100.0 %

--------------------------



В этом столбце трудно отследить какие-либо закономерности. Для любого значения из столбца "Подписки_выкл" характерен высокий процент доноров, неимеющих подписку согласно столбцу "Подписки_вкл".

Поэтому данные оставим в том виде, в котором они есть в таблице.

**!!У заказчика необходимо уточнить, какой принцип присвоения значений для этих двух столбцов.!!**

### 4.2.Изучение данных о платежах и суммах пожертвований.

Перед началом изучения данных о платежах и их суммах, убедимся, что в столбце "Всего_платежей" указано верное кол-во платежей.

Для этого создадим дополнительный столбец "Значение_верно", в котором укажем:
- True, если значение "дни между платежами" равно 0, и указан 1 платеж или "дни между платежами" не равно 0, и указано от 2х платежей;
- False, если эти условие не соблюдаются.

In [539]:
def check_number(row):
  '''функция принимает строку и выводит значение
  True - если даты первого и последнего платежа совпадают, кол-во платежей равно 1
         или если даты не совпадают и кол-во платежей более 1
  False - если даты совпадают, но платежей указано больше одного,
         или даты не совпадают, а плтеж один
  '''


  first_date = row['Дата_первого_платежа']
  last_date = row['Дата_последнего_платежа']
  total_number = row['Всего_платежей']

  if first_date==last_date and total_number==1:
    return True

  if first_date!=last_date and total_number>1:
    return True

  else:
    return False

In [540]:
#создадим доп.столбец
clients['Значение_верно'] = clients.apply(check_number, axis=1)

In [541]:
#посчитаем, сколько значений заполнено неверно
clients.query('Значение_верно == False')['код'].count()

56

56 строк имеют неверные значения в столбце "Всего_платежей".

Изучим эти строки отдельно.

In [542]:
clients.query('Значение_верно == False')

Unnamed: 0,id,Первый_платеж,Подписки_вкл,Подписки_выкл,Типы_оплаты,Всего_платежей,Сумма_всего,Средний_платеж,Страны,Регионы,Последний_платеж,код,Дата_первого_платежа,Время_первого_платежа,День_первого_платежа,Дата_последнего_платежа,Время_последнего_платежа,День_последнего_платежа,Дни_между_платежами,Значение_верно
3,709438,2021-12-31 17:11:20,False,0,карта,1,300,300.0,Россия,Москва,2022-10-05 09:51:42,1125,2021-12-31,17,4,2022-10-05,9,2,277,False
8,711474,2022-01-10 09:30:47,False,0,карта,1,300,300.0,Россия,Арагацотнская область,2022-01-14 13:33:17,1134,2022-01-10,9,0,2022-01-14,13,4,4,False
10,711802,2022-01-11 19:01:33,False,0,карта,1,500,500.0,Россия,Кунене,2022-01-14 16:10:10,1138,2022-01-11,19,1,2022-01-14,16,4,2,False
12,715175,2022-01-17 11:03:32,False,0,карта,1,300,300.0,Россия,Святой Георгий,2022-02-15 18:59:19,1141,2022-01-17,11,0,2022-02-15,18,1,29,False
14,716206,2022-01-19 10:13:09,False,1,карта,1,1000,1000.0,Россия,Cuando Cubango,2022-01-29 07:02:01,1143,2022-01-19,10,2,2022-01-29,7,5,9,False
24,714556,2022-01-15 23:40:55,False,0,карта,1,300,300.0,Белоруссия,Минская область,2022-11-27 00:17:09,1161,2022-01-15,23,5,2022-11-27,0,6,315,False
34,1087002,2022-11-29 23:44:43,False,2,карта,1,500,500.0,Грузия,Нижняя Карталиния,2023-01-02 23:49:07,1181,2022-11-29,23,1,2023-01-02,23,0,34,False
39,745184,2022-02-02 08:54:58,False,0,карта,1,200,200.0,Россия,Кунене,2022-02-03 20:16:08,1187,2022-02-02,8,2,2022-02-03,20,3,1,False
42,1052663,2022-11-01 21:39:52,False,1,,1,200,200.0,,,2022-12-01 21:41:18,1196,2022-11-01,21,1,2022-12-01,21,3,30,False
47,780345,2022-02-21 22:41:56,False,0,"терм,СБП",1,1000,1000.0,Россия,Санкт-Петербург,2023-02-20 11:38:38,1202,2022-02-21,22,0,2023-02-20,11,0,363,False


В большинстве случаев ошибочно указан 1 платеж у тех благоторителей, кто совершал минимум два - даты первого и последнего платежа отличаются.

Так же есть несколько случаев обратной ситуации, когда даты совпадают, но в системе отмечено несколько платежей.
Одна из причин, платежи отмечены с разницей в несколько минут и засчитаны как 2 разных платежа.Но скорее всего, это все же один платеж, которой по техническим причинам был обработан с задержкой, и отразился, как второй.

Для того, что бы информация о кол-во платежей у доноров не исказилась при анализе, мы
1. Для всех строчек, где даты платежей не равны укажем:
- ***в столбце "Всего_платжей"*** как 2*
- ***в столбце "Сумма_всего"*** значение останется неизменным;
- ***в столбце "Средняя_сумма_платежа"*** разделим значение общей суммы на 2.

2. Для всех строчек, где даты платежей равны укажем:
- ***в столбце "Всего_платжей"*** как 1*
- ***в столбце "Сумма_всего"*** значение останется неизменным;
- ***в столбце "Средняя_сумма_платежа"*** разделим значение общей суммы на 1.

In [543]:
#создадим функцию
def correct_values(row):

  payments_number = row['Всего_платежей']
  first_date = row['Дата_первого_платежа']
  last_date = row['Дата_последнего_платежа']

  if first_date==last_date:
    return 1

  if first_date!=last_date and payments_number==1:
    return 2

  else:
    return payments_number

In [544]:
#откорректируем значения в столбце "всего_платежей" и "Средний_платеж"
clients['Всего_платежей'] = clients.apply(correct_values,axis=1)
clients['Средний_платеж'] = round(clients['Сумма_всего']/clients['Всего_платежей'])

Теперь построим визуализацию по показателям:
- для столбцов "Типы оплаты, ""Всего платежей" и "Страны" построим гистограммы и посмотрим, какие значения наиболее популярны;
- для столбцов "Сумма_всего" и "Средний_платеж" построим по два графика: боксплот и гистограмму.

In [545]:
#зададим сетку для построения графиков
fig = make_subplots(rows=1,
                    cols=2,
                    subplot_titles=('Типы оплаты','Страна донора')
)

#размещаем графики
fig.add_trace(go.Histogram(x=clients['Типы_оплаты']), row=1, col=1)
fig.add_trace(go.Histogram(x=clients['Страны']), row=1, col=2)

fig.update_layout(showlegend=False)
fig.show()

Основной тип оплаты - банковская карта, что вполне ожидаемо.

Так же есть около 200 благотворителей, предпочитающих терминалы или СБП.

В отношении стран все еще более однозначно - почти 800 благотворителей совершали платежи из России. На другие стран приходятся единичные переводы. При этом, высока вероятность, что платежи из других. стран - это платежи из России с включенными VPN.

Учитывая, что подавляющее большинство платежей совершается россиянами, посмотрим, какие именно регионы России приносят больше всего пожертвований.


In [546]:
#построим гистаграмму  распределения кол-ва платежей по регионам
fig = px.histogram(clients,
             x='Регионы'
            )

fig.update_layout(title_text='Количество пожерствований по регионам России',
                   xaxis_title='регион',
                   yaxis_title='кол-во платежей')
fig.show()

Санкт-Петербург - абсолютный лидер по кол-ву денежных переводов, здесь было совершено более 200 платежей. Еще 98 пожертвований пришли из Ленинградской области.

Москва и МО в сумме дали почти 100 пожертвований.

Остальные области представлены единичными или немногочисленными случаями совершения пожертвований. Это лечгко объясняется, так как "Благотворительная больница" - это проект, реализуемый именно в Санкт-Петербурге.

Так же, несмотря на то, что таблица отфильтрована по платежам из России, на диаграмме присутствуют регионы Кунене или Cuando Сubango. Причем, для этих регионов кол-во платежей достаточно большое - от 50 до 80 пожертвований.

**!!Необходимо дополнительно уточнить, по какой причине регионы отображаются некорректно. Причем Кунене и Cuando Сubango - достаточно популярные значения для столбца "Регионы". Если получится выяснить, к каким именно регионам России относятся эти платежи, то можно будет скорректировать рекламу, направив ее на пользователей из этих регионов.!!**

Посмотрим, какое кол-во платежей чаще всего приходится на одного благотворителя.

In [547]:
#построим гистаграмму  распределения показателя кол-ва платежей на благотворителя
fig = px.histogram(clients,
             x='Всего_платежей',
             color="Подписки_вкл"
            )

fig.update_layout(title_text='Частотность распределения показателя кол-ва платежей на благотворителя',
                   xaxis_title='кол-во платежей',
                   yaxis_title='частота показателя',
                  height=400)
fig.show()

Чаще всего пользователи совершают разовые платежи, почти в 5-10 раз реже на одного плательшика приходится от 2х до 5ти платежей. От 5 до 10 пожертвований ссовершает от 10 до 20 человек.

Но есть и такие благотворители, которые являются стабильными постоянными плательщиками, на их долю приходится от 10 до 25 платежей за исследуемый период.

In [548]:
#построим боксплот распределения значений общего платежа
fig = px.box(clients,
             y="Сумма_всего",
             color="Подписки_вкл"
            )

fig.update_layout(title_text='Распределение значений общего вклада благотворителя',
                   xaxis_title='тип донора',
                   yaxis_title='сумма, рубли')
fig.show()

Большинство разовых благотворителей принесли НКО не более 2000р, а постоянных - не более 7000р.

Однако, в обоих случаях есть исключеня - выбросы - когда общая сумма вклада составляет несколько десятков тысяч рублей. При этом, как и в таблице donors, такие крупные платежи наиболее характерны для разовых платежей.

Однако, среди постоянных, за счет кол-ва платежей, так же присутствуют крупные суммы.

Теперь построим гистаграмму по этому показателю, но исключим выбросы.

In [549]:
fig = px.histogram(clients.query('Сумма_всего < 5000'),
                    x="Сумма_всего",
                   color="Подписки_вкл"
                  )

fig.update_layout(title_text='Распределение значений общего вклада благотворителя без учета выбросов',
                   xaxis_title='общая сумма за изучаемый период',
                   yaxis_title='кол-во плательщиков',
                   barmode='group')
fig.show()

На графике без выбросов хорошо заме но, что **для разовых плательщиков** чаще всего встречается сумма в 200-500 рублей, чуть реже - 100-1200рублей и сумма до 200рублей. Значительно реже встречаются суммы выше 1500рублей.

**Для постоянных благотворителей** чаще всего встречаются суммы около 1500 рублей. Так же нередки суммы в 2000-3000 рублей. При этом, суммы до 200рублей встречаются значительно реже.

Посмотрим, как распределяется сумма среднего платежа. Учитывая, что для разового плательщика средний платеж может быть равен общей сумме, сразу исключим возможные выбросы - отфильтруем значения, оставив только платежи ниже 5000.

In [550]:
#построим боксплот распределения значений среднего платежа без учета выбросов
fig = px.box(clients.query('Средний_платеж < 5000'),
             y='Средний_платеж',
             color="Подписки_вкл"
            )

fig.update_layout(title_text='Распределение значений среднего платежа без учета выбросов',
                   xaxis_title='тип донора',
                   yaxis_title='сумма, рубли')
fig.show()

Несмотря на то, что на графике все еще присутствуют выбросы, уже хорошо заметно, что средние платежи постоянных плательщиков ниже, чем средние платежи у разовых доноров. Медианное значение для разовых составляет 500рублей, в то время, как для постоянны - 300 рублей.

Что ожидаемо и объясняется логически. Постоянные благотворители переводят небольшие суммы, но делают это регулярно, а разовы, в большинстве случаев, совершают единоразовые пожертвования на большие суммы.

Посчитаем средний вклад плательщика за весь период.

In [551]:
#сгруппируем таблицу по типу подписки и рассчитаем показатели
types_of_payers = (clients
                   .groupby('Подписки_вкл')
                   .agg({'код':'count',
                         'Сумма_всего':'sum'})
                   .reset_index()
                   .rename(columns={'код':'Общее_кол-во'}))

types_of_payers['Средний_общий_вклад'] = round(types_of_payers['Сумма_всего']/types_of_payers['Общее_кол-во'])
types_of_payers

Unnamed: 0,Подписки_вкл,Общее_кол-во,Сумма_всего,Средний_общий_вклад
0,False,725,1179268,1627.0
1,True,230,817962,3556.0


In [552]:
#зададим сетку для построения графиков
fig = make_subplots(rows=1,
                    cols=3,
                    subplot_titles=('Кол-во плательщиков','Общая сумма','Средний вклад донора')
)

#размещаем графики
fig.add_trace(go.Bar(x=types_of_payers ['Подписки_вкл'], y=types_of_payers ['Общее_кол-во'], text=types_of_payers ['Общее_кол-во']), row=1, col=1)

fig.add_trace(go.Bar(x=types_of_payers ['Подписки_вкл'], y=types_of_payers ['Сумма_всего'], text=types_of_payers ['Сумма_всего']), row=1, col=2)

fig.add_trace(go.Bar(x=types_of_payers ['Подписки_вкл'], y=types_of_payers ['Средний_общий_вклад'], text=types_of_payers ['Средний_общий_вклад']), row=1, col=3)


fig.update_layout(showlegend=False,
                 height=400)

fig.show()

По среднему вкладу плательщиков мы наблюдаем такую же ситуацию, ка к стаблицей donors. При большом кол-ве разовых плательщиках и бОльшей общей сумме, собранной от них, средний вклад отдельного постоянного пользователя значительно выше.

### 4.3.Рассчет финансовой помощи в день.

Теперь рассчитыаем срежднюю сумму, получаемую фондом за день.

Для этого посчитаем общую сумму дохода за период и разделим на кол-во дней, охваченных выборкой.

In [553]:
print('Общая сумма пожертвований по таблице clienrts', clients['Сумма_всего'].sum())
print('Средняя сумма пожертвований в день по таблице clients:',
      round(clients['Сумма_всего'].sum() /
       (clients['Дата_последнего_платежа'].max() - clients['Дата_первого_платежа'].min()).days,1),
      'рублей')

print()

print('Общая сумма пожертвований по таблице donors', donors['Общая_сумма'].sum())
print('Средняя сумма пожертвований в день по таблице donors:',
      round(donors['Общая_сумма'].sum() /
       (donors['Последняя_дата'].max() - donors['Первая_дата'].min()).days,1),
      'рублей')

Общая сумма пожертвований по таблице clienrts 1997230
Средняя сумма пожертвований в день по таблице clients: 3553.8 рублей

Общая сумма пожертвований по таблице donors 1369973
Средняя сумма пожертвований в день по таблице donors: 3663.0 рублей


В среднем, НКО Благотворительная больница получает в день около 3,5 тысяч рублей.

При этом, для таблице donors эта сумма немного выше - 3663рубля. Возможно, это связано с тем, что в clients присутствуют данные за более ранний период. А, как мы выяснили ранее, до октября 2022 года  наблюдалась невысокая активность среди благотворителей. Что и могло снизить средний показатель.

### 4.4.Вывод.

Для проведения более качественного анализа потребовалось откорректировать некоторые значения в столбцах "Всего_платежей" и "Средний_платеж".

Так же возникли вопросы в отношении столбцов с информацией о подписке. После изучения столбца "Подписки_вкл" было принято решение, что значения представляют собой логические значения, где 0-отключена, 1- подключена подписка.
В отношении столбца "Подписки_выкл" такой категоризации провести не удалось.

**!!Необходимо уточнить, как происходит присвоение значений в этих столбцах!!**

Так же были выявлены следующие закономерности:
1. Чаще всего пользователи совершают разовые платежи, почти в 5-10 раз реже на одного плательшика приходится от 2х до 5ти платежей. От 5 до 10 пожертвований ссовершает от 10 до 20 человек. Но есть и такие благотворители, на долю которых приходится от 10 до 25 платежей за исследуемый период.

2. Средние платежи постоянных плательщиков ниже, чем средние платежи у разовых доноров. Медианное значение для разовых составляет 500рублей, в то время, как для постоянны - 300 рублей.

3. При этом. большинство разовых благотворителей принесли за весь период не более 2000р, а постоянные - не более 7000р.

Однако, есть случаи, когда общая сумма вклада составляет несколько десятков тысяч рублей. При этом, как и в таблице donors, такие крупные платежи наиболее характерны для разовых платежей.

Однако, среди постоянных, за счет кол-ва платежей, так же присутствуют крупные суммы.

4. Большая часть платежей совершается банковскими картами.

5. Почти 800 благотворителей совершали платежи из России. На другие стран приходятся единичные переводы. При этом, высока вероятность, что платежи из других. стран - это платежи из России с включенными VPN.

6. Так же, несмотря на то, что таблица отфильтрована по платежам из России, на диаграмме присутствуют регионы Кунене или Cuando Сubango. Причем, для этих регионов кол-во платежей достаточно большое - от 50 до 80 пожертвований.

**!!Необходимо дополнительно уточнить, по какой причине регионы отображаются некорректно. Причем Кунене и Cuando Сubango - достаточно популярные значения для столбца "Регионы". Если получится выяснить, к каким именно регионам России относятся эти платежи, то можно будет скорректировать рекламу, направив ее на пользователей из этих регионов.!!**

7. Средняя сумма пожертвований в день по результатам обеих таблиц - чуть больше 3.5 тысяч рублей.

## 5.Исследование рекламных кампаний НКО.

### 5.1.Обшие сведения о кампаниях.

Построим еще раз диаграмму Ганта по рекламным кампаниям.

In [554]:
fig = px.timeline(campaigns, x_start='min', x_end='max', y='№_Кампании')

fig.update_layout(title='Рекламные кампании',
                   xaxis_title='дата')

fig.show()

Всего за изучаемый период было проведено 23 рекламные кампании, длительность которых составляла от нескольких дней до нескольких месяцев. При этом, больше половины всех кампаний проводили в марте 2023 года и имели небольшую продолжительность.



###5.1.Изучении конверсии.

В выгрузке из Яндекс.Директа отражено крайне низкое кол-во конверсий. Это может быть вызвано тем, что в не всегда реклама запускалась с корректными настройками, либо конверсия действительно почти отсутствует.

Сгруппируем таблицу по дате и посмотрим, в какие дни реклама давала совершение целевый действий.

In [555]:
#построим диаграмму распределения кол-ва конверсий по датам
fig = px.bar(full_info.groupby('Дата', as_index=False)['Конверсии'].sum(),
             x='Дата',
             y='Конверсии')

fig.update_layout(title_text='Конверсии по дням',
                   xaxis_title='дата',
                   yaxis_title='кол-во конверсий')
fig.show()


На графике видно, что конверсии с рекламы совершаются. Их кол-во очень малненькое, но они есть каждый практически день, начиная с середины апреля 2023года.

Интересно, что до этого периода конверсий нет, вообще. В том числе, конверсии отсутствуют в мартовских рекламных кампаниях, когда мы наблюдали наибольшее кол-во совершенных пожертвований.

А в первой полловине мая, второй месяц пиковой активности благотворителей, можно заметить наилучшие показатели по конверсии в сравнении с остальными днями.

Возможно, причина отсутсвия конверсий за период с января по середину апреля в том, что рекламные кампании были не совсем корректно настроены. И поэтому, данные по конверсиям не отразились.

Вторая причина - это действительно отсутствие конверсий. В таком случае, всплеск пожертвований в марте будет не совсем корректно свзывать с рекламной деятельностью.


Так же на графике можно увидеть, что 25го и 26го июня было аномально большое кол-во конверсий. Это отличные показатели, однако, у нас нет данных по платежам за этот период, что бы дополнительно проанализировать и соспоставить эти данные.

**!!Желательно уточнить информацию относительно настройки рекламных кампаний за период до середины апреля и после, что бы понять реальную причину отсутствия конверсий!!**



Теперь посмотрим, какие рекламные кампании привели к конверсиям, а так же, какие категории граждан лучше конвертировались.

Так как до 8-го апреля у нас нет данных по неуточненным причинам, анализировать данные будет только за период с 08.04.23.

In [556]:
#отфильтруем данные по дате
filt_cr_data = full_info.query('Дата >= "2023-04-08"')

Зададим функцию для создания сводных таблиц по расчету CTR и СR с разбивкой по следующим показателям:
- кампания
- пол
- возраст.

In [557]:
def get_cr_ctr(column):

  ctr_cr = (filt_cr_data
            .groupby(column)
            .agg({'Показы':'sum',
                  'Клики':'sum',
                  'Конверсии':'sum'})
            .reset_index())

  ctr_cr['CTR'] = round(ctr_cr['Клики']/ ctr_cr['Показы']*100,1)
  ctr_cr['CR'] = round(ctr_cr['Конверсии']/ ctr_cr['Показы']*100,3)

  return ctr_cr


In [558]:
#применим функцию к каждому показателю
adds_cr_ctr = get_cr_ctr('Кампания')
sex_cr_ctr = get_cr_ctr('Пол')
age_cr_ctr = get_cr_ctr('Возраст')

Построим визуализацю для наглядности.

In [559]:
#зададим сетку для построения графиков
fig = make_subplots(rows=3,
                    cols=2,
                    subplot_titles=('CTR по полу','CR по полу','CTR по возрасту',\
                                    'CR по возрасту','CTR по кампаниям','CR по кампаниям',)
)

#размещаем графики
fig.add_trace(go.Bar(x=sex_cr_ctr['Пол'], y=sex_cr_ctr['CTR'], text=sex_cr_ctr['CTR']), row=1, col=1)
fig.add_trace(go.Bar(x=sex_cr_ctr['Пол'], y=sex_cr_ctr['CR'], text=sex_cr_ctr['CR']), row=1, col=2)

fig.add_trace(go.Bar(x=age_cr_ctr['Возраст'], y=age_cr_ctr['CTR'], text=age_cr_ctr['CTR']), row=2, col=1)
fig.add_trace(go.Bar(x=age_cr_ctr['Возраст'], y=age_cr_ctr['CR'], text=age_cr_ctr['CR']), row=2, col=2)

fig.add_trace(go.Bar(x=adds_cr_ctr['Кампания'], y=adds_cr_ctr['CTR'], text=adds_cr_ctr['CTR']), row=3, col=1)
fig.add_trace(go.Bar(x=adds_cr_ctr['Кампания'], y=adds_cr_ctr['CR'], text=adds_cr_ctr['CR']), row=3, col=2)

fig.update_layout(title_text='Показатели CTR и CR',
                  showlegend=False,
                  height=1000)
fig.update_xaxes(tickangle=45)

fig.show()

**Кампании.**

Самый лучший показатель конверсии у кампании Общий_сбор_средств. Самые низкие - у Обустройство_клиники_путешествия и Верующие_ключи_интересы.

В целом, можно сказать, что чем выше CTR, тем выше CR. Это справедливо для всех кампаний, за исключением ГЕО и Пакет_бездомашний_очаг_Реабилитационные_центры_ключи.

***У кампании ГЕО*** самый высокий CTR, однако коэффициент конверсии не самый лучший. Это говорит о том, что люди достаточно хорошо переходят по рекламе, при этом не совершают пожерствований. Возможно, реклама показывается не самой целевой аудитории.

**!!Так как благотворительная реклама по грантам показывается только в РСЯ, для более качественного анализа целесообразно иметь информацию о площадках размещения в отчете. Это даст возможность проанализировать эффективность каждой площадки и понять, где рекламу показывать НЕ стоит, а на какую площадку сделать максимальный акцент!!**

**Пол и возраст.**

Лучше всего конвертировались люди старше 55 лет и младше 18. Возможно, это так же связано с площадками, на которых была показана реклама. Пол не влияет на конверсию.

### 5.2.Анализ основных показателей по рекламным кампаниям.

Во время исследжования мы будем использовать сводные таблицы, сгруппированные и рассчитанные в разрезе разных показателей.

Что бы нес троить таблицу заново каждый раз, создажим функцию, которая будет строить такую таблицу.


In [560]:
def group_table(column):

  pivot_table = (full_info
                 .groupby(column)
                   .agg({'Показы':'sum',
                         'Клики':'sum',
                         'Расход_руб':'sum',
                         'Ср_цена_клика_руб':'mean',
                         'Ср_объём_трафика':'mean',
                         'Ср_цена_тыс_показов_руб':'mean'})
                   .reset_index())

  #рассчитаем средний показатель СTR
  pivot_table['CTR'] = round(pivot_table['Клики'] / pivot_table['Показы']*100, 2)

  #округлив значения в столбцахс рассветом средних показаний
  for name in ['Ср_цена_клика_руб', 'Ср_объём_трафика','Ср_цена_тыс_показов_руб']:
      pivot_table[name] = round(pivot_table[name],1)

  return pivot_table

Для начала посмотрим основные показатели с разбивкой по рекламным кампаниям.

In [561]:
pivot_campaigns = group_table(['Кампания', '№_Кампании'])

In [562]:
pivot_campaigns

Unnamed: 0,Кампания,№_Кампании,Показы,Клики,Расход_руб,Ср_цена_клика_руб,Ср_объём_трафика,Ср_цена_тыс_показов_руб,CTR
0,clinica/activists_volunteers/keys,84668594,85559,422,6743.67,16.4,100.0,83.0,0.49
1,helpingwomen/feminism_keys,84725588,99566,452,8651.86,22.2,99.9,92.6,0.45
2,Бизнесмены/ ремонт больнички,84728956,108824,692,11783.65,17.9,100.0,109.4,0.64
3,Благотворители/ помощь бездомным женщинам,84176025,127204,348,7287.17,21.7,100.0,37.9,0.27
4,Больничка_бизнес_ключи-интересы,86413952,623644,1524,67086.17,49.6,100.0,242.4,0.24
5,Верущие Автотаргетинг (Бездомные женщины),84716344,281337,1149,18020.03,20.0,100.0,79.2,0.41
6,Гео,84199193,339894,2742,23806.38,9.1,100.0,58.7,0.81
7,Кампания с фиксированным СРМ №10 от 14-03-2023,84704851,7348,4,661.32,38.9,100.0,90.0,0.05
8,Команда#2 / Бот / СПб,82164908,3497029,17963,177861.53,11.0,100.0,44.7,0.51
9,Культурно образованные (Больничка),84724307,89041,398,7688.78,20.0,100.0,96.4,0.45


К сожалению, в имеющейся выгрузке отсутствует информация о конверсии в целевое действие.
Предположительно, причина этому - отсутствие в лином кабинете нужных настроек.

В связи с этим, наиболее успешные кампании будем определять по показателю CTR.

**!!Нужно перепроверить настройки в личном кабинете и попробовать настроить целевые действия!!**

Для того, что бы быстрее сориентироваться в таблице, построим диаграммы по каждому из показателей, кроме объема трафика,так как он для всех составляет 99.8-100%.

In [563]:
pivot_campaigns['№_Кампании'] = pivot_campaigns['№_Кампании'].astype('str')

In [564]:
#зададим сетку для построения графиков
fig = make_subplots(rows=6,
                    cols=1,
                    subplot_titles=('Показы','Клики','Расход','CTR','Ср.цена клика,руб','Ср.цена за тысячу показов,руб'))

#размещаем графики
fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['Показы'],
                     text=pivot_campaigns['Показы']),
              row=1, col=1)

fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['Клики'],
                     text=pivot_campaigns['Клики']),
              row=2, col=1)

fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['Расход_руб'],
                     text=pivot_campaigns['Расход_руб']),
              row=3, col=1)

fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['CTR'],
                     text=pivot_campaigns['CTR']),
              row=4, col=1)

fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['Ср_цена_клика_руб'],
                     text=pivot_campaigns['Ср_цена_клика_руб']),
              row=5, col=1)

fig.add_trace(go.Bar(x=pivot_campaigns['№_Кампании'],
                     y=pivot_campaigns['Ср_цена_тыс_показов_руб'],
                     text=pivot_campaigns['Ср_цена_тыс_показов_руб']),
              row=6, col=1)


fig.update_layout(#title_text = 'Средние маркетинговые показатели',
                 showlegend=False,
                 height=2200)
fig.update_xaxes(tickangle=40)

fig.show()


***Кол-во показов.***

Основное кол-во рекламных кампаний имеет менее 200000 показов, несколько компаний - до 1000000 показов, и лишь одна компания сильно выделяется с показателем равным более 3млн показов.

***Расход.***

Большая часть рекламных кампаний укладывается в бюджет до 100 тыс рублей, несколько кампаний имеют расход до 500-600 тыс рублей. И лишь одна кампания имеет бюджет, превышающий 150тыс рублей.

***Клики и CTR***

Согласно полученным данным пользователи не очень охотно кликают по рекламе. Показатель CTR для всех кампаний не доходит даже до 1%. Самый высокий показатель, 0.8%, у рекламныой кампании "РК_бездомные женщины".

***Средняя цена клика***

Средняя цена клика варьируется от 9.1 руб до 54 руб. НАивысшая цена за клик соответствует рекламной кампании, у который был один из самых низких показателей CTR.

***Ср.цена за тысячу показов***

Этот показатель самый высокий, 400руб, у кампании, у которой самый высокий CTR. САмая низкая стоимость - у рекламы "Благотворители/ помощь бездомным женщинам".

Для каждой рекламной кампании у нас заданы следующие параметры:
-	Пол;
- Уровень_платежеспособности;
- Возраст.

Посчитаем все показатели с разбивкой по каждому параметру.

### 5.3.Рассчет общих и средних показателей по основным параметрам рекламных кампаний.

Начнем с параметра пола. Построим таблицу и визуализацию к ней.

In [565]:
#получим сводную таблицу по полу
pivot_sex = group_table('Пол')
pivot_sex

Unnamed: 0,Пол,Показы,Клики,Расход_руб,Ср_цена_клика_руб,Ср_объём_трафика,Ср_цена_тыс_показов_руб,CTR
0,женский,6067996,26731,525835.01,25.5,100.0,143.5,0.44
1,мужской,3686196,14124,291485.81,24.4,100.0,130.0,0.38
2,не определен,99346,388,8350.69,22.0,99.9,83.4,0.39


In [566]:
#зададим сетку для построения графиков
fig = make_subplots(rows=2,
                    cols=3,
                    subplot_titles=('Показы','Клики','Расход','CTR','Ср.цена клика,руб','Ср.цена за тысячу показов,руб'))

#размещаем графики
fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['Показы'],
                     text=pivot_sex['Показы']),
              row=1, col=1)

fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['Клики'],
                     text=pivot_sex['Клики']),
              row=1, col=2)

fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['Расход_руб'],
                     text=pivot_sex['Расход_руб']),
              row=1, col=3)

fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['CTR'],
                     text=pivot_sex['CTR']),
              row=2, col=1)

fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['Ср_цена_клика_руб'],
                     text=pivot_sex['Ср_цена_клика_руб']),
              row=2, col=2)

fig.add_trace(go.Bar(x=pivot_sex['Пол'],
                     y=pivot_sex['Ср_цена_тыс_показов_руб'],
                     text=pivot_sex['Ср_цена_тыс_показов_руб']),
              row=2, col=3)


fig.update_layout(title_text = 'Средние показатели в разбивке по полу пользователей',
                 showlegend=False)


fig.show()

У нас есть данные о пользовотелях мужского и женского пола, а так же о тех, чей пол не был определен.

Все рассчитанные показатели, в том числе и  CTR, у женского пола выше, чем у мужского и неопределенного.

In [567]:
#получим сводную таблицу по уровню платежеспособности
pivot_pay_level = group_table('Уровень_платежеспособности')
pivot_pay_level

Unnamed: 0,Уровень_платежеспособности,Показы,Клики,Расход_руб,Ср_цена_клика_руб,Ср_объём_трафика,Ср_цена_тыс_показов_руб,CTR
0,1%,95566,193,9839.43,50.8,100.0,130.7,0.2
1,2-5%,835011,1675,60616.26,36.0,100.0,116.7,0.2
2,6-10%,1013476,2121,64202.64,30.7,100.0,110.9,0.21
3,Остальные,7909485,37254,691013.18,22.7,99.9,149.7,0.47


In [568]:
#построим визуализацию

#зададим сетку для построения графиков
fig = make_subplots(rows=2,
                    cols=3,
                    subplot_titles=('Показы','Клики','Расход','CTR','Ср.цена клика,руб','Ср.цена за тысячу показов,руб'))

#размещаем графики
fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['Показы'],
                     text=pivot_pay_level['Показы']),
              row=1, col=1)

fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['Клики'],
                     text=pivot_pay_level['Клики']),
              row=1, col=2)

fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['Расход_руб'],
                     text=pivot_pay_level['Расход_руб']),
              row=1, col=3)

fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['CTR'],
                     text=pivot_pay_level['CTR']),
              row=2, col=1)

fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['Ср_цена_клика_руб'],
                     text=pivot_pay_level['Ср_цена_клика_руб']),
              row=2, col=2)

fig.add_trace(go.Bar(x=pivot_pay_level['Уровень_платежеспособности'],
                     y=pivot_pay_level['Ср_цена_тыс_показов_руб'],
                     text=pivot_pay_level['Ср_цена_тыс_показов_руб']),
              row=2, col=3)


fig.update_layout(title_text = 'Средние показатели в разбивке по уровню платежеспособности',
                 showlegend=False)


fig.show()

Основная доля показов рекламы состялась для пользователей с наименьшей платежеспособностью. У них, так же, самый высокий показатель CTR и самая низкая цена за клик.

У самых платежеспособных, а это наилучшая аудитория для целей НКО, уровень CTR самый низкий - всего 0.3%. При этом, у них самая высокая цена за клин, и вторая ср.цена за тысячу показов.

Для пользоватлей с уровнем платежеспособности в 2-6% ср. показатели стоисоти кликов и тысячи показов не самые высокие и неплохой показатель CTR - 0.4%. Эти пользователи так же считаются Яндекс.Директом достаточно платежесвпособными.

**!!А значит, есть смысл усилить рекламу на эту группу пользователей!!**

In [569]:
#получим сводную таблицу по возрасту
pivot_age = group_table('Возраст')

pivot_age

Unnamed: 0,Возраст,Показы,Клики,Расход_руб,Ср_цена_клика_руб,Ср_объём_трафика,Ср_цена_тыс_показов_руб,CTR
0,18-24,1036422,2107,52002.69,27.2,100.0,87.7,0.2
1,25-34,1809948,5041,145415.84,32.1,100.0,136.4,0.28
2,35-44,1951676,7545,174779.95,27.9,100.0,146.1,0.39
3,45-54,1466764,6157,134716.52,26.3,100.0,160.9,0.42
4,младше 18,767967,2562,24849.54,10.7,100.0,42.9,0.33
5,не определен,177042,580,12243.55,21.8,100.0,84.1,0.33
6,старше 55,2643719,17251,281663.42,21.0,100.0,174.6,0.65


In [570]:
#построим визуализацию

#зададим сетку для построения графиков
fig = make_subplots(rows=2,
                    cols=3,
                    subplot_titles=('Показы','Клики','Расход','CTR','Ср.цена клика,руб','Ср.цена за тысячу показов,руб'))

#размещаем графики
fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['Показы'],
                     text=pivot_age['Показы']),
              row=1, col=1)

fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['Клики'],
                     text=pivot_age['Клики']),
              row=1, col=2)

fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['Расход_руб'],
                     text=pivot_age['Расход_руб']),
              row=1, col=3)

fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['CTR'],
                     text=pivot_age['CTR']),
              row=2, col=1)

fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['Ср_цена_клика_руб'],
                     text=pivot_age['Ср_цена_клика_руб']),
              row=2, col=2)

fig.add_trace(go.Bar(x=pivot_age['Возраст'],
                     y=pivot_age['Ср_цена_тыс_показов_руб'],
                     text=pivot_age['Ср_цена_тыс_показов_руб']),
              row=2, col=3)


fig.update_layout(title_text = 'Средние показатели в разбивке по возрасту',
                 showlegend=False)


fig.show()

Больше всего показов рекламы состоялось для пользователей старше 55 лет. При этоим, у них же самай высокий показатель CTR - 0.65%. И несмотря на самый высокий расход бюджта, ср.цена клика здесь почти самая маленькая.

Хуже всего откликаются на рекламу пользователи до 34 лет. Здесь показатель CTR не превышает 0.3%.

Для групп от 35 до 54 лет достаточно высокие расходы, но при этом показатель CTR неплохой ~0.4%.

**!!Возможно, есть смысл увеличить показы для категории от 35 до 54 лет. Так как это наиболее платежеспособное население, неплохо откликающееся на рекламу НКО.!!**

### 5.4.Анализ рекламы в формате видеороликов.

В выгрузке из личного кабинета Яндекс.Директа есть данные, в том числе, о рекламе в формате видеороликов. Для этих кампаний в таблице есть информация по таким поеазтелям, как Проигрование_ролика и Доля_проигрываний.

Отфильтруем данный по видеорекламе в отдельный датасет. Так же отдельно сохраним данные по рекламе в других форматах.

In [571]:
#оставим те строки, для которых есть данные в столбце о проигрывании ролика
videos = full_info.loc[full_info['Доля_проигрываний_25пр_ролика'].notna()]

#оставим те строки, для которых нет данных в столбце о проигрывании ролика
non_videos = full_info.loc[full_info['Доля_проигрываний_25пр_ролика'].isna()]

Проверим, видеоролики встречаются во время специальных видеорекламных кампаний, или идут паралелльно. сдругими форматами рекламы.

Для этого посмотрим, пересекаются ли названия кампаний в таблицах videos и non_videos.

In [572]:
#создадим список Кампаний, во время которых показывается реклама в отличном от видео формате
non_vid_adds = non_videos["Кампания"].unique()

print('Названия кампаний, для которых показ рекламы был только в формате видео:',
      videos.query('Кампания not in @non_vid_adds')['Кампания'].unique())

print()

print('Названия кампаний, для которых показ рекламы был разных форматах:',
      videos.query('Кампания in @non_vid_adds')['Кампания'].unique())

Названия кампаний, для которых показ рекламы был только в формате видео: []

Названия кампаний, для которых показ рекламы был разных форматах: ['Команда#2 / Бот / СПб'
 'Пакет_Бездомашний очаг_Психологическая помощь_ключи-интересы'
 'Культурно образованные (Больничка)' 'helpingwomen/feminism_keys'
 'Пакет_Бездомашний очаг_Верующие_ключи-интересы' 'РК_Больничка'
 'РК_Ретаргетинг' 'Больничка_бизнес_ключи-интересы' 'РК_бездомные женщины'
 'Пакет_Бездомашний очаг_Реабилитационные центры_ключи'
 'РК_Общий сбор_средств' 'РК_Обустройство_клиники' 'РК_Мобильная клиника'
 'РК_Обустройство_клиники_путешествия']


Отдельных видеорекламных кампаний организовано не было. Во всех случаях видеоролики - один из форматов рекламы в рамках одной из кампаний.

Тем не менее, для того, чо бы более точно определить осоьенности видеорекламы, изучим эти данные отдельно от остальных.



In [573]:
#зададим функцию, создающую сводную таблицу по показателям просмотров видеороликов
def group_videos(column):

  pivot_table = (videos
                 .groupby(column)
                 .agg({'Показы':'sum',
                       'Клики':'sum',
                       'Проигрывание_25пр_ролика':'mean',
                       'Проигрывание_100пр_ролика':'mean',
                       'Доля_проигрываний_25пр_ролика':'mean',
                       'Доля_проигрываний_100пр_ролика':'mean'})
                 .reset_index())

  #округлив значения в столбцахс рассветом средних показаний
  for name in pivot_table.columns[1:]:
      pivot_table[name] = round(pivot_table[name],1)

  pivot_table['CTR'] = round(pivot_table['Клики'] / pivot_table['Показы'] * 100, 2)
  return pivot_table

In [574]:
#создадим сводную таблицу по кампаниям
video_cam = group_videos(['№_Кампании'])
video_cam['№_Кампании'] = video_cam['№_Кампании'].astype('str')

In [575]:
video_cam

Unnamed: 0,№_Кампании,Показы,Клики,Проигрывание_25пр_ролика,Проигрывание_100пр_ролика,Доля_проигрываний_25пр_ролика,Доля_проигрываний_100пр_ролика,CTR
0,82164908,2973890,16402,8.6,5.2,6.2,3.5,0.55
1,83825936,180779,432,0.0,0.0,0.0,0.0,0.24
2,84171252,336368,1199,5.9,3.1,14.3,7.7,0.36
3,84641858,638,2,0.0,0.0,0.0,0.0,0.31
4,84724307,54092,267,0.7,0.3,2.9,1.7,0.49
5,84725588,22701,102,33.6,21.7,34.0,15.1,0.45
6,86413952,30173,265,0.0,0.0,0.0,0.0,0.88
7,86426984,4062,21,0.0,0.0,0.0,0.0,0.52
8,86427768,137300,274,0.0,0.0,0.0,0.0,0.2
9,87637100,67322,153,0.0,0.0,0.0,0.0,0.23


In [576]:
#построим визуализацию

#зададим сетку для построения графиков
fig = make_subplots(rows=3,
                    cols=2,
                    subplot_titles=('Проигрывание 25% ролика','Проигрывание 100% ролика',
                                    'Доля проигрываний 25% ролика',  'Доля проигрываний 100% ролика',
                                    'Показы','CTR'))

#размещаем графики
fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['Проигрывание_25пр_ролика'],
                     text=video_cam['Проигрывание_25пр_ролика']),
              row=1, col=1)

fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['Проигрывание_100пр_ролика'],
                     text=video_cam['Проигрывание_100пр_ролика']),
              row=1, col=2)

fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['Доля_проигрываний_25пр_ролика'],
                     text=video_cam['Доля_проигрываний_25пр_ролика']),
              row=2, col=1)

fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['Доля_проигрываний_100пр_ролика'],
                     text=video_cam['Доля_проигрываний_100пр_ролика']),
              row=2, col=2)

fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['Показы'],
                     text=video_cam['Показы']),
              row=3, col=1)

fig.add_trace(go.Bar(x=video_cam['№_Кампании'],
                     y=video_cam['CTR'],
                     text=video_cam['CTR']),
              row=3, col=2)

fig.update_layout(title_text = 'Средние показатели просмотра видеороликов',
                 showlegend=False,
                  height=1000)
fig.update_xaxes(tickangle=40)

fig.show()

Согласно полученным данным в 7 рекламных кампаний из 14 видеоролики не досматривали даже до 25%. Показать проигрывания и его доли здесь равен 0.

Это кампании под номерами: 82164908, 84171252, 84724307, 84725588, 83825936, 86427768,87637100, 86413952, 86426984, 84641858, 89800500, 89727699, 89785325, 90807175.

**!!Нужно дополнительно уточнить в отношении этих рекламных кампаний. В чем причина отсутствия просмотров. Возможно, по факту, это были не видеоролики, а статичная реклама. Так как клики по рекламе были, исходя ои показателей CTR.**

** НО если это были видеоролики нужно исключить технические причины отсутствия просмотров и проанализировать такую низкую активность!!**

Больше всего просмотров ролтков во время кампании 84725588, CTR составил 0.45%.

Самый высокий показатель CTR у кампании 86413952, при этом, у нее нет просмотров, вообще. Возможно, это была не видеореклама. НЕобходимо уточнять.

Посчитаем показатели с разбивкой по полу.

In [577]:
videos_sex = group_videos('Пол')
videos_sex

Unnamed: 0,Пол,Показы,Клики,Проигрывание_25пр_ролика,Проигрывание_100пр_ролика,Доля_проигрываний_25пр_ролика,Доля_проигрываний_100пр_ролика,CTR
0,женский,2728914,14687,4.6,2.7,8.4,2.8,0.54
1,мужской,1286886,5632,3.5,1.7,9.7,3.4,0.44
2,не определен,14844,67,1.0,0.5,25.1,11.6,0.45


In [578]:
#построим визуализацию

#зададим сетку для построения графиков
fig = make_subplots(rows=3,
                    cols=2,
                    subplot_titles=('Проигрывание 25% ролика','Проигрывание 100% ролика',
                                    'Доля проигрываний 25% ролика',  'Доля проигрываний 100% ролика',
                                    'Показы','CTR'))

#размещаем графики
fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['Проигрывание_25пр_ролика'],
                     text=videos_sex['Проигрывание_25пр_ролика']),
              row=1, col=1)

fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['Проигрывание_100пр_ролика'],
                     text=videos_sex['Проигрывание_100пр_ролика']),
              row=1, col=2)

fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['Доля_проигрываний_25пр_ролика'],
                     text=videos_sex['Доля_проигрываний_25пр_ролика']),
              row=2, col=1)

fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['Доля_проигрываний_100пр_ролика'],
                     text=videos_sex['Доля_проигрываний_100пр_ролика']),
              row=2, col=2)

fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['Показы'],
                     text=videos_sex['Показы']),
              row=3, col=1)

fig.add_trace(go.Bar(x=videos_sex['Пол'],
                     y=videos_sex['CTR'],
                     text=videos_sex['CTR']),
              row=3, col=2)

fig.update_layout(title_text = 'Средние показатели просмотра видеороликов с разбивкой по полу',
                 showlegend=False,
                  height=1000)

fig.show()

Согласно полученным данным, мужчины более охотно просматривают ролики, доля просмотра до 25% на 1.5% выше, чем у женщин. Так же мужчины чаще досматривают видеоролики до конца.

При этом, показов роликов для мужчин значительно меньше.

Однако СTR выше у женщин. Но незначительно, на 0.1%.

**!!Имеет смысл увеличить показы видеороликов для мужчин.!!**

Посчитаем показатели с разбивкой по возрасту.

In [579]:
videos_age = group_videos('Возраст')
videos_age

Unnamed: 0,Возраст,Показы,Клики,Проигрывание_25пр_ролика,Проигрывание_100пр_ролика,Доля_проигрываний_25пр_ролика,Доля_проигрываний_100пр_ролика,CTR
0,18-24,377050,871,2.3,1.1,8.8,3.3,0.23
1,25-34,521724,1916,2.5,0.9,8.6,2.6,0.37
2,35-44,707713,3573,2.7,1.0,9.1,2.5,0.5
3,45-54,561040,2716,2.3,0.8,9.6,2.6,0.48
4,младше 18,534805,1839,5.0,2.3,6.4,3.5,0.34
5,не определен,39664,125,1.3,0.6,17.3,7.0,0.32
6,старше 55,1288648,9346,8.8,6.0,11.2,4.9,0.73


In [580]:
#построим визуализацию

#зададим сетку для построения графиков
fig = make_subplots(rows=3,
                    cols=2,
                    subplot_titles=('Проигрывание 25% ролика','Проигрывание 100% ролика',
                                    'Доля проигрываний 25% ролика',  'Доля проигрываний 100% ролика',
                                    'Показы','CTR'))

#размещаем графики
fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['Проигрывание_25пр_ролика'],
                     text=videos_age['Проигрывание_25пр_ролика']),
              row=1, col=1)

fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['Проигрывание_100пр_ролика'],
                     text=videos_age['Проигрывание_100пр_ролика']),
              row=1, col=2)

fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['Доля_проигрываний_25пр_ролика'],
                     text=videos_age['Доля_проигрываний_25пр_ролика']),
              row=2, col=1)

fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['Доля_проигрываний_100пр_ролика'],
                     text=videos_age['Доля_проигрываний_100пр_ролика']),
              row=2, col=2)

fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['Показы'],
                     text=videos_age['Показы']),
              row=3, col=1)

fig.add_trace(go.Bar(x=videos_age['Возраст'],
                     y=videos_age['CTR'],
                     text=videos_age['CTR']),
              row=3, col=2)

fig.update_layout(title_text = 'Средние показатели просмотра видеороликов с разбивкой по возрасту',
                 showlegend=False,
                  height=1000)

fig.show()

Больше всего показов видеороликов было для категории от 55 лет и выше, поэтому для них показатели проигрывания до 25 и 100% выше остальных. Доля просмотров тоже одна из самых высоких - более 11%. CTR для это категории так же саый высокий.

Реже всего досматривают ролики лица младше 18 лет. CTR для этой группы так же не самый высокий - всего 0.34%.

**!!Несмотря на высокую эмпатию, платежеспособность граждан возраста 55+ не самая высокая. Поэтому, лучше сделать акцент по показам видео на группу 35-44 лет. Показатель СTR здесь второй по величине, ~0.5%. А доля просмотров до 25% - более 9%.!!**

Рассчитаем показатели по уровню платежеспособности.

In [584]:
videos_level = group_videos('Уровень_платежеспособности')
videos_level

Unnamed: 0,Уровень_платежеспособности,Показы,Клики,Проигрывание_25пр_ролика,Проигрывание_100пр_ролика,Доля_проигрываний_25пр_ролика,Доля_проигрываний_100пр_ролика,CTR
0,Остальные,4030644,20386,3.9,2.1,9.9,3.6,0.51


Интересно, что согласно данным в выгрузке, видеоролики показывали только для категории "остальные", которая считается самой низкоплатежной категорией.

Показатели здесь неплохие, Доля просмотра видео до 25% составляет почти 10%, а CTR 0.5%.

**!!Стоит дополнительно разобраться, почему ролики не показывались более платежным категориям.!!**

### 5.5.Вывод.

В период с 15 января по 19 июля было проведено 23 рекламные кампании, длительность которых составляла от нескольких дней до нескольких месяцев. При этом, больше половины всех кампаний проводили в марте 2023 года, и они имели  продолжительность в несколько дней.

При этом, в имеющейся выгрузке отсутствует информация о конверсии в целевое действие. Предположительная причина - отсутствие в лином кабинете нужных настроек.
В связи с этим, наиболее успешные кампании будем определять по показателю CTR.

**!!Нужно перепроверить настройки в личном кабинете и попробовать настроить целевые действия!!**

В отношении рекламных кампаний выявлены следующие закономерности:

***Кол-во показов.***

Основное кол-во рекламных кампаний имеет менее 200000 показов, несколько компаний - до 1000000 показов, и лишь одна компания сильно выделяется с показателем равным более 3млн показов.

***Расход.***

Большая часть рекламных кампаний укладывается в бюджет до 100 тыс рублей, несколько кампаний имеют расход до 500-600 тыс рублей. И лишь одна кампания имеет бюджет, превышающий 150тыс рублей.

***Клики и CTR***

Согласно полученным данным пользователи не очень охотно кликают по рекламе. Показатель CTR для всех кампаний не доходит даже до 1%. Самый высокий показатель, 0.9%, у рекламныой кампании "РК_бездомные женщины".

Так же одни из лучших показателей у кампаний "Ремонт больнички - Автотаргетинг" и "Гео", здесь CTR составил 0.7 и 0.8%.

***Средняя цена клика***

Средняя цена клика варьируется от 9.1 руб до 54 руб. НАивысшая цена за клик соответствует рекламной кампании, у который был один из самых низких показателей CTR.

***Ср.цена за тысячу показов***

Этот показатель самый высокий, 400руб, у кампании, у которой самый высокий CTR. САмая низкая стоимость - у рекламы "Благотворители/ помощь бездомным женщинам".


- - -


Если смотреть на показатели в разбивке по различным параметрам, отмеченным в выгрузке, то можно отметить описанные ниже особенности.

1. Все рассчитанные показатели для рекламы в общем, в том числе и CTR, у женского пола выше, чем у мужского и пользователей, чей пол не был определен. При этом, в отношении видеороликов ситуация немного отлична - мужчины более охотно просматривают ролики,а показов для них значительно меньше.

Однако СTR выше у женщин. Но незначительно, на 0.1%.

**!!Имеет смысл увеличить показы видеороликов для мужчин. А в обычной рекламе сделать акцент на женскую аудиторию!!**

2. Больше всего показов рекламы всех форматов состоялось для пользователей старше 55 лет. При этоим, у них же так же самый высокий показатель CTR.

Хуже всего откликаются на рекламу пользователи до 34 лет. Видеоролики они просматривают так же не очень охотно. CTR для этой группы так же не самый высокий - всего 0.4%.

**!!Несмотря на высокую эмпатию, платежеспособность граждан возраста 55+ не самая высокая. Поэтому, лучше сделать акцент по показам видео на группу 35-44 лет, а другие форматы увеличить для категории от 35 до 54 лет. Так как это наиболее платежеспособное население, неплохо откликающееся на рекламу НКО. Здесь хорошие показатели CTR и доли просмотров до 25%.!!**

3. Основная доля показов рекламы состялась для пользователей с наименьшей платежеспособностью. У них, так же, самый высокий показатель CTR и самая низкая цена за клик.

У самых платежеспособных, а это наилучшая аудитория для целей НКО, уровень CTR самый низкий - всего 0.3%. При этом, для этой категории пользователей не транслировалась реклама в формате видеороликов.

Видео не было показано и группам с уровнем в 2-6%, хотя эти пользователи так же считаются Яндекс.Директом достаточно платежеспособными. А согласно данным по рекламным кампаниям, они имеют неплохой показатель CTR - 0.4%.

**!!Стоит уточнить, в чем причина отсутствия показа рекламы для наиболее платежеспособной аудитории и рассмотреть расширение показов видеорекламы на все категории платежеспособности.!!**

##6.Итоги исследования.

В ходе исследования нам удалось:

- выявить временные особенности совершения пожертвований и определить наиболее успешные периоды;

- изучить типы благотворителей и особенности совершения платежей на сайте НКО;

- определить характерные особенности для платежей разных типов плательщиков;

- рассчитать и проанализирвоать средние показатели по денежным поступлениям в НКО;

- выявить характерные закономерности в реакции аудитории на рекламные кампании с разбивкой по типу рекламы, возрасту, полу и уровню платежеспособности аудитории;

- составить комментарии и рекомендации по сбору данных в будущем;

- составить комментарии и рекомендации по проведению рекламных кампаний.


В рамках предобработки данных в исходные таблицы были внесены корректировки и исправления:

- точки, запятые и различные символы (пробелы, %) в названиях столбцов были заменены на символ "_";

- преобразован формат данных в столбцах, где тип данных не соответствовал хранящимся в нем значениям: строковые данные вместо дат и числовых данных;

- из таблиц удалены столбцы и строки, непредставляющие ценности для анализа;

---------
**ВРЕМЕННЫЕ ОСОБЕННОСТИ ДАННЫХ О ПОЖЕРТВОВАНИЯХ.**

В двух выгрузках (clients и donors) имеются данные, охватывающие период с 17.11.21 по 24.06.23.

***Даты и месяцы.*** В период с мая по июль 2022 года включительно отмечается максимальное снижение количества совершаемых пожертвований. Возможно, это связано с начатой в конце феврале СВО и введением экономических и политических санкций для России.

В период с 1го августа по 30е ноября 2022 года ситуация значительно улучшилась. А в период проведения известных нам рекламных кампаний можно заметить увеличение количества пожертвований относительно более ранних периодов.

При этом, Март и Май 2023г. - наиболее успешные месяцы: количество пожертвований здесь максимальные и составляют более 300 платежей в месяц.

Эти месяцы приходятся на пересечение несколько рекламных кампаний. Возможно, именно большое кол-во рекламных кампаний способствовало высокой активности среди благотворителей. Что говорит о том, что настройка рекламы действительно имеет смысл.

***Время суток.*** В течении дня, наибольшая активность благотворителей наблюдается в 21 час вечера и далее, а так же в 14 часов дня. Так же хорошая активность приходится на 10 утра и 18 часов вечера.

***Дни недели.*** Со среды по пятницу пожертвования совершаются наиболее активно. При этом, в четверг кол-во платежей доходит допикового значения. В то время, как понедельник и вторник -самые неэффективные дни.

***РЕКОМЕНДАЦИИ ЗАКАЗЧИКУ***.
Если опираться исключительно на имеющиеся данные, можно сказать, что рекламные кампании благоприятно влияют на кол-во пожертвований. А если учитывать выявленные в ходе анализа закономерности, то можно сформулировать следующую рекомендацию:

- увеличить кол-во показов рекламы в наиболее активные часы в течении дня. При этом, сместить акцент на середину недели - среда-пятница.

!!Однако, для получения полноценной картины желательно дополнительно проверить наиболее успешные месяца(март и мая) на предмет проведения НКО каких-то дополнительных мероприятий. Возможно, это какие-то оффлайн акции или фестивали, которые привлекали людей к пожертвованиям. В этом случае говорить о влиянии рекламных кампаний на количество платежей будет не совсем корректно.!!

---------------

**ОСОБЕННОСТИ И ХАРАКТЕРИСТИКИ ПЛАТЕЖЕЙ, ОТРАЖЕННЫХ В ТАБЛИЦАХ "clients" И "donors".**

--> Всего в фонд за исследуемые период поступило более 2 млн.рублей.

--> Средняя сумма пожертвований в день по результатам обеих таблиц - чуть больше 3.5 тысяч рублей.

Пожертвования в НКО совершают два типа юлаготворителей: разовые и постоянные. Постоянные - это те, которые оформили подписку на платежи.

При этом, кол-во благотворителей, которые совершают пожертвования без подписки значительно больше тех, кто предпочитает регулярные платежи: случаи, когда на на одного плательшика приходится от 2х до 5ти платежей, встречаются в 5-10 раз реже, чем единоразовое пожпожертвование. Тем не менее, есть и такие благотворители, на долю которых приходится от 10 до 25 платежей за исследуемый период.

Средние платежи постоянных плательщиков ниже, чем средние платежи у разовых доноров. Медианное значение для разовых составляет 500рублей, в то время, как для постоянных - 300 рублей. Общая сумма взносов за весь период для разовых доноров так же превышает сумму для постоянных.

Однако, при этом, средний вклад постоянного донора значительно превышает средний вклад разового донора.

Это обусловлено тем, что постоянные пользователь совершают пожертвования регулярно. То есть на каждого постоянного донора приходится минимум 2 платежа за указанный период.

Тем не менее, разовые пользователи чаще совершают крупные переводы, сумма которых может доходить до нескольких десятков рублей.

***КОММЕНТАРИИ ДЛЯ ЗАКАЗЧИКА.*** Возникли вопросы в отношении столбцов с информацией о подписке. После изучения столбца "Подписки_вкл" было принято решение, что значения представляют собой логические значения, где 0-отключена, 1- подключена подписка. В отношении столбца "Подписки_выкл" такой категоризации провести не удалось. Необходимо уточнить, как происходит присвоение значений в этих столбцах.

***РЕКОМЕНДАЦИИ ДЛЯ ЗАКАЗЧИКА.***

1. На основании полученных данных можно сказать, что имеет смысл сделать дополнительный акцент на привлечение постоянных благотворителей.

2. Для проведения будущих исследований можно более детально изучить насройки выгрузки и проведения платежей, что бы понять, как формируется информация о регионах. Есть ситуации, где для страны России определен несуществующий в ней регион.  Для НКО корректная разбивка по регионам может быть полезна. Такую информацию можно дополнительно анализировать, определив наиболее платежеспособные области и регионы и скорректировать рекламные кампании.

3. Так же нет точной информации относительно столбцов "Платежей за год", "Сумма за год" и "Средний платеж в год". Неизвестно, какой год имеется ввиду - календарный, год с момента первого платежа или иной показатель.

----------

**РЕКЛАМНЫЕ КАМПАНИИ.**

В период с 15 января по 19 июля было проведено 23 рекламные кампании, длительность которых составляла от нескольких дней до нескольких месяцев. При этом, больше половины всех кампаний проводили в марте 2023 года, и они имели продолжительность в несколько дней.

В ходе дальнейшего исследования наиболее успешные кампании определялись по показателю CTR, так как в имеющейся выгрузке отсутствует информация о конверсии в целевое действие.

В отношении рекламных кампаний выявлены следующие закономерности:

***Кол-во показов.*** Основное кол-во рекламных кампаний имеет менее 200000 показов, несколько компаний - до 1000000 показов, и лишь одна компания сильно выделяется с показателем равным более 3млн показов.

***Расход.*** Большая часть рекламных кампаний укладывается в бюджет до 100 тыс рублей, несколько кампаний имеют расход до 500-600 тыс рублей. И лишь одна кампания имеет бюджет, превышающий 150тыс рублей.

***Клики и CTR.*** Согласно полученным данным пользователи не очень охотно кликают по рекламе: показатель CTR для всех кампаний не доходит даже до 1%.

***Средняя цена клика.*** Средняя цена клика варьируется от 9.1 руб до 54 руб. Нfивысшая цена за клик соответствует рекламной кампании, у который был один из самых низких показателей CTR.

Если смотреть на показатели в разбивке по различным параметрам, отмеченным в выгрузке, то можно отметить описанные ниже особенности.

- **Пол пользователей.** Все рассчитанные показатели для рекламы в общем, в том числе и CTR, у женского пола выше, чем у мужского и пользователей, чей пол не был определен. При этом, в отношении видеороликов ситуация немного отлична - мужчины более охотно просматривают ролики,а показов для них значительно меньше.

- **Возраст пользователей.** Больше всего показов рекламы всех форматов состоялось для пользователей старше 55 лет. У этой категории так же самый высокий показатель CTR.
Хуже всего откликаются на рекламу пользователи до 34 лет. Видеоролики они просматривают так же не очень охотно. CTR для этой группы так же не самый высокий - всего 0.4%.

- **Уровень платежеспособности пользователей.** Основная доля показов рекламы всех форматов состялась для категории "Остальные", это пользователи с наименьшей платежеспособностью. У них, так же, самый высокий показатель CTR и самая низкая цена за клик.
У самых платежеспособных, а это наилучшая аудитория для целей НКО, уровень CTR самый низкий - всего 0.3%. При этом, для этой категории пользователей не транслировалась реклама в формате видеороликов.

Видео не было показано и группам с уровнем в 2-6%, хотя эти пользователи так же считаются Яндекс.Директом достаточно платежеспособными. А согласно данным по рекламным кампаниям, они имеют не самых плохой показатель CTR - 0.4%.

***РЕКОМЕНДАЦИИ ДЛЯ ЗАКАЗЧИКА.***

1. В имеющейся выгрузке отсутствует информация о конверсии в целевое действие. Предположительная причина - отсутствие в лином кабинете нужных настроек.  
Нужно перепроверить настройки в личном кабинете и попробовать настроить целевые действия.

2. Имеет смысл увеличить показы видеороликов для мужчин. А в обычной рекламе сделать акцент на женскую аудиторию.

3. Несмотря на высокую эмпатию, платежеспособность граждан возраста 55+ не самая высокая. Поэтому, лучше сделать акцент по показам видео на группу 35-44 лет, а другие форматы увеличить для категории от 35 до 54 лет. Так как это наиболее платежеспособное население, неплохо откликающееся на рекламу НКО. Здесь хорошие показатели CTR и доли просмотров до 25%.

4. Стоит уточнить, в чем причина отсутствия показа рекламы для наиболее платежеспособной аудитории и рассмотреть расширение показов видеорекламы на все категории платежеспособности.





