<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

# Анализ данных о клиентах фонда "Синдром любви"


**Общая задача**
Помощь фонду “Синдром любви” с анализом данных о клиентах (жертвователях). 

**Цель исследования** – выявить ключевые тенденции, сегменты жертвователей и предложить рекомендации по улучшению маркетинговых стратегий фонда.

**Ключевые вопросы исследования**

1. Динамика основных показателей по годам – как развивается проект?
2. Приток новых жертвователей – сколько новых доноров приходит ежемесячно?
Тут желательно график с датами, чтобы потом мы могли наложить самые результативные периоды на наши активности по PR.
- Сколько новеньких приходит с кодом и сколько без кода. С кодом это значит точно была наша запланированная активность.
3. Когортный анализ – сколько пожертвований делает один человек и в каком промежутке времени?
- Срок жизни клиента. Через сколько платежей, через какое время и через какую сумму в среднем от пропадёт.
- Если там есть данные, то интересно какие самые популярные часы и дни месяца когда больше всего платежей
4. RFM-анализ – анализ состояния текущей базы жертвователей за последний год. (пример для понимания: RFM-анализ / Хабр)) 
5. Социально-демографический и географический портрет доноров (если будет достаточно данных).
6. Дополнительные гипотезы и сегментации – любые инсайты, которые помогут заказчику улучшить маркетинг.
- Убрать самые крупные пожертвования (больше 200к) и построить график как меняется средняя сумма пожертвования
- Редкие жертвователи, кто жертвует не чаще раз в 6мес. В какие даты они просыпаются? В Новогодний период? Есть ли закономерности?




## Загрузка данных и просмотр общей информации

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import csv
import seaborn as sns
from matplotlib import pyplot as plt

In [2]:
# создаем список файлов, которые нужно загрузить
file_names=['01.01.24-30.06.24.xls','01.07.2024-31.12.2024.xls','01.01.2023-31.06.2023.xls','01.07.2023-31.12.2023.xls','01.01.2022-30.06.2022.xls','01.07.2022-31.12.2022.xls']

In [3]:
# создаем список названий необходимых столбцов
col_list =['ID','Дата начала (Минимальное)','Комментарий','Направление сделки','Стадия сделки','В стадии: Удачно',\
           'Фактическая сумма пожертвования','Ожидаемая сумма','Полученная сумма','Утраченная сумма','Повторная сделка','Датавремя платежа',\
           'Контакт: ID','Контакт: Дата создания','Контакт: Город_','Контакт: Страна_','Контакт: Регион_','Контакт: Пол',\
           'Компания: ID','Компания: Дата создания','Код (список)']

In [4]:
# создадим датафрейм, загрузив файл из списка file_names с индексом 0
df = pd.read_html(file_names[0], skiprows=0, header=0)[0]
# удаляем все столбцы, кроме выбранных из списка col_list
df.drop(columns=df.columns.difference(col_list), inplace=True)

In [5]:
# запустим цикл, который пройдет по списку с файлами file_names
for i in range(1,len(file_names)): 
    data = pd.read_html(file_names[i], skiprows=0, header=0)[0]# загружаем каждый файл из списка
    data.drop(columns=data.columns.difference(col_list), inplace=True)# удаляем все столбцы, кроме выбранных из списка col_list
    df = pd.concat([df,data], ignore_index = True) # объединяем таблицы в один датафрейм


In [6]:
df.head(10)

Unnamed: 0,ID,Дата начала (Минимальное),Комментарий,Направление сделки,Стадия сделки,В стадии: Удачно,Ожидаемая сумма,Полученная сумма,Утраченная сумма,Повторная сделка,...,Контакт: Дата создания,Контакт: Город_,Контакт: Страна_,Контакт: Регион_,Контакт: Пол,Компания: ID,Компания: Дата создания,Датавремя платежа,Код (список),Фактическая сумма пожертвования
0,382389,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Prospecting,Нет,500,0,500,Да,...,05.08.2023,Вена,,,Ж,,,05.06.2024,f212,0.0
1,382391,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,500,500,0,Да,...,09.01.2024,Химки,,,0,,,05.06.2024,f207,485.5
2,382399,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0
3,382423,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,130,130,0,Да,...,21.03.2024,Париж,,,Ж,,,05.06.2024,f207,126.1
4,382427,05.06.2024,"Разовое пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,2 500,2 500,0,Да,...,03.08.2022,г Москва,Россия,г Москва,0,,,05.06.2024,f214,2427.5
5,382429,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,3 500,3 500,0,Да,...,18.02.2023,Амстердам,,,Ж,,,05.06.2024,f207,3398.5
6,382457,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0
7,382459,05.06.2024,Ежемесячное пожертвование в рамках акции «Ново...,Пожертвования,Posted,Да,1 350,1 350,0,Да,...,18.12.2023,Москва,,,М,,,05.06.2024,f212,1310.85
8,382487,05.06.2024,Ежемесячное пожертвование в рамках акции «Снов...,Пожертвования,Posted,Да,290,290,0,Да,...,30.08.2022,Москва,,,Ж,,,05.06.2024,f212,281.59
9,382521,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,1 000,1 000,0,Да,...,26.10.2022,Москва,,,0,,,05.06.2024,f207,971.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   ID                               58161 non-null  int64  
 1   Дата начала (Минимальное)        58161 non-null  object 
 2   Комментарий                      37505 non-null  object 
 3   Направление сделки               58161 non-null  object 
 4   Стадия сделки                    58161 non-null  object 
 5   В стадии: Удачно                 58161 non-null  object 
 6   Ожидаемая сумма                  58161 non-null  object 
 7   Полученная сумма                 58161 non-null  object 
 8   Утраченная сумма                 58161 non-null  object 
 9   Повторная сделка                 58161 non-null  object 
 10  Контакт: ID                      52321 non-null  float64
 11  Контакт: Дата создания           52321 non-null  object 
 12  Контакт: Город_   

Итак, данные за период с января 2022 г по 31 декабря 2024 года загружены, из общих 227 столбцов выбрано 20 необходимых. Для удобства изменим наименования столбцов, изменим типы данных, проверим пропущенные значения, дубликаты.

In [None]:
#with open('output.csv', mode='w', newline='') as file:
#    csv_writer = csv.writer(file)
#    csv_writer.writerows(df)

## Предобработка данных

### Изменение наименований столбцов

In [52]:
df.rename(columns={'ID': 'id','Дата начала (Минимальное)':'date_min','Комментарий':'comments','Направление сделки':'direction','Стадия сделки':'transaction_stage',\
           'В стадии: Удачно':'successful','Ожидаемая сумма':'expected_sum','Полученная сумма':'received_sum','Утраченная сумма':'lost_sum','Повторная сделка':'repeat_transaction','Датавремя платежа':'payment_date',\
           'Фактическая сумма пожертвования':'fact_sum', 'Контакт: ID':'user_id','Контакт: Дата создания':'user_date','Контакт: Город_':'city',\
           'Контакт: Страна_':'country','Контакт: Регион_':'region','Контакт: Пол':'gender','Компания: ID':'company_id','Компания: Дата создания':'company_date',\
           'Код (список)':'code'}, inplace=True)

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  58161 non-null  int64  
 1   date_min            58161 non-null  object 
 2   comments            37505 non-null  object 
 3   direction           58161 non-null  object 
 4   transaction_stage   58161 non-null  object 
 5   successful          58161 non-null  object 
 6   expected_sum        58161 non-null  object 
 7   received_sum        58161 non-null  object 
 8   lost_sum            58161 non-null  object 
 9   repeat_transaction  58161 non-null  object 
 10  user_id             52321 non-null  float64
 11  user_date           52321 non-null  object 
 12  city                37225 non-null  object 
 13  country             33217 non-null  object 
 14  region              19551 non-null  object 
 15  gender              41338 non-null  object 
 16  comp

### Проверка на пропуски

In [11]:
# проверим пропущенные значения
report = df.isna().sum().to_frame()
report = report.rename(columns = {0: 'missing_values'})
report['% of total'] = (report['missing_values'] / df.shape[0]).round(2)*100
report.sort_values(by = 'missing_values', ascending = False)

Unnamed: 0,missing_values,% of total
company_date,57544,99.0
company_id,57544,99.0
region,38610,66.0
country,24944,43.0
city,20936,36.0
comments,20656,36.0
gender,16823,29.0
code,12930,22.0
payment_date,12863,22.0
user_id,5840,10.0


Чтобы установить связь пропусков в столбце user_id с данными, добавим столбец, в котором будет отображаться 0 - если пропуска нет и 1 -  если пропуск есть.

In [12]:
df['missing_users'] = np.where(df['user_id'].isna(),1,0)
df.head()

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users
0,382389,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Prospecting,Нет,500,0,500,Да,...,Вена,,,Ж,,,05.06.2024,f212,0.0,0
1,382391,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,500,500,0,Да,...,Химки,,,0,,,05.06.2024,f207,485.5,0
2,382399,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0,0
3,382423,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,130,130,0,Да,...,Париж,,,Ж,,,05.06.2024,f207,126.1,0
4,382427,05.06.2024,"Разовое пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,2 500,2 500,0,Да,...,г Москва,Россия,г Москва,0,,,05.06.2024,f214,2427.5,0


In [13]:
# 
df.query('missing_users==1')

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users
482,348685,01.03.2024,,Таргеты,Closed Lost,Нет,300 000,0,300 000,Нет,...,,,,,,,,,0.0,1
487,377349,23.04.2024,Должен оплатить лот (виски),Таргеты,Closed Won,Да,30 000,30 000,0,Да,...,,,,,62283.0,25.04.2024,,f208,30000.0,1
488,377339,01.03.2024,,Таргеты,Pledged,Нет,500 000,0,0,Нет,...,,,,,62181.0,14.03.2023,,f208,0.0,1
489,376711,22.03.2024,,Таргеты,Closed Won,Да,0,0,0,Нет,...,,,,,62283.0,25.04.2024,25.03.2024,f109,1260000.0,1
490,348797,01.12.2023,,Таргеты,Forecast,Нет,400 000,0,0,Нет,...,,,,,,,,f405 соцмаркетинг,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56061,330951,16.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56062,331365,21.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56063,331801,27.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56064,332223,30.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1


Наличие пропусков в user_id связано с:
- неудачная сделка, упущенная сумма
- пожертвователем является компания
- донор - физическое лицо, первое пожертование.

Удалим из датасета строки с признаком "Нет" в столбце successful


In [14]:
df = df.drop(df[df['successful'] == "Нет"].index)

Теперь после удаления неудачных сделок, проверим наличие полученной и фактической суммы меньше либо равной 0. 

In [57]:
df.query('received_sum==0 & fact_sum<=0')

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users
385,376781,2024-04-26,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,,,Ж,,NaT,NaT,,0.0,0
386,377545,2024-05-05,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,,,Ж,,NaT,NaT,,0.0,0
387,377543,2024-05-05,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,,,Ж,,NaT,NaT,,0.0,0
388,377421,2024-05-03,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,,,Ж,,NaT,NaT,,0.0,0
389,377359,2024-05-03,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,,,Ж,,NaT,NaT,,0.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57734,312963,2000-01-01,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,Россия,Ивановская обл,,,NaT,NaT,,0.0,0
57735,312965,2000-01-01,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,Россия,г Санкт-Петербург,,,NaT,NaT,,0.0,0
57736,312967,2000-01-01,,Ребенок,Closed Won,Да,0.0,0.0,0,Нет,...,,Россия,Томская обл,,,NaT,NaT,,0.0,0
57737,312969,2000-01-01,,Ребенок,Closed Won,Да,0.0,0.0,0,Да,...,,Россия,Томская обл,,,NaT,NaT,,0.0,0


Эти данные не понадобятся нам в анализе, удаляем

In [58]:
df = df.drop(df[df['fact_sum'] <= 0].index)

In [59]:
# проверяем
df.query('received_sum==0 & fact_sum<=0')

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users


Заполним пустые значения на "unknown"

In [88]:
col_unknown=['gender','city','country','region','code','comments']

In [89]:
for col in col_unknown:
    df[col]=df[col].fillna('unknown')

In [90]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 34731 entries, 1 to 57072
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  34731 non-null  int64         
 1   date_min            34731 non-null  datetime64[ns]
 2   comments            34731 non-null  object        
 3   direction           34731 non-null  object        
 4   transaction_stage   34731 non-null  object        
 5   successful          34731 non-null  object        
 6   expected_sum        34731 non-null  float64       
 7   received_sum        34731 non-null  float64       
 8   lost_sum            34731 non-null  object        
 9   repeat_transaction  34731 non-null  object        
 10  user_id             34731 non-null  int64         
 11  user_date           34428 non-null  datetime64[ns]
 12  city                34731 non-null  object        
 13  country             34731 non-null  object        


In [97]:
df_1=df[['date_min','payment_date','received_sum','fact_sum','company_id','user_id']]

In [98]:
df_1.query('payment_date.isna()')

Unnamed: 0,date_min,payment_date,received_sum,fact_sum,company_id,user_id
483,2024-03-04,NaT,0.0,16800.0,56569,0
484,2024-03-04,NaT,0.0,55700.0,56919,0
487,2024-04-23,NaT,30000.0,30000.0,62283,0
1485,2023-12-01,NaT,500000.0,153680.0,57299,0
1501,2024-05-01,NaT,1300000.0,1500000.0,56673,0
...,...,...,...,...,...,...
31005,2023-10-02,NaT,150000.0,230000.0,62265,0
46845,2022-09-01,NaT,5000.0,5000.0,62159,0
46846,2022-12-01,NaT,15000.0,15000.0,62159,0
46851,2022-09-01,NaT,10000.0,21930.0,57013,0


In [None]:
if df_1['payment_date']

### Изменение типов данных

Изменим тип данных в столбцах с суммами на тип данных float

In [20]:
# создаем список столбцов с суммами
col_sum=['expected_sum','received_sum']

In [21]:
for col in col_sum:
    df[col]=df[col].apply(lambda p: float(''.join(filter(str.isdigit, p)))if not p.isnumeric() else float(p))

AttributeError: 'float' object has no attribute 'isnumeric'

Изменим тип данных в столбцах с датами на тип данных datetime

In [22]:
#создаем список столбцов с датами
col_date=['date_min','user_date','company_date','payment_date']

При попытке изменить формат, обнаружено ошибочное значение даты первого платежа 30.11.0001 в 9 строках. Удалим их.

In [None]:
#df.query('first_date=="30.11.0001"')

In [None]:
#df.drop([31450,39779,39809,40193,40194,40195,40196,40197,40198], inplace=True)

In [23]:
for col in col_date:
    df[col] =  pd.to_datetime(df[col], format='%d.%m.%Y')

Изменим тип данных в столбце user_id на int. 

In [75]:
# заполним пустые значения на 0
df['user_id']=df['user_id'].fillna(0)

  df['user_id']=df['user_id'].fillna(0)


In [77]:
df['company_id']=df['company_id'].fillna(0)

In [79]:
df['company_id'].isna().sum()

0

In [80]:
df['user_id'].isna().sum()

0

In [81]:
df['user_id']=df['user_id'].apply(lambda u: int(u))

In [82]:
df['company_id']=df['company_id'].apply(lambda c: int(c))

In [83]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 34731 entries, 1 to 57072
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  34731 non-null  int64         
 1   date_min            34731 non-null  datetime64[ns]
 2   comments            27269 non-null  object        
 3   direction           34731 non-null  object        
 4   transaction_stage   34731 non-null  object        
 5   successful          34731 non-null  object        
 6   expected_sum        34731 non-null  float64       
 7   received_sum        34731 non-null  float64       
 8   lost_sum            34731 non-null  object        
 9   repeat_transaction  34731 non-null  object        
 10  user_id             34731 non-null  int64         
 11  user_date           34428 non-null  datetime64[ns]
 12  city                0 non-null      float64       
 13  country             20805 non-null  object        


### Проверка на дубликаты

In [25]:
# проверим датафрейм на наличие явных дубликатов
df.duplicated().sum()

6820

In [26]:
# удаляем дубликаты
df=df.drop_duplicates()

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 39188 entries, 1 to 57738
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  39188 non-null  int64         
 1   date_min            39188 non-null  datetime64[ns]
 2   comments            27684 non-null  object        
 3   direction           39188 non-null  object        
 4   transaction_stage   39188 non-null  object        
 5   successful          39188 non-null  object        
 6   expected_sum        39188 non-null  float64       
 7   received_sum        39188 non-null  float64       
 8   lost_sum            39188 non-null  object        
 9   repeat_transaction  39188 non-null  object        
 10  user_id             38196 non-null  float64       
 11  user_date           38196 non-null  datetime64[ns]
 12  city                26710 non-null  object        
 13  country             23898 non-null  object        


Посмотрим на уникальные значения в столбце gender

In [84]:
df['gender'].value_counts()

gender
0    18446
Ж     8101
М     3806
Name: count, dtype: int64

Проверим на уникальность значений столбцов city, country, region 		

In [51]:
# приведем названия к нижнему регистру
#df['city'] = df['city'].str.lower()

AttributeError: Can only use .str accessor with string values!

In [31]:
#df['city'].unique()

array(['химки', 'москва', 'париж', ..., 'г верхняя салда', 'г ивацевичи',
       'г юрга'], dtype=object)

In [49]:
#df['city1']=df['city'].str.replace({'г ',' г','г. '},'')

AttributeError: Can only use .str accessor with string values!

In [None]:
# проверим датафрейм на наличие неявных дубликатов
df.loc[df.duplicated(subset=['name', 'address'], keep=False)].sort_values('name')

In [None]:
# посмотрим min, max, среднее и тд.
df.describe().T