<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

# Анализ данных о клиентах фонда "Синдром любви"


**Общая задача**
Помощь фонду “Синдром любви” с анализом данных о клиентах (жертвователях). 

**Цель исследования** – выявить ключевые тенденции, сегменты жертвователей и предложить рекомендации по улучшению маркетинговых стратегий фонда.

**Ключевые вопросы исследования**

1. Динамика основных показателей по годам – как развивается проект?
2. Приток новых жертвователей – сколько новых доноров приходит ежемесячно?
Тут желательно график с датами, чтобы потом мы могли наложить самые результативные периоды на наши активности по PR.
- Сколько новеньких приходит с кодом и сколько без кода. С кодом это значит точно была наша запланированная активность.
3. Когортный анализ – сколько пожертвований делает один человек и в каком промежутке времени?
- Срок жизни клиента. Через сколько платежей, через какое время и через какую сумму в среднем от пропадёт.
- Если там есть данные, то интересно какие самые популярные часы и дни месяца когда больше всего платежей
4. RFM-анализ – анализ состояния текущей базы жертвователей за последний год. (пример для понимания: RFM-анализ / Хабр)) 
5. Социально-демографический и географический портрет доноров (если будет достаточно данных).
6. Дополнительные гипотезы и сегментации – любые инсайты, которые помогут заказчику улучшить маркетинг.
- Убрать самые крупные пожертвования (больше 200к) и построить график как меняется средняя сумма пожертвования
- Редкие жертвователи, кто жертвует не чаще раз в 6мес. В какие даты они просыпаются? В Новогодний период? Есть ли закономерности?




## Загрузка данных и просмотр общей информации

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import csv
import seaborn as sns
from matplotlib import pyplot as plt

In [2]:
# создаем список файлов, которые нужно загрузить
file_names=['01.01.24-30.06.24.xls','01.07.2024-31.12.2024.xls','01.01.2023-31.06.2023.xls','01.07.2023-31.12.2023.xls','01.01.2022-30.06.2022.xls','01.07.2022-31.12.2022.xls']

In [3]:
# создаем список названий необходимых столбцов
col_list =['ID','Дата начала (Минимальное)','Комментарий','Направление сделки','Стадия сделки','В стадии: Удачно',\
           'Фактическая сумма пожертвования','Ожидаемая сумма','Полученная сумма','Утраченная сумма','Повторная сделка','Датавремя платежа',\
           'Контакт: ID','Контакт: Дата создания','Контакт: Город_','Контакт: Страна_','Контакт: Регион_','Контакт: Пол',\
           'Компания: ID','Компания: Дата создания','Код (список)']

In [4]:
# создадим датафрейм, загрузив файл из списка file_names с индексом 0
df = pd.read_html(file_names[0], skiprows=0, header=0)[0]
# удаляем все столбцы, кроме выбранных из списка col_list
df.drop(columns=df.columns.difference(col_list), inplace=True)

In [5]:
# запустим цикл, который пройдет по списку с файлами file_names
for i in range(1,len(file_names)): 
    data = pd.read_html(file_names[i], skiprows=0, header=0)[0]# загружаем каждый файл из списка
    data.drop(columns=data.columns.difference(col_list), inplace=True)# удаляем все столбцы, кроме выбранных из списка col_list
    df = pd.concat([df,data], ignore_index = True) # объединяем таблицы в один датафрейм


In [6]:
df.head(10)

Unnamed: 0,ID,Дата начала (Минимальное),Комментарий,Направление сделки,Стадия сделки,В стадии: Удачно,Ожидаемая сумма,Полученная сумма,Утраченная сумма,Повторная сделка,...,Контакт: Дата создания,Контакт: Город_,Контакт: Страна_,Контакт: Регион_,Контакт: Пол,Компания: ID,Компания: Дата создания,Датавремя платежа,Код (список),Фактическая сумма пожертвования
0,382389,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Prospecting,Нет,500,0,500,Да,...,05.08.2023,Вена,,,Ж,,,05.06.2024,f212,0.0
1,382391,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,500,500,0,Да,...,09.01.2024,Химки,,,0,,,05.06.2024,f207,485.5
2,382399,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0
3,382423,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,130,130,0,Да,...,21.03.2024,Париж,,,Ж,,,05.06.2024,f207,126.1
4,382427,05.06.2024,"Разовое пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,2 500,2 500,0,Да,...,03.08.2022,г Москва,Россия,г Москва,0,,,05.06.2024,f214,2427.5
5,382429,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,3 500,3 500,0,Да,...,18.02.2023,Амстердам,,,Ж,,,05.06.2024,f207,3398.5
6,382457,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0
7,382459,05.06.2024,Ежемесячное пожертвование в рамках акции «Ново...,Пожертвования,Posted,Да,1 350,1 350,0,Да,...,18.12.2023,Москва,,,М,,,05.06.2024,f212,1310.85
8,382487,05.06.2024,Ежемесячное пожертвование в рамках акции «Снов...,Пожертвования,Posted,Да,290,290,0,Да,...,30.08.2022,Москва,,,Ж,,,05.06.2024,f212,281.59
9,382521,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,1 000,1 000,0,Да,...,26.10.2022,Москва,,,0,,,05.06.2024,f207,971.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   ID                               58161 non-null  int64  
 1   Дата начала (Минимальное)        58161 non-null  object 
 2   Комментарий                      37505 non-null  object 
 3   Направление сделки               58161 non-null  object 
 4   Стадия сделки                    58161 non-null  object 
 5   В стадии: Удачно                 58161 non-null  object 
 6   Ожидаемая сумма                  58161 non-null  object 
 7   Полученная сумма                 58161 non-null  object 
 8   Утраченная сумма                 58161 non-null  object 
 9   Повторная сделка                 58161 non-null  object 
 10  Контакт: ID                      52321 non-null  float64
 11  Контакт: Дата создания           52321 non-null  object 
 12  Контакт: Город_   

Итак, данные за период с января 2022 г по 31 декабря 2024 года загружены, из общих 227 столбцов выбрано 20 необходимых. Для удобства изменим наименования столбцов, изменим типы данных, проверим пропущенные значения, дубликаты.

In [8]:
#with open('output.csv', mode='w', newline='') as file:
#    csv_writer = csv.writer(file)
#    csv_writer.writerows(df)

## Предобработка данных

### Изменение наименований столбцов

In [9]:
df.rename(columns={'ID': 'id','Дата начала (Минимальное)':'date_min','Комментарий':'comments','Направление сделки':'direction','Стадия сделки':'transaction_stage',\
           'В стадии: Удачно':'successful','Ожидаемая сумма':'expected_sum','Полученная сумма':'received_sum','Утраченная сумма':'lost_sum','Повторная сделка':'repeat_transaction','Датавремя платежа':'payment_date',\
           'Фактическая сумма пожертвования':'fact_sum', 'Контакт: ID':'user_id','Контакт: Дата создания':'user_date','Контакт: Город_':'city',\
           'Контакт: Страна_':'country','Контакт: Регион_':'region','Контакт: Пол':'gender','Компания: ID':'company_id','Компания: Дата создания':'company_date',\
           'Код (список)':'code'}, inplace=True)

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  58161 non-null  int64  
 1   date_min            58161 non-null  object 
 2   comments            37505 non-null  object 
 3   direction           58161 non-null  object 
 4   transaction_stage   58161 non-null  object 
 5   successful          58161 non-null  object 
 6   expected_sum        58161 non-null  object 
 7   received_sum        58161 non-null  object 
 8   lost_sum            58161 non-null  object 
 9   repeat_transaction  58161 non-null  object 
 10  user_id             52321 non-null  float64
 11  user_date           52321 non-null  object 
 12  city                37225 non-null  object 
 13  country             33217 non-null  object 
 14  region              19551 non-null  object 
 15  gender              41338 non-null  object 
 16  comp

### Обработка пропущенных значений

In [11]:
# проверим пропущенные значения
report = df.isna().sum().to_frame()
report = report.rename(columns = {0: 'missing_values'})
report['% of total'] = (report['missing_values'] / df.shape[0]).round(2)*100
report.sort_values(by = 'missing_values', ascending = False)

Unnamed: 0,missing_values,% of total
company_date,57544,99.0
company_id,57544,99.0
region,38610,66.0
country,24944,43.0
city,20936,36.0
comments,20656,36.0
gender,16823,29.0
code,12930,22.0
payment_date,12863,22.0
user_id,5840,10.0


Чтобы установить связь пропусков в столбце user_id с данными, добавим столбец, в котором будет отображаться 0 - если пропуска нет и 1 -  если пропуск есть.

In [12]:
df['missing_users'] = np.where(df['user_id'].isna(),1,0)
df.head()

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users
0,382389,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Prospecting,Нет,500,0,500,Да,...,Вена,,,Ж,,,05.06.2024,f212,0.0,0
1,382391,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,500,500,0,Да,...,Химки,,,0,,,05.06.2024,f207,485.5,0
2,382399,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,Москва,Россия,Москва,0,,,05.06.2024,f212,971.0,0
3,382423,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,130,130,0,Да,...,Париж,,,Ж,,,05.06.2024,f207,126.1,0
4,382427,05.06.2024,"Разовое пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,2 500,2 500,0,Да,...,г Москва,Россия,г Москва,0,,,05.06.2024,f214,2427.5,0


In [13]:
# сделаем срез данных с пропусками
df.query('missing_users==1')

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users
482,348685,01.03.2024,,Таргеты,Closed Lost,Нет,300 000,0,300 000,Нет,...,,,,,,,,,0.0,1
487,377349,23.04.2024,Должен оплатить лот (виски),Таргеты,Closed Won,Да,30 000,30 000,0,Да,...,,,,,62283.0,25.04.2024,,f208,30000.0,1
488,377339,01.03.2024,,Таргеты,Pledged,Нет,500 000,0,0,Нет,...,,,,,62181.0,14.03.2023,,f208,0.0,1
489,376711,22.03.2024,,Таргеты,Closed Won,Да,0,0,0,Нет,...,,,,,62283.0,25.04.2024,25.03.2024,f109,1260000.0,1
490,348797,01.12.2023,,Таргеты,Forecast,Нет,400 000,0,0,Нет,...,,,,,,,,f405 соцмаркетинг,0.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
56061,330951,16.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56062,331365,21.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56063,331801,27.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1
56064,332223,30.12.2022,,Кампании,Planned,Нет,0,0,0,Нет,...,,,,,,,,,0.0,1


Наличие пропусков в user_id связано с:
- неудачная сделка, упущенная сумма
- пожертвователем является компания
- донор - физическое лицо, первое пожертование.

Удалим из датасета строки с признаком "Нет" в столбце successful (В стадии: Удачно), а пропуски в user_id заполним 0


In [44]:
# заполним пустые значения на 0
df['user_id']=df['user_id'].fillna(0)

In [45]:
df['company_id']=df['company_id'].fillna(0)

In [14]:
# Удалим  строки с признаком "Нет" в столбце successful
df = df.drop(df[df['successful'] == "Нет"].index)

Теперь после удаления неудачных сделок, проверим наличие полученной и фактической суммы меньше либо равной 0. 

In [46]:
df.query('received_sum<=0 & fact_sum<=0')

Unnamed: 0,id,date_min,comments,direction,transaction_stage,successful,expected_sum,received_sum,lost_sum,repeat_transaction,...,city,country,region,gender,company_id,company_date,payment_date,code,fact_sum,missing_users


In [None]:
# Заполним пустые значения на "unknown" в следующих столбцах
col_unknown=['gender','city','code','comments']

In [None]:
for col in col_unknown:
    df[col]=df[col].fillna('неизвестно')

#### Обработка данных в столбце region

In [62]:
df_reg=df['region'].value_counts(dropna=False).to_frame(name='Количество')

In [64]:
df_reg.head(20)

Unnamed: 0_level_0,Количество
region,Unnamed: 1_level_1
unknown,24357
Москва,6083
Московская область,654
Санкт-Петербург,427
г Москва,336
Московская,283
Московская обл,162
Краснодарский край,145
Мурманская область,98
Республика Татарстан,89


In [59]:
df['region'].unique()

array(['unknown', 'Москва', 'г Москва', 'Московская обл',
       'Московская область', 'Смоленская область',
       'Ханты-Мансийский Автономный округ - Югра', 'Санкт-Петербург',
       'Ярославская обл', 'Московская', 'Сахалинская область',
       'Республика Коми', 'Самарская область', 'Ярославская область',
       'Камчатский край', 'Томская область', 'Брянская обл', 'ХМАО-Югра',
       'Удмуртская Республика', 'Волгоградская', 'Архангельская область',
       'Владимирская область', 'Калужская область', 'Ставропольский край',
       'Краснодарский край', 'Приморский край', 'Свердловская область',
       'Астраханская обл', 'Новосибирская область', 'Амурская обл',
       'Пермский край', 'Саратовская область', 'Республика Башкортостан',
       'Мурманская обл', 'Орловская область', 'г Санкт-Петербург',
       'Респ Татарстан', 'Кировская обл', 'Красноярский край',
       'Самарская обл', 'ХМАО', 'Челябинская область',
       'Рязанская область', 'Республика Татарстан',
       'Нижего

In [None]:
# Приводим к строке и нижнему регистру
df['region'] = df['region'].astype(str).str.lower()


In [None]:
# 
def unify_region(value):
    if 'москв' in value:
        return 'москва'
    elif 'москов' in value:
        return 'московская область'
    elif 'санкт' in value:
        return 'санкт-петербург'
    elif value in ['nan', 'none']:  # иногда после astype(str) NaN превращается в строку 'nan'
        return 'неизвестно'
    return value


In [None]:
df['region'] = df['region'].apply(unify_region)

In [None]:
# Считаем доли и определяем редкие регионы (<1%)
region_freq = df['region'].value_counts(normalize=True)


In [None]:
rare_regions = region_freq[region_freq < 0.01].index


In [None]:
# Объединяем редкие регионы в "другие"
df['region'] = df['region'].replace(rare_regions, 'другие')

In [None]:
#  Приводим к красивому виду
df['region'] = df['region'].str.title()

In [None]:
comment_stats = df['region'].value_counts(dropna=False).to_frame(name='Количество')


In [None]:
comment_stats['Процент (%)'] = (comment_stats['Количество'] / len(df) * 100).round(2)


In [None]:
print("\nСтатистика по 'контакт_регион':")
print(comment_stats.head(50))

#### Обработка данных в столбце country

In [66]:
df_country=df['country'].value_counts(dropna=False).to_frame(name='Количество')

In [67]:
df_country.head(10)

Unnamed: 0_level_0,Количество
country,Unnamed: 1_level_1
Россия,18476
unknown,13860
RUS,2150
ARE,69
Турция,45
Росси,10
Германия,7
Великобритания,7
Украина,4
РОССИЯ,3


In [None]:
# 1. Приводим всё к строке и нижнему регистру
df['сщгтекн'] = df['контакт_страна'].astype(str).str.lower()

# 2. Объединяем варианты "Россия"
df['контакт_страна'] = df['контакт_страна'].replace({
    'rus': 'россия',
    'росси': 'россия',
    'nan': 'неизвестно',  # если NaN стал строкой
    'none': 'неизвестно'
})

# 3. Заменяем оставшиеся пропуски на 'неизвестно'
df['контакт_страна'] = df['контакт_страна'].replace('nan', 'неизвестно')

# 4. Группируем редкие страны (<1%) в 'другие'
country_freq = df['контакт_страна'].value_counts(normalize=True)
rare_countries = country_freq[country_freq < 0.01].index

df['контакт_страна'] = df['контакт_страна'].replace(rare_countries, 'другие')

# 5. Красивый формат
df['контакт_страна'] = df['контакт_страна'].str.title()

comment_stats = df['контакт_страна'].value_counts(dropna=False).to_frame(name='Количество')
comment_stats['Процент (%)'] = (comment_stats['Количество'] / len(df) * 100).round(2)

print("\nСтатистика по 'контакт_страна':")
print(comment_stats.head(50))

In [49]:
# проверим пропущенные значения
report1 = df.isna().sum().to_frame()
report1 = report1.rename(columns = {0: 'missing_values'})
report1['% of total'] = (report1['missing_values'] / df.shape[0]).round(2)*100
report1.sort_values(by = 'missing_values', ascending = False)

Unnamed: 0,missing_values,% of total
company_date,34377,99.0
user_date,303,1.0
payment_date,81,0.0
date_min,0,0.0
fact_sum,0,0.0
code,0,0.0
company_id,0,0.0
gender,0,0.0
region,0,0.0
country,0,0.0


### Изменение типов данных

Изменим тип данных в столбцах с суммами на тип данных float

In [23]:
# создаем список столбцов с суммами
col_sum=['expected_sum','received_sum']

In [24]:
for col in col_sum:
    df[col]=df[col].apply(lambda p: float(''.join(filter(str.isdigit, p)))if not p.isnumeric() else float(p))

Изменим тип данных в столбцах с датами на тип данных datetime

In [25]:
#создаем список столбцов с датами
col_date=['date_min','user_date','company_date','payment_date']

При попытке изменить формат, обнаружено ошибочное значение даты первого платежа 30.11.0001 в 9 строках. Удалим их.

In [26]:
#df.query('first_date=="30.11.0001"')

In [27]:
#df.drop([31450,39779,39809,40193,40194,40195,40196,40197,40198], inplace=True)

In [28]:
for col in col_date:
    df[col] =  pd.to_datetime(df[col], format='%d.%m.%Y')

Изменим тип данных в столбце user_id на int. 

In [33]:
df['user_id']=df['user_id'].apply(lambda u: int(u))

In [34]:
df['company_id']=df['company_id'].apply(lambda c: int(c))

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 37345 entries, 1 to 57072
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  37345 non-null  int64         
 1   date_min            37345 non-null  datetime64[ns]
 2   comments            37345 non-null  object        
 3   direction           37345 non-null  object        
 4   transaction_stage   37345 non-null  object        
 5   successful          37345 non-null  object        
 6   expected_sum        37345 non-null  float64       
 7   received_sum        37345 non-null  float64       
 8   lost_sum            37345 non-null  object        
 9   repeat_transaction  37345 non-null  object        
 10  user_id             37345 non-null  int64         
 11  user_date           36987 non-null  datetime64[ns]
 12  city                37345 non-null  object        
 13  country             37345 non-null  object        


### Проверка на дубликаты

In [36]:
# проверим датафрейм на наличие явных дубликатов
df.duplicated().sum()

2614

In [37]:
# удаляем дубликаты
df=df.drop_duplicates()

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 34731 entries, 1 to 57072
Data columns (total 22 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   id                  34731 non-null  int64         
 1   date_min            34731 non-null  datetime64[ns]
 2   comments            34731 non-null  object        
 3   direction           34731 non-null  object        
 4   transaction_stage   34731 non-null  object        
 5   successful          34731 non-null  object        
 6   expected_sum        34731 non-null  float64       
 7   received_sum        34731 non-null  float64       
 8   lost_sum            34731 non-null  object        
 9   repeat_transaction  34731 non-null  object        
 10  user_id             34731 non-null  int64         
 11  user_date           34428 non-null  datetime64[ns]
 12  city                34731 non-null  object        
 13  country             34731 non-null  object        


Посмотрим на уникальные значения в столбце gender

In [39]:
df['gender'].value_counts()

gender
0          18446
Ж           8101
unknown     4378
М           3806
Name: count, dtype: int64

Проверим на уникальность значений столбцов city, country, region 		

In [54]:
# приведем названия к нижнему регистру
df['city_new'] = df['city'].str.lower()

In [55]:
df['city_new'].unique()

array(['химки', 'москва', 'париж', 'г москва', 'амстердам', 'нью-йорк',
       'frankfurt am main', 'красногорск', 'екатеринбург', 'г балашиха',
       'аксай', 'дубна', 'коломна', 'смоленск', 'кемерово', 'раменское',
       'г сургут', 'балашиха', 'санкт-петербург', 'г одинцово',
       'пос. хандыга', 'unknown', 'воронеж', 'углич', 'пермь',
       'г рыбинск', 'реутов', 'портленд', 'владикавказ', 'кострома',
       'железнодорожный', 'жуковский', 'нюрнберг', 'jablonne nad orlici',
       'королёв', 'уфа', 'казань', 'краснодар', 'вена', 'рязань',
       'сыктывкар', 'хельсинки', 'дмитров', 'аугсбург', 'kwai chung',
       'чехов', 'ростов-на-дону', 'львов', 'туусула', 'ступино',
       'петрозаводск', 'луховицы', 'обнинск', 'брянск', 'севастополь',
       'эль-кувейт', 'апатиты', 'новороссийск', 'гонконг', 'кондопога',
       'владивосток', 'томилино', 'сочи', 'октябрьский', 'одинцово',
       'шатура', 'меппел', 'щёлково', 'касимов', 'киев', 'ярославль',
       'малаховка', 'курск', 

Добавим новый столбец с месяцем и годом

## Исследовательский анализ

Посмотрим среднее и медиану, мин и макс значения по фактическим поступлениям в фонд

In [None]:
df['fact_sum'].agg({'sum',})