<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

# Анализ данных о клиентах фонда "Синдром любви"


**Общая задача**
Помощь фонду “Синдром любви” с анализом данных о клиентах (жертвователях). 

**Цель исследования** – выявить ключевые тенденции, сегменты жертвователей и предложить рекомендации по улучшению маркетинговых стратегий фонда.

**Ключевые вопросы исследования**

1. Динамика основных показателей по годам – как развивается проект?
2. Приток новых жертвователей – сколько новых доноров приходит ежемесячно?
Тут желательно график с датами, чтобы потом мы могли наложить самые результативные периоды на наши активности по PR.
- Сколько новеньких приходит с кодом и сколько без кода. С кодом это значит точно была наша запланированная активность.
3. Когортный анализ – сколько пожертвований делает один человек и в каком промежутке времени?
- Срок жизни клиента. Через сколько платежей, через какое время и через какую сумму в среднем от пропадёт.
- Если там есть данные, то интересно какие самые популярные часы и дни месяца когда больше всего платежей
4. RFM-анализ – анализ состояния текущей базы жертвователей за последний год. (пример для понимания: RFM-анализ / Хабр)) 
5. Социально-демографический и географический портрет доноров (если будет достаточно данных).
6. Дополнительные гипотезы и сегментации – любые инсайты, которые помогут заказчику улучшить маркетинг.
- Убрать самые крупные пожертвования (больше 200к) и построить график как меняется средняя сумма пожертвования
- Редкие жертвователи, кто жертвует не чаще раз в 6мес. В какие даты они просыпаются? В Новогодний период? Есть ли закономерности?




## Загрузка данных и просмотр общей информации

In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import csv

In [2]:
# создаем список файлов, которые нужно загрузить
file_names=['01.01.24-30.06.24.xls','01.07.2024-31.12.2024.xls','01.01.2023-31.06.2023.xls','01.07.2023-31.12.2023.xls','01.01.2022-30.06.2022.xls','01.07.2022-31.12.2022.xls']

In [3]:
# создаем список названий необходимых столбцов
col_list =['ID','Дата начала (Минимальное)','Комментарий','Направление сделки','Стадия сделки','В стадии: Удачно',\
           'Ожидаемая сумма','Полученная сумма','Утраченная сумма','Повторная сделка','Датавремя платежа',\
           'Фактическая сумма пожертвования', 'Контакт: ID','Контакт: Дата создания','Контакт: Город_',\
           'Контакт: Страна_','Контакт: Регион_','Контакт: Дата создания в базе','Контакт: Пол',\
           'Код (список)','Контакт: Аналитика: Дата первого пожертвования']

In [4]:
# создадим датафрейм, загрузив файл из списка file_names с индексом 0
df = pd.read_html(file_names[0], skiprows=0, header=0)[0]
# удаляем все столбцы, кроме выбранных из списка col_list
df.drop(columns=df.columns.difference(col_list), inplace=True)

In [5]:
# запустим цикл, который пройдет по списку с файлами file_names
for i in range(1,len(file_names)): 
    data = pd.read_html(file_names[i], skiprows=0, header=0)[0]# загружаем каждый файл из списка
    data.drop(columns=data.columns.difference(col_list), inplace=True)# удаляем все столбцы, кроме выбранных из списка col_list
    df = pd.concat([df,data], ignore_index = True) # объединяем таблицы в один датафрейм


In [6]:
df.head(10)

Unnamed: 0,ID,Дата начала (Минимальное),Комментарий,Направление сделки,Стадия сделки,В стадии: Удачно,Ожидаемая сумма,Полученная сумма,Утраченная сумма,Повторная сделка,...,Контакт: Дата создания,Контакт: Город_,Контакт: Страна_,Контакт: Регион_,Контакт: Дата создания в базе,Контакт: Пол,Контакт: Аналитика: Дата первого пожертвования,Датавремя платежа,Код (список),Фактическая сумма пожертвования
0,382389,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Prospecting,Нет,500,0,500,Да,...,05.08.2023,Вена,,,05.08.2023,Ж,05.08.2023,05.06.2024,f212,0.0
1,382391,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,500,500,0,Да,...,09.01.2024,Химки,,,09.01.2024,0,02.01.2024,05.06.2024,f207,485.5
2,382399,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,30.07.2015,0,30.10.2012,05.06.2024,f212,971.0
3,382423,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,130,130,0,Да,...,21.03.2024,Париж,,,,Ж,21.03.2024,05.06.2024,f207,126.1
4,382427,05.06.2024,"Разовое пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,2 500,2 500,0,Да,...,03.08.2022,г Москва,Россия,г Москва,10.04.2022,0,10.04.2022,05.06.2024,f214,2427.5
5,382429,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,3 500,3 500,0,Да,...,18.02.2023,Амстердам,,,18.02.2023,Ж,08.05.2023,05.06.2024,f207,3398.5
6,382457,05.06.2024,"Ежемесячное пожертвование в БФ ""Синдром любви""",Пожертвования,Posted,Да,1 000,1 000,0,Да,...,03.08.2022,Москва,Россия,Москва,30.07.2015,0,31.01.2013,05.06.2024,f212,971.0
7,382459,05.06.2024,Ежемесячное пожертвование в рамках акции «Ново...,Пожертвования,Posted,Да,1 350,1 350,0,Да,...,18.12.2023,Москва,,,18.12.2023,М,05.12.2023,05.06.2024,f212,1310.85
8,382487,05.06.2024,Ежемесячное пожертвование в рамках акции «Снов...,Пожертвования,Posted,Да,290,290,0,Да,...,30.08.2022,Москва,,,30.08.2022,Ж,25.08.2022,05.06.2024,f212,281.59
9,382521,05.06.2024,Поддержать соревнование,Пожертвования,Posted,Да,1 000,1 000,0,Да,...,26.10.2022,Москва,,,26.10.2022,0,26.10.2022,05.06.2024,f207,971.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   ID                                              58161 non-null  int64  
 1   Дата начала (Минимальное)                       58161 non-null  object 
 2   Комментарий                                     37505 non-null  object 
 3   Направление сделки                              58161 non-null  object 
 4   Стадия сделки                                   58161 non-null  object 
 5   В стадии: Удачно                                58161 non-null  object 
 6   Ожидаемая сумма                                 58161 non-null  object 
 7   Полученная сумма                                58161 non-null  object 
 8   Утраченная сумма                                58161 non-null  object 
 9   Повторная сделка                       

Итак, данные за период с января 2022 г по 31 декабря 2024 года загружены, из общих 227 столбцов выбрано 20 необходимых. Для удобства изменим наименования столбцов, изменим типы данных, проверим пропущенные значения, дубликаты.

## Предобработка данных

### Изменение наименований столбцов

In [30]:
df.rename(columns={'ID': 'id','Дата начала (Минимальное)':'date_min','Комментарий':'comments','Направление сделки':'direction','Стадия сделки':'transaction stage',\
           'Полученная сумма':'received_sum','Утраченная сумма':'lost_amount','Повторная сделка':'repeat_transaction','Датавремя платежа':'payment_date',\
           'Фактическая сумма пожертвования':'fact_sum', 'Контакт: ID':'user_id','Контакт: Дата создания':'user_date','Контакт: Город_':'city',\
           'Контакт: Страна_':'country','Контакт: Регион_':'region','Контакт: Пол':'gender',\
           'Код (список)':'code','Контакт: Аналитика: Дата первого пожертвования':'first_date'}, inplace=True)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58161 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   id                             58161 non-null  int64  
 1   date_min                       58161 non-null  object 
 2   comments                       37505 non-null  object 
 3   direction                      58161 non-null  object 
 4   transaction stage              58161 non-null  object 
 5   В стадии: Удачно               58161 non-null  object 
 6   Ожидаемая сумма                58161 non-null  object 
 7   received_sum                   58161 non-null  object 
 8   lost_amount                    58161 non-null  object 
 9   repeat_transaction             58161 non-null  object 
 10  user_id                        52321 non-null  float64
 11  user_date                      52321 non-null  object 
 12  city                           37225 non-null 

### Изменение типов данных

Изменим тип данных в столбцах с суммами на тип данных float

In [10]:
# создаем список столбцов с суммами
col_sum=['Ожидаемая сумма','received_sum','lost_amount']

In [11]:
for col in col_sum:
    df[col]=df[col].apply(lambda p: float(''.join(filter(str.isdigit, p)))if not p.isnumeric() else float(p))

Изменим тип данных в столбцах с датами на тип данных datetime

In [31]:
#создаем список столбцов с датами
col_date=['date_min','user_date', 'first_date','payment_date']

При попытке изменить формат, обнаружено ошибочное значение даты первого платежа 30.11.0001 в 9 строках. Удалим их.

In [38]:
df.query('first_date=="30.11.0001"')

Unnamed: 0,id,date_min,comments,direction,transaction stage,В стадии: Удачно,Ожидаемая сумма,received_sum,lost_amount,repeat_transaction,...,user_date,city,country,region,Контакт: Дата создания в базе,gender,first_date,payment_date,code,fact_sum
31450,349843,2023-07-16,Поддержать соревнование,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,16.07.2023,f207,485.5
39779,324349,2022-06-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.08.2022,f212,500.0
39809,324661,2022-06-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.09.2022,f212,500.0
40193,250955,2022-04-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.04.2022,f212,500.0
40194,250957,2022-05-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.05.2022,f212,500.0
40195,250967,2022-01-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.01.2022,f212,500.0
40196,250969,2022-02-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.02.2022,f212,500.0
40197,250971,2022-03-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.03.2022,f212,500.0
40198,250973,2022-06-10,,Пожертвования,Posted,Да,500.0,500.0,0.0,Да,...,2022-08-03,Барнаул,Россия,Алтайский край,08.09.2015,,30.11.0001,10.06.2022,f212,500.0


In [40]:
df.drop([31450,39779,39809,40193,40194,40195,40196,40197,40198], inplace=True)

In [41]:
for col in col_date:
    df[col] =  pd.to_datetime(df[col], format='%d.%m.%Y')

In [20]:
df['date_min'].isna().sum()

0

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 58160 entries, 0 to 58160
Data columns (total 21 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   id                             58160 non-null  int64         
 1   date_min                       58160 non-null  datetime64[ns]
 2   comments                       37504 non-null  object        
 3   direction                      58160 non-null  object        
 4   transaction stage              58160 non-null  object        
 5   В стадии: Удачно               58160 non-null  object        
 6   Ожидаемая сумма                58160 non-null  float64       
 7   received_sum                   58160 non-null  float64       
 8   lost_amount                    58160 non-null  float64       
 9   repeat_transaction             58160 non-null  object        
 10  user_id                        52320 non-null  float64       
 11  user_date           

### Проверка на пропуски

In [None]:
# проверим пропущенные значения
report = df.isna().sum().to_frame()
report = report.rename(columns = {0: 'missing_values'})
report['% of total'] = (report['missing_values'] / df.shape[0]).round(2)*100
report.sort_values(by = 'missing_values', ascending = False)

### Проверка на дубликаты

In [None]:
# проверим датафрейм на наличие явных дубликатов
df.duplicated().sum()

In [None]:
# удаляем дубликаты
df=df.drop_duplicates()

Посмотрим на уникальные значения в столбце gender

In [None]:
df['gender'].value_counts()

In [None]:
#with open('output.csv', mode='w', newline='') as file:
#    csv_writer = csv.writer(file)
#    csv_writer.writerows(df)

Чтобы установить связь пропусков в столбце balance с данными, добавим столбец, в котором будет отображаться 0 - если пропуска в балансе нет и 1 -  если пропуск есть.

Проверим на уникальность значения столбцов Контакт: Пол и Контакт: Город_		

In [None]:
# изменим в значениях столбца 'name' букву ё на е, приведем названия к нижнему регистру
df['city'] = df['city'].str.lower()

In [None]:
df['city'].unique().to_list()

In [None]:
df['city']=df['city'].str.replace({'г ',' г','пос. ','с. ','пгт ','248033,РОССИЯ,КАЛУЖСКАЯ ОБЛ,Г ',',Б-Р СИРЕНЕВЫЙ,Д 12 КВ 17 ОФ 17','п'},'')

In [None]:
# проверим датафрейм на наличие неявных дубликатов
df.loc[df.duplicated(subset=['name', 'address'], keep=False)].sort_values('name')

In [None]:
# посмотрим min, max, среднее и тд.
df.describe().T