# Описание проекта

## Цели проекта

Повышение эффективности клиентоориентированной стратегии банка через сегментацию клиентов на основе их поведения (RFM-анализ) для:

- Увеличения удержания клиентов (Retention Rate).
- Роста прибыльности за счет таргетированных предложений.
- Снижения оттока (Churn Rate) в группах риска.

## Задачи

1. **Сбор и подготовка данных**:

   - Получить исторические данные о транзакциях, продуктах, взаимодействиях клиентов за последние 12–24 месяца.
   - Очистить данные от аномалий (например, тестовые операции, технические ошибки).

2. **Расчет RFM-метрик**:

   - **Recency (R)**: Как давно клиент совершал операции (дни с последней транзакции).
   - **Frequency (F)**: Частота взаимодействий (число операций за период).
   - **Monetary (M)**: Суммарный доход банка от клиента (комиссии, проценты по кредитам/депозитам).

3. **Сегментация клиентов**:

   - Разделить клиентов на группы по комбинациям R, F, M (например, «Лояльные», «Уходящие», «Спящие»).
   - Выявить сегменты с наибольшим потенциалом для кросс-продаж.

4. **Анализ сегментов**:

   - Сравнить средние значения метрик (ARPU, LTV, Churn Rate) между сегментами.
   - Изучить распределение клиентов по банковским продуктам (кредиты, вклады, карты).

5. **Проверка гипотез**:

   - Определить, какие гипотезы подтвердились, и сформулировать рекомендации.

6. **Разработка рекомендаций**:
   - Создать персонализированные маркетинговые кампании для каждого сегмента.
   - Предложить условия для удержания клиентов из групп риска.

## Гипотезы

1. **Гипотеза 1**: Клиенты с высоким **Monetary** (M) чаще используют несколько продуктов банка (кредит + депозит + страхование).

   - _Метод проверки_: Сравнение среднего числа продуктов в сегментах.

2. **Гипотеза 2**: Клиенты с низким **Recency** (R ≤ 30 дней) имеют в 2 раза выше Retention Rate, чем клиенты с R > 90 дней.

   - _Метод проверки_: Анализ Retention Rate за последний квартал.

3. **Гипотеза 3**: Сегмент «Спящие клиенты» (R > 180 дней, F = 1) можно реактивировать email-рассылкой с персональными условиями.

   - _Метод проверки_: A/B-тест с предложением бонусов за возврат.

4. **Гипотеза 4**: Клиенты с высоким **Frequency** (F ≥ 5) более лояльны: их NPS на 20% выше, чем у клиентов с F ≤ 2.

   - _Метод проверки_: Сопоставление данных RFM с опросами NPS.

5. **Гипотеза 5**: Клиенты, пользующиеся мобильным банком, имеют более высокий **Monetary** за счет удобства совершения операций.
   - _Метод проверки_: Сравнение M у пользователей мобильного банка и остальных.


# Import


In [3]:
# Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta


In [4]:
# Настройки генерации
np.random.seed(42)
n_rows = 10000
n_customers = 2000

# Параметры продуктов и платежей
products = ['Кредит', 'Дебетовая карта', 'Вклад', 'Страхование', 'Инвестиции', 'Ипотека']
product_probs = [0.3, 0.25, 0.15, 0.1, 0.1, 0.1]

payments = ['карта', 'Apple Pay', 'Google Pay', 'криптовалюта', 'банковский перевод']
payment_probs = [0.5, 0.2, 0.15, 0.1, 0.05]

# Генерация данных
def generate_transaction_date():
    return (datetime(2023, 1, 1) + 
           timedelta(
               days=np.random.randint(0, 455),
               hours=np.random.randint(9, 21),
               minutes=np.random.randint(0, 60)
           )).strftime('%Y-%m-%d %H:%M:%S')

data = {
    "customer_id": [f"user_{np.random.randint(1, n_customers+1)}" for _ in range(n_rows)],
    "transaction_date": [generate_transaction_date() for _ in range(n_rows)],
    "amount": np.round(
        np.where(
            np.random.rand(n_rows) < 0.05,
            np.random.uniform(15000, 100000, n_rows),
            np.random.exponential(scale=2500, size=n_rows) + 500
        ), 2
    ),
    "product_category": np.random.choice(products, p=product_probs, size=n_rows),
    "payment_method": np.random.choice(payments, p=payment_probs, size=n_rows),
    "is_anomaly": np.where(np.random.rand(n_rows) < 0.05, 1, 0)
}

# Проверка длин
for k, v in data.items():
    print(f"{k}: {len(v)}")  # Все должны быть 10000

# Создание DataFrame
df = pd.DataFrame(data)

# Проверка
print(f"\nСоздано {len(df)} строк")
print("Пример данных:")
print(df.head())

# Сохранение
df.to_csv("bank_rfm_dataset_10k_fixed.csv", index=False, encoding='utf-8-sig')
print("\nФайл 'bank_rfm_dataset_10k_fixed.csv' успешно создан!")

customer_id: 10000
transaction_date: 10000
amount: 10000
product_category: 10000
payment_method: 10000
is_anomaly: 10000

Создано 10000 строк
Пример данных:
  customer_id     transaction_date    amount product_category  \
0   user_1127  2023-08-17 11:57:00  88883.49  Дебетовая карта   
1   user_1460  2023-10-06 19:53:00   1129.72          Ипотека   
2    user_861  2023-07-27 09:11:00   4600.01  Дебетовая карта   
3   user_1295  2023-10-07 10:52:00    679.06      Страхование   
4   user_1131  2024-01-27 10:56:00   3040.69           Кредит   

       payment_method  is_anomaly  
0               карта           0  
1          Google Pay           0  
2               карта           0  
3               карта           0  
4  банковский перевод           0  

Файл 'bank_rfm_dataset_10k_fixed.csv' успешно создан!


# первичный анализ


In [5]:
df.head()

Unnamed: 0,customer_id,transaction_date,amount,product_category,payment_method,is_anomaly
0,user_1127,2023-08-17 11:57:00,88883.49,Дебетовая карта,карта,0
1,user_1460,2023-10-06 19:53:00,1129.72,Ипотека,Google Pay,0
2,user_861,2023-07-27 09:11:00,4600.01,Дебетовая карта,карта,0
3,user_1295,2023-10-07 10:52:00,679.06,Страхование,карта,0
4,user_1131,2024-01-27 10:56:00,3040.69,Кредит,банковский перевод,0


In [6]:
df.shape

(10000, 6)

In [9]:
df.describe([0.01, 0.05, 0.10, 0.20, 0.90, 0.95, 0.99]).T

Unnamed: 0,count,mean,std,min,1%,5%,10%,20%,50%,90%,95%,99%,max
amount,10000.0,5475.980234,12602.045051,500.23,526.8159,632.267,779.572,1083.346,2364.265,7599.6,15212.11,79855.7904,99645.41
is_anomaly,10000.0,0.0478,0.213353,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0


In [11]:
df.dtypes

customer_id          object
transaction_date     object
amount              float64
product_category     object
payment_method       object
is_anomaly            int64
dtype: object

In [13]:
df.isna().sum()

customer_id         0
transaction_date    0
amount              0
product_category    0
payment_method      0
is_anomaly          0
dtype: int64

In [24]:
customer_unique = pd.DataFrame(df['customer_id'].unique())

In [28]:
customer_unique.count()

0    1987
dtype: int64