# Описание проекта
## Цели проекта
Повышение эффективности клиентоориентированной стратегии банка через сегментацию клиентов на основе их поведения (RFM-анализ) для:  
- Увеличения удержания клиентов (Retention Rate).  
- Роста прибыльности за счет таргетированных предложений.  
- Снижения оттока (Churn Rate) в группах риска.  
## Задачи
1. **Сбор и подготовка данных**:  
   - Получить исторические данные о транзакциях, продуктах, взаимодействиях клиентов за последние 12–24 месяца.  
   - Очистить данные от аномалий (например, тестовые операции, технические ошибки).  

2. **Расчет RFM-метрик**:  
   - **Recency (R)**: Как давно клиент совершал операции (дни с последней транзакции).  
   - **Frequency (F)**: Частота взаимодействий (число операций за период).  
   - **Monetary (M)**: Суммарный доход банка от клиента (комиссии, проценты по кредитам/депозитам).  

3. **Сегментация клиентов**:  
   - Разделить клиентов на группы по комбинациям R, F, M (например, «Лояльные», «Уходящие», «Спящие»).  
   - Выявить сегменты с наибольшим потенциалом для кросс-продаж.  

4. **Анализ сегментов**:  
   - Сравнить средние значения метрик (ARPU, LTV, Churn Rate) между сегментами.  
   - Изучить распределение клиентов по банковским продуктам (кредиты, вклады, карты).  

5. **Проверка гипотез**:  
   - Определить, какие гипотезы подтвердились, и сформулировать рекомендации.  

6. **Разработка рекомендаций**:  
   - Создать персонализированные маркетинговые кампании для каждого сегмента.  
   - Предложить условия для удержания клиентов из групп риска.  
## Гипотезы
1. **Гипотеза 1**: Клиенты с высоким **Monetary** (M) чаще используют несколько продуктов банка (кредит + депозит + страхование).  
   - *Метод проверки*: Сравнение среднего числа продуктов в сегментах.  

2. **Гипотеза 2**: Клиенты с низким **Recency** (R ≤ 30 дней) имеют в 2 раза выше Retention Rate, чем клиенты с R > 90 дней.  
   - *Метод проверки*: Анализ Retention Rate за последний квартал.  

3. **Гипотеза 3**: Сегмент «Спящие клиенты» (R > 180 дней, F = 1) можно реактивировать email-рассылкой с персональными условиями.  
   - *Метод проверки*: A/B-тест с предложением бонусов за возврат.  

4. **Гипотеза 4**: Клиенты с высоким **Frequency** (F ≥ 5) более лояльны: их NPS на 20% выше, чем у клиентов с F ≤ 2.  
   - *Метод проверки*: Сопоставление данных RFM с опросами NPS.  

5. **Гипотеза 5**: Клиенты, пользующиеся мобильным банком, имеют более высокий **Monetary** за счет удобства совершения операций.  
   - *Метод проверки*: Сравнение M у пользователей мобильного банка и остальных. 

# Import

In [3]:
# Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

In [2]:
np.random.seed(42)
n_rows = 5000

# Генерация данных
data = {
    "customer_id": [f"user_{np.random.randint(1, 1001)}" for _ in range(n_rows)],
    "transaction_date": [
        (datetime(2023, 1, 1) + 
        timedelta(days=np.random.randint(0, 455), 
        hours=np.random.randint(9, 18))
        for _ in range(n_rows)
    ],
    "amount": np.round(np.random.exponential(scale=1500, size=n_rows) + 100, 2),
    "product_category": np.random.choice(
        ["Кредит", "Дебетовая карта", "Вклад", "Страхование", "Инвестиции"],
        p=[0.4, 0.3, 0.15, 0.1, 0.05]
    ),
    "payment_method": np.random.choice(
        ["карта", "Apple Pay", "Google Pay", "криптовалюта"],
        p=[0.55, 0.2, 0.15, 0.1]
    ),
    "is_anomaly": 0
}

df = pd.DataFrame(data)

# Добавление аномалий (5% транзакций)
anomaly_idx = np.random.choice(df.index, size=int(n_rows * 0.05), replace=False)
df.loc[anomaly_idx, "amount"] = np.round(np.random.uniform(10000, 50000, len(anomaly_idx)), 2)
df.loc[anomaly_idx, "is_anomaly"] = 1

# Сохранение
df.to_csv("bank_rfm_dataset.csv", index=False, encoding="utf-8-sig")

SyntaxError: closing parenthesis ']' does not match opening parenthesis '(' on line 12 (898769766.py, line 16)