### 1. **Функции для расчёта прибыли от клиентов (LTV)**

LTV (Lifetime Value) — это прогнозируемая сумма прибыли, которую компания может получить от клиента за весь период его взаимодействия с бизнесом. Рассчитывается как произведение среднего дохода от клиента за определённый период и средней продолжительности его жизни.

**Формула для расчёта LTV:**
\[ LTV = ARPU \times CLV \]
где:
- **ARPU (Average Revenue Per User)** — средний доход от одного пользователя за определённый период.
- **CLV (Customer Lifetime Value)** — продолжительность жизни клиента (в месяцах или годах).

**Код:**

```python
# Средний доход на одного пользователя (ARPU)
arpu = df['total_spent'].mean()

# Средняя продолжительность жизни клиента (CLV) - например, мы считаем, что клиенты живут в среднем 24 месяца
clv = 24  # в месяцах

# Рассчитываем LTV
ltv = arpu * clv
print(f"Lifetime Value (LTV) = {ltv}")
```

---

### 2. **Функции для расчёта коэффициента окупаемости вложений (ROI)**

ROI (Return on Investment) измеряет эффективность инвестиций и показывает, сколько прибыли приносит каждый потраченный рубль. Формула для расчёта ROI:

**Формула для расчёта ROI:**
\[ ROI = \frac{{\text{{Доход}} - \text{{Инвестиции}}}}{{\text{{Инвестиции}}}} \times 100 \]

**Код:**

```python
# Пример: Инвестиции в маркетинговую кампанию
investment = 10000  # сумма инвестиций в маркетинг

# Доход от пользователей (общая сумма, потраченная всеми пользователями)
revenue = df['total_spent'].sum()

# Рассчитываем ROI
roi = (revenue - investment) / investment * 100
print(f"Return on Investment (ROI) = {roi:.2f}%")
```

---

### 3. **Функции для расчёта удержания клиентов (Retention Rate)**

**Retention Rate** (Уровень удержания) — это процент пользователей, которые вернулись в сервис за определённый период времени. Рассчитывается как отношение числа возвращённых пользователей к общему числу пользователей.

**Формула для расчёта удержания:**
\[ \text{Retention Rate} = \frac{{\text{Количество вернувшихся пользователей}}}{{\text{Общее количество пользователей}}} \times 100 \]

**Код:**

```python
# Удержание по сегментам
retention_rate = df['returning'].mean() * 100  # Средний процент возвращающихся пользователей
print(f"Retention Rate = {retention_rate:.2f}%")
```

---

### 4. **Функции для расчёта конверсии (Conversion Rate)**

**Conversion Rate** (Конверсия) — это процент пользователей, которые совершили целевое действие (например, покупку) по отношению к общему числу пользователей, посетивших сайт или приложение.

**Формула для расчёта конверсии:**
\[ \text{Conversion Rate} = \frac{{\text{Количество совершённых целевых действий}}}{{\text{Общее количество пользователей}}} \times 100 \]

**Код:**

```python
# Конверсия
conversion_rate = df['conversion'].mean() * 100  # Средний процент пользователей, совершивших конверсию
print(f"Conversion Rate = {conversion_rate:.2f}%")
```

---

### 5. **Итоговое приложение этих функций**

Всё вместе, для анализа и оптимизации бизнес-процессов, можно объединить функции для расчёта LTV, ROI, удержания и конверсии, чтобы оценить эффективность взаимодействия с клиентами и вклад маркетинговых усилий.

**Пример полного кода:**

```python
import pandas as pd
import numpy as np
import datetime

# Пример данных пользователей
data = {
    'user_id': [1, 2, 3, 4, 5, 6],
    'last_purchase_date': ['2024-11-10', '2024-11-15', '2024-10-20', '2024-11-05', '2024-11-12', '2024-09-30'],
    'purchase_count': [5, 2, 8, 3, 1, 10],
    'total_spent': [100, 50, 200, 80, 40, 300],
}

# Преобразуем в DataFrame
df = pd.DataFrame(data)

# Преобразуем дату последней покупки в формат datetime
df['last_purchase_date'] = pd.to_datetime(df['last_purchase_date'])

# Рассчитаем Recency
current_date = datetime.datetime.now()
df['recency'] = (current_date - df['last_purchase_date']).dt.days

# Средний доход на одного пользователя (ARPU)
arpu = df['total_spent'].mean()

# Средняя продолжительность жизни клиента (CLV)
clv = 24  # в месяцах

# Рассчитываем LTV
ltv = arpu * clv
print(f"Lifetime Value (LTV) = {ltv}")

# Пример: Инвестиции в маркетинговую кампанию
investment = 10000  # сумма инвестиций в маркетинг

# Доход от пользователей (общая сумма, потраченная всеми пользователями)
revenue = df['total_spent'].sum()

# Рассчитываем ROI
roi = (revenue - investment) / investment * 100
print(f"Return on Investment (ROI) = {roi:.2f}%")

# Для примера, пусть у нас есть информация о возвращении пользователей
df['returning'] = np.random.choice([True, False], size=len(df))  # Случайно помечаем возвращение пользователей

# Удержание по сегментам
retention_rate = df['returning'].mean() * 100  # Средний процент возвращающихся пользователей
print(f"Retention Rate = {retention_rate:.2f}%")

# Конверсия
df['conversion'] = np.random.choice([True, False], size=len(df), p=[0.3, 0.7])  # Случайная конверсия
conversion_rate = df['conversion'].mean() * 100  # Средний процент пользователей, совершивших конверсию
print(f"Conversion Rate = {conversion_rate:.2f}%")
```

### Результаты:
- **LTV** показывает, какой доход в среднем приносит клиент на протяжении своей жизни.
- **ROI** помогает понять, насколько эффективно были использованы инвестиции.
- **Retention Rate** отражает, сколько пользователей возвращаются в систему.
- **Conversion Rate** демонстрирует эффективность маркетинговых и продажных процессов в приложении.

Эти метрики позволяют анализировать и оптимизировать работу приложения или бизнеса в целом.

### 1. **DAU, WAU и MAU** — Показатели заинтересованности клиента в продукте

**DAU** (Daily Active Users) — это количество уникальных пользователей, которые взаимодействовали с приложением в течение одного дня.

**WAU** (Weekly Active Users) — количество уникальных пользователей, которые взаимодействовали с приложением в течение недели.

**MAU** (Monthly Active Users) — количество уникальных пользователей, которые взаимодействовали с приложением в течение месяца.

Эти показатели помогают оценить активность пользователей и заинтересованность в продукте. Сравнив их, можно также рассчитать **отношение DAU/MAU** и **WAU/MAU**, которые показывают уровень вовлечённости.

---

### 2. **Расчёт DAU, WAU, MAU**

Для расчёта этих показателей нам нужно будет иметь информацию о действиях пользователей (например, даты посещений). Мы можем создать пример с случайными данными о действиях пользователей, а затем вычислить эти показатели.

---

### 3. **Код для расчёта DAU, WAU, MAU**

**Шаги для расчёта:**
1. Для **DAU** считаем уникальных пользователей по каждой дате.
2. Для **WAU** считаем уникальных пользователей за последние 7 дней.
3. Для **MAU** считаем уникальных пользователей за последние 30 дней.

```python
import pandas as pd
import numpy as np
import datetime

# Пример данных с датами активностей пользователей
data = {
    'user_id': [1, 2, 3, 4, 1, 2, 5, 6, 1, 4, 2],
    'activity_date': ['2024-11-10', '2024-11-10', '2024-11-10', '2024-11-10',
                      '2024-11-11', '2024-11-11', '2024-11-12', '2024-11-12',
                      '2024-11-13', '2024-11-13', '2024-11-14']
}

# Преобразуем в DataFrame
df = pd.DataFrame(data)

# Преобразуем колонку с датами в формат datetime
df['activity_date'] = pd.to_datetime(df['activity_date'])

# Рассчитываем DAU (ежедневная активность пользователей)
dau = df.groupby('activity_date')['user_id'].nunique()  # Количество уникальных пользователей по дате
print("DAU:")
print(dau)

# Рассчитываем WAU (еженедельная активность пользователей)
# Сначала создаём столбец с номером недели
df['week'] = df['activity_date'].dt.isocalendar().week

wau = df.groupby('week')['user_id'].nunique()  # Количество уникальных пользователей за неделю
print("\nWAU:")
print(wau)

# Рассчитываем MAU (ежемесячная активность пользователей)
df['month'] = df['activity_date'].dt.month

mau = df.groupby('month')['user_id'].nunique()  # Количество уникальных пользователей за месяц
print("\nMAU:")
print(mau)
```

---

### 4. **Интерпретация результатов**

- **DAU**: Позволяет отслеживать ежедневную активность пользователей. Этот показатель полезен для оценки повседневного вовлечения в продукт.
  
- **WAU**: Смотрит на активность пользователей на более долгосрочной основе — за неделю. Это полезно для выявления еженедельных трендов вовлечённости и возвращаемости пользователей.

- **MAU**: Измеряет количество уникальных пользователей за месяц и помогает понять, насколько широко приложение используется среди всей аудитории.

---

### 5. **Дополнительные метрики**:
Для анализа вовлеченности пользователей можно использовать отношение DAU/MAU и WAU/MAU. Эти коэффициенты показывают, какой процент пользователей активен в конкретный день или неделю по отношению к общему числу пользователей в месяц.

**Формула для расчёта DAU/MAU**:
\[ \text{DAU/MAU} = \frac{{\text{DAU}}}{{\text{MAU}}} \times 100 \]

**Формула для расчёта WAU/MAU**:
\[ \text{WAU/MAU} = \frac{{\text{WAU}}}{{\text{MAU}}} \times 100 \]

**Код для расчёта DAU/MAU и WAU/MAU**:

```python
# Рассчитаем DAU/MAU и WAU/MAU
dau_mau_ratio = dau.sum() / mau.sum() * 100
wau_mau_ratio = wau.sum() / mau.sum() * 100

print(f"\nDAU/MAU Ratio: {dau_mau_ratio:.2f}%")
print(f"WAU/MAU Ratio: {wau_mau_ratio:.2f}%")
```

---

### 6. **Выводы и рекомендации**:

- **Высокие значения DAU/MAU и WAU/MAU** указывают на высокий уровень вовлечённости пользователей, что является хорошим сигналом для бизнеса.
- Если DAU/MAU и WAU/MAU низкие, это может означать, что пользователи используют приложение нерегулярно или с перерывами. В этом случае стоит задуматься о внедрении стратегий для улучшения удержания, таких как push-уведомления, персонализированные предложения или регулярные обновления контента.

Эти метрики помогают оценить, насколько активно пользователи взаимодействуют с продуктом, а также позволяют определить области для улучшения вовлеченности.

# RFM


### 1. **Подготовка данных**

Для начала необходимо собрать данные о пользователях, включая даты их последних покупок, количество покупок и общую сумму покупок. Затем, из этих данных, рассчитываем три ключевых показателя для RFM анализа:

- **Recency** (давность последней покупки) — количество дней с последней покупки.
- **Frequency** (частота покупок) — количество покупок.
- **Monetary** (сумма затрат) — общая сумма, потраченная пользователем.

**Код:**

```python
import pandas as pd
import numpy as np
import datetime

# Пример данных пользователей
data = {
    'user_id': [1, 2, 3, 4, 5, 6],
    'last_purchase_date': ['2024-11-10', '2024-11-15', '2024-10-20', '2024-11-05', '2024-11-12', '2024-09-30'],
    'purchase_count': [5, 2, 8, 3, 1, 10],
    'total_spent': [100, 50, 200, 80, 40, 300],
}

# Преобразуем в DataFrame
df = pd.DataFrame(data)

# Преобразуем дату последней покупки в формат datetime
df['last_purchase_date'] = pd.to_datetime(df['last_purchase_date'])

# Рассчитаем Recency
current_date = datetime.datetime.now()
df['recency'] = (current_date - df['last_purchase_date']).dt.days
```

---

### 2. **Сегментация пользователей**

Для сегментации пользователей мы используем квантилы для каждого из показателей (Recency, Frequency и Monetary). Это делит пользователей на 4 группы: от лучших до худших в зависимости от их поведения.

- **Recency**: более новые пользователи имеют меньшую давность.
- **Frequency**: более частые пользователи получают более высокий сегмент.
- **Monetary**: пользователи, тратящие больше, попадают в более высокий сегмент.

**Код:**

```python
# Разделим на квантели
df['recency_segment'] = pd.qcut(df['recency'], 4, labels=['4', '3', '2', '1'])  # 1 - более новые пользователи
df['frequency_segment'] = pd.qcut(df['purchase_count'], 4, labels=['1', '2', '3', '4'])  # 4 - более частые покупатели
df['monetary_segment'] = pd.qcut(df['total_spent'], 4, labels=['1', '2', '3', '4'])  # 4 - более высокие затраты

# Объединим сегменты
df['rfm_segment'] = df['recency_segment'] + df['frequency_segment'] + df['monetary_segment']

# Выводим сегменты
print(df[['user_id', 'recency', 'purchase_count', 'total_spent', 'rfm_segment']])
```

---

### 3. **Анализ поведения пользователей из разных сегментов**

После того как пользователи разделены на сегменты, необходимо исследовать их поведение, включая такие параметры, как **удержание клиентов**, **время между покупками** и **количество покупок**.

1. **Удержание**: вычисляем процент пользователей, которые возвращаются для совершения повторных покупок в каждом сегменте.
2. **Время между покупками**: исследуем среднее количество дней между покупками для пользователей в разных сегментах.
3. **Количество покупок**: подсчитываем среднее количество покупок по каждому сегменту.

**Код:**

```python
# Для примера, пусть у нас есть информация о возвращении пользователей
df['returning'] = np.random.choice([True, False], size=len(df))  # Случайно помечаем возвращение пользователей

# Рассчитаем удержание по сегментам
retention_by_segment = df.groupby('rfm_segment')['returning'].mean() * 100
print("Удержание по сегментам:")
print(retention_by_segment)

# Пример: время между покупками
df['days_between'] = np.random.randint(10, 50, size=len(df))  # Примерное время между покупками

# Рассчитаем среднее время между покупками по сегментам
days_between_by_segment = df.groupby('rfm_segment')['days_between'].mean()
print("Среднее время между покупками по сегментам:")
print(days_between_by_segment)

# Среднее количество покупок по сегментам
purchase_count_by_segment = df.groupby('rfm_segment')['purchase_count'].mean()
print("Среднее количество покупок по сегментам:")
print(purchase_count_by_segment)
```

---

### 4. **Проверка гипотезы о различии конверсии между сегментами**

Для проверки, отличаются ли конверсии между сегментами, можно использовать **ANOVA**. Эта процедура помогает определить, есть ли статистически значимые различия между средними значениями конверсии разных сегментов.

**Код:**

```python
from scipy import stats

# Для примера создадим конверсии для каждого пользователя
df['conversion'] = np.random.choice([True, False], size=len(df), p=[0.3, 0.7])  # Случайная конверсия

# Проверим гипотезу различия конверсии между сегментами
anova_result = stats.f_oneway(*[df[df['rfm_segment'] == segment]['conversion'] for segment in df['rfm_segment'].unique()])
print("ANOVA result:", anova_result)
```

---

### 5. **Интерпретация результатов и выводы**

1. **Интерпретация**:
   - **Сегмент "111"** (новые, частые и высокозатратные пользователи) имеет высокий уровень удержания и быстро возвращается для новых покупок.
   - **Сегмент "444"** (старые, редкие и с низкими затратами) требует применения стратегий для их возвращения, таких как скидки и персонализированные предложения.

2. **Выводы для оптимизации работы приложения**:
   - Для **сегмента "444"** стоит предложить стимулы для возвращения пользователей, например, акции, скидки и предложения.
   - Для **сегмента "111"** можно предложить апсейлы и дополнительные продукты для увеличения среднего чека.
   - Повышение **удержания** в сегменте "111" и улучшение вовлечённости в сегменте "444" поможет повысить эффективность приложения.