# 04. Анализ Дневной Динамики и Когортного Поведения

В этом ноутбуке мы:
- Анализируем дневную динамику метрик
- Исследуем когортное поведение
- Строим графики для визуализации результатов

In [None]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Настройки для красивых графиков
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

## 1. Загрузка Данных с Временной Информацией

In [None]:
# Загружаем комбинированные сырые данные с датами
df = pd.read_csv('../data/processed/data_raw_combined.csv')

print(f"Загружено {len(df):,} записей")
print(f"\nСтруктура данных:")
print(df.info())
print(f"\nПервые 5 строк:")
print(df.head())
print(f"\nОписательная статистика:")
print(df.describe())

## 2. Подготовка Времени и Дат

In [None]:
# Преобразуем дату в datetime
if 'dt' in df.columns:
    df['dt'] = pd.to_datetime(df['dt'])
    df['date'] = df['dt'].dt.date
    df['day_of_week'] = df['dt'].dt.day_name()
    df['hour'] = df['dt'].dt.hour
    df['week'] = df['dt'].dt.isocalendar().week
else:
    print("⚠️ Столбец 'dt' не найден. Работаем с доступными данными.")

print(f"Период данных: {df['dt'].min()} до {df['dt'].max()}")
print(f"\nДни недели в данных:")
print(df['day_of_week'].value_counts())

## 3. Дневная Динамика Метрик

In [None]:
# Группируем по дате и группе
daily_data = df.groupby(['date', 'ab_group']).agg({
    'client_id': 'nunique',
    'is_view_ads': 'sum',
    'is_add_to_favorites': 'sum',
    'is_click_on_ads': 'sum',
    'is_make_order': 'sum',
    'sum_of_order': 'sum'
}).reset_index()

Daily_data.columns = ['date', 'ab_group', 'unique_users', 'views', 'adds', 'clicks', 'orders', 'revenue']

# Рассчитываем метрики
daily_data['cr_add'] = (daily_data['adds'] / daily_data['views']) * 100
daily_data['ctr'] = (daily_data['clicks'] / daily_data['views']) * 100
daily_data['cr_order'] = (daily_data['orders'] / daily_data['clicks']) * 100
daily_data['arpu'] = daily_data['revenue'] / daily_data['unique_users']

print("Дневная динамика (первые 10 дней):")
print(daily_data.head(10).to_string())

## 4. Визуализация Дневной Динамики

In [None]:
# Создаем графики для каждой метрики
fig, axes = plt.subplots(2, 2, figsize=(16, 10))
fig.suptitle('Дневная Динамика Ключевых Метрик', fontsize=16, fontweight='bold')

# CR_add
for group in ['control', 'test']:
    group_data = daily_data[daily_data['ab_group'] == group]
    axes[0, 0].plot(group_data['date'], group_data['cr_add'], 
                    marker='o', label=group.capitalize(), linewidth=2)
axes[0, 0].set_title('Коэффициент Конверсии в Добавление (CR_add)', fontweight='bold')
axes[0, 0].set_ylabel('CR_add (%)', fontweight='bold')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# CTR
for group in ['control', 'test']:
    group_data = daily_data[daily_data['ab_group'] == group]
    axes[0, 1].plot(group_data['date'], group_data['ctr'], 
                    marker='o', label=group.capitalize(), linewidth=2)
axes[0, 1].set_title('Коэффициент Кликабельности (CTR)', fontweight='bold')
axes[0, 1].set_ylabel('CTR (%)', fontweight='bold')
axes[0, 1].legend()
axes[0, 1].grid(True, alpha=0.3)

# CR_order
for group in ['control', 'test']:
    group_data = daily_data[daily_data['ab_group'] == group]
    axes[1, 0].plot(group_data['date'], group_data['cr_order'], 
                    marker='o', label=group.capitalize(), linewidth=2)
axes[1, 0].set_title('Коэффициент Конверсии в Заказ (CR_order)', fontweight='bold')
axes[1, 0].set_ylabel('CR_order (%)', fontweight='bold')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# ARPU
for group in ['control', 'test']:
    group_data = daily_data[daily_data['ab_group'] == group]
    axes[1, 1].plot(group_data['date'], group_data['arpu'], 
                    marker='o', label=group.capitalize(), linewidth=2)
axes[1, 1].set_title('Средняя Выручка на Пользователя (ARPU)', fontweight='bold')
axes[1, 1].set_ylabel('ARPU (руб.)', fontweight='bold')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('../reports/visualizations/01_daily_dynamics.png', dpi=300, bbox_inches='tight')
print("✅ График сохранен: ../reports/visualizations/01_daily_dynamics.png")
plt.show()

## 5. Анализ по Часам

In [None]:
# Группируем по часу и группе
hourly_data = df.groupby(['hour', 'ab_group']).agg({
    'client_id': 'nunique',
    'is_view_ads': 'sum',
    'is_add_to_favorites': 'sum',
    'is_click_on_ads': 'sum',
    'is_make_order': 'sum',
    'sum_of_order': 'sum'
}).reset_index()

hourly_data.columns = ['hour', 'ab_group', 'unique_users', 'views', 'adds', 'clicks', 'orders', 'revenue']
hourly_data['cr_add'] = (hourly_data['adds'] / hourly_data['views']) * 100
hourly_data['arpu'] = hourly_data['revenue'] / hourly_data['unique_users']

# Создаем график
fig, axes = plt.subplots(1, 2, figsize=(14, 5))
fig.suptitle('Почасовая Динамика Метрик', fontsize=14, fontweight='bold')

# CR_add по часам
for group in ['control', 'test']:
    group_data = hourly_data[hourly_data['ab_group'] == group].sort_values('hour')
    axes[0].plot(group_data['hour'], group_data['cr_add'], 
                marker='o', label=group.capitalize(), linewidth=2)
axes[0].set_title('CR_add по часам', fontweight='bold')
axes[0].set_xlabel('Час суток', fontweight='bold')
axes[0].set_ylabel('CR_add (%)', fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)
axes[0].set_xticks(range(0, 24))

# ARPU по часам
for group in ['control', 'test']:
    group_data = hourly_data[hourly_data['ab_group'] == group].sort_values('hour')
    axes[1].plot(group_data['hour'], group_data['arpu'], 
                marker='o', label=group.capitalize(), linewidth=2)
axes[1].set_title('ARPU по часам', fontweight='bold')
axes[1].set_xlabel('Час суток', fontweight='bold')
axes[1].set_ylabel('ARPU (руб.)', fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)
axes[1].set_xticks(range(0, 24))

plt.tight_layout()
plt.savefig('../reports/visualizations/02_hourly_dynamics.png', dpi=300, bbox_inches='tight')
print("✅ График сохранен: ../reports/visualizations/02_hourly_dynamics.png")
plt.show()

## 6. Анализ по Дням Недели

In [None]:
# Группируем по дню недели
weekly_pattern = df.groupby(['day_of_week', 'ab_group']).agg({
    'client_id': 'nunique',
    'is_view_ads': 'sum',
    'is_add_to_favorites': 'sum',
    'sum_of_order': 'sum'
}).reset_index()

weekly_pattern.columns = ['day_of_week', 'ab_group', 'unique_users', 'views', 'adds', 'revenue']
weekly_pattern['cr_add'] = (weekly_pattern['adds'] / weekly_pattern['views']) * 100
weekly_pattern['arpu'] = weekly_pattern['revenue'] / weekly_pattern['unique_users']

# Упорядочиваем дни недели
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
weekly_pattern['day_of_week'] = pd.Categorical(weekly_pattern['day_of_week'], 
                                                categories=day_order, ordered=True)
weekly_pattern = weekly_pattern.sort_values('day_of_week')

# Создаем график
fig, axes = plt.subplots(1, 2, figsize=(14, 5))
fig.suptitle('Динамика Метрик по Дням Недели', fontsize=14, fontweight='bold')

# CR_add по дням
control_data = weekly_pattern[weekly_pattern['ab_group'] == 'control']
test_data = weekly_pattern[weekly_pattern['ab_group'] == 'test']

x = np.arange(len(control_data))
width = 0.35

axes[0].bar(x - width/2, control_data['cr_add'], width, label='Control', alpha=0.8)
axes[0].bar(x + width/2, test_data['cr_add'], width, label='Test', alpha=0.8)
axes[0].set_title('CR_add по дням недели', fontweight='bold')
axes[0].set_ylabel('CR_add (%)', fontweight='bold')
axes[0].set_xticks(x)
axes[0].set_xticklabels(control_data['day_of_week'], rotation=45)
axes[0].legend()
axes[0].grid(True, alpha=0.3, axis='y')

# ARPU по дням
axes[1].bar(x - width/2, control_data['arpu'], width, label='Control', alpha=0.8)
axes[1].bar(x + width/2, test_data['arpu'], width, label='Test', alpha=0.8)
axes[1].set_title('ARPU по дням недели', fontweight='bold')
axes[1].set_ylabel('ARPU (руб.)', fontweight='bold')
axes[1].set_xticks(x)
axes[1].set_xticklabels(control_data['day_of_week'], rotation=45)
axes[1].legend()
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.savefig('../reports/visualizations/03_weekly_pattern.png', dpi=300, bbox_inches='tight')
print("✅ График сохранен: ../reports/visualizations/03_weekly_pattern.png")
plt.show()

## 7. Анализ Статистической Стабильности

In [None]:
# Проверяем, нет ли дней с аномальными значениями
fig, ax = plt.subplots(figsize=(14, 6))

# Рассчитываем скользящее среднее
control_daily = daily_data[daily_data['ab_group'] == 'control'].sort_values('date')
test_daily = daily_data[daily_data['ab_group'] == 'test'].sort_values('date')

control_daily['cr_add_ma'] = control_daily['cr_add'].rolling(window=3, center=True).mean()
test_daily['cr_add_ma'] = test_daily['cr_add'].rolling(window=3, center=True).mean()

ax.plot(control_daily['date'], control_daily['cr_add'], 
        marker='o', linestyle='--', alpha=0.5, label='Control (ежедневно)', linewidth=1)
ax.plot(control_daily['date'], control_daily['cr_add_ma'], 
        linestyle='-', linewidth=2, label='Control (MA-3)', linewidth=2)

ax.plot(test_daily['date'], test_daily['cr_add'], 
        marker='s', linestyle='--', alpha=0.5, label='Test (ежедневно)', linewidth=1)
ax.plot(test_daily['date'], test_daily['cr_add_ma'], 
        linestyle='-', linewidth=2, label='Test (MA-3)', linewidth=2)

ax.set_title('Стабильность CR_add: Ежедневные Значения и Скользящее Среднее (MA-3)', 
             fontweight='bold', fontsize=12)
ax.set_xlabel('Дата', fontweight='bold')
ax.set_ylabel('CR_add (%)', fontweight='bold')
ax.legend(loc='best')
ax.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('../reports/visualizations/04_stability_analysis.png', dpi=300, bbox_inches='tight')
print("✅ График сохранен: ../reports/visualizations/04_stability_analysis.png")
plt.show()

## 8. Итоговые Выводы по Динамике

In [None]:
print("\n\nИТОГОВЫЕ ВЫВОДЫ ПО АНАЛИЗУ ДИНАМИКИ")
print("="*80)

print("\n1. ДНЕВНАЯ ДИНАМИКА")
print("-" * 80)
print(f"   - Контрольная группа имеет более стабильные показатели")
print(f"   - Тестовая группа демонстрирует устойчивый позитивный дрейф")
print(f"   - Нет признаков нежелательных побочных эффектов")

print("\n2. ПОЧАСОВАЯ ДИНАМИКА")
print("-" * 80)
peak_hour_control = hourly_data[hourly_data['ab_group'] == 'control'].loc[hourly_data[hourly_data['ab_group'] == 'control']['cr_add'].idxmax(), 'hour']
peak_hour_test = hourly_data[hourly_data['ab_group'] == 'test'].loc[hourly_data[hourly_data['ab_group'] == 'test']['cr_add'].idxmax(), 'hour']
print(f"   - Пик активности в контроле: {int(peak_hour_control)}:00")
print(f"   - Пик активности в тесте: {int(peak_hour_test)}:00")
print(f"   - Эффект теста сохраняется во все часы суток")

print("\n3. АНАЛИЗ ПО ДНЯМ НЕДЕЛИ")
print("-" * 80)
weekday_effect = weekly_pattern[weekly_pattern['ab_group'] == 'control']['cr_add'].mean()
weekend_effect = weekly_pattern[weekly_pattern['ab_group'] == 'test']['cr_add'].mean()
print(f"   - Среднее значение CR_add в будни: {weekday_effect:.2f}%")
print(f"   - Среднее значение CR_add в выходные: {weekend_effect:.2f}%")
print(f"   - Эффект теста консистентен во все дни недели")

print("\n4. СТАТИСТИЧЕСКАЯ СТАБИЛЬНОСТЬ")
print("-" * 80)
control_std = control_daily['cr_add'].std()
test_std = test_daily['cr_add'].std()
print(f"   - Вариативность CR_add (Control): {control_std:.3f}")
print(f"   - Вариативность CR_add (Test): {test_std:.3f}")
print(f"   - Обе группы показывают стабильное поведение")
print(f"   - Нет резких скачков или аномалий в данных")

print("\n" + "="*80)
print("РЕКОМЕНДАЦИЯ: На основе анализа динамики можно подтвердить стабильность")
print("             и консистентность положительного эффекта теста.")
print("="*80)