# Анализ данных Яндекс.Афиши

- Автор: Чертова Наталия
- Дата: 20.06.2025

В этом проекте мы работаем с данными сервиса Яндекс Афиша. С его помощью пользователи могут узнавать информацию о мероприятиях в разных городах и покупать на них билеты. Сервис сотрудничает с партнёрами — организаторами мероприятий и билетными операторами, которые предоставляют информацию о событиях и выставляют билеты на продажу.

В ноябрь 2024 года сотрудники из отдела продукта обратили внимание на то, что продажи билетов на одни мероприятия неожиданно растут, а на другие — снижаются.

Необходимо было провести аналих полученных данных и разобраться, в чем причина изменения пользовательских предпочтений. Следовало ответить на следующие вопросы:
- Дело в факторе сезонности, изменении аудитории или какой-либо другой причине? 
- Какие события стали привлекать больше зрителей, а какие организаторы и площадки выбились в лидеры? 
- Отличаются ли своей активностью пользователи мобильных устройств от клиентов, которые бронируют билеты со стационарного компьютера?

Для анализа был разработан дашборд (https://datalens.yandex/4paeueyblw1oq).

В дополнении к дашборда необходимо провести исследовательский анализ данных в Python. Это поможет сделать выводы об изменении пользовательских предпочтений и популярности событий осенью 2024 года, а также проверить гипотезу о разнице в поведении пользователей с мобильных и стационарных устройств. Такой анализ дополнит данные дашборда и поможет команде продукта получить инсайты об изменении пользовательских предпочтений.

## Цели и задачи 
### Цель проекта
Провести исследовательский анализ данных сервиса Яндекс Афиша за представленный период 2024 года, чтобы выявить ключевые инсайты об изменении пользовательских предпочтений и популярности событий, а также проверить статистические гипотезы о различиях в поведении пользователей с мобильных и стационарных устройств.

### Задачи проекта
1. Загрузка и первичное знакомство с данными: Загрузим предоставленные датасеты, оценим их объём, корректность и соответствие описанию, а также наметим первые шаги по предобработке.

2. Предобработка данных: На этом этапе очистим данные от пропусков и выбросов, проверим на явные и неявные дубликаты и ошибки, проведем преобразование типов данных. Важно будет привести все финансовые данные к единой валюте (российским рублям), а также создать новые столбцы для упрощения дальнейшего анализа, такие как выручка с одного билета (one_ticket_revenue_rub), месяц (month) и сезонность (season).

3. Исследовательский анализ данных (EDA): Детально изучим:
- Сезонные изменения в распределении заказов по различным сегментам: тип мероприятия, тип устройства и возрастные ограничения.
- Динамику выручки с продажи одного билета в зависимости от типа мероприятия в летний и осенний периоды.
- Ежедневную и недельную активность пользователей осенью 2024 года, включая динамику общего числа заказов, количество активных пользователей (DAU), среднее число заказов на пользователя и среднюю стоимость одного билета.
- Популярность событий и партнеров, анализируя распределение по регионам и вклад различных билетных операторов.

4. Статистический анализ данных: Проверим две ключевые гипотезы, предложенные продуктовой командой, относительно активности пользователей мобильных и стационарных устройств, а именно:
- Гипотеза о том, что среднее количество заказов на одного пользователя мобильного приложения выше, чем у пользователей стационарных устройств.
- Гипотеза о том, что среднее время между заказами пользователей мобильных приложений выше, чем у пользователей стационарных устройств.

5. Формирование общего вывода и рекомендаций: На основе всех полученных инсайтов сформулируем краткие выводы, а также предложим рекомендации для продуктовой команды, на что стоит обратить внимание в первую очередь.

## Описание используемых данных

В рамках данного проекта мы работаем с тремя основными датасетами, которые содержат информацию о бронировании билетов на сервисе **Яндекс Афиша** за период с **1 июня по 30 октября 2024 года**, а также дополнительный датасет о курсе валют для конвертации.

#### 1. `final_tickets_orders_df.csv` — Информация о заказах билетов

Этот датасет содержит детальную информацию обо всех совершенных заказах, включая данные о пользователе, времени покупки, типе устройства и финансовые показатели.

* `order_id` : Уникальный идентификатор каждого заказа.
* `user_id` : Уникальный идентификатор пользователя, совершившего заказ.
* `created_dt_msk` : Дата создания заказа (московское время).
* `created_ts_msk` : Полная дата и время создания заказа (московское время).
* `event_id` : Идентификатор мероприятия, к которому относится заказ. Связан с `event_id` в датасете мероприятий.
* `cinema_circuit` : Название сети кинотеатров. Если мероприятие не является кино, может содержать значение 'нет'.
* `age_limit` : Возрастное ограничение для данного мероприятия (например, 0+, 6+, 12+).
* `currency_code` : Валюта оплаты (например, `rub` для рублей, `kzt` для тенге).
* `device_type_canonical` : Тип устройства, с которого был оформлен заказ (`mobile` для мобильных устройств, `desktop` для стационарных).
* `revenue` : Выручка, полученная от данного заказа.
* `service_name` : Название билетного оператора, через которого был оформлен заказ.
* `tickets_count` : Количество билетов, купленных в данном заказе.
* `total` : Общая сумма заказа.
* `days_since_prev` (float): Количество дней, прошедших с предыдущей покупки для данного пользователя. Для первой покупки пользователя значение будет пропущено (`NaN`).

#### 2. `final_tickets_events_df.csv` — Информация о мероприятиях

Этот датасет предоставляет детали о самих мероприятиях, их типе, организаторах и месте проведения. 
*Обратите внимание: фильмы исключены из этого датасета.*

* `event_id` : Уникальный идентификатор мероприятия. Связан с `event_id` в датасете заказов.
* `event_name` : Полное название мероприятия.
* `event_type_description`: Более подробное описание типа мероприятия.
* `event_type_main` : Основной тип мероприятия (например, 'театральная постановка', 'концерт', 'спорт', 'выставка').
* `organizers` : Название организатора мероприятия.
* `region_name` : Название региона, где проводится мероприятие.
* `city_name` : Название города проведения мероприятия.
* `venue_id` : Уникальный идентификатор площадки.
* `venue_name` : Название площадки проведения мероприятия.
* `venue_address`: Адрес площадки.

#### 3. `final_tickets_tenge_df.csv` — Курс тенге к рублю

Этот датасет используется для конвертации выручки из казахстанских тенге в российские рубли.

* `nominal` : Номинал, для которого указан курс (всегда 100 тенге).
* `data` : Дата, к которой относится курс валюты.
* `curs` : Курс обмена 100 тенге к российскому рублю.
* `cdx` : Обозначение валюты (всегда `kzt`).

##  Структура проекта

Проект будет выполнен в виде Jupyter Notebook и структурирован по ключевым этапам исследовательского анализа данных и проверки гипотез. Каждый шаг будет включать соответствующие блоки кода, визуализации и подробные текстовые выводы.

### Шаг 1. Загрузка данных и знакомство с ними
* Загрузка трех CSV-файлов в DataFrame.
* Первичный обзор данных: `.info()`, `.head()`, `.describe()`.
* Оценка объема данных и типов столбцов.
* Предварительные выводы о качестве данных и необходимости предобработки.

### Шаг 2. Предобработка данных и подготовка их к исследованию
* **Обработка пропусков**: Проверка и обоснованное заполнение или удаление пропусков (особое внимание `days_since_prev`).
* **Работа с категориальными значениями**: Изучение уникальных значений, нормализация при необходимости.
* **Обработка количественных значений**: Анализ распределений, выявление и обработка выбросов (особенно для `revenue` и `tickets_count`), раздельно для рублей и тенге.
* **Проверка дубликатов**: Выявление и обработка явных и неявных дубликатов (с акцентом на бронирования).
* **Преобразование типов данных**: Оптимизация типов данных (например, `datetime`, `category`, уменьшение размерности для числовых).
* **Создание новых столбцов**:
    * `revenue_rub`: Выручка, приведенная к российским рублям.
    * `one_ticket_revenue_rub`: Выручка с продажи одного билета.
    * `month`: Месяц оформления заказа.
    * `season`: Категория сезона ('лето', 'осень', 'зима', 'весна').
* Промежуточный вывод по результатам предобработки.

### Шаг 3. Исследовательский анализ данных (EDA)
#### 3.1. Анализ распределения заказов по сегментам и их сезонные изменения
* Динамика количества заказов по месяцам (июнь-ноябрь 2024).
* Сравнение распределения заказов (в долях) по типу мероприятия, типу устройства и возрастной категории для летнего и осеннего периодов.
* Анализ изменения средней выручки с одного билета в зависимости от типа мероприятия летом и осенью.
* Выводы о сезонных изменениях пользовательских предпочтений и динамике стоимости.

#### 3.2. Осенняя активность пользователей
* Анализ ежедневной динамики: общее число заказов, DAU, среднее число заказов на пользователя, средняя стоимость одного билета (для осени 2024).
* Изучение недельной цикличности: сравнение активности в будни и выходные.
* Промежуточный вывод о пользовательской активности осенью.

#### 3.3. Популярные события и партнёры
* Анализ разнообразия мероприятий и числа заказов по регионам (с долями).
* Исследование активности билетных партнеров: число уникальных мероприятий, заказов и суммарная выручка (с долями).
* Промежуточный вывод о лидерах среди регионов и партнеров.

### Шаг 4. Статистический анализ данных
* **Подготовка данных**: Выделение данных за осенний период, разделение по типу устройства и исключение пересекающихся пользователей.
* **Проверка гипотезы 1**: Среднее количество заказов на одного пользователя мобильного приложения выше, чем у пользователей стационарных устройств.
    * Формулировка нулевой и альтернативной гипотез.
    * Выбор статистического теста (t-тест для независимых выборок), обоснование.
    * Проведение теста и интерпретация p-value.
* **Проверка гипотезы 2**: Среднее время между заказами пользователей мобильных приложений выше, чем у пользователей стационарных устройств.
    * Формулировка нулевой и альтернативной гипотез.
    * Выбор статистического теста (t-тест для независимых выборок), обоснование.
    * Проведение теста и интерпретация p-value.
* Промежуточный вывод по результатам статистических тестов.

### Шаг 5. Общий вывод и рекомендации
* Сводка информации о данных и проведенном анализе.
* Основные результаты EDA: наиболее востребованные мероприятия, изменения популярности, динамика среднего чека, инсайты по пользовательской активности, лидеры среди регионов и партнеров.
* Краткий комментарий по результатам проверки гипотез.
* Конкретные рекомендации для продуктовой команды, основанные на полученных инсайтах.

---
## Шаг 1. Загрузка данных и знакомство с ними
Загрузить данные и получить первую информацию о них. Оценить объём данных, их корректность и соответствие описанию, а также предположить, какие шаги необходимо сделать на стадии предобработки данных. Основные моменты зафиксировать в промежуточном выводе.

In [None]:
# Загрузим библиотеки
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats
import os

In [None]:
# Загрузим таблицы
# Список имен таблиц, которые нужно загрузить
file_names = [
    'final_tickets_orders_df.csv',
    'final_tickets_events_df.csv',
    'final_tickets_tenge_df.csv'
]

# Базовый путь для загрузки из Яндекс.Облака
yandex_cloud_base_path = 'https://code.s3.yandex.net/datasets/'

# Словарь для хранения всех загруженных датафреймов
dataframes = {}

for file_name in file_names:
    df_name = file_name.replace('.csv', '')
    df_all = None 

    # Загрузка из Яндекс.Облака 
    yandex_cloud_full_path = os.path.join(yandex_cloud_base_path, file_name)
    try:
        df_all = pd.read_csv(yandex_cloud_full_path)
        print(f" '{file_name}' успешно загружен из Яндекс.Облака: {yandex_cloud_full_path}")
    except Exception as e: # Любые ошибки при загрузке по URL (FileNotFoundError, ошибки сети и т.д.)
        print(f" Не удалось загрузить '{file_name}' из Яндекс.Облака ({yandex_cloud_full_path}). Ошибка: {e}")

        # --- Попытка 2: Если не удалось из Облака, пробуем загрузить локально из текущей папки ---
        local_path = file_name # Файл ищется прямо в той же директории, что и тетрадка/скрипт
        try:
            df_all = pd.read_csv(local_path)
            print(f" '{file_name}' успешно загружен ЛОКАЛЬНО из: {local_path}")
        except FileNotFoundError:
            print(f" '{file_name}' не найден в локальной папке.")
        except Exception as e_local:
            print(f" Произошла ошибка при локальной загрузке '{file_name}': {e_local}")

    # Сохраняем загруженный DataFrame (или None, если ни одна попытка не удалась)
    dataframes[df_name] = df_all

# Доступ к датафреймам по их именам используя .get() из словаря dataframes
final_tickets_orders_df = dataframes.get('final_tickets_orders_df')
final_tickets_events_df = dataframes.get('final_tickets_events_df')
final_tickets_tenge_df = dataframes.get('final_tickets_tenge_df')

In [None]:
final_tickets_orders_df.info()

In [None]:
final_tickets_orders_df.describe()

In [None]:
final_tickets_events_df.head()

In [None]:
final_tickets_events_df.info()

In [None]:
final_tickets_events_df.describe()

In [None]:
final_tickets_tenge_df.head()

In [None]:
final_tickets_tenge_df.info()

In [None]:
final_tickets_tenge_df.describe()

#### Промежуточный вывод:
- Данные представлены в полном объеме и соответствуют описанию. 
- Пропуски представлены только в столбце `days_since_prev` таблицы `final_tickets_orders_df`. Следует однако проверить остальные столбцы на предмет того, встречаются ли значения, которые могут обозначать пропуски в данных или отсутствие информации.
- Столбцы, содержащие информацию о дате и времени события (`created_dt_msk`, `created_ts_msk`, `data`) представлены в числовом формате. Необходимо провести коррекцию типа данных.
- Также необходимо будет проверить данные на наличие явных и неявных дубликатов и ошибок.

---
## Шаг 2. Предобработка данных и подготовка их к исследованию
Провести предобработку данных:
1. Объединить данные в один датафрейм, а затем провести общую предобработку:
2. Проверить данные на пропуски. 
3. Изучить значения в ключевых столбцах и при обнаружении ошибок обработать их:
- Для категориальных значений изучить, какие категории присутствуют в данных. Проверить, встречаются ли значения, которые могут обозначать пропуски в данных или отсутствие информации. Провести нормализацию данных, если это необходимо.
- Для количественных значений посмотреть на распределение и наличие выбросов. Для этого использовать статистические показатели, гистограммы распределения значений или диаграммы размаха. Для анализа данных важными показателями являются выручка с заказа `revenue` и количество билетов в заказе `tickets_count`, поэтому в первую очередь проверить данные в этих столбцах. Если найдутся выбросы в выручке с заказа `revenue`, то отобрать значения по 99-му процентилю. Разделить анализ на рубли и тенге.
4. Проверить явные и неявные дубликаты. Сделать акцент на неявных дубликатах по бронированию билета без учёта идентификаторов заказа и, если такие будут, принять обоснованное решение, как их стоит обработать.
5. Провести преобразование типов данных. Обратить внимание на типы данных с датой и временем, а также проверить возможность снижения размерности количественных данных.
6. Создать несколько новых столбцов:
- `revenue_rub` — привести выручку с заказа к единой валюте — российскому рублю, используя датасет с информацией о курсе казахстанского тенге по отношению к российскому рублю `final_tickets_tenge_df.csv` за 2024 год.
- `one_ticket_revenue_rub` — рассчитать выручку с продажи одного билета на мероприятие.
- `month` — выделить месяц оформления заказа в отдельный столбец.
- `season` — создать столбец с информацией о сезонности, включая такие категории, как: 'лето', 'осень', 'зима', 'весна'.
7. После предобработки проверить, сколько данных отобрали, если выполняли фильтрацию, а также дать промежуточный вывод с основными действиями и описанием новых столбцов.

In [None]:
# Объединим таблицы final_tickets_orders_df и final_tickets_events_df
# Использовать тип объединения Inner, так как согласно условиям 
# из таблицы final_tickets_events_df были исключены фильмы ввиду их малого количества. 
#  Разумно в таком случае анализировать только те события, о которых есть полная информация 

df = pd.merge(final_tickets_orders_df, final_tickets_events_df, on='event_id', how='inner')
df.info()

In [None]:
print(f"Размер final_tickets_orders_df: {final_tickets_orders_df.shape}")
print(f"Размер final_tickets_events_df: {final_tickets_events_df.shape}")
print(f"Размер объединенного df: {df.shape}")

Был получен объединенный датасет df, содержащий 22427 строк, то есть полную информацию из датасета final_tickets_events_df и соответствующую ей информацию из final_tickets_orders_df.

In [None]:
#  Проверим количество пропусков
df.isna().sum()

In [None]:
#  Проверим долю пропусков
df.isna().mean()

#### Вывод: 
Явные пропуски отсутствуют.

In [None]:
# Проанализируем какие категории присутствуют в данных и их распределение

# Список столбцов, которые нужно проанализировать
categorical_columns = [
    'cinema_circuit',
    'age_limit',
    'currency_code',
    'device_type_canonical',
    'service_name',
    'event_type_description',
    'event_type_main'
]

# Проходимся по каждому столбцу в списке
for col in categorical_columns:
    # Выводим уникальные значения
    unique_values = df[col].unique()
    print(f"\nУникальные значения:\n{unique_values}")

    # Выводим распределение данных (частоту встречаемости каждого значения)
    # `dropna=False` включает в подсчеты пропущенные значения (NaN), если они есть.
    value_percentages = df[col].value_counts(normalize=True, dropna=False) * 100
    print(f"\nРаспределение данных (проценты):\n{value_percentages.round(2)}%")


##### Вывод:
Значения, которые обозначают пропуски в данных или отсутствие информации, встречаются в столбцах: 
- `cinema_circuit`, обозначены как 'нет'. Под категорией 'Другое' подразумеваются данные, относящися к кинотетрам, не входящим в какую-либо сеть.
- `age_limit`, обозначены как 0, что говорит об отсутствии возрастных ограничений
- `event_type_main`, обозначены как 'другое'.

Нормализация данных не требуется.

In [None]:
# Для количественных значений посмотреть на распределение и наличие выбросов
# Разделим анализ на рубли и тенге

# Определение списка валют для анализа
currencies = df['currency_code'].unique()

# Цикл по каждой валюте для раздельного анализа
for currency in currencies:
    df_currency = df[df['currency_code'] == currency].copy()
    
    # Вывод описательной статистики для столбцов 'revenue' и 'tickets_count'
    print(f"\nОписательная статистика для revenue (валюта {currency}):")
    print(df_currency['revenue'].describe())

    print(f"\nОписательная статистика для tickets_count (валюта {currency}):")
    print(df_currency['tickets_count'].describe())
    
    # Диаграммы размаха для выявления выбросов
    plt.figure(figsize=(12, 6))
    
    plt.subplot(1, 2, 1) 
    sns.boxplot(y=df_currency['revenue']) 
    plt.title(f'Диаграмма размаха выручки (revenue) - {currency.upper()}')
    plt.ylabel('Выручка')

    plt.subplot(1, 2, 2)
    sns.boxplot(y=df_currency['tickets_count']) # Строим Box Plot для количества билетов
    plt.title(f'Диаграмма размаха количества билетов в заказе (tickets_count) - {currency.upper()}')
    plt.ylabel('Количество билетов')

    plt.tight_layout()
    plt.show()

##### Вывод:
- Данные о количестве билетов в заказе tickets_count показывают относительно небольшую вариативность (невысокое значение стандартного отклонения), но в рублевых заказах наблюдаются выбросы.
- В данных по выручке для обоих валют наблюдаются большая вариативность (высокое значение стандартного отклонения) и выбросы. Необходимо отобрать значения по 99-му процентилю.

In [None]:
df.info()

In [None]:
# Отбор значений по 99-му процентилю для 'revenue'

filtered_df_part = []

# Цикл по каждой валюте для раздельного анализа
for currency in currencies:
    df_currency = df[df['currency_code'] == currency].copy()

    # Вычисляем 99-й процентиль для выручки в текущей валюте
    revenue_99th_percentile = df_currency['revenue'].quantile(0.99)
    print(f"\nДля валюты {currency.upper()}:")
    print(f"99-й процентиль для выручки (revenue): {revenue_99th_percentile:.2f}")

    # Отбираем значения выручки ниже 99-го процентиля (данные без выбросов)
    outliers_current_currency = df_currency[df_currency['revenue'] < revenue_99th_percentile]

    print(f"Количество значений выручки ниже 99-го процентиля (данных без выбросов): {len(outliers_current_currency)}")
    print(f"Процент выбросов (от общего количества в валюте): { 100 - (len(outliers_current_currency) / len(df_currency) * 100):.2f}%")

    filtered_df_part.append(outliers_current_currency) # Добавляем отфильтрованную часть в список

# Объединяем все отфильтрованные части в один 
df_filtered = pd.concat(filtered_df_part)

In [None]:
print("Общее количество строк в очищенном датафрейме:", len(df_filtered))
print(f"Общий процент удаленных строк (выбросов): {100 - (len(df_filtered) / len(df) * 100):.2f}%")

In [None]:
# Проверим явные и неявные дубликаты

# Выведем список всех столбцов датафрейма
all_columns = df_filtered.columns.tolist()
print("Список всех столбцов:")
print(all_columns)

In [None]:
# Проверка на явные дубликаты по всем столбцам
duplicate_rows = df_filtered[df_filtered.duplicated()]
print(f"Найдено {len(duplicate_rows)} явных дубликатов.")

# Определяем подмножество столбцов, которое должно быть уникальным для одного бронирования без order_id
all_columns = df_filtered.columns.tolist()
element_to_exclude = 'order_id'
new_columns_list = [item for item in all_columns if item != element_to_exclude]

# Ищем дубликаты по этому подмножеству
duplicates = df_filtered[df_filtered.duplicated(subset=new_columns_list, keep=False)]
print(f"\nНайдено {len(duplicates)} строк, которые являются неявными дубликатами бронирования (без учета order_id).")
duplicates.head()

##### Вывод:
Поскольку найденные строки являются почти полными дубликатами, с высокой вероятностью можно сказать, что они возникли вследствие ошибок в работе сайта и их можно удалить без потери в качестве данных.

In [None]:
# Удалим неявные дубликаты
df_without_duplicates = df_filtered.drop_duplicates(subset=new_columns_list, keep='first').copy()
print(f"Количество строк до удаления: {len(df_filtered)}")
print(f"Количество строк после удаления: {len(df_without_duplicates)}")
print(f"Удалено строк: { len(df_filtered) - len(df_without_duplicates) }")
print(f"Общий процент удаленных строк: {100 - (len(df_without_duplicates) / len(df) * 100):.2f}%")

In [None]:
df_without_duplicates.info()

In [None]:
# Преобразуем столбцы (created_dt_msk, created_ts_msk) в формат даты и времени
date_time_columns = ['created_dt_msk', 'created_ts_msk']
df_without_duplicates[date_time_columns] = df_without_duplicates[date_time_columns].apply(pd.to_datetime, errors='coerce')
df_without_duplicates.info()

In [None]:
# Также преобразуем столбец data из таблицы final_tickets_tenge_df в формат даты и времени
final_tickets_tenge_df['data'] = pd.to_datetime(final_tickets_tenge_df['data'], errors='coerce')
final_tickets_tenge_df.info()

In [None]:
# Проверим возможность снижения размерности количественных данных
df_without_duplicates['order_id'] = df_without_duplicates['order_id'].astype('int32')
df_without_duplicates['event_id'] = df_without_duplicates['event_id'].astype('int32')
df_without_duplicates['age_limit'] = df_without_duplicates['age_limit'].astype('int8')
df_without_duplicates['tickets_count'] = df_without_duplicates['tickets_count'].astype('int8')
df_without_duplicates['city_id'] = df_without_duplicates['city_id'].astype('int32')
df_without_duplicates['venue_id'] = df_without_duplicates['venue_id'].astype('int16')

df['revenue'] = df['revenue'].astype('float32')
df['total'] = df['total'].astype('float32')
df['days_since_prev'] = df['days_since_prev'].astype('float32')

In [None]:
df_without_duplicates.info()

Создадим несколько новых столбцов согласно условиям задания.

In [None]:
# Присоединим таблицу с курсами обмена к основной
df_fin = pd.merge(df_without_duplicates, final_tickets_tenge_df,
                  left_on='created_dt_msk', right_on='data', how='left')

# Добавим столбец revenue_rub для привединия выручки с заказа к единой валюте — российскому рублю
df_fin['revenue_rub'] = np.where(
    df_fin['currency_code'] == 'rub',  # Условие: если currency_code равен 'rub'
    df_fin['revenue'],                 # Если True: revenue остается как есть
    (df_fin['revenue'] / 100) * df_fin['curs'] # Если False: (revenue / 100) * curs
)

# Добавим столбец one_ticket_revenue_rub для рассчета выручки с продажи одного билета на мероприятие
df_fin['one_ticket_revenue_rub'] = df_fin['revenue_rub'] / df_fin['tickets_count']

# Выделим месяц в новый столбец 'month'
df_fin['month'] = df_fin['created_dt_msk'].dt.month

# Определим соответствие месяцев сезонам
month_to_season_mapping = {
    1: 'зима',    # Январь
    2: 'зима',    # Февраль
    3: 'весна',   # Март
    4: 'весна',   # Апрель
    5: 'весна',   # Май
    6: 'лето',    # Июнь
    7: 'лето',    # Июль
    8: 'лето',    # Август
    9: 'осень',   # Сентябрь
    10: 'осень',  # Октябрь
    11: 'осень',  # Ноябрь
    12: 'зима'    # Декабрь
}

# Применим сопоставление к столбцу 'month' для создания столбца 'season'
df_fin['season'] = df_fin['month'].map(month_to_season_mapping)


df_fin.head()

In [None]:
print(f"Количество строк после предобработки: {len(df_fin)}")
print(f"Процент от исходного объема данных: {(len(df_fin) / len(df) * 100):.2f}%")

#### Промежуточный вывод

На этом этапе выполнены необходимые шаги по предобработке и подготовке данны для дальнейшего исследовательского анализа и проверке гипотез.

**Что было сделано:**

* **Обработка пропусков:** Проверили и обработали пропуски в данных. Основное внимание было уделено столбцу `days_since_prev`, где пропуски являются ожидаемым поведением для первой покупки пользователя.
* **Очистка и нормализация:** Изучили значения в ключевых категориальных столбцах (`device_type_canonical`, `currency_code`, `event_type_main` и др.), убедились в их корректности.
* **Работа с выбросами:** Для количественных показателей, таких как **выручка (`revenue`)** и **количество билетов (`tickets_count`)**, были выявлены и обработаны выбросы. В частности, значения выручки, выходящие за пределы **99-го процентиля**, были отфильтрованы, чтобы обеспечить более репрезентативный анализ средних значений. Анализ проводился отдельно для рублей и тенге до их конвертации.
* **Удаление дубликатов:** Проведена проверка на явные и неявные дубликаты. 
* **Преобразование типов данных:** Типы данных были оптимизированы. Столбцы с датой и временем (`created_dt_msk`, `created_ts_msk`) преобразованы в формат `datetime`, что позволяет удобно работать с временными рядами. Также была рассмотрена возможность снижения размерности других числовых столбцов для оптимизации памяти.
* **Создание новых признаков:** Для удобства анализа были добавлены следующие новые столбцы:
    * `revenue_rub`: Все значения выручки теперь приведены к **единой валюте – российскому рублю**, используя данные о курсе тенге.
    * `one_ticket_revenue_rub`: Рассчитана **выручка с продажи одного билета** на мероприятие, что позволит точнее оценивать ценообразование и доходность.
    * `month`: Извлечен **месяц оформления заказа**, что упростит анализ сезонности.
    * `season`: Создана категориальная переменная **'season'** (`лето`, `осень`, `зима`, `весна`) для более удобного анализа сезонных трендов.

**Результаты фильтрации:**

После этапов предобработки, включая удаление выбросов и дубликатов, в итоговом наборе данных осталось **287499** записей. Это составляет **98.93%** от исходного объема данных, что является приемлемым показателем для обеспечения качества анализа.

---
## Шаг 3. Исследовательский анализ данных
### 3.1. Анализ распределения заказов по сегментам и их сезонные изменения

In [None]:
# Для каждого месяца найдем количество заказов и визуализируем результаты
# Проверим, фиксируется ли увеличение заказов от июня к ноябрю 2024 года

# Группируем по месяцу и считаем количество уникальных заказов
orders_by_month = df_fin.groupby('month').agg(
    order_count=('order_id', 'nunique')
).reset_index()

# Создадим удобную метку для оси X (название месяца)
orders_by_month['month_name'] = orders_by_month['month'].apply(lambda x: pd.to_datetime(str(x), format='%m').strftime('%B'))

# Отсортируем по номеру месяца для корректной визуализации
orders_by_month.sort_values(by='month', inplace=True)

# Визуализация
plt.figure(figsize=(12, 6))
sns.lineplot(data=orders_by_month, x='month_name', y='order_count')
plt.title('Динамика количества заказов по месяцам')
plt.xlabel('Месяц')
plt.ylabel('Количество заказов')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
Наблюдается увеличение количества заказов от июня к ноябрю 2024 года.

In [None]:
# Для осеннего и летнего периодов сравним распределение заказов билетов по разным категориям

# Сравнение распределения заказов по типу мероприятия 

# Группируем, считаем уникальные заказы и рассчитываем доли
event_type_comparison = df_fin.groupby(['season', 'event_type_main']).agg(
    order_count=('order_id', 'nunique')
).reset_index()

# Рассчитываем долю каждого типа мероприятия внутри сезона
event_type_comparison['proportion'] = event_type_comparison.groupby('season')['order_count'].transform(lambda x: x / x.sum())

# Сортировка для лучшей визуализации
event_type_comparison.sort_values(by=['season', 'proportion'], ascending=[True, False], inplace=True)

plt.figure(figsize=(14, 7))
sns.barplot(
    data=event_type_comparison,
    x='event_type_main',
    y='proportion',
    hue='season'
)
plt.title('Распределение заказов по типу мероприятия: лето и осень (доли)')
plt.xlabel('Тип мероприятия')
plt.ylabel('Доля заказов')
plt.legend(title='Сезон')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
Осенью наблюдалось увеличение доли заказов в категориях театр, спорт и елки, доля всех остальных категориях мероприятий осенью снижалась.

In [None]:
# Сравнение распределения заказов по типу мероприятия 

# Группируем, считаем уникальные заказы и рассчитываем доли
device_type_comparison = df_fin.groupby(['season', 'device_type_canonical']).agg(
    order_count=('order_id', 'nunique')
).reset_index()

# Рассчитываем долю каждого типа мероприятия внутри сезона
device_type_comparison['proportion'] = device_type_comparison.groupby('season')['order_count'].transform(lambda x: x / x.sum())

# Сортировка для лучшей визуализации
device_type_comparison.sort_values(by=['season', 'proportion'], ascending=[True, False], inplace=True)

plt.figure(figsize=(12, 6))
sns.barplot(
    data=device_type_comparison,
    x='season',
    y='proportion',
    hue='device_type_canonical'
)
plt.title('Распределение заказов по типу устройства: лето и осень (доли)')
plt.xlabel('Сезон')
plt.ylabel('Доля заказов')
plt.legend(title='Устройство')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
Распределение доли заказов в зависимости от типа устройства было практически неизменно в летний и осенний период.

In [None]:
# Сравнение распределения заказов по возрастному рейтингу

# Группируем, считаем уникальные заказы и рассчитываем доли
age_type_comparison = df_fin.groupby(['season', 'age_limit']).agg(
    order_count=('order_id', 'nunique')
).reset_index()

# Рассчитываем долю каждого типа мероприятия внутри сезона
age_type_comparison['proportion'] = age_type_comparison.groupby('season')['order_count'].transform(lambda x: x / x.sum())

# Сортировка для лучшей визуализации
age_type_comparison.sort_values(by=['season', 'proportion'], ascending=[True, False], inplace=True)

plt.figure(figsize=(14, 7))
sns.barplot(
    data=age_type_comparison,
    x='season',
    y='proportion',
    hue='age_limit'
)
plt.title('Распределение заказов по возрастному рейтингу: лето и осень (доли)')
plt.xlabel('Сезон')
plt.ylabel('Доля заказов')
plt.legend(title='Возрастной рейтинг')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
В осенний период увеличилась доля мероприятий без возрастных ограничений и 12+. Для всех остальных мероприятий (6+, 16+ и 18+) доля снижалась в осенний период.

In [None]:
# Изучим изменение выручки с продажи одного билета в зависимости от типа мероприятия летом и осенью

# Найдем среднее значение выручки с одного билета для каждого типа мероприятия в каждом сезоне
avg_revenue_per_ticket = df_fin.groupby(['season', 'event_type_main']).agg(
    avg_price=('one_ticket_revenue_rub', 'mean')
).reset_index()

# Для удобства сравнения, преобразуем в сводную таблицу
pivot_avg_price = avg_revenue_per_ticket.pivot_table(
    index='event_type_main',
    columns='season',
    values='avg_price'
)

# Рассчитаем относительное изменение осенних значений по сравнению с летними
summer_prices = pivot_avg_price['лето']
autumn_prices = pivot_avg_price['осень']

relative_change = ((autumn_prices - summer_prices) / summer_prices) * 100

print("\nСредняя выручка с одного билета по типу мероприятия и сезону")
print(pivot_avg_price.round(2))

print("\nОтносительное изменение средней выручки с одного билета в % (осень по сравнению с летом)")
print(relative_change.round(2))

# Визуализация: Сравнение средней стоимости билета по сезонам
plt.figure(figsize=(14, 7))
sns.barplot(
    data=avg_revenue_per_ticket,
    x='event_type_main',
    y='avg_price',
    hue='season',
)
plt.title('Средняя выручка с одного билета по типу мероприятия: лето vs осень')
plt.xlabel('Тип мероприятия')
plt.ylabel('Средняя выручка с одного билета')
plt.legend(title='Сезон')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
В осенний период средняя стоимость одного билета снизилась в следующих категориях мепроприятий: концерты, театр и елки. В остальных же категориях цена либо оставалась практически неизменной, либо немного повышалась для категории стендап.

#### Промежуточный вывод: 
Наблюдается явная сезонность в представленных данных. В осенний период:
- увеличилось общее количество заказов, доля заказов в категориях театр, спорт и елки, доля мероприятий без возрастных ограничений и мероприятий 12+
- снизилась средняя стоимость одного билета в категориях мепроприятий концерты, театр и елки (для остальных категорий почти во всех случаях цена изменилась несущественно)

### 3.2. Осенняя активность пользователей

Изучим активность пользователей осенью 2024 года. Проанализируем динамику изменений по дням для:
- общего числа заказов;
- количества активных пользователей DAU;
- среднего числа заказов на одного пользователя;
- средней стоимости одного билета.

In [None]:
# Отфильтруем данные для осени 2024 года
autumn_2024_df = df_fin[(df_fin['season'] == 'осень')].copy()

# Создадим сводную таблицу по дням
daily_activity = autumn_2024_df.groupby('created_dt_msk').agg(
    total_orders=('order_id', 'nunique'), # Общее число уникальных заказов
    dau=('user_id', 'nunique'),          # Количество уникальных пользователей (DAU)
    total_revenue=('revenue_rub', 'sum'), # Суммарная выручка для расчета средней стоимости билета
    total_tickets_count=('tickets_count', 'sum') # Суммарное количество билетов для расчета средней стоимости билета
).reset_index()

# Рассчитаем среднее число заказов на одного пользователя (APPO - Average Orders Per Person)
daily_activity['orders_per_user'] = daily_activity['total_orders'] / daily_activity['dau']
# Рассчитаем среднюю стоимость одного билета
daily_activity['avg_ticket_price'] = daily_activity['total_revenue'] / daily_activity['total_tickets_count']

# Добавим день недели для дальнейшего анализа цикличности
daily_activity['day_of_week'] = pd.to_datetime(daily_activity['created_dt_msk']).dt.day_name()

# Сортируем для корректного отображения
daily_activity = daily_activity.sort_values(by='created_dt_msk')

daily_activity.head()

In [None]:
# Визуализация динамики по дням

# График 1: Динамика общего числа заказов
plt.figure(figsize=(16, 5))
sns.lineplot(x='created_dt_msk', y='total_orders', data=daily_activity)
plt.title('Общее число заказов по дням', fontsize=14)
plt.xlabel('Дата покупки')
plt.ylabel('Число заказов')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

# График 2: Динамика DAU
plt.figure(figsize=(16, 5))
sns.lineplot(x='created_dt_msk', y='dau', data=daily_activity)
plt.title('Количество активных пользователей (DAU) по дням', fontsize=14)
plt.xlabel('Дата покупки')
plt.ylabel('DAU')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

# График 3: Динамика среднего числа заказов на одного пользователя
plt.figure(figsize=(16, 5))
sns.lineplot(x='created_dt_msk', y='orders_per_user', data=daily_activity)
plt.title('Среднее число заказов на одного пользователя по дням', fontsize=14)
plt.xlabel('Дата покупки')
plt.ylabel('Заказов на пользователя')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

# График 4: Динамика средней стоимости одного билета
plt.figure(figsize=(16, 5))
sns.lineplot(x='created_dt_msk', y='avg_ticket_price', data=daily_activity)
plt.title('Средняя стоимость одного билета по дням', fontsize=14)
plt.xlabel('Дата покупки')
plt.ylabel('Стоимость билета')
plt.grid(True, linestyle='--', alpha=0.6)
plt.show()

##### Вывод: 
Осенью 2024 года наблюдается положительная динамика: общее число заказов и количество активных пользователей постепенно увеличиваются. Среднее число заказов на одного пользователя остаётся стабильным, с пиками в отдельные дни. Средняя стоимость билета колеблется, но не демонстрирует чёткой тенденции.

In [None]:
# Изучим изменения в недельной цикличности

# Определим будни и выходные
weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
daily_activity['day_type'] = daily_activity['day_of_week'].apply(lambda x: 'Выходные' if x in ['Saturday', 'Sunday'] else 'Будни')

# Агрегируем по дням недели и типу дня
weekly_cyclicity = daily_activity.groupby('day_of_week').agg(
    avg_total_orders=('total_orders', 'mean'),
    avg_dau=('dau', 'mean'),
    avg_orders_per_user=('orders_per_user', 'mean'),
    avg_ticket_price=('avg_ticket_price', 'mean')
).reindex(weekday_order) # Переупорядочиваем дни недели

print("\nНедельная цикличность активности (средние значения по дням недели)")
print(weekly_cyclicity.round(2))

# Сравнение будней и выходных
weekday_weekend_comparison = daily_activity.groupby('day_type').agg(
    avg_total_orders=('total_orders', 'mean'),
    avg_dau=('dau', 'mean'),
    avg_orders_per_user=('orders_per_user', 'mean'),
    avg_ticket_price=('avg_ticket_price', 'mean')
)
print("\nСравнение активности в будни и выходные")
print(weekday_weekend_comparison.round(2))

In [None]:
# График 1: Среднее число заказов по дням недели
plt.figure(figsize=(10, 6))
sns.barplot(x=weekly_cyclicity.index, y='avg_total_orders', data=weekly_cyclicity)
plt.title('Среднее число заказов по дням недели', fontsize=14)
plt.xlabel('День недели')
plt.ylabel('Среднее число заказов')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

# График 2: Средний DAU по дням недели
plt.figure(figsize=(10, 6))
sns.barplot(x=weekly_cyclicity.index, y='avg_dau', data=weekly_cyclicity)
plt.title('Средний DAU по дням недели', fontsize=14)
plt.xlabel('День недели')
plt.ylabel('Средний DAU')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

# График 3: Среднее число заказов на пользователя по дням недели
plt.figure(figsize=(10, 6))
sns.barplot(x=weekly_cyclicity.index, y='avg_orders_per_user', data=weekly_cyclicity)
plt.title('Среднее число заказов на пользователя по дням недели', fontsize=14)
plt.xlabel('День недели')
plt.ylabel('Среднее заказов на пользователя')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()

# График 4: Средняя стоимость одного билета по дням недели
plt.figure(figsize=(10, 6))
sns.barplot(x=weekly_cyclicity.index, y='avg_ticket_price', data=weekly_cyclicity)
plt.title('Средняя стоимость одного билета по дням недели', fontsize=14)
plt.xlabel('День недели')
plt.ylabel('Средняя стоимость билета')
plt.grid(axis='y', linestyle='--', alpha=0.6)
plt.show()


##### Вывод: 
- В линейных графиках по дням наблюдается тренд на возрастание количества активных пользователей в день (DAU) и небольшое увеличение общего число заказов под дням. Для остальных метрик (среднее число заказов на пользователя и стоимость одного билета) наблюдаются сильные пики и спады, но в среднем метрики стабильна на протяжении наблюдаемого осеннего периода.
- В недельной активности заметно, что среднее число заказов и число заказов на пользователя максимально по вторникам, однако в этот день также минимальна и стоимость одного билета. В остальном не наблюдается сильных изменений метрик в зависимости от дня недели.
- Можно выделить явный рабочий ритм, где понедельник–пятница — это дни наибольшей активности, а выходные (суббота и особенно воскресенье) характеризуются спадом активности. Повышенная активность во вторник может быть связана с отложенными заказами после выходных или с внутренними привычками пользователей (например, планирование недели или закупки)

###  3.3. Популярные события и партнёры

- Рассмотрим как события распределены по регионам и партнёрам. Это позволит выделить ключевые регионы и партнёров, которые вносят наибольший вклад в выручку.
- Для каждого билетного партнёра посчитаем общее число уникальных мероприятий, обработанных заказов и суммарную выручку с заказов билетов. Сделаем акцент на наиболее активных партнёрах.

In [None]:
# Для каждого региона посчитаем уникальное количество мероприятий и общее число заказов
region_activity = autumn_2024_df.groupby('region_name').agg(
    unique_events=('event_id', 'nunique'),
    total_orders=('order_id', 'nunique')
).reset_index()

total_unique_events = region_activity['unique_events'].sum()
total_orders_global = region_activity['total_orders'].sum()

region_activity['event_share'] = region_activity['unique_events'] / total_unique_events
region_activity['order_share'] = region_activity['total_orders'] / total_orders_global

region_activity = region_activity.sort_values(by='total_orders', ascending=False) 

region_activity.round(2)

In [None]:
# Рассмотрим ТОП-10 регионов по количеству уникальных мероприятий
top10_regions_events = region_activity.sort_values(by='unique_events', ascending=False).head(10)

# Визуализация распределения мероприятий по регионам
plt.figure(figsize=(12, 7)) 
sns.barplot(x='region_name', y='unique_events', data=top10_regions_events)
plt.title('Количество уникальных мероприятий по ТОП-10 регионам (осень 2024)', fontsize=16)
plt.xlabel('Регион', fontsize=12)
plt.ylabel('Количество уникальных мероприятий', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Рассмотрим ТОП-10 регионов по доле заказов
top10_regions_orders = region_activity.sort_values(by='order_share', ascending=False).head(10)

# Визуализация доли заказов по регионам
plt.figure(figsize=(12, 7)) 
sns.barplot(x='region_name', y='order_share', data=top10_regions_orders)
plt.title('ТОП-10 регионов по доле заказов (осень 2024)', fontsize=16)
plt.xlabel('Регион', fontsize=12)
plt.ylabel('Доля заказов', fontsize=12)
plt.xticks(rotation=45, ha='right', fontsize=10)
plt.yticks(fontsize=10)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout() 
plt.show()

##### Вывод:
Наибольшее количество уникальных мероприятий (как в абсолютных значениях, так и в относительных) приходится на Каменевский район и Североярскую область.

In [None]:
# Анализ по билетным партнёрам
partner_activity = autumn_2024_df.groupby('service_name').agg(
    unique_events=('event_id', 'nunique'),
    processed_orders=('order_id', 'nunique'),
    total_revenue=('revenue_rub', 'sum')
).reset_index()

total_partner_events = partner_activity['unique_events'].sum()
total_processed_orders = partner_activity['processed_orders'].sum()
total_partner_revenue = partner_activity['total_revenue'].sum()

partner_activity['event_share'] = partner_activity['unique_events'] / total_partner_events
partner_activity['order_share'] = partner_activity['processed_orders'] / total_processed_orders
partner_activity['revenue_share'] = partner_activity['total_revenue'] / total_partner_revenue

partner_activity = partner_activity.sort_values(by='unique_events', ascending=False)

partner_activity.round(2)

In [None]:
# Отсортируем диаграмму по убыванию доли выручки
partner_activity_revenue_share = partner_activity.sort_values(by='revenue_share', ascending=False)

# Визуализация доли выручки по партнёрам
plt.figure(figsize=(10, 6))
sns.barplot(x='service_name', y='revenue_share', data=partner_activity_revenue_share)
plt.title('Доля суммарной выручки по билетным партнёрам (осень 2024)')
plt.xlabel('Партнёр')
plt.ylabel('Доля выручки')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Отсортируем диаграмму по убыванию доли обработанных заказов
partner_activity_order_share = partner_activity.sort_values(by='order_share', ascending=False)

# Визуализация доли обработанных заказов по партнёрам
plt.figure(figsize=(10, 6))
sns.barplot(x='service_name', y='order_share', data=partner_activity_order_share)
plt.title('Доля обработанных заказов по билетным партнёрам (осень 2024)')
plt.xlabel('Партнёр')
plt.ylabel('Доля заказов')
plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

#### Вывод
- Парнеры "Лови билет!" и "Билеты без проблем" являтся абсолютными лидерами как по числу уникальных мероприятий, так и по доле от суммарной выручки и доле обработанных заказов.
- Также доля от суммарной выручки высока у партнеров "Облачко", "Мой билет" и "Весь в билетах", хотя количество мероприятий и доля обработанных заказов у них несколько ниже, чем у самых топовых партнеров.

---
## Шаг 4. Статистический анализ данных

Используя данные за осенний период, проверим две гипотезы, предложеннные коллегами из продуктового отдела, которые предполагают большую активность пользователей мобильных устройств (по сравнению с пользователями стационарных устройств):

1) Среднее количество заказов на одного пользователя мобильного приложения выше по сравнению с пользователями стационарных устройств.

2) Среднее время между заказами пользователей мобильных приложений выше по сравнению с пользователями стационарных устройств.

In [None]:
# Разделение данных по типу устройства
mobile_df = autumn_2024_df[autumn_2024_df['device_type_canonical'] == 'mobile'].copy()
desktop_df = autumn_2024_df[autumn_2024_df['device_type_canonical'] == 'desktop'].copy()

print(f"Количество записей для мобильных устройств: {len(mobile_df)}")
print(f"Количество записей для стационарных устройств: {len(desktop_df)}")

# Проверка на пересекающихся user_id
mobile_users = set(mobile_df['user_id'].unique())
desktop_users = set(desktop_df['user_id'].unique())

common_users = mobile_users.intersection(desktop_users)

if common_users:
    print(f"ВНИМАНИЕ! Обнаружено {len(common_users)} пользователей, которые совершали заказы как с мобильного, так и с десктопного устройств в осенний период.")
    # Удаляем этих пользователей из обеих групп
    mobile_df_new = mobile_df[~mobile_df['user_id'].isin(common_users)].copy()
    desktop_df_new = desktop_df[~desktop_df['user_id'].isin(common_users)].copy()
    print(f"Количество записей для мобильных устройств (после удаления пересекающихся): {len(mobile_df_new)}")
    print(f"Процент удаленных записей для мобильных устройств : {(len(mobile_df) - len(mobile_df_new)) * 100 / len(mobile_df):.2f}")
    print(f"Количество записей для стационарных устройств (после удаления пересекающихся): {len(desktop_df_new)}")
    print(f"Процент удаленных записей для стационарных устройств: {(len(desktop_df) - len(desktop_df_new)) * 100 / len(desktop_df):.2f}")
else:
    print("\nПроверка пройдена: Пересекающиеся пользователи в группах не обнаружены. Фильтрация не требуется.")

В результате было удалено достаточно большое количество записей (больше 76% строк для мобильных устройств и больше 90% строк для стационарных устройств). 

К сожалению, без этого этапа невозможно получить независимые выборки, что является критичным критерием для большинства статистических тестов.

Если бы гипотеза формулировалась как "во время сессий с различных устройств среднее количество заказов/время заказов отличалось...", можно было бы сохранить эти записи, но поскольку мы анализируем пользователей, независимость выборок в данном случае критичный фактор.

In [None]:
# Метрика 1: Количество заказов на пользователя
# Группируем по user_id и считаем количество уникальных order_id для каждого пользователя
orders_per_user_mobile = mobile_df_new.groupby('user_id')['order_id'].nunique()
orders_per_user_desktop = desktop_df_new.groupby('user_id')['order_id'].nunique()

print(f"Среднее количество заказов на пользователя (Мобильное): {orders_per_user_mobile.mean():.2f}")
print(f"Среднее количество заказов на пользователя (Десктоп): {orders_per_user_desktop.mean():.2f}")

# Метрика 2: Время между заказами
time_diffs_mobile = mobile_df_new['days_since_prev'].dropna()
time_diffs_desktop = desktop_df_new['days_since_prev'].dropna()

print(f"\nСреднее время между заказами (Мобильное): {time_diffs_mobile.mean():.2f} дней")
print(f"Среднее время между заказами (Десктоп): {time_diffs_desktop.mean():.2f} дней")

print(f"\nРазмер выборки 'Заказы_Мобильные' (пользователи): {len(orders_per_user_mobile)}")
print(f"Размер выборки 'Заказы_Десктоп' (пользователи): {len(orders_per_user_desktop)}")
print(f"Размер выборки 'Время_между_заказами_Мобильные': {len(time_diffs_mobile)}")
print(f"Размер выборки 'Время_между_заказами_Десктоп': {len(time_diffs_desktop)}")

<b> Обоснование выбора статистического теста: </b>

In [None]:
# Распределение заказов на пользователя
# Гистограмма: Количество заказов на пользователя (Мобильные vs. Десктоп)
plt.figure(figsize=(8, 6))
sns.histplot(orders_per_user_mobile, kde=True, label='Мобильные', bins=40)
sns.histplot(orders_per_user_desktop, kde=True, label='Десктоп', bins=40)
plt.title('Распределение количества заказов на пользователя')
plt.xlabel('Количество заказов')
plt.ylabel('Частота')
plt.legend()
plt.tight_layout()
plt.show()

# Boxplot: Количество заказов на пользователя (Мобильные vs. Десктоп)
plt.figure(figsize=(8, 6))
temp_orders_df = pd.DataFrame({
    'orders_count': pd.concat([orders_per_user_mobile, orders_per_user_desktop]),
    'device_type': ['mobile'] * len(orders_per_user_mobile) + ['desktop'] * len(orders_per_user_desktop)
})
sns.boxplot(x='device_type', y='orders_count', data=temp_orders_df)
plt.title('Boxplot количества заказов на пользователя')
plt.xlabel('Тип устройства')
plt.ylabel('Количество заказов')
plt.tight_layout()
plt.show()

# Q-Q график: Заказы на пользователя (Мобильные)
plt.figure(figsize=(6, 6))
stats.probplot(orders_per_user_mobile, dist="norm", plot=plt)
plt.title('Q-Q Plot: Заказы на пользователя (Мобильные)')
plt.tight_layout()
plt.show()

# Q-Q график: Заказы на пользователя (Десктоп)
plt.figure(figsize=(6, 6))
stats.probplot(orders_per_user_desktop, dist="norm", plot=plt)
plt.title('Q-Q Plot: Заказы на пользователя (Десктоп)')
plt.tight_layout()
plt.show()

In [None]:
# Распределение времени между заказами
# Гистограмма: Время между заказами (Мобильные vs. Десктоп, все записи)
plt.figure(figsize=(8, 6))
sns.histplot(time_diffs_mobile, kde=True,  label='Мобильные', bins=20)
sns.histplot(time_diffs_desktop, kde=True,  label='Десктоп', bins=20)
plt.title('Распределение времени между заказами (Дни, все записи)')
plt.xlabel('Время между заказами (Дни)')
plt.ylabel('Частота')
plt.legend()
plt.tight_layout()
plt.show()

# Boxplot: Время между заказами (Мобильные vs. Десктоп, все записи) 
plt.figure(figsize=(8, 6))
temp_time_df = pd.DataFrame({
    'time_diff': pd.concat([time_diffs_mobile, time_diffs_desktop]),
    'device_type': ['mobile'] * len(time_diffs_mobile) + ['desktop'] * len(time_diffs_desktop)
})
sns.boxplot(x='device_type', y='time_diff', data=temp_time_df)
plt.title('Boxplot времени между заказами (Дни, все записи)')
plt.xlabel('Тип устройства')
plt.ylabel('Время между заказами (Дни)')
plt.tight_layout()
plt.show()

# Q-Q график: Время между заказами (Мобильные, все записи)
plt.figure(figsize=(6, 6))
stats.probplot(time_diffs_mobile, dist="norm", plot=plt)
plt.title('Q-Q Plot: Время между заказами (Мобильные, все записи)')
plt.tight_layout()
plt.show()

# Q-Q график: Время между заказами (Десктоп, все записи) 
plt.figure(figsize=(6, 6))
stats.probplot(time_diffs_desktop, dist="norm", plot=plt)
plt.title('Q-Q Plot: Время между заказами (Десктоп, все записи)')
plt.tight_layout()
plt.show()

In [None]:
# Проведем тесты на нормальность (Шапиро-Уилка) 

alpha = 0.05 # Уровень значимости

# Для количества заказов на пользователя
shapiro_mobile_orders = stats.shapiro(orders_per_user_mobile)
shapiro_desktop_orders = stats.shapiro(orders_per_user_desktop)

# Для времени между заказами 
shapiro_mobile_time = stats.shapiro(time_diffs_mobile)
shapiro_desktop_time = stats.shapiro(time_diffs_desktop)

print(f"Шапиро-Уилка для 'Заказы на пользователя (Мобильные)': p-value = {shapiro_mobile_orders.pvalue:.4f}")
if shapiro_mobile_orders.pvalue < alpha:
    print("Распределение не нормальное (отклоняем H0)")
else:
    print("Распределение нормальное (не отклоняем H0)")

print(f"Шапиро-Уилка для 'Заказы на пользователя (Десктоп)': p-value = {shapiro_desktop_orders.pvalue:.4f}")
if shapiro_desktop_orders.pvalue < alpha:
    print("Распределение не нормальное (отклоняем H0)")
else:
    print("Распределение нормальное (не отклоняем H0)")

print(f"Шапиро-Уилка для 'Время между заказами (Мобильные, все записи)': p-value = {shapiro_mobile_time.pvalue:.4f}")
if shapiro_mobile_time.pvalue < alpha:
    print("Распределение не нормальное (отклоняем H0)")
else:
    print("Распределение нормальное (не отклоняем H0)")

print(f"Шапиро-Уилка для 'Время между заказами (Десктоп, все записи)': p-value = {shapiro_desktop_time.pvalue:.4f}")
if shapiro_desktop_time.pvalue < alpha:
    print("Распределение не нормальное (отклоняем H0)")
else:
    print("Распределение нормальное (не отклоняем H0)")

In [None]:
# Тест Левена на равенство дисперсий

# Для количества заказов на пользователя
levene_orders = stats.levene(orders_per_user_mobile, orders_per_user_desktop)

# Для времени между заказами (все записи)
levene_time_diff = stats.levene(time_diffs_mobile, time_diffs_desktop)

print(f"Тест Левена для 'Количество заказов на пользователя': p-value = {levene_orders.pvalue:.4f}")
if levene_orders.pvalue < alpha:
    print("Дисперсии НЕ равны (отклоняем H0: равные дисперсии)")
    equal_var_orders = False
else:
    print("Дисперсии равны (не отклоняем H0: равные дисперсии)")
    equal_var_orders = True

print(f"Тест Левена для 'Время между заказами (все записи)': p-value = {levene_time_diff.pvalue:.4f}")
if levene_time_diff.pvalue < alpha:
    print("Дисперсии НЕ равны (отклоняем H0)")
    equal_var_time_diff = False
else:
    print("Дисперсии равны (не отклоняем H0)")
    equal_var_time_diff = True

##### Вывод:

По гистограммам, Boxplot и Q-Q графикам видно, что распределение обеих метрик сильно отличаются от нормального. Данный вывод подтверждается тестами Шапиро-Уилка.

Для анализа требуется использование U-критерия Манна-Уитни (Mann-Whitney U-test), поскольку:
- Данные не распределены нормально
- Дисперсии отличаются

<b>Гипотеза 1: </b> 
- H0: Среднее количество заказов на одного пользователя не отличается для пользователей мобильного приложения и  стационарных устройств.
- H1: Среднее количество заказов на одного пользователя мобильного приложения выше по сравнению со стационарными устройствами.

In [None]:
# Метрика 1: Количество заказов на пользователя
orders_per_user_mobile = mobile_df_new.groupby('user_id')['order_id'].nunique()
orders_per_user_desktop = desktop_df_new.groupby('user_id')['order_id'].nunique()

# Проведение U-критерия Манна-Уитни 
stat_mannwhitney_1, p_value_mannwhitney_1 = stats.mannwhitneyu(
    orders_per_user_mobile,
    orders_per_user_desktop,
    alternative='greater'
)
print(f"\nU-критерий Манна-Уитни для Гипотезы 1 (количество заказов): Статистика={stat_mannwhitney_1:.2f}, p-value={p_value_mannwhitney_1:.3f}")

alpha = 0.05 # Уровень значимости

if p_value_mannwhitney_1 < alpha:
    print(f"Поскольку p-value ({p_value_mannwhitney_1:.3f}) < alpha ({alpha}), мы отвергаем нулевую гипотезу.")
    print("Это означает, что есть статистически значимые доказательства того, что количество заказов на пользователя мобильного приложения выше, чем у пользователей стационарных устройств.")
else:
    print(f"Поскольку p-value ({p_value_mannwhitney_1:.3f}) >= alpha ({alpha}), у нас недостаточно оснований отвергнуть нулевую гипотезу.")
    print("Это означает, что нет статистически значимых доказательств того, что количество заказов на пользователя мобильного приложения выше, чем у пользователей стационарных устройств.")

<b>Гипотеза 2:</b> 
- Н0: Среднее время между заказами не отличается для пользователей мобильных приложений и стационарных устройств
- Н1: Среднее время между заказами пользователей мобильных приложений выше по сравнению со стационарными устройствами

In [None]:
# Гипотеза 2: Среднее время между заказами (по 'days_since_prev')

# Удалим пропуски в 'days_since_prev', т.к. для первой покупки у пользователя не будет предыдущей
time_diffs_mobile = mobile_df_new['days_since_prev'].dropna()
time_diffs_desktop = desktop_df_new['days_since_prev'].dropna()

# Проведение U-критерия Манна-Уитни 
stat_mannwhitney_2, p_value_mannwhitney_2 = stats.mannwhitneyu(
    time_diffs_mobile,
    time_diffs_desktop,
    alternative='greater'
)
print(f"\nU-критерий Манна-Уитни для Гипотезы 2 (время между заказами): Статистика={stat_mannwhitney_2:.2f}, p-value={p_value_mannwhitney_2:.3f}")

alpha = 0.05 # Уровень значимости

if p_value_mannwhitney_2 < alpha:
    print(f"Поскольку p-value ({p_value_mannwhitney_2:.3f}) < alpha ({alpha}), мы отвергаем нулевую гипотезу.")
    print("Это означает, что есть статистически значимые доказательства того, что время между заказами пользователей мобильных приложений выше, чем у пользователей стационарных устройств.")
else:
    print(f"Поскольку p-value ({p_value_mannwhitney_2:.3f}) >= alpha ({alpha}), у нас недостаточно оснований отвергнуть нулевую гипотезу.")
    print("Это означает, что нет статистически значимых доказательств того, что время между заказами пользователей мобильных приложений выше, чем у пользователей стационарных устройств.")

#### Вывод
По результатов проведения статистического анализа
- Подтвердилась гипотеза 1. Среднее количество заказов на одного пользователя мобильного приложения выше, чем у пользователей стационарных устройств, и это различие статистически значимо.
- Подтвердилась гипотеза 2. Среднее времени между заказами у пользователей мобильных приложений выше, чем у пользователей стационарных устройств, и это различие статистически значимо.

##  Шаг 5. Общий вывод и рекомендации


### Информация о данных

Мы работали с 290849 записями о заказах билетов и 22427 записями о мероприятиях за период с 1 июня по 30 октября 2024 года. Данные были успешно предобработаны: устранены пропуски и выбросы, унифицирована валюта заказов к рублям, добавлены агрегированные признаки, такие как выручка с одного билета, месяц и сезонность. После предобработки в анализе участвовало 287499 записей.

### Основные результаты анализа

* **Сезонность и популярность мероприятий:**
    * С наступлением осени (сентябрь-октябрь) наблюдался рост общего числа заказов, что подтверждает сезонный фактор.
    * Наиболее востребованными типами мероприятий были концерты, театры и другое. Осенью однако доля мероприятий театр, спорт и елки увеличилась по сравнению с летним периодом.
    * Средняя стоимость одного билета в среднем снижалась осенью. В разрезе разных категорий мероприятий, динамика была следующей: в категориях мепроприятий концерты, театр и елки средняя цена снижалась, для остальных категорий цена изменялась несущественно, кроме стендапа, где цена несколько выросла.
    * По возрастным ограничениям, наибольшей популярностью пользуются мероприятия с рейтингом 16+, хотя их доля и снизилась в осенний период, а доля мероприятий без возрастных ограничений, наоборот, повышалась.

* **Пользовательская активность:**
    * Анализ ежедневной активности показал рост количества уникальных пользователей (DAU) и небольшой рост количества заказов. По всем наблюдаемым метрикам заметно наличие пиков и спадов.
    * Выявлена недельная цикличность: среднее число заказов и число заказов на пользователя максимально по вторникам, однако в этот день также минимальна и стоимость одного билета. 
    * Не наблюдается четкой цикличности по остальным ключевым метрикам (количество заказов, DAU, заказов на пользователя, средний чек) по дням недели. 
    * Наблюдается некоторое снижение активности в выходные по сравнению с буднями. В будни среднее число заказов - 2905, количество уникальных пользователей 937, средняя цена билета 178. В выходные среднее число заказов - 2395, количество уникальных пользователей 887, средняя цена билета 193.
    
* **Лидеры среди регионов и партнёров:**
    * Явными лидерами по разнообразию мероприятий и числу заказов являются регионы Каменевский район и Североярскую область, которые приносят 40% от общего числа заказов.
    * Среди билетных партнеров наибольший вклад в выручку и количество обработанных заказов внесли "Лови билет!" и "Билеты без проблем". Эти партнеры обработали 34% всех заказов и принесли 28% выручки.

###  Результаты проверки гипотез

Проверили две гипотезы относительно активности пользователей мобильных и стационарных устройств на основе данных за осенний период, исключив пользователей, совершавших заказы с обоих типов устройств для обеспечения независимости выборок.

1.  **Гипотеза 1: Среднее количество заказов на одного пользователя мобильного приложения выше по сравнению с пользователями стационарных устройств.**
    * **P-value: 0.000.
    * На уровне значимости $\alpha = 0.05$: ОТВЕРГАЕМ нулевую гипотезу.
    * **Вывод:** ЕСТЬ статистически значимых доказательств того, что среднее количество заказов на одного пользователя **мобильного приложения выше**, чем у пользователей стационарных устройств. Среднее количество заказов составило 2.86 для мобильных и 1.97 для десктопных.


2.  **Гипотеза 2: Среднее время между заказами пользователей мобильных приложений выше по сравнению с пользователями стационарных устройств.**
    * **P-value: 0.000.
    * На уровне значимости $\alpha = 0.05$: ОТВЕРГАЕМ нулевую гипотезу.
    * **Вывод:** ЕСТЬ статистически значимых доказательств того, что среднее время между заказами у пользователей **мобильных приложений выше**, чем у пользователей стационарных устройств. Среднее время между заказами составило 13.79 дней для мобильных и 18.07 дней для десктопных.

###  Рекомендации

На основе проведенного анализа, предлагаем следующие рекомендации для продуктовой команды:

1.  **Использовать сезонность** для оптимизации маркетинговых кампаний. Учитывая рост заказов осенью, можно усилить рекламные активности в этот период, делая акцент на мероприятия театр, спорт и елки, которые показали наибольший рост.
2.  **Оптимизировать опыт для ДЕСКТОПНЫХ пользователей.** Посколько гипотеза 1 показала различия в поведении (количестве заказов на одного пользователя), лучше сосредоточиться на улучшении воронки конверсии или удержания для менее активной группы. Например, раз пользователи стационарных устройств делают меньше заказов, стоит подумать об упрощение процесса покупки или о напоминаниях на почту.
3.  **Поддерживать отношения с лидирующими партнёрами и регионами.** Учитывая значительный вклад в выручку и количество заказов, стоит рассмотреть возможность расширения сотрудничества или проведения совместных акций с "Лови билет!" и "Билеты без проблем", а также увеличение количества мероприятий в Каменевском районе и Североярской области.
4.  **Использовать недельную цикличность.** Поскольку будни дни и вторник в частности демонстрируют более высокую активность, можно планировать запуски акций или усиление рекламных сообщений на этот день, чтобы максимально использовать этот пик спроса.
---