Проект представляет собой когортный анализ продуктовый метрик Retention и LTV. Также данные были исследованы на предмет выбросов с помощью гистограмм и графиков box-plot. В процессе работы был построен RFM анализ и проанализирована его предсказательная мощность с помощью метрик uplift, gini и heatmap. В завершение проекта была создана предсказательная модель LTV
- Провести EDA анализ
- Построить когортный анализ Retention
- Построить когортный анализ продаж
- Построить когортный анализ LTV
- Сделать RFM анализ
5.1 Подсчет RFM score
5.2 Анализ предсказательной мощности RFM модели - Создание модели предсказания LTV
- Был проанализирован dataset на наличие выбросов, пропущенных значений и т.д.
- По результатам когортного анализа Retention, можно сделать выводы, что за когорты январь, февраль Retention резко падал после 4-5 месяцев. За когорты март, апрель, май Retention достигал самых высоких показателей
- Если говорить о продажах, то самые большие медианные знаечния приходились на февраль, март, апрель, май. Также видно, что покупатели начинали больше тратить денег на покупки после 1 месяца. Пик трат приходит на 2 - 5 месяца после совершения первой покупки
- LTV относительно резко начинает расти после 1 месяца совершения первой покупки и постепенно замедляет рост от месяца к месяцу. После 8 месяца LTV начинает расти очень медленно (от N < 1)
- Был построен RFM анализ, в котором за каждую метрику начислялся score балл от 1 до 4. Также была проанализирована предсказательная мощность RFM, в результате получили метрики uplift = 2.004 и gini = 0.4066
- Была создана модель предсказания LTV на основе классификации RFM, где
- для 1 класса правильно индетифицирует 88% покупателей
- для 2 класса правильно индетифицирует 83% покупателей
- для 3 класса правильно индетифицирует 74% покупателей
pandas, numpy, matplotlib, seaborn, plotly, sklearn, scikitplot, xgboost