Анализ данных о клиентах онлайн кинотеатра - описание данных, их анализ и построение модели линейной регрессии
СТАТУС: Завершён
Основная задача проекта построить модель линейной регрессии для предсказания средней оценки пользователя по набору жанров фильма.
Основной источник информации - это датасет, который содержит информацию о клиентах кинотеатра. Целью дата-проекта стоит создание рекомендательной системы с точностью в 15% на основе данных, которые предоставляет наш датасет. Если проект окажется успешным и рекомендательная система будет работать с точностью в 15%, то показатель Customer retention (способность компании или продукта удерживать потребителей на протяжении определённого периода) возрастет, что в свою очередь повлияет на прибыль сервиса.
Модель выдает отличный результат Линейной регрессии со среднеквадратичным отклонением в 0.020 на тренировочной выборке и 0.029 на тестовой.
Результат позволяет нам успешно внедрить рекомендательную систему в стриминговый сервис.
Данные зашумлены дубликатами (явными и неявными) - проведена предобработка. Для ответа на вопросы исследования использовались группировки данных в различных разрезах.
- Python
- Pandas
- Sklearn
- Pyspark
- SQL
- Excel