# Проект: Обучение с учителем: качество модели

### Техническое задание

Интернет-магазин «В один клик» продаёт разные товары: для детей, для дома, мелкую бытовую технику, косметику и даже продукты. Отчёт магазина за прошлый период показал, что активность покупателей начала снижаться. Привлекать новых клиентов уже не так эффективно: о магазине и так знает большая часть целевой аудитории. 

Возможный выход — удерживать активность постоянных клиентов. Сделать это можно с помощью персонализированных предложений.

Необходимо разработать решение, которое позволит персонализировать предложения постоянным клиентам, чтобы увеличить их покупательскую активность.

1. Нужно промаркировать уровень финансовой активности постоянных покупателей. В компании принято выделять два уровня активности: 
    - «снизилась» - клиент стал покупать меньше товаров.
    - «прежний уровень» - клиент покупает столько же товаров или больше.

2. Нужно собрать данные по клиентам по следующим группам:
    - Признаки, которые описывают коммуникацию сотрудников компании с клиентом.
    - Признаки, которые описывают продуктовое поведение покупателя. Например, какие товары покупает и как часто.
    - Признаки, которые описывают покупательское поведение клиента. Например, сколько тратил в магазине.
    - Признаки, которые описывают поведение покупателя на сайте. Например, как много страниц просматривает и сколько времени проводит на сайте.
    

### План выполнения

1. Изучение общей информации
    - Пропущенные значения
    - Неправильные типы данных


2. Предобработка данных
    - Замена названий столбцов
    - Удаление возможных дубликатов
    - Изменение типов данных


3. Исследовательский анализ данных
    - Статистический анализ всех признаков
    - Поиск возможных аномалий и выбросов
    - Отбор клиентов с покупательской активностью не менее трёх месяцев


4. Объединение таблиц
    - Объединение таблиц **`market_file`**, **`market_money`**, **`market_time`**
    - Создание отдельных столбов с данными о выручке и времени на сайте для каждого периода


5. Корреляционный анализ
    - Взаимосвязь между признаками


6. Использование пайплайнов
    - Пайплайн для подготовки данных
    - Пайплайн для инициализации модели
    - Отбор лучшей модели для задачи классификации


7. Анализ важности признаков
    - Оценка важности признаков, построение графика важности с помощью метода SHAP
    - Выводы о значимости признаков


8. Сегментация покупателей
    - Выполнение сегментации покупателей, используя результаты моделирования и данные о прибыльности покупателей
    - Выбор группы покупателей. Предложение как увеличить её покупательскую активность
    - Выводы о сегментах


9. Общий вывод работы


### Описание данных

- **`market_file`** - данные о поведении покупателя на сайте, о коммуникациях с покупателем и его продуктовом поведении.
    - `id` — номер покупателя в корпоративной базе данных.
    - `Покупательская активность` — рассчитанный класс покупательской активности (целевой признак): «снизилась» или «прежний уровень».
    - `Тип сервиса` — уровень сервиса, например «премиум» и «стандарт».
    - `Разрешить сообщать` — информация о том, можно ли присылать покупателю дополнительные предложения о товаре. Согласие на это даёт покупатель.
    - `Маркет_актив_6_мес` — среднемесячное значение маркетинговых коммуникаций компании, которое приходилось на покупателя за последние 6 месяцев. Это значение показывает, какое число рассылок, звонков, показов рекламы и прочего приходилось на клиента.
    - `Маркет_актив_тек_мес` — количество маркетинговых коммуникаций в текущем месяце.
    - `Длительность` — значение, которое показывает, сколько дней прошло с момента регистрации покупателя на сайте.
    - `Акционные_покупки` — среднемесячная доля покупок по акции от общего числа покупок за последние 6 месяцев.
    - `Популярная_категория` — самая популярная категория товаров у покупателя за последние 6 месяцев.
    - `Средний_просмотр_категорий_за_визит` — показывает, сколько в среднем категорий покупатель просмотрел за визит в течение последнего месяца.
    - `Неоплаченные_продукты_штук_квартал` — общее число неоплаченных товаров в корзине за последние 3 месяца.
    - `Ошибка_сервиса` — число сбоев, которые коснулись покупателя во время посещения сайта.
    - `Страниц_за_визит` — среднее количество страниц, которые просмотрел покупатель за один визит на сайт за последние 3 месяца.


- **`market_money`** - данные о выручке, которую получает магазин с покупателя
    - `id` — номер покупателя в корпоративной базе данных.
    - `Период` — название периода, во время которого зафиксирована выручка. Например, 'текущий_месяц' или 'предыдущий_месяц'.
    - `Выручка` — сумма выручки за период.


- **`market_time`** - данные о времени (в минутах), которое покупатель провёл на сайте в течение периода.
    - `id` — номер покупателя в корпоративной базе данных.
    - `Период` — название периода, во время которого зафиксировано общее время.
    - `минут` — значение времени, проведённого на сайте, в минутах.


- **`money`** - данные о среднемесячной прибыли продавца за последние 3 месяца
    - `id` — номер покупателя в корпоративной базе данных.
    - `Прибыль` — значение прибыли.

In [None]:
# В дальнейшем поменять, добавить и структурировать!

import phik
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

from sklearn.preprocessing import OneHotEncoder, LabelEncoder, OrdinalEncoder, MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score,recall_score, confusion_matrix 