# Проект

## [(dataset Shoppers)](https://github.com/aiedu-courses/eda_and_dev_tools/blob/main/datasets/online_shoppers_intention.csv)

## [Online Shoppers Purchasing Intention Dataset](https://github.com/aiedu-courses/eda_and_dev_tools/tree/main/datasets#readme)

The **Revenue** attribute can be used as the class label.

**Administrative, Administrative Duration, Informational, Informational Duration, Product Related and Product Related Duration** represent the number of different types of pages visited by the visitor in that session and total time spent in each of these page categories. The values of these features are derived from the URL information of the pages visited by the user and updated in real time when a user takes an action, e.g. moving from one page to another.

The **Bounce Rate, Exit Rate and Page Value** features represent the metrics measured by "Google Analytics" for each page in the e-commerce site. The value of Bounce Rate feature for a web page refers to the percentage of visitors who enter the site from that page and then leave ("bounce") without triggering any other requests to the analytics server during that session. The value of "Exit Rate" feature for a specific web page is calculated as for all pageviews to the page, the percentage that were the last in the session. The Page Value feature represents the average value for a web page that a user visited before completing an e-commerce transaction.

The **Special Day** feature indicates the closeness of the site visiting time to a specific special day (e.g. Mother’s Day, Valentine's Day) in which the sessions are more likely to be finalized with transaction. The value of this attribute is determined by considering the dynamics of e-commerce such as the duration between the order date and delivery date. For example, for Valentina’s day, this value takes a nonzero value between February 2 and February 12, zero before and after this date unless it is close to another special day, and its maximum value of 1 on February 8.

The dataset also includes **operating system, browser, region, traffic type, visitor type** as returning or new visitor, a Boolean value indicating whether the date of the visit is **weekend**, and **month of the year**.

--------------
**Bounce Rate** — это метрика, которая измеряет процент посетителей, покинувших сайт после просмотра только одной страницы, не совершая никаких действий (например, перехода на другую страницу или заполнения формы) 23. Высокий показатель отказов может указывать на то, что пользователи не находят нужную информацию или не заинтересованы в контенте сайта.

Для разных типов сайтов существуют свои нормы показателя отказов. Например, для интернет-магазинов нормальным считается уровень от 10% до 40%, в то время как для новостных сайтов — до 60% 12. Показатели выше 70% могут указывать на необходимость серьезного анализа и оптимизации сайта.

Причины высокого Bounce Rate:
- Нерелевантный контент или плохое качество информации.
- Долгая загрузка страниц или технические неполадки.
- Неудобный интерфейс или сложная навигация.
- Неправильные настройки рекламы, приводящие на сайт нецелевых пользователей

**Exit Rate** — это метрика, которая измеряет процент пользователей, покинувших сайт с определенной страницы, по отношению к общему количеству просмотров этой страницы. Это отличается от показателя отказов (Bounce Rate), который фиксирует процент пользователей, покинувших сайт после просмотра только одной страницы.

Как и в случае с Bounce Rate, для разных типов сайтов существуют свои нормы Exit Rate. Например, для интернет-магазинов нормальным считается уровень от 20% до 40%, в то время как для информационных сайтов этот показатель может быть выше.

Причины высокого Exit Rate:
- Нерелевантный или некачественный контент на странице.
- Технические проблемы или медленная загрузка страницы.
- Плохая навигация или отсутствие ясных призывов к действию.
- Успешное завершение задачи (например, завершение покупки).

**Page Value** — это метрика, которая измеряет среднюю ценность страницы для завершения транзакции на сайте. Она рассчитывается на основе дохода, полученного от пользователей, которые посетили эту страницу перед завершением покупки. Page Value помогает понять, какие страницы наиболее эффективны в привлечении дохода.

Page Value может варьироваться в зависимости от типа контента и его роли в процессе покупки. Например, страницы с продуктами обычно имеют более высокий Page Value, чем информационные страницы.

Причины высокого Page Value:
- Страницы с высококачественным контентом, который привлекает пользователей и побуждает их к покупке.
- Эффективные призывы к действию и навигация, которые направляют пользователей к завершению транзакции.
- Страницы, которые обеспечивают пользователям необходимую информацию о продукте или услуге.

### Additional Information

The dataset consists of feature vectors belonging to 12,330 sessions. 
The dataset was formed so that each session would belong to a different user in a 1-year period to avoid any tendency to a specific campaign, special day, user profile, or period. 

*[original dataset](https://archive.ics.uci.edu/dataset/468/online+shoppers+purchasing+intention+dataset)*

## II. Пайплайн проекта. Построение интерактивных дашбордов


### В рамках этой части задания ответьте в ноутбуке на следующие вопросы:

- Построение моделей на числовых признаках (минимум - NB и kNN, максимум - любые) с параметрами по умолчанию, вычисление метрик + комментарий о качестве моделей (1 балл).
- Подбор гиперпараметров у каждой из моделей (только на числовых признаках) при помощи GridSearchCV + вычисление метрик для лучших найденных моделей + текстовый комментарий (3 балла).
- Добавление категориальных признаков в лучшую модель, обучение модели и заново подбор ее гиперпараметров + вычисление метрик + текстовый комментарий (2 балла).
- Построение Explainer Dashboard и сохранение файла с ним на GitHub (1 балл)
- Анализ модели в Explainer Dashboard (выводы пишем в том же Jupyter Notebook):
- какие факторы наиболее важны в среднем для получения прогноза? (1 балл)
- какие значения метрик получились и что это значит? (1 балл)
- анализ 2-3 индивидуальных прогнозов с комментарием (1 балл)

ВАЖНО
Кроме непосредственно кода в ноутбуке не забывайте делать выводы текстом!
Выводы - самая важная часть исследования

In [None]:
# !pip install explainerdashboard -q

# Импорт библиотек и загрузка данных

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import association_metrics as am
from scipy.stats import f_oneway


In [2]:
url = "https://raw.githubusercontent.com/aiedu-courses/eda_and_dev_tools/refs/heads/main/datasets/online_shoppers_intention.csv"
df = pd.read_csv(url)

df.shape

(12330, 18)

In [3]:
df.sample(5)

Unnamed: 0,Administrative,Administrative_Duration,Informational,Informational_Duration,ProductRelated,ProductRelated_Duration,BounceRates,ExitRates,PageValues,SpecialDay,Month,OperatingSystems,Browser,Region,TrafficType,VisitorType,Weekend,Revenue
2234,5,69.0,4,163.0,50,2424.75,0.0,0.023333,2.973214,0.0,May,2,2,3,3,Returning_Visitor,False,False
6635,2,55.4,2,96.8,26,600.573333,0.013793,0.022414,2.812474,0.0,Aug,2,2,1,2,Returning_Visitor,False,False
11112,0,0.0,4,14.0,8,284.7,0.016667,0.047222,0.0,0.0,Nov,3,2,7,2,Returning_Visitor,False,True
6038,6,91.2,1,69.6,29,1618.233333,0.0,0.016208,9.231935,0.0,Nov,2,2,1,6,Returning_Visitor,False,False
9284,0,0.0,1,10.0,88,2366.192105,0.012472,0.030501,0.0,0.0,Nov,2,4,7,1,Returning_Visitor,False,False


## Заполним пропуски и удалим дубликаты

In [5]:
# удалим дубликаты

df.drop_duplicates(inplace=True)

df.shape

(12221, 18)

In [6]:
# Заполним пропуски во времени посещения страниц - разобьем по количеству просмотренных страниц и возьмем медиану для каждой такой группы, 
# оставшиеся заполним медианой по всем данным

def fill_missing_with_median(df, group_col, target_col):
    # Группируем по количеству просмотренных страниц и вычисляем медиану
    median_values = df[(df[group_col]>0)&(df[target_col].notnull())].groupby(group_col)[target_col].median()
    
    # Заполняем пропуски в целевом столбце медианными значениями по группам
    for group_value in median_values.index:
        df.loc[(df[group_col] == group_value) & (df[target_col].isna()), target_col] = median_values[group_value]
        
    # Для нулевых значений посещения страниц время на страницах заполним нулями
    df.loc[(df[group_col] == 0) & (df[target_col].isna()), target_col] = 0
    
    # Оставшиеся пропуски заполним медианными значениями по всем данным
    df.loc[df[target_col].isna(), target_col] = df[target_col].median()

# Заполнение пропусков для Informational_Duration
fill_missing_with_median(df, 'Informational', 'Informational_Duration')

# Заполнение пропусков для ProductRelated_Duration
fill_missing_with_median(df, 'ProductRelated', 'ProductRelated_Duration')

In [7]:
# пропуски в ExitRates заполним медианой

ExitRates_median = df[df["ExitRates"].notnull()]["ExitRates"].median()

df.loc[(df["ExitRates"].isna()), "ExitRates"] = ExitRates_median

df[df["ExitRates"].notnull()]["ExitRates"].median()

0.025

In [8]:
# Согласно описанию, "VisitorType" может принимать только 2 занчения. Заменим "Other" на "Returning_Visitor"

df.loc[df["VisitorType"]=="Other", "VisitorType"] = "Returning_Visitor"

In [10]:
# В месяцах есть "aug" и 'Aug' - поправим

df.loc[df["Month"]=="aug", "Month"] = "Aug"

In [11]:
# Заменим типы у булевых переменных

df['Revenue'] = df['Revenue'].astype(int)
df['Weekend'] = df['Weekend'].astype(int)

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12221 entries, 0 to 12329
Data columns (total 18 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Administrative           12221 non-null  int64  
 1   Administrative_Duration  12221 non-null  float64
 2   Informational            12221 non-null  int64  
 3   Informational_Duration   12221 non-null  float64
 4   ProductRelated           12221 non-null  int64  
 5   ProductRelated_Duration  12221 non-null  float64
 6   BounceRates              12221 non-null  float64
 7   ExitRates                12221 non-null  float64
 8   PageValues               12221 non-null  float64
 9   SpecialDay               12221 non-null  float64
 10  Month                    12221 non-null  object 
 11  OperatingSystems         12221 non-null  int64  
 12  Browser                  12221 non-null  int64  
 13  Region                   12221 non-null  int64  
 14  TrafficType              12

In [22]:
df.head()

Unnamed: 0,Administrative,Administrative_Duration,Informational,Informational_Duration,ProductRelated,ProductRelated_Duration,BounceRates,ExitRates,PageValues,SpecialDay,Month,OperatingSystems,Browser,Region,TrafficType,VisitorType,Weekend,Revenue
0,0,0.0,0,0.0,1,0.0,0.2,0.2,0.0,0.0,Feb,1,1,1,1,Returning_Visitor,0,0
1,0,0.0,0,0.0,2,64.0,0.0,0.1,0.0,0.0,Feb,2,2,1,2,Returning_Visitor,0,0
2,0,0.0,0,0.0,1,0.0,0.2,0.2,0.0,0.0,Feb,4,1,9,3,Returning_Visitor,0,0
3,0,0.0,0,0.0,2,2.666667,0.05,0.14,0.0,0.0,Feb,3,2,2,4,Returning_Visitor,0,0
4,0,0.0,0,0.0,10,627.5,0.02,0.05,0.0,0.0,Feb,3,3,1,4,Returning_Visitor,1,0


# 1. Построение моделей на числовых признаках с параметрами по умолчанию
(минимум - NB и kNN, максимум - любые), вычисление метрик + комментарий о качестве моделей

# Наивный байесовский классификатор

In [26]:
X = df.drop(columns=['Revenue', 'Month', 'VisitorType', 'OperatingSystems', 'Browser', 'Region', 'TrafficType', 'SpecialDay', 'Weekend']) # оставим только числовые признаки
y = df['Revenue']

y.mean(), y.value_counts()

(0.15612470337942885,
 Revenue
 0    10313
 1     1908
 Name: count, dtype: int64)

In [28]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12221 entries, 0 to 12329
Data columns (total 9 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Administrative           12221 non-null  int64  
 1   Administrative_Duration  12221 non-null  float64
 2   Informational            12221 non-null  int64  
 3   Informational_Duration   12221 non-null  float64
 4   ProductRelated           12221 non-null  int64  
 5   ProductRelated_Duration  12221 non-null  float64
 6   BounceRates              12221 non-null  float64
 7   ExitRates                12221 non-null  float64
 8   PageValues               12221 non-null  float64
dtypes: float64(6), int64(3)
memory usage: 954.8 KB


In [30]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [32]:
y_test.value_counts()

Revenue
0    2583
1     473
Name: count, dtype: int64

In [34]:
from sklearn.naive_bayes import MultinomialNB

mnb = MultinomialNB()

mnb.fit(X_train, y_train)

y_pred = mnb.predict(X_test)

In [36]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.868455497382199

In [38]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_pred)

array([[2381,  202],
       [ 200,  273]], dtype=int64)

In [40]:
from sklearn.metrics import f1_score, precision_score, recall_score
f1_score(y_test, y_pred), precision_score(y_test, y_pred), recall_score(y_test, y_pred)

(0.5759493670886077, 0.5747368421052632, 0.5771670190274841)

In [42]:
from sklearn.model_selection import cross_validate

cv = cross_validate(mnb, X, y, scoring=['accuracy', 'f1', 'precision', 'recall'], cv=5, n_jobs=-1)
cv['test_accuracy'].mean(), cv['test_f1'].mean(), cv['test_precision'].mean(), cv['test_recall'].mean()

(0.8724281157644949,
 0.5924379440519603,
 0.5874514145438711,
 0.5985791043135315)

## Выводы

Несмотря на то, что модель показывает доволько высокое значение accuracy (0.87), из-за того, что классы целевой переменной в исходных данных не сбалансированы, она плохо предсказывает положительные классы.

На это указывают метрики 
- Точность (Precision) (0.57) - из объектов, определенных моделью как положительные только 57% действительно являются положительными
- Полнота (Recall) (0.58) - модель смогла определить только 58% положительных объектов
- F1-мера (F1 Score) (0.58) - мера, учитывающая и точность и полноту.

По матрице ошибок также видно, что модель выдала 202 ложноположительных предсказаний (предсказала положительный класс там, где он не является положительным) и 200 ложноотрицательных предсказаний (не смогла определить истинный положительный класс)

Т.о., можно сделать вывод о том, что модель не очень хорошо умеет правильно классифицировать положительные случаи.

# KNN

In [45]:
from sklearn.neighbors import KNeighborsClassifier

knn_cl = KNeighborsClassifier()

knn_cl.fit(X_train, y_train)

pred_knn = knn_cl.predict(X_test)

In [46]:
accuracy_score(y_test, pred_knn)

0.8576570680628273

In [47]:
confusion_matrix(y_test, pred_knn)

array([[2486,   97],
       [ 338,  135]], dtype=int64)

In [48]:
f1_score(y_test, pred_knn), precision_score(y_test, pred_knn), recall_score(y_test, pred_knn)

(0.3829787234042553, 0.5818965517241379, 0.2854122621564482)

In [54]:
cv = cross_validate(knn_cl, X, y, scoring=['accuracy', 'f1', 'precision', 'recall'], cv=5, n_jobs=-1)
cv['test_accuracy'].mean(), cv['test_f1'].mean(), cv['test_precision'].mean(), cv['test_recall'].mean()

(0.8568024526489479,
 0.38721310100983636,
 0.5817290442630594,
 0.29091396297975847)

## Выводы

Accuracy модели KNN немного ниже (0.86), но положительные классы она предсказывает значительно хуже NBC.

На это указывают метрики 
- Точность (Precision) (0.58) - из объектов, определенных моделью как положительные только 58% действительно являются положительными
- Полнота (Recall) (0.29) - модель смогла определить только 29% положительных объектов
- F1-мера (F1 Score) (0.38) - мера, учитывающая и точность и полноту.

По матрице ошибок видно, что модель выдала 97 ложноположительных предсказаний (предсказала положительный класс там, где он не является положительным) и 338 ложноотрицательных предсказаний (не смогла определить истинный положительный класс) - т.е. из 473 объектов с положительным классом модель пропустила 338 (отсюда низкий показатель полноты).
На кросс валидации получились похожие метрики.

Т.о., можно сделать вывод о том, что модель KNN тоже не очень хорошо умеет правильно классифицировать положительные случаи.

# 2. Подбор гиперпараметров у каждой из моделей (только на числовых признаках) при помощи GridSearchCV 
+ вычисление метрик для лучших найденных моделей + текстовый комментарий 

In [58]:
from sklearn.model_selection import GridSearchCV
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

model = MultinomialNB()

params = {'alpha' : np.arange(0, 10, 0.5),
          'fit_prior' : [True, False]
          }

gs = GridSearchCV(model, params, scoring='f1', cv=3, n_jobs=-1, verbose=2)
gs.fit(X_train, y_train)

Fitting 3 folds for each of 40 candidates, totalling 120 fits


In [59]:
gs.best_score_, gs.best_params_

(0.56771502025587, {'alpha': 6.0, 'fit_prior': True})

In [62]:
mnb = MultinomialNB(alpha=6.0, fit_prior=True)

mnb.fit(X_train, y_train)

y_pred = mnb.predict(X_test)

accuracy_score(y_test, y_pred)

0.868455497382199

In [64]:
confusion_matrix(y_test, y_pred)

array([[2381,  202],
       [ 200,  273]], dtype=int64)

In [66]:
f1_score(y_test, y_pred), precision_score(y_test, y_pred), recall_score(y_test, y_pred)

(0.5759493670886077, 0.5747368421052632, 0.5771670190274841)

In [68]:
cv = cross_validate(mnb, X, y, scoring=['accuracy', 'f1', 'precision', 'recall'], cv=5, n_jobs=-1)
cv['test_accuracy'].mean(), cv['test_f1'].mean(), cv['test_precision'].mean(), cv['test_recall'].mean()

(0.8724281157644949,
 0.5924379440519603,
 0.5874514145438711,
 0.5985791043135315)

In [70]:
model = KNeighborsClassifier()

params = {'n_neighbors' : np.arange(2, 20, 2),
          'weights' : ['uniform', 'distance'],
          'p' : [1, 2]}

gs = GridSearchCV(model, params, scoring='f1', cv=3, n_jobs=-1, verbose=2)
gs.fit(X_train, y_train)

gs.best_score_, gs.best_params_

Fitting 3 folds for each of 36 candidates, totalling 108 fits


(0.4292986240756865, {'n_neighbors': 2, 'p': 2, 'weights': 'distance'})

In [71]:
knn_cl = KNeighborsClassifier(n_neighbors=2, p=2, weights='distance')

knn_cl.fit(X_train, y_train)

pred_knn = knn_cl.predict(X_test)

accuracy_score(y_test, pred_knn)

0.8242801047120419

In [74]:
confusion_matrix(y_test, pred_knn)

array([[2342,  241],
       [ 296,  177]], dtype=int64)

In [76]:
f1_score(y_test, pred_knn), precision_score(y_test, pred_knn), recall_score(y_test, pred_knn)

(0.39730639730639733, 0.423444976076555, 0.37420718816067655)

In [78]:
from sklearn.model_selection import cross_validate

cv = cross_validate(knn_cl, X, y, scoring=['accuracy', 'f1', 'precision', 'recall'], cv=5, n_jobs=-1)
cv['test_accuracy'].mean(), cv['test_f1'].mean(), cv['test_precision'].mean(), cv['test_recall'].mean()

(0.8283263884007912,
 0.4222821479521143,
 0.4481475228014292,
 0.40043561308763104)

# Выводы

Подбор гиперпараметров практически не повлиял на результаты модели Наивный байесовский классификатор и незначительно улучшил результаты модели KNN.
Обе модели по-прежнему плохо распознают положительные классы.

Возможно, эти модели не являются наилучшим выбором для имеющихся данных.

# Добавление категориальных признаков в лучшую модель, обучение модели и заново подбор ее гиперпараметров 
+ вычисление метрик + текстовый комментарий

## Используем Наивный байесовский классификатор, т.к. он показал лучшие результаты

In [83]:
X = df.drop(columns=['Revenue'])
y = df['Revenue']

y.mean(), y.value_counts()

(0.15612470337942885,
 Revenue
 0    10313
 1     1908
 Name: count, dtype: int64)

In [85]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12221 entries, 0 to 12329
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Administrative           12221 non-null  int64  
 1   Administrative_Duration  12221 non-null  float64
 2   Informational            12221 non-null  int64  
 3   Informational_Duration   12221 non-null  float64
 4   ProductRelated           12221 non-null  int64  
 5   ProductRelated_Duration  12221 non-null  float64
 6   BounceRates              12221 non-null  float64
 7   ExitRates                12221 non-null  float64
 8   PageValues               12221 non-null  float64
 9   SpecialDay               12221 non-null  float64
 10  Month                    12221 non-null  object 
 11  OperatingSystems         12221 non-null  int64  
 12  Browser                  12221 non-null  int64  
 13  Region                   12221 non-null  int64  
 14  TrafficType              12

In [87]:
X.describe()

Unnamed: 0,Administrative,Administrative_Duration,Informational,Informational_Duration,ProductRelated,ProductRelated_Duration,BounceRates,ExitRates,PageValues,SpecialDay,OperatingSystems,Browser,Region,TrafficType,Weekend
count,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0,12221.0
mean,2.335815,81.539438,0.50806,34.724659,32.005073,1195.029473,0.020605,0.041475,5.941785,0.061861,2.123558,2.356845,3.152115,4.070616,0.234105
std,3.32933,177.400179,1.274914,141.269887,44.578528,1898.56031,0.04569,0.046267,18.642697,0.199548,0.906759,1.709433,2.401892,4.015172,0.423456
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0
25%,0.0,0.0,0.0,0.0,8.0,192.0,0.0,0.014286,0.0,0.0,2.0,2.0,1.0,2.0,0.0
50%,1.0,9.0,0.0,0.0,18.0,606.785714,0.002941,0.025,0.0,0.0,2.0,2.0,3.0,2.0,0.0
75%,4.0,94.6,0.0,0.0,38.0,1470.208333,0.016667,0.048148,0.0,0.0,3.0,2.0,4.0,4.0,0.0
max,27.0,3398.75,24.0,2549.375,705.0,63973.52223,0.2,0.2,361.763742,1.0,8.0,13.0,9.0,20.0,1.0


In [89]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [91]:
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer

categorical = ['SpecialDay', 'Month', 'OperatingSystems', 'Browser', 'Region', 'TrafficType', 'VisitorType', 'Weekend']
numeric_features = ['Administrative', 'Administrative_Duration', 'Informational', 'Informational_Duration',
                    'ProductRelated', 'ProductRelated_Duration', 'BounceRates', 'ExitRates', 'PageValues']	

ct = ColumnTransformer([
    ('ohe', OneHotEncoder(handle_unknown='ignore', drop='first', sparse=False), categorical),
    ('scaling', MinMaxScaler(), numeric_features)
])

X_train_transformed = ct.fit_transform(X_train)
X_test_transformed = ct.transform(X_test)
X_transformed = ct.transform(X)

In [93]:
new_features = list(ct.named_transformers_['ohe'].get_feature_names_out())
new_features.extend(numeric_features)

# new_features
X_train_transformed = pd.DataFrame(X_train_transformed, columns=new_features)
X_test_transformed = pd.DataFrame(X_test_transformed, columns=new_features)
X_transformed = pd.DataFrame(X_transformed, columns=new_features)

X_train_transformed.head()

Unnamed: 0,SpecialDay_0.2,SpecialDay_0.4,SpecialDay_0.6,SpecialDay_0.8,SpecialDay_1.0,Month_Dec,Month_Feb,Month_Jul,Month_June,Month_Mar,...,Weekend_1,Administrative,Administrative_Duration,Informational,Informational_Duration,ProductRelated,ProductRelated_Duration,BounceRates,ExitRates,PageValues
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.034043,0.009345,0.041667,0.104167,0.0
1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.038462,0.027657,0.0,0.0,0.076596,0.018928,0.027273,0.043357,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.076923,0.033836,0.208333,0.059492,0.029787,0.032525,0.059524,0.225962,0.056461
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.230769,0.050337,0.0,0.0,0.039716,0.014886,0.0,0.066667,0.144363
4,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.307692,0.045973,0.0,0.0,0.068085,0.023152,0.018868,0.040881,0.0


In [95]:
model = MultinomialNB()

params = {'alpha' : np.arange(0, 10, 0.05),
          'fit_prior' : [True, False]}

gs = GridSearchCV(model, params, scoring='f1', cv=3, n_jobs=-1, verbose=2)
gs.fit(X_train_transformed, y_train)

gs.best_score_, gs.best_params_

Fitting 3 folds for each of 400 candidates, totalling 1200 fits


(0.4138147592930388, {'alpha': 3.85, 'fit_prior': False})

In [96]:
mnb = MultinomialNB(alpha=3.85, fit_prior=False)

mnb.fit(X_train_transformed, y_train)

y_pred = mnb.predict(X_test_transformed)

accuracy_score(y_test, y_pred)

0.675392670157068

In [97]:
confusion_matrix(y_test, y_pred)

array([[1713,  870],
       [ 122,  351]], dtype=int64)

In [98]:
f1_score(y_test, y_pred), precision_score(y_test, y_pred), recall_score(y_test, y_pred)

(0.41440377804014167, 0.28746928746928746, 0.7420718816067653)

In [99]:
cv = cross_validate(mnb, X_transformed, y, scoring=['accuracy', 'f1', 'precision', 'recall'], cv=5, n_jobs=-1)
cv['test_accuracy'].mean(), cv['test_f1'].mean(), cv['test_precision'].mean(), cv['test_recall'].mean()

(0.46953791933168,
 0.32175407951975654,
 0.20728874301747147,
 0.7714501655879402)

# Выводы

При добавлении всех колонок и их проебразовании, accuracy модели значительно ухудшилась, но recall выросла выше 70%. Теперь модель лучше предсказывает положительный класс, но и выдает значительно больше ложноположительных результатов - precision падает до ~20%.

Возможно, для таких данных лучше использовать другие варианты преобразования и другие модели.

 ## Попробуем запустить pipeline для модели KNN

In [102]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.feature_selection import f_classif, SelectKBest

pipe = Pipeline([
    ('transformer', ct), # преобразование данных
    # ('poly', PolynomialFeatures(3)), # добавление полиномиальных признаков,
    ('selector', SelectKBest(f_classif, k=10)), # оставляем самые важные признаки,
    ('model', KNeighborsClassifier()) # обучение модели
    ])

pipe.fit(X_train, y_train)

pred_pipe = pipe.predict(X_test)

In [107]:
accuracy_score(y_test, pred_pipe)

0.8766361256544503

In [111]:
confusion_matrix(y_test, pred_pipe)

array([[2477,  106],
       [ 271,  202]], dtype=int64)

In [113]:
f1_score(y_test, pred_pipe), precision_score(y_test, pred_pipe), recall_score(y_test, pred_pipe)

(0.5172855313700385, 0.6558441558441559, 0.427061310782241)

In [115]:
params = {'selector__k' : [2,3,4,6,8,10,12],
          'model__n_neighbors' : np.arange(2, 10, 2), 
          'model__weights' : ['uniform', 'distance'], 
          'model__p' : [1, 2]}

gs = GridSearchCV(pipe, params, scoring='f1', cv=3, n_jobs=-1, verbose=2)
gs.fit(X_train, y_train)

gs.best_score_, gs.best_params_

Fitting 3 folds for each of 112 candidates, totalling 336 fits


(0.6095496569975706,
 {'model__n_neighbors': 8,
  'model__p': 2,
  'model__weights': 'distance',
  'selector__k': 4})

In [116]:
pipe = Pipeline([
    ('transformer', ct), # преобразование данных
    # ('poly', PolynomialFeatures(3)), # добавление полиномиальных признаков,
    ('selector', SelectKBest(f_classif, k=4)), # оставляем самые важные признаки,
    ('model', KNeighborsClassifier(n_neighbors=8, weights= 'distance', p=2)) # обучение модели
    ])

pipe.fit(X_train, y_train)

pred_pipe = pipe.predict(X_test)

In [119]:
accuracy_score(y_test, pred_pipe)

0.8831806282722513

In [121]:
confusion_matrix(y_test, pred_pipe)

array([[2447,  136],
       [ 221,  252]], dtype=int64)

In [123]:
f1_score(y_test, pred_pipe), precision_score(y_test, pred_pipe), recall_score(y_test, pred_pipe)

(0.5853658536585366, 0.6494845360824743, 0.53276955602537)

# Выводы

Добавление всех признаков, их преобразование и отбор (SelectKBest) позволили улучшить точность и полноту модели KNN, которая намного лучше теперь определяет положительный класс. 
Подбор гиперпараметров модели и SelectKBest позволил еще сильнее улучшить показатели модели:
- precision - c 0.58 до 0.65
- recall - c 0.29 до 0.53
- f1 - с 0.38 до 0.59
- accuracy - с 0.86 до 0.88.
Т.о. возросла и общая точность модели, и ее способность предсказывать положительный класс.

# Построение Explainer Dashboard и сохранение файла с ним на GitHub

Анализ модели в Explainer Dashboard:
- какие факторы наиболее важны в среднем для получения прогноза?
- какие значения метрик получились и что это значит?
- анализ 2-3 индивидуальных прогнозов с комментарием

In [194]:
from explainerdashboard import ClassifierExplainer, ExplainerDashboard

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [196]:
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer
warnings.filterwarnings('ignore')

categorical = ['SpecialDay', 'Month', 'OperatingSystems', 'Browser', 'Region', 'TrafficType', 'VisitorType', 'Weekend']
numeric_features = ['Administrative', 'Administrative_Duration', 'Informational', 'Informational_Duration',
                    'ProductRelated', 'ProductRelated_Duration', 'BounceRates', 'ExitRates', 'PageValues']	

ct = ColumnTransformer([
    ('ohe', OneHotEncoder(handle_unknown='ignore', drop='first', sparse=False), categorical),
    ('scaling', MinMaxScaler(), numeric_features)
])

X_train_transformed = ct.fit_transform(X_train)
X_test_transformed = ct.transform(X_test)
X_transformed = ct.transform(X)

new_features = list(ct.named_transformers_['ohe'].get_feature_names_out())
new_features = [el.replace(".", "_") for el in new_features]
new_features.extend(numeric_features)

X_train_transformed = pd.DataFrame(X_train_transformed, columns=new_features)
X_test_transformed = pd.DataFrame(X_test_transformed, columns=new_features)

X_train_transformed.head()

Unnamed: 0,SpecialDay_0_2,SpecialDay_0_4,SpecialDay_0_6,SpecialDay_0_8,SpecialDay_1_0,Month_Dec,Month_Feb,Month_Jul,Month_June,Month_Mar,...,Weekend_1,Administrative,Administrative_Duration,Informational,Informational_Duration,ProductRelated,ProductRelated_Duration,BounceRates,ExitRates,PageValues
0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.034043,0.009345,0.041667,0.104167,0.0
1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.038462,0.027657,0.0,0.0,0.076596,0.018928,0.027273,0.043357,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.076923,0.033836,0.208333,0.059492,0.029787,0.032525,0.059524,0.225962,0.056461
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.230769,0.050337,0.0,0.0,0.039716,0.014886,0.0,0.066667,0.144363
4,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.307692,0.045973,0.0,0.0,0.068085,0.023152,0.018868,0.040881,0.0


In [197]:
model = MultinomialNB()

params = {'alpha' : np.arange(0, 10, 0.5),
          'fit_prior' : [True, False]
          }

gs = GridSearchCV(model, params, scoring='f1', cv=3, n_jobs=-1, verbose=2)
gs.fit(X_train_transformed, y_train)

Fitting 3 folds for each of 40 candidates, totalling 120 fits


In [201]:
explainer = ClassifierExplainer(gs.best_estimator_, X_test_transformed, y_test)

db = ExplainerDashboard(explainer)

db.run()

Note: shap values for shap='kernel' normally get calculated against X_background, but paramater X_background=None, so setting X_background=shap.sample(X, 50)...
Generating self.shap_explainer = shap.KernelExplainer(model, X, link='identity')
Building ExplainerDashboard..
Detected notebook environment, consider setting mode='external', mode='inline' or mode='jupyterlab' to keep the notebook interactive while the dashboard is running...
For this type of model and model_output interactions don't work, so setting shap_interaction=False...
The explainer object has no decision_trees property. so setting decision_trees=False...
Generating layout...
Calculating shap values...


  0%|          | 0/3056 [00:00<?, ?it/s]

Calculating prediction probabilities...
Calculating metrics...
Calculating confusion matrices...
Calculating classification_dfs...
Calculating roc auc curves...
Calculating pr auc curves...
Calculating liftcurve_dfs...
Calculating dependencies...
Calculating permutation importances (if slow, try setting n_jobs parameter)...
Calculating predictions...
Calculating pred_percentiles...
Reminder: you can store the explainer (including calculated dependencies) with explainer.dump('explainer.joblib') and reload with e.g. ClassifierExplainer.from_file('explainer.joblib')
Registering callbacks...
Starting ExplainerDashboard on http://10.10.140.46:8050


ConnectionError: HTTPConnectionPool(host='0.0.0.0', port=8050): Max retries exceeded with url: /_alive_fb1404d6-4668-4c7b-91db-02c1e452d39c (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000260A3C51750>: Failed to establish a new connection: [WinError 10049] Требуемый адрес для своего контекста неверен'))

# Выводы

## 1. какие факторы наиболее важны в среднем для получения прогноза?
ExplainerDashboard выбрал следющие топ-10 признаков: 
- 'Month_Nov'
- 'TrafficType_2'
- 'ExitRates'
- 'Month_Dec'
- 'OperatingSystems_2'
- 'Administrative'
- 'VisitorType_Returning_Visitor'
- 'TrafficType_10'
- 'ProductRelated'
- 'OperatingSystems_5'

По мнению ExplainerDashboard вероятность покупки выше в ноябре и декабре, для типа трафика "2" и "10", для возвращающихся пользователей, использующих операционные системы "2" и "5", на вероятность также влияют "ExitRates" и просмотры страниц "Administrative" и "ProductRelated".

## 2. какие значения метрик получились и что это значит?
- Accuracy: 0.675

Точность у модели не очень низкая, но классы в данных не сбалансированы, и следующие далее показатели указывают, что модель не очень хорошо справляется с предсказанием положительного класса.
- Precision: 0.287

Модель выдает большое количество ложноположительных предсказаний, лишь 28% положительных предсказаний является истинно положительными.
- Recall: 0.742

Модель неплохо выделяет положительный класс - она распознала 74% от общего количества положительных случаев.
- F1 Score: 0.414

F1 - Гармоническое среднее между точностью и полнотой. Эта метрика используется для оценки баланса между Precision и Recall - низкое значение Precision снижает занчение F1.

## 3. анализ 2-3 индивидуальных прогнозов с комментарием

 - Объект 1172 определяется моделью как класс 1 с вероятностью 88.6%. Самый большой вклад внесли следующие значения признаков:
   
| Reason | Effect |
| --- | --- |
| Average of population | 42.8% |
| PageValues = 0.18672 | +8.24% |
| Month_Nov = 1.0 | +7.46% |
| TrafficType_2 = 1.0	+4.58% |
| BounceRates = 0.0174 | +3.39% |
| Informational = 0.333 | +3.39% |

 - Объект 1461 определяется моделью как класс 0 с вероятностью 82.0%. Самый большой вклад внесли следующие значения признаков:
   
| Reason | Effect |
| --- | --- |
| Average of population | 42.8% |
| TrafficType_13 = 1.0 | -18.52% |
| Month_Nov = 1.0 | +6.73% |
| OperatingSystems_3 = 1.0	-6.47% |
| BounceRates = 0.2 | -2.54% |

   