# Усовершенствованная реализация модели


Вместо того, чтобы использовать только модели из `scikit-learn`, мы искали более продвинутое и мощное решение проблемы. Прежде всего, мы попробовали реализовать несколько моделей, таких как `GradientBoostClassifier` и `RandomTreeClassifier`.

Они были хороши, пока мы не достигли точности `0,908`, поэтому с переработкой базовых моделей мы начинаем использовать обновленный набор данных и более продвинутую модель.

In [None]:
import random as rn

import numpy as np
import pandas as pd
import sklearn as sk

from sklearn.metrics import accuracy_score
from sklearn.ensemble import VotingClassifier, ExtraTreesClassifier,\
                             GradientBoostingClassifier, RandomForestClassifier
from sklearn.model_selection import train_test_split

После подключения библиотек мы приступаем к обновлению набора данных.

In [None]:
df = pd.read_csv('https://gitlab.com/MaskedTrench/csv-database/-/raw/main/dataset.csv', sep = ',')
df = df.fillna(0)

df['rto'] = df[['rto_6','rto_7', 'rto_8', 'rto_9', 'rto_10', 'rto_11', 'rto_12']].sum(axis=1)
df = df.drop(columns=['rto_6','rto_7', 'rto_8', 'rto_9', 'rto_10', 'rto_11', 'rto_12'])
df['rto_std'] = df[['rto_std_6','rto_std_7', 'rto_std_8', 'rto_std_9', 'rto_std_10', 'rto_std_11', 'rto_std_12']].sum(axis=1)
df = df.drop(columns=['rto_std_6','rto_std_7', 'rto_std_8', 'rto_std_9', 'rto_std_10', 'rto_std_11', 'rto_std_12'])
df['cnt_checks'] = df[['cnt_checks_6','cnt_checks_7', 'cnt_checks_8', 'cnt_checks_9', 'cnt_checks_10', 'cnt_checks_11', 'cnt_checks_12']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6','cnt_checks_7', 'cnt_checks_8', 'cnt_checks_9', 'cnt_checks_10', 'cnt_checks_11', 'cnt_checks_12'])

df['rto_Крупы и зерновые'] = df[['rto_6_Крупы и зерновые','rto_7_Крупы и зерновые', 'rto_8_Крупы и зерновые', 'rto_9_Крупы и зерновые', 'rto_10_Крупы и зерновые', 'rto_11_Крупы и зерновые', 'rto_12_Крупы и зерновые']].sum(axis=1)
df = df.drop(columns=['rto_6_Крупы и зерновые','rto_7_Крупы и зерновые', 'rto_8_Крупы и зерновые', 'rto_9_Крупы и зерновые', 'rto_10_Крупы и зерновые', 'rto_11_Крупы и зерновые', 'rto_12_Крупы и зерновые'])
df['rto_Мясная гастрономия'] = df[['rto_6_Мясная гастрономия','rto_7_Мясная гастрономия', 'rto_8_Мясная гастрономия', 'rto_9_Мясная гастрономия', 'rto_10_Мясная гастрономия', 'rto_11_Мясная гастрономия', 'rto_12_Мясная гастрономия']].sum(axis=1)
df = df.drop(columns=['rto_6_Мясная гастрономия','rto_7_Мясная гастрономия', 'rto_8_Мясная гастрономия', 'rto_9_Мясная гастрономия', 'rto_10_Мясная гастрономия', 'rto_11_Мясная гастрономия', 'rto_12_Мясная гастрономия'])
df['rto_Овощи - Фрукты'] = df[['rto_6_Овощи - Фрукты','rto_7_Овощи - Фрукты', 'rto_8_Овощи - Фрукты', 'rto_9_Овощи - Фрукты', 'rto_10_Овощи - Фрукты', 'rto_11_Овощи - Фрукты', 'rto_12_Овощи - Фрукты']].sum(axis=1)
df = df.drop(columns=['rto_6_Овощи - Фрукты','rto_7_Овощи - Фрукты', 'rto_8_Овощи - Фрукты', 'rto_9_Овощи - Фрукты', 'rto_10_Овощи - Фрукты', 'rto_11_Овощи - Фрукты', 'rto_12_Овощи - Фрукты'])
df['rto_Птица и изделия из птицы'] = df[['rto_6_Птица и изделия из птицы','rto_7_Птица и изделия из птицы', 'rto_8_Птица и изделия из птицы', 'rto_9_Птица и изделия из птицы', 'rto_10_Птица и изделия из птицы', 'rto_11_Птица и изделия из птицы', 'rto_12_Птица и изделия из птицы']].sum(axis=1)
df = df.drop(columns=['rto_6_Птица и изделия из птицы','rto_7_Птица и изделия из птицы', 'rto_8_Птица и изделия из птицы', 'rto_9_Птица и изделия из птицы', 'rto_10_Птица и изделия из птицы', 'rto_11_Птица и изделия из птицы', 'rto_12_Птица и изделия из птицы'])
df['rto_Рыба и рыбные изделия'] = df[['rto_6_Рыба и рыбные изделия','rto_7_Рыба и рыбные изделия', 'rto_8_Рыба и рыбные изделия', 'rto_9_Рыба и рыбные изделия', 'rto_10_Рыба и рыбные изделия', 'rto_11_Рыба и рыбные изделия', 'rto_12_Рыба и рыбные изделия']].sum(axis=1)
df = df.drop(columns=['rto_6_Рыба и рыбные изделия','rto_7_Рыба и рыбные изделия', 'rto_8_Рыба и рыбные изделия', 'rto_9_Рыба и рыбные изделия', 'rto_10_Рыба и рыбные изделия', 'rto_11_Рыба и рыбные изделия', 'rto_12_Рыба и рыбные изделия'])
df['rto_Сыры'] = df[['rto_6_Сыры','rto_7_Сыры', 'rto_8_Сыры', 'rto_9_Сыры', 'rto_10_Сыры', 'rto_11_Сыры', 'rto_12_Сыры']].sum(axis=1)
df = df.drop(columns=['rto_6_Сыры','rto_7_Сыры', 'rto_8_Сыры', 'rto_9_Сыры', 'rto_10_Сыры', 'rto_11_Сыры', 'rto_12_Сыры'])

df['rto_stddev_Крупы и зерновые'] = df[['rto_stddev_6_Крупы и зерновые','rto_stddev_7_Крупы и зерновые', 'rto_stddev_8_Крупы и зерновые', 'rto_stddev_9_Крупы и зерновые', 'rto_stddev_10_Крупы и зерновые', 'rto_stddev_11_Крупы и зерновые', 'rto_stddev_12_Крупы и зерновые']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Крупы и зерновые','rto_stddev_7_Крупы и зерновые', 'rto_stddev_8_Крупы и зерновые', 'rto_stddev_9_Крупы и зерновые', 'rto_stddev_10_Крупы и зерновые', 'rto_stddev_11_Крупы и зерновые', 'rto_stddev_12_Крупы и зерновые'])
df['rto_stddev_Мясная гастрономия'] = df[['rto_stddev_6_Мясная гастрономия','rto_stddev_7_Мясная гастрономия', 'rto_stddev_8_Мясная гастрономия', 'rto_stddev_9_Мясная гастрономия', 'rto_stddev_10_Мясная гастрономия', 'rto_stddev_11_Мясная гастрономия', 'rto_stddev_12_Мясная гастрономия']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Мясная гастрономия','rto_stddev_7_Мясная гастрономия', 'rto_stddev_8_Мясная гастрономия', 'rto_stddev_9_Мясная гастрономия', 'rto_stddev_10_Мясная гастрономия', 'rto_stddev_11_Мясная гастрономия', 'rto_stddev_12_Мясная гастрономия'])
df['rto_stddev_Овощи - Фрукты'] = df[['rto_stddev_6_Овощи - Фрукты','rto_stddev_7_Овощи - Фрукты', 'rto_stddev_8_Овощи - Фрукты', 'rto_stddev_9_Овощи - Фрукты', 'rto_stddev_10_Овощи - Фрукты', 'rto_stddev_11_Овощи - Фрукты', 'rto_stddev_12_Овощи - Фрукты']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Овощи - Фрукты','rto_stddev_7_Овощи - Фрукты', 'rto_stddev_8_Овощи - Фрукты', 'rto_stddev_9_Овощи - Фрукты', 'rto_stddev_10_Овощи - Фрукты', 'rto_stddev_11_Овощи - Фрукты', 'rto_stddev_12_Овощи - Фрукты'])
df['rto_stddev_Птица и изделия из птицы'] = df[['rto_stddev_6_Птица и изделия из птицы','rto_stddev_7_Птица и изделия из птицы', 'rto_stddev_8_Птица и изделия из птицы', 'rto_stddev_9_Птица и изделия из птицы', 'rto_stddev_10_Птица и изделия из птицы', 'rto_stddev_11_Птица и изделия из птицы', 'rto_stddev_12_Птица и изделия из птицы']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Птица и изделия из птицы','rto_stddev_7_Птица и изделия из птицы', 'rto_stddev_8_Птица и изделия из птицы', 'rto_stddev_9_Птица и изделия из птицы', 'rto_stddev_10_Птица и изделия из птицы', 'rto_stddev_11_Птица и изделия из птицы', 'rto_stddev_12_Птица и изделия из птицы'])
df['rto_stddev_Рыба и рыбные изделия'] = df[['rto_stddev_6_Рыба и рыбные изделия','rto_stddev_7_Рыба и рыбные изделия', 'rto_stddev_8_Рыба и рыбные изделия', 'rto_stddev_9_Рыба и рыбные изделия', 'rto_stddev_10_Рыба и рыбные изделия', 'rto_stddev_11_Рыба и рыбные изделия', 'rto_stddev_12_Рыба и рыбные изделия']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Рыба и рыбные изделия','rto_stddev_7_Рыба и рыбные изделия', 'rto_stddev_8_Рыба и рыбные изделия', 'rto_stddev_9_Рыба и рыбные изделия', 'rto_stddev_10_Рыба и рыбные изделия', 'rto_stddev_11_Рыба и рыбные изделия', 'rto_stddev_12_Рыба и рыбные изделия'])
df['rto_stddev_Сыры'] = df[['rto_stddev_6_Сыры','rto_stddev_7_Сыры', 'rto_stddev_8_Сыры', 'rto_stddev_9_Сыры', 'rto_stddev_10_Сыры', 'rto_stddev_11_Сыры', 'rto_stddev_12_Сыры']].sum(axis=1)
df = df.drop(columns=['rto_stddev_6_Сыры','rto_stddev_7_Сыры', 'rto_stddev_8_Сыры', 'rto_stddev_9_Сыры', 'rto_stddev_10_Сыры', 'rto_stddev_11_Сыры', 'rto_stddev_12_Сыры'])

df['cnt_checks_Крупы и зерновые'] = df[['cnt_checks_6_Крупы и зерновые','cnt_checks_7_Крупы и зерновые', 'cnt_checks_8_Крупы и зерновые', 'cnt_checks_9_Крупы и зерновые', 'cnt_checks_10_Крупы и зерновые', 'cnt_checks_11_Крупы и зерновые', 'cnt_checks_12_Крупы и зерновые']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Крупы и зерновые','cnt_checks_7_Крупы и зерновые', 'cnt_checks_8_Крупы и зерновые', 'cnt_checks_9_Крупы и зерновые', 'cnt_checks_10_Крупы и зерновые', 'cnt_checks_11_Крупы и зерновые', 'cnt_checks_12_Крупы и зерновые'])
df['cnt_checks_Мясная гастрономия'] = df[['cnt_checks_6_Мясная гастрономия','cnt_checks_7_Мясная гастрономия', 'cnt_checks_8_Мясная гастрономия', 'cnt_checks_9_Мясная гастрономия', 'cnt_checks_10_Мясная гастрономия', 'cnt_checks_11_Мясная гастрономия', 'cnt_checks_12_Мясная гастрономия']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Мясная гастрономия','cnt_checks_7_Мясная гастрономия', 'cnt_checks_8_Мясная гастрономия', 'cnt_checks_9_Мясная гастрономия', 'cnt_checks_10_Мясная гастрономия', 'cnt_checks_11_Мясная гастрономия', 'cnt_checks_12_Мясная гастрономия'])
df['cnt_checks_Овощи - Фрукты'] = df[['cnt_checks_6_Овощи - Фрукты','cnt_checks_7_Овощи - Фрукты', 'cnt_checks_8_Овощи - Фрукты', 'cnt_checks_9_Овощи - Фрукты', 'cnt_checks_10_Овощи - Фрукты', 'cnt_checks_11_Овощи - Фрукты', 'cnt_checks_12_Овощи - Фрукты']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Овощи - Фрукты','cnt_checks_7_Овощи - Фрукты', 'cnt_checks_8_Овощи - Фрукты', 'cnt_checks_9_Овощи - Фрукты', 'cnt_checks_10_Овощи - Фрукты', 'cnt_checks_11_Овощи - Фрукты', 'cnt_checks_12_Овощи - Фрукты'])
df['cnt_checks_Птица и изделия из птицы'] = df[['cnt_checks_6_Птица и изделия из птицы','cnt_checks_7_Птица и изделия из птицы', 'cnt_checks_8_Птица и изделия из птицы', 'cnt_checks_9_Птица и изделия из птицы', 'cnt_checks_10_Птица и изделия из птицы', 'cnt_checks_11_Птица и изделия из птицы', 'cnt_checks_12_Птица и изделия из птицы']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Птица и изделия из птицы','cnt_checks_7_Птица и изделия из птицы', 'cnt_checks_8_Птица и изделия из птицы', 'cnt_checks_9_Птица и изделия из птицы', 'cnt_checks_10_Птица и изделия из птицы', 'cnt_checks_11_Птица и изделия из птицы', 'cnt_checks_12_Птица и изделия из птицы'])
df['cnt_checks_Рыба и рыбные изделия'] = df[['cnt_checks_6_Рыба и рыбные изделия','cnt_checks_7_Рыба и рыбные изделия', 'cnt_checks_8_Рыба и рыбные изделия', 'cnt_checks_9_Рыба и рыбные изделия', 'cnt_checks_10_Рыба и рыбные изделия', 'cnt_checks_11_Рыба и рыбные изделия', 'cnt_checks_12_Рыба и рыбные изделия']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Рыба и рыбные изделия','cnt_checks_7_Рыба и рыбные изделия', 'cnt_checks_8_Рыба и рыбные изделия', 'cnt_checks_9_Рыба и рыбные изделия', 'cnt_checks_10_Рыба и рыбные изделия', 'cnt_checks_11_Рыба и рыбные изделия', 'cnt_checks_12_Рыба и рыбные изделия'])
df['cnt_checks_Сыры'] = df[['cnt_checks_6_Сыры','cnt_checks_7_Сыры', 'cnt_checks_8_Сыры', 'cnt_checks_9_Сыры', 'cnt_checks_10_Сыры', 'cnt_checks_11_Сыры', 'cnt_checks_12_Сыры']].sum(axis=1)
df = df.drop(columns=['cnt_checks_6_Сыры','cnt_checks_7_Сыры', 'cnt_checks_8_Сыры', 'cnt_checks_9_Сыры', 'cnt_checks_10_Сыры', 'cnt_checks_11_Сыры', 'cnt_checks_12_Сыры'])

df = df.drop(columns=['client_id', 'rto_stddev_Рыба и рыбные изделия', 'rto_Рыба и рыбные изделия', 'cnt_checks_Рыба и рыбные изделия'])

Мы обновили набор данных, чтобы он работал как сумма всех коэффициентов из таблицы за определенный период времени. Это помогло нам сократить количество ненужных данных.

## Оценки


### Внутренняя Оценка

Мы решили разделить набор данных на несколько наборов, для этого мы использовали наиболее перспективный классификатор - `RandomTreeClassifier` 

In [None]:
inner_estimate: list = []
counter: int = 0

for i in range(100):
  inner_estimate.append(
    (f'in_est-{counter}', rn.choice([RandomForestClassifier(), GradientBoostingClassifier()]))
  )
  counter += 1


После этого мы организовали данные в форме двух выборок: X и y


In [None]:
X = df.drop(columns=['is_in_club'])
y = df['is_in_club']

И только после этого мы начали их изучать, превращая целые классификаторы в кластер

In [None]:
for i in range(0, 100):
  # Debug print
  print(f'--------------------\nMachine id is: {inner_estimate[i][0]}')
  
  # Getting specified data
  X = df.drop(columns=[
     rn.choice(['rto_Крупы и зерновые', 'rto_Мясная гастрономия',
                'rto_Овощи - Фрукты', 'rto_Птица и изделия из птицы',
                'rto_Сыры']),

     rn.choice(['rto_stddev_Крупы и зерновые', 'rto_stddev_Мясная гастрономия',
                'rto_stddev_Овощи - Фрукты', 'rto_stddev_Птица и изделия из птицы',
                'rto_stddev_Сыры']),

     rn.choice(['cnt_checks_Крупы и зерновые', 'cnt_checks_Мясная гастрономия',
                'cnt_checks_Овощи - Фрукты', 'cnt_checks_Птица и изделия из птицы', 'cnt_checks_Сыры']),
     'is_in_club'
  ])
  y = df['is_in_club']

  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state = 2020, stratify=y)

  # Learning them 
  inner_estimate[i][1].fit(X_train, y_train)
  y_pred = inner_estimate[i][1].predict(X_test)
  y_pred_log_reg = inner_estimate[i][1].predict_proba(X_test)
  print(f'{inner_estimate[i][0]} - Accurancy is: {accuracy_score(y_test, y_pred)}\n\n')
  counter += 1

--------------------
Machine id is: in_est-0
in_est-0 - Accurancy is: 0.9079681923857191


--------------------
Machine id is: in_est-1
in_est-1 - Accurancy is: 0.907760880188358


--------------------
Machine id is: in_est-2
in_est-2 - Accurancy is: 0.9078201122447469


--------------------
Machine id is: in_est-3
in_est-3 - Accurancy is: 0.9078793443011358


--------------------
Machine id is: in_est-4
in_est-4 - Accurancy is: 0.908027424442108


--------------------
Machine id is: in_est-5
in_est-5 - Accurancy is: 0.9080126164280108


--------------------
Machine id is: in_est-6
in_est-6 - Accurancy is: 0.9079681923857191


--------------------
Machine id is: in_est-7
in_est-7 - Accurancy is: 0.9079533843716219


--------------------
Machine id is: in_est-8
in_est-8 - Accurancy is: 0.907760880188358


--------------------
Machine id is: in_est-9
in_est-9 - Accurancy is: 0.9078793443011358


--------------------
Machine id is: in_est-10
in_est-10 - Accurancy is: 0.9076572240896773




Как это работает

После запуска код, прежде всего, выберет случайные столбцы для удаления. Он начинает обучение на разных наборах данных. Мы не понимаем, как предоставить им фрагмент данных

### Нестабильные оценки

Для работы с более изменчивыми данными мы использовали нестабильные модели. Они работают как селекторы `what if` и включены в основную оценку в одном элементе

In [None]:
unstable_estimate: list = []
counter: int = 0

for i in range(20):
    inner_estimate.append((f'unstable_est-{counter}', rn.choice([
       RandomForestClassifier(
        n_estimators=rn.randint(100, 1000), n_jobs=rn.randint(1, 10),
        criterion=rn.choice(['entropy', 'gini']), random_state=rn.randint(0, 40),
        learning_rate=float(rn.randit(1, 10))
        ),

       GradientBoostingClassifier(
        n_estimators=rn.randint(100, 1000), n_jobs=rn.randint(1, 10),
        criterion=rn.choice(['entropy', 'gini']),
        learning_rate=float(rn.randint(1, 10))
        )])
    ))

    counter += 1


NameError: ignored

Мы их не обучаем. Причина в том, что они нестабильны, поэтому каждое принятое ими решение должно быть уникальным.

## Построение

Основная оценка, которая будет включена в основной классификатор, конструируется с помощью классификаторов внутренней оценки и разделения

In [None]:
estimate = [
      ('m_est-0', ExtraTreesClassifier()),
      ('m_est-1', RandomForestClassifier()),
      ('m_cmx_est-1', VotingClassifier(inner_estimate.copy(), voting="soft")),
      ('m_cmx_est-2', VotingClassifier(inner_estimate.copy(), voting="soft")),
      ('m_cmx_un_est-1', VotingClassifier(unstable_estimate, voting="soft")),
]

Подготовка данных

In [None]:
X = df.drop(columns=['is_in_club'])
y = df['is_in_club']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50, random_state = 2020, stratify=y)

Построение основного VotingClassifier

In [None]:
mch = VotingClassifier(estimate, voting='soft')
mch.fit(X_train, y_train)
y_pred = mch.predict(X_test)
y_pred_log_reg = mch.predict_proba(X_test)

И получение оценок точности


In [None]:
accuracy_score(y_test, y_pred)