# <span style="color:Maroon">ПРОЕКТ: Восстановление золота из руды</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
В распоряжении данные с параметрами добычи и очистки, компания разрабатывает решения для эффективной работы промышленных предприятий.<br><br>    
<b>Цель данного проекта</b> - Необходимо построить модель машинного обучения, которая поможет предсказать коэффициент восстановления золота из золотосодержащей руды.<br><br>
<span style="color:Maroon"><b>1 Загрузить и подготовить данные:</b></span><br><br>
    <li>Проверить, что эффективность обогащения рассчитана правильно;
    <li>Проверить состав предоставленных выборок;
    <li>Проверить данные на наличие пропусков;
    <li>Провести восстановление пропусков;
    <li>Проанализировать результаты.<br><br>
<span style="color:Maroon"><b>2 Проанализировать данные:</b></span><br><br>
    <li>Посмотреть, как меняется концентрация металлов (Au, Ag, Pb) на различных этапах очистки;
    <li>Сравнить распределения размеров гранул сырья на обучающей и тестовой выборках;
    <li>Исследовать суммарную концентрацию всех веществ на разных стадиях: в сырье, в черновом и финальном концентратах;
    <li>Сделать выводы.<br><br>
<span style="color:Maroon"><b>3 Обучить модель и выбрать лучшую:</b></span><br><br>
    <li>Напишите функцию для вычисления итоговой sMAPE;
    <li>Обучите разные модели;
    <li>Подобрать для моделей оптимальные гиперпараметры;
    <li>Оценить качество моделей кросс-валидацией;
    <li>Выбрать лучшую модель
    <li>Сделать выводы.<br><br>
<span style="color:Maroon"><b>4 Тестирование лучшей модели:</b></span><br><br>
    <li>Проверить модель на тестовой выборке;
    <li>Проанализировать предсказания выбранной модели;
    <li>Написать выводы и обосновать выбор.
</div>

In [1]:
# библиотеки
import re
import pandas as pd 
import numpy as np
import seaborn as sns
import warnings 
from matplotlib import pyplot as plt
from time import time

# обработка
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler

# модели
from sklearn.linear_model import Lasso
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.dummy import DummyRegressor
from sklearn.tree import DecisionTreeRegressor
from lightgbm import LGBMRegressor

# метрики
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import make_scorer
from sklearn.impute import KNNImputer

# настройки и параметры
from tqdm import notebook
pd.set_option('display.max_columns', None)
warnings.filterwarnings('ignore')


<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
создам стиль для отображения табличных данных
</div>

In [None]:
cell_hover     = {'selector': 'td:hover',
                  'props'   : [('background', '#9E4447'), 
                               ('color', '#ffffff')]}           # формат выделенной ячейки

row_hover      = {'selector': 'tr:hover',
                  'props'   : [('background', '#808080'), 
                               ('color', '#ffffff')]}           # формат выделенной строки

color_row_even = {'selector': 'tr:nth-of-type(even)',
                  'props'   : [('background', '#D9D9D9'),
                               ('color', 'black')]}             # формат нечетных строк

color_row_odd  = {'selector': 'tr:nth-of-type(odd)',
                  'props'   : [('background', '#ffffff'),
                               ('color', '#363636')]}           # формат четных строк

index_names    = {'selector': 'th',
                  'props'   : [('background', '#363636'), 
                               ('color', '#ffffff'),  
                               ('text-align','center')]}        # формат заголовка и индекса

border_inner   = {'selector': 'td',
                  'props'   : [('border','1px dashed #363636')]}# формат границы таблицы

border_outer   = {'selector': '',
                  'props'   : [('border','2px solid #363636')]} # формат границы таблицы

caption        = {'selector': 'caption',
                  'props'   : [('color', '#363636'), 
                               ('font-size', '15px')]}

# передаю в переменную для дальнейшего использования
styler = [cell_hover, color_row_even, color_row_odd, index_names, row_hover, border_inner, border_outer, caption]

## <span style="color:Maroon">Загрузка и подготовка данных</span>

### <span style="color:Maroon">Загрузка данных</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Загрузим данные и познакомимься с их содержимым
</div>

In [None]:
try:
    data_train = pd.read_csv('/datasets/gold_recovery_train_new.csv')
    data_test  = pd.read_csv('/datasets/gold_recovery_test_new.csv ')
    data_full  = pd.read_csv('/datasets/gold_recovery_full_new.csv .csv')
except:
    data_train = pd.read_csv('gold_recovery_train_new.csv')
    data_test  = pd.read_csv('gold_recovery_test_new.csv')
    data_full  = pd.read_csv('gold_recovery_full_new.csv')

In [None]:
data_flow      = [data_train, data_test, data_full]
data_flow_name = ['data_train', 'data_test', 'data_full']

STAGE  = ['rougher', 'primary_cleaner', 'final', 'secondary_cleaner']
METAL  = ['ag', 'au', 'pb', 'sol']
TYPE   = ['calculation', 'input', 'state', 'output']
SAMPLE = [data_train, data_test, data_full]
TARGET = ['rougher_output_recovery', 'final_output_recovery']
RANDOM = 1123581321

In [None]:
for name, data in enumerate(data_flow):
    display(data.head(5).style\
                        .set_caption(f'Набор данных {data_flow_name[name]}')\
                        .set_table_styles(styler))
    display(data.info())
    print('='*100)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
При знакомстве с выборками были обнаружены следующие проблемы:<br>    
<li>Наличие пропусков;
<li>Формат записи признаков через точку;
<li>Отсутствие прзнаков в выборке data_test;
<li>Признак date, необходимо задать тип времени и принять его как индекс во всех датафрейм
</div>

### <span style="color:Maroon">Изменение типа данных</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Все признаки в датафреймах являются числовыми, кроме признака date, я думаю что это ключевой признак по которому необходимо будет обращаться из одной выборки в другую, для этого необходимо изменить тип данных и задать его как индекс во всех выборках. Для этого я подготовлю функию, которая будет на вход принимать признак, менять формат на временной и задаст его как индекс
</div>

In [None]:
def index_to_date(data, column_name):
    data[column_name] = pd.to_datetime(data[column_name], format="%Y-%m-%d %H:%M:%S")
    data = data.set_index(column_name)
    return data

In [None]:
data_train = index_to_date(data_train, 'date')
data_test  = index_to_date(data_test, 'date') 
data_full  = index_to_date(data_full, 'date') 

### <span style="color:Maroon">Переименование признаков</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Название признаков выполнено по формату <b>[этап].[тип_параметра].[название_параметра]</b> пример <b>rougher.input.feed_ag</b>
<br><br>Возможно для записи этот формат необходим, но для работы не удобен, переведу название признаков в удобный "питонский формат", для этого напишу функцию которая на вход принимает название признака и переводит его в необходимый формат записи
</div>

In [None]:
def columns_rename(data):
    columns_new = []
    for column in data.columns:
        columns_new.append(column.replace('.', '_'))
    data.columns = columns_new
    return data

In [None]:
data_train = columns_rename(data_train)
data_test  = columns_rename(data_test)
data_full  = columns_rename(data_full) 

### <span style="color:Maroon">Утечка признаков</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
В выборках разный набор признаков, он отличается только в датасете <b>data_test</b>, что свидетелсьтвует о том, что эти признаки исключены из тестовой выборки для того чтобы не произошла утечка этих признаков во премя подготовки модели и ее обучении. Посмотри на состав этих признаков в количестве 34 шт.
</div>

In [None]:
pd.DataFrame(sorted(list(set(data_train.columns) - set(data_test.columns))),
                 columns = ['feauters_leak']).style\
                                             .set_caption('Информация по утечке признаков')\
                                             .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Предварительный просмотр данных на примере полной выборки
</div>

In [None]:
data_full.head().style.format('{:.2f}').set_caption('Предварительный просмотр данных').set_table_styles(styler)

### <span style="color:Maroon">Проверка расчета эффективности</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Необходимо проверить правильность расчет эффективносит обогощения руды, значения которые храняться в прзнаке <b>recovery</b>, для этого надо немного поргузиться в технологический процес и изучить стадии. Ниже представленна информация о стадии техпроцесса
</div>

![process.png](attachment:process.png)

# $$RECOVERY = \frac{C*(F-T)}{F*(C-T)}*100\%$$

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Для прогноза коэффициента нужно найти долю золота в концентратах и хвостах. Причём важен не только финальный продукт, но и черновой концентрат.<br>    
Проверим расчеты в таблице и оценим ее метрикой <b>MAE (mean_absolute_error)</b>
</div>

In [None]:
# ГДЕ:
scores      =  []
predictions =  []
for stage in ['rougher', 'final']:
    C = data_full[f'{stage}_output_concentrate_au']                  # доля золота в концентрате после флотации/очистки;
    F = data_full['rougher_input_feed_au']                           # доля золота в сырье/концентрате до флотации/очистки;
    T = data_full[f'{stage}_output_tail_au']                         # доля золота в отвальных хвостах после флотации/очистки.
    
    recovery_target  = data_full[f'{stage}_output_recovery']         # информация по расчету из выборки
    predictions      = ((C * (F - T)) / (F * (C - T)) * 100)         # расчет эффективности через формулу  
    scores.append(mean_absolute_error(recovery_target, predictions)) # расчет MAE для оценки расчета recovery
    
data_info = pd.DataFrame(scores,
                         columns = ['MAE'],
                         index   = ['rougher', 'final'])
data_info.style\
         .set_caption('Проверка расчета Recovery',)\
         .format('{:.2%}')\
         .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Проверка проведена, ошибок в расчатах метрики не обнаружено
</div>

### <span style="color:Maroon">Замена пропусков</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Проверю сразу на предмет пропусков два целевых признака
</div>

In [None]:
data_full.filter(like = 'recovery').isna().sum()

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Проверка количества пропусков в выборке <b>data_test</b>
</div>

In [None]:
columns_name = []

for column in data_test.columns:
    
    if (data_test[column].isna().sum() / len(data_test)) !=0:
        columns_name.append([column, data_test[column].isna().sum() / len(data_test)])
        
data_info = pd.DataFrame(columns_name, columns = ["features", 'miss_data'])

data_info.style\
         .set_caption('Проверка количества пропусков в выборке Test',)\
         .format({'miss_data':'{:.2%}'})\
         .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Как видно из таблицы пропуски присутствуют в небольшом количестве во многих признаках, для заполнения пропусков буду использовать метод <b>ffill</b>  
</div>

In [None]:
data_test = data_test.fillna(method = 'ffill')
data_full = data_full.fillna(method = 'ffill')

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Проверка количества пропусков в выборке <b>data_train</b>
</div>

In [None]:
columns_name = []

for column in data_test.columns: # проверяю на основании списка названий признаков в наборе data_test
    if (data_train[column].isna().sum() / len(data_train)) !=0:
        columns_name.append([column, data_train[column].isna().sum() / len(data_train)])
        
data_info = pd.DataFrame(columns_name, columns = ["features", 'miss_data'])

data_info.style\
         .set_caption('Проверка количества пропусков в выборке Train',)\
         .format({'miss_data':'{:.2%}'})\
         .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
В данной выборке тоже достаточно признаков которые имеют пропуски, в данном случае я буду использовать метод <b>K-nearest neighbor</b> для замены отсутствующих значений в наборах данных средним значением ближайших соседей параметра <b>«n_neighbors = 3»</b>, найденных в обучающем наборе. Заменять пропуски будут только в тех признаках которые будут учавствовать в обучении и тестировании моделей
</div>

In [None]:
imputer = KNNImputer(n_neighbors = 3, weights = "uniform")
data_train[data_test.columns] = imputer.fit_transform(data_train[data_test.columns])

In [None]:
print(f'Количество пропусков в тренировочной выборке:'
      f' {data_train[data_test.columns].shape[0] - data_train[data_test.columns].dropna().shape[0]}')
print(f'Количество пропусков в тестовой выборке     :'
      f' {data_test.shape[0] - data_test.dropna().shape[0]}')
print(f'Количество пропусков в общей выборке        :'
      f' {data_full.shape[0] - data_full.dropna().shape[0]}')

<div style="background-color:gray; border:solid #363636 2px; padding: 20px">  
    
<span style="color:white">**Выводы:**</span><br> 
   
<span style="color:white">
    
<li>Данные загружены проблем по составу информации обнаружены;
<li>Изменен индекс и переведен в тип дата;
<li>Изменены названия признаков;
<li>Найденные пропуски устранены;
<li>Проанализирован состав признаков;    
<li>Можно переходить к анализу данных.
</span>
</div>

## <span style="color:Maroon">Анализ данных</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Посмотрим как меняется концентрация металлов на разных стадиях очистки. Для этого предварительно подготовлю матрицу необходимых признаков
</div>

In [None]:
features_input_concentrate = [['rougher_input_feed_sol',
                               'rougher_input_feed_pb',
                               'rougher_input_feed_au',
                               'rougher_input_feed_ag',
                             ]]
j = 0
for i in range(4,13,4):
    features_input_concentrate.append(sorted(data_full.filter(like = 'concentrate_'),reverse = True)[j:i])
    j = i
    
pd.DataFrame(features_input_concentrate, 
             columns = ['sol', 'plumbum', 'aurum', 'argentum'], 
             index   = ['raw', 'rougher', 'primary', 'final'])\
  .style\
  .set_caption('Выборка по составу металлов',)\
  .set_table_styles(styler)

### <span style="color:Maroon">Изменение концентрации металлов по фазам</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Создам гистограмму рапределения по фазам техпроцесса для каждого из металло, в выборке учавствует три металла: свинец, золото и серебро
</div>

In [None]:
data_info = pd.DataFrame(features_input_concentrate, 
                         columns = ['sol', 'plumbum', 'aurum', 'argentum'], 
                         index   = ['raw', 'rougher', 'primary', 'final'])

plt.figure(figsize = (15,6))
sns.set_style('whitegrid')

for i, metal in enumerate(data_info.columns[1:]):
    
    plt.subplot(1, 3, i + 1)
    sns.barplot(data       = data_full[data_info[metal]],
                estimator  = np.median,
                palette    = 'Reds', 
                saturation = 0.5, 
                linewidth  = 3,
                edgecolor  = '#444444')
    
    plt.xticks(range(4),data_info.index, fontsize = 14)
    plt.title(metal, fontsize = 16)
    plt.ylabel('concentrate,%', fontsize = 12)
    plt.ylim(0,50)
    
plt.show(close = True)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Как видно из представленной информации выше, концентрация свинца неюного увеличивается от фазы к фазе, но все равно остается очень низкой мене 10%. По-другому обстоят дела с концентрацией серебра, так после флотации концентрация увеличивается, но потом к финалу падает вдвое, хотя так же изначальная концентрация минимальна. Ну и конечно ярко выраженная динамика увеличения концентрации золота по фазам, это объясняется в принципе заточенный техпроцесс именно на этот метал, хотя показательным является тот факт, что даже на финальной стадии концентрация не достигает 50%
</div>

### <span style="color:Maroon">Суммарная концентрация металлов по фазам</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Посмотрим на то как распределяется суммарная концентрация металлов по фазам
</div>

In [None]:
plt.figure(figsize = (15, 10))
sns.set_style('whitegrid')
x = ['raw', 'rougher', 'primary', 'final']

for i, stage in enumerate(features_input_concentrate):
    
    plt.subplot(2, 2, i + 1)
    sns.histplot(data = data_full[stage].sum(1),
                 color = '#9E4447',
                 element="step",
                 bins = 100)
    
    plt.title(f'{x[i]}', fontsize = 16);
    plt.ylabel('spread', fontsize = 14)
    
plt.show(close = True)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Как видно из представленной информации выше, концентрация металлов от фазы к фазе изменяет форму "колокола" распределения и становиться все выше и уже, т. е. это говорит о том, что отклонений становится все меньше и состав металлов на худится на требуемом уровне.<br><br>    
В графике обнаружены аномалии в данных, очень сильно заметные на фазе флотации и первичной очистки в районе 0. Такого не может быть, потому что от фазы к фазе концентрации только увеличивается и уж тем более не может увеличиваться в районе 0. Необходимо убрать эти данные т. к. я считаю, что это ошибки либо в выгрузке данных, либо ошибки измерения концентрации.
</div>

In [None]:
# задам условие что если сумма концентрации ниже 1
x = ['raw', 'rougher', 'primary', 'final']
data_info  = []

for i, summary in enumerate(features_input_concentrate):    
    data_info.append([x[i], len(data_full[data_full[summary].sum(1) < 1].index)]) 
    
pd.DataFrame(data_info, columns = ['stage', 'data_outliers'])\
            .style\
            .set_caption('Проверка количества выбросов в данных',)\
            .set_table_styles(styler)

In [None]:
for summary in features_input_concentrate:
    data_test  = data_test[data_full.loc[data_test.index][summary].sum(1) >= 1]
    data_train = data_train[data_train[summary].sum(1) >= 1]
    data_full  = data_full[data_full[summary].sum(1) >= 1] 

In [None]:
#проверю изменение состава выборок
for data in [data_train, data_test, data_full]:
    display(data.shape)

In [None]:
plt.figure(figsize = (15, 10))
sns.set_style('whitegrid')
x = ['raw', 'rougher', 'primary', 'final']

for i, stage in enumerate(features_input_concentrate):
    
    plt.subplot(2, 2, i + 1)
    sns.histplot(data = data_full[stage].sum(1),
                 color = '#444444',
                 element="step",
                 bins = 100)
    
    plt.title(f'{x[i]}', fontsize = 16);
    plt.ylabel('spread', fontsize = 14)
    
plt.show(close = True)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Теперь графики выглядят лучше, без видимых выбросов
</div>

### <span style="color:Maroon">Распределение размеров гранул сырья </span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Необходимо проверить если распределения сильно отличаются друг от друга, оценка модели будет неправильной. Создам датафрейм для построения графика распределения
</div>

In [None]:
data_info = pd.DataFrame()
samples   = [data_train, data_test]
columns   = sorted(data_train.filter(like = 'size').columns, reverse = True)
stage     = ['train', 'test']

for i,data in enumerate(samples):
    
    for column in columns:
        
        data_info = data_info.append(\
                              data[column]\
                             .to_frame()\
                             .rename(columns = {column : 'feed_size'})\
                             .assign(stage = column.split('_')[0], sample = stage[i]))
        
data_info.reset_index().head(10)\
                       .style\
                       .format({'feed_size':'{:.2f}'})\
                       .set_caption('Таблица для построения распределения размера гранул',)\
                       .set_table_styles(styler)

In [None]:
plt.figure(figsize=(15, 9))
plt.title('stage', fontsize=16)
sns.set_style('whitegrid')
y_lim =((0, 130), (4,11))

for i, j in enumerate(["rougher", "primary"]):
    
    plt.subplot(1, 2, i + 1)   
    sns.violinplot(x = "stage", 
                   y = "feed_size", 
                   hue = "sample",
                   data = data_info[data_info['stage'] == j],
                   palette    = 'Reds', 
                   saturation = 0.5, 
                   linewidth  = 3,
                   edgecolor  = '#444444',
                   split = True)
    
    plt.title(f'{j} stage', fontsize = 16);
    plt.ylim(y_lim[i])
    plt.ylabel('feed size ', fontsize = 18)
    plt.xlabel('')
    plt.xticks(range(1),[''])
    plt.legend(fontsize = 12)
    
plt.show()

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Информация по размерам гранул сырья есть для флотации и для первичной оценки, так же они разбиты на обучающую и тестовую, информация по их распределению представлена выше. Как видно распределение визуально выглядят симметрично, что говорит похожем соответствии выборок для обучения и тестирования. Немного хуже выглядит график для флотации, но не думаю что это критично для построения модели
</div>

<div style="background-color:gray; border:solid #363636 2px; padding: 20px">  
    
<span style="color:white">**Выводы:**</span><br> 
   
<span style="color:white">
    
<li>Данные проанализированы;
<li>Данные очищены от выбросов; 
<li>Сделаны предварительные выводы;
<li>Можно переходить поиску и обучению моделей.
</span>
</div>

## <span style="color:Maroon">Обучение модели и выбор лучшей</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Основной задачей текущего проекта является прогноз эффективности обогащения на основании фактических данных. Необходимо подготовить модель, которая способна с высокой долей вероятности прогнозировать концентрацию золота. Целевой признак в моей задаче количественный, и для расчета необходимо учитывать два признака на стадии флотации и на финальном этапе данные которых находятся в признаках  <b>rougher_output_recovery, final_output_recovery</b>, соответственно буду использовать модель для регрессии <b>DecisionTreeRegressor, RandomForestRegressor, ExtraTreesRegressor, Lasso, LinearRegression</b> в рамках предсказания, где целевой признак концентрация золота. Подбор параметров буду производить с помощью <b>GridSearchCV</b>. Выбор модели на основании метрики с предельно большим значением <b>sMAPE</b>, которую необходимо создать самостоятельно. Ниже представлены формулы для расчета метрики
</div>


# $$fsMAPE = \frac{1}{N}\sum_{i=1}^{N}{\frac{|Y_i - \bar{Y}_i|}{(|Y_i|+|\bar{Y}_i|) / 2}} * 100\%$$

# $$fsMAPE = 25\%*sMAPE(rougher) + 75\%*sMAPE(final)$$

### <span style="color:Maroon">Подготовка метрики sMAPE </span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
На основании формул указаных выше, составляю функцию для расчета метрики и передаю ее с помощью метода <b>make_scorer</b> как кастомный скорер для оценки модели
</div>

In [None]:
def symmetric_mean_absolute_percentage_error(y_true, y_pred): 
    
    def smape(target,predict): 
        return (1 / len(target)) * sum(np.abs(target - predict)/ ((np.abs(target) + np.abs(predict)) / 2)) * 100
    
    y_true = np.array(y_true)
    
    smape_rougher = smape(y_true[:,1], y_pred[:,1])
    
    smape_final   = smape(y_true[:,0], y_pred[:,0])
    
    return 0.25 * smape_rougher + 0.75 * smape_final

In [None]:
SMAPE = make_scorer(symmetric_mean_absolute_percentage_error, greater_is_better = False)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Разделю выборку на признаки и целевой признак, т.к. признаки имеют тип данных float и различаются по масштабу, сразу проведу масштабирование этих признаков с помощью <b>StandardScaler()</b>
</div>

In [None]:
features_train = data_train[data_test.columns]
target_train   = data_train.filter(like = 'recovery')

In [None]:
scaler = StandardScaler()
scaler.fit(features_train)    
features_train = scaler.transform(features_train)

### <span style="color:Maroon">Модели с базовыми параметрами </span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Перебирать все модели с параметрами я буду с помощью <b>GridSearchCV</b>, для этого подготовлю два списка с моделями <b>regressors</b> и с гиперпараметрами для этих моделей <b>parameters</b>. Для начала я решил проверить все модели на базовых гиперпараметрах, чтобы в дальнейшем можно было увидеть динамику изменения качества моделей, для оценки качества моделей выбираю 5 фолдов для кросс-валидации в настройках Grid
</div>

In [None]:
regressors = [LinearRegression(),
              Lasso(random_state = RANDOM),
              DecisionTreeRegressor(random_state = RANDOM),
              ExtraTreesRegressor(random_state = RANDOM),
              RandomForestRegressor(random_state = RANDOM)]

In [None]:
parameters = [{}] * len(regressors)

In [None]:
scores_base = [['Linear Regression', -10.06594012740744, 0.15321850776672363, {}],
               ['Lasso', -8.625199356073605, 0.3419657230377197, {}],
               ['Decision Tree Regressor', -14.533426202714091, 0.8597116947174073, {}],
               ['Extra Trees Regressor', -8.933783279894774, 10.044495773315429, {}],
               ['Random Forest Regressor', -9.155858598610378, 48.54978194236755, {}]]

In [None]:
pd.DataFrame(data    = scores_base, 
             columns = ['model', 'smape', 'mean_fit_time', 'parameters'])\
            .sort_values('smape', ascending = False)\
            .reset_index(drop = True)\
            .style\
            .format({'smape':'{:.2f}', 'mean_fit_time' : '{:,.2f}s'})\
            .set_caption(f'Результаты моделей на базовых параметрах',)\
            .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Как видно из сводных данных выше, на базовых настройках лучший результат и по качеству метрики и по скорости рассчета у модели <b>Lasso</b>, недалеко от нее модель <b>Extra Trees Regressor</b>, но сильно уступает по времени обработки, что может быть критично для больших массивов данных
</div>

### <span style="color:Maroon">Подбор гиперпараметров </span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Далее буду перебрать параметры для моделей и на основании показателей качества моделей выберу лучшую
</div>

In [None]:
parameters = [{                                           },
              
              {'selection'    : ['cyclic', 'random'],
               'max_iter'     : [1000]}, 
              
              {'criterion'    : ['friedman_mse', 'poisson'],
               'max_depth'    : list(range(1,11))},
              
              {'n_estimators' : list(range(10,101,10)),
               'max_depth'    : list(range(1,11))},
              
              {'n_estimators' : list(range(10,101,10)),
               'max_depth'    : list(range(1,11))}        ]

In [None]:
scores_param = \
    [['Linear Regression', -10.065940127407446, 1.299419641494751, {}],
     ['Lasso', -8.625144515400546, 6.498683214187622,{'max_iter': 1000, 'selection': 'random'}],
     ['Decision Tree Regressor', -8.88587560791752, 38.834084272384644,{'criterion': 'friedman_mse', 'max_depth': 1}],
     ['Extra Trees Regressor', -8.445925052089708, 444.099880695343, {'max_depth': 5, 'n_estimators': 70}],
     ['Random Forest Regressor', -8.719239403417578, 5246.102777481079, {'max_depth': 4, 'n_estimators': 80}]]

In [None]:
pd.DataFrame(data    = scores_param, 
             columns = ['model', 'smape', 'time', 'parameters'])\
            .sort_values('smape', ascending = False)\
            .reset_index(drop = True)\
            .style\
            .format({'smape':'{:.2f}', 'time' : '{:,.2f}s'})\
            .set_caption(f'Результаты поиска лучшей модели с подбором гиперпараметров',)\
            .set_table_styles(styler)

<div style="background-color:gray; border:solid #363636 2px; padding: 20px">  
    
<span style="color:white">**Выводы:**</span><br> 
   
<span style="color:white">
    
Как видно из сводных данных выше, двойку лучших моделей также занимают те же самые модели, но лидер поменялся, на первое место вышла модель <b>Extra Trees Regressor</b> с лучшими показателями по качеству метрики, но как и на предыдущем этапе значитьельно уступает по скорости работы алгоритма модели <b>Lasso</b>. На данном этапе необходимо выбрать лучшую модель, но выбор неочевиден, т.к. качество по метрики модели не сильно отличаются а вот по скорости решения задачи лидер ярко выражен. Но есть и неоднозначные показатели дерево улучшило свои показатели с предыдущего этапа, хотя и не сильно, а вот Lasso осталось на том же уровне, я предлагю выбрать две модели на следующий этап там уже финально выбрать модель на тестовом наборе, где надеюсь будет очевиден лидер и качество моделей будет различаться в большей степени
</span>
</div>

## <span style="color:Maroon">Тестирование лучшей модели</span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Тестирование модели буду проводить на выборке <b>data_test</b>, так же предварительно решив вопрос с масштабирование признаков. Для моделей указываю лучшие параметры с предыдущего этапа
</div>

In [None]:
features_test = scaler.transform(data_test)

### <span style="color:Maroon">Тестирование моделей </span>

In [None]:
models = [Lasso(random_state = RANDOM, max_iter = 1000, selection = 'random'),
          ExtraTreesRegressor(random_state = RANDOM, max_depth = 5, n_estimators = 70)]

In [None]:
scores_final = []
data_info    = pd.DataFrame()
x = ['Lasso', 'Extra Trees Regressor']
for i, model in enumerate(models):  
    
    model.fit(features_train, target_train)
    predictions = model.predict(features_test)
    target_test = data_full.loc[data_test.index].filter(like = 'recovery')
    score       = symmetric_mean_absolute_percentage_error(target_test, predictions)
    
    data_info = data_info.append(pd.DataFrame(predictions).assign(model  = x[i], sample = 'predict'))
    
    data_info = data_info.append(target_test.rename(columns = {'final_output_recovery' : 0, 'rougher_output_recovery' : 1})\
                                            .assign(model = x[i], sample = 'true'))
    
    scores_final.append([' '.join(re.sub(r'([A-Z])', r' \1', str(model).split('(')[0]).split()), -score])
    
data_info = data_info.rename(columns = {0: 'final', 1 :'rougher'}).reset_index(drop = True)

In [None]:
pd.DataFrame(data = np.array(scores_base)[:,:2],
             columns = ['model', 'smape_base'])\
            .assign(smape_param = np.array(scores_param)[:,1])\
            .merge(pd.DataFrame(scores_final, columns = ['model', 'smape_final']), on = 'model', how='outer')\
            .sort_values('smape_final', ascending = False)\
            .fillna(0)\
            .reset_index(drop = True)\
            .style\
            .format({'smape_base':'{:.2f}', 'smape_param':'{:.2f}', 'smape_final':'{:.2f}'})\
            .set_caption(f'Финальные разультаты подготовки модели',)\
            .set_table_styles(styler)

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Показатели качества моделей улучшилось на тестовой выборке, но вот разница в метрике моделей осталась на том же уровне. Можно сделать выбор на основании статистики показателей, но я бы предварительно хотел визуально провести осмотр предсказаний моделей, возможно там будет ответ на выбор модели.
</div>

### <span style="color:Maroon">Сравнение распределения предсказаний моделей </span>

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Предварительно создат датафрейм для построения графиков
</div>

In [None]:
data_info.head(10).style\
                  .format({'final':'{:.2f}', 'rougher':'{:.2f}'})\
                  .set_caption(f'Информация по моделям для каждого этапа',)\
                  .set_table_styles(styler)

In [None]:
plt.figure(figsize=(15, 9))
plt.title('stage', fontsize=16)
sns.set_style('whitegrid')
y_lim =((60, 100), (45, 80))

for i, j in enumerate(['rougher', 'final']):
    
    plt.subplot(1, 2, i + 1)   
    sns.violinplot(x = "sample", 
                   y = j, 
                   hue = "model",
                   data = data_info[data_info['sample'] == 'predict'],
                   palette    = 'Reds', 
                   saturation = 0.5, 
                   linewidth  = 3,
                   edgecolor  = '#444444',
                   split = True)
    
    plt.title(f'{j}_output_recovery', fontsize = 16);
    plt.ylim(y_lim[i])
    plt.ylabel('recovery', fontsize = 18)
    plt.xlabel('')
    plt.xticks(range(1),[''])
    plt.legend(fontsize = 12)
    
plt.show()

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Из графиков распределения предсказаний видно, что распределение предсказания и для флотации и финального этапа имеет форму не правильного распределения, распределения имеют сильную кривизну хотя в основном сосредоточены в одной области среднего значения. А вот для финальной концентрации выборки уже разнятся сильнее, дерево сильно усредняет данные, в то время как лассо старается определить значение показателя, как и в целевом распределении далее можно сравнить распределение моделей в сравнении с целевыми признаками.
</div>

### <span style="color:Maroon">Сравнение предсказаний моделей с целевым признаком </span>

In [None]:
plt.figure(figsize=(15, 15))
plt.title('stage', fontsize=16)
sns.set_style('whitegrid')
y_lim =((60, 100), (45, 90))
count = 0

for i, j in enumerate(['rougher', 'final']):
    
    for model in ['Lasso', 'Extra Trees Regressor']:
        count += 1
        plt.subplot(2, 2, count)   
        sns.violinplot(x = "model", 
                       y = j, 
                       hue = "sample",
                       data = data_info[data_info['model'] == model],
                       palette    = 'Reds', 
                       saturation = 0.5, 
                       linewidth  = 3,
                       edgecolor  = '#444444',
                       split = True)

        plt.title(f'{j}_recovery_{model}', fontsize = 14);
        plt.ylim(y_lim[i])
        plt.ylabel('recovery', fontsize = 14)
        plt.xlabel('')
        plt.xticks(range(1),[''])
        plt.legend(fontsize = 12)
    
plt.show()

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Из графиков видно как обе модели стараются сильно усреднить показатели предсказания что в итоге сильно заметно по форме распределения, так же заметен потолок в который упирается предсказания моделей, но лассо именно на финальной метрике все равно выглядит лучше показывая более правильное распределение, а так как в метрике 75% именно финального показателя за счет этго качество предсказания выше, хотя я думаю что исходя из визуального осмотра моделей при проверке на DummyRegressor показатели будут не намного хуже, скорее всего это особенность данного набора данных которые имеют много характеричтик, которые по отдельносит вносят незначительный весь при определении конечного результата и в то же время само распределение фактических показателей не имеет большого разброса, что тоже обусловлено спецификой производство где идет борьба за каждый процент концентрации золота. Перед окончательными выводами финально проверю модель на DummyRegressor
</div>

### <span style="color:Maroon">Проверка на адекватность </span>

In [None]:
model = DummyRegressor(strategy = 'mean')
model.fit(features_train, target_train)
predict_dummy = model.predict(features_test)
score_dummy   = symmetric_mean_absolute_percentage_error(target_test, predict_dummy)
print(f'показатель SMAPE на модели DummyRegressor: {-score_dummy:.2f}')

<div style="background-color:whitesmoke; border:solid #363636 1.5px; padding: 15px">
Предыдущие выводы были верными и показатели на DummyRegressor не сильно отличаются от показателей Lasso 7,78 против 7,14
</div>

<div style="background-color:gray; border:solid #363636 2px; padding: 20px">  
    
<span style="color:white">**Выводы:**</span>  
   
<span style="color:white">
    
- Предоставленные данные были проанализированны и подготовлены, для дальнейшей работы. В данных были обнаружены некоторые недочеты о которых было написно выше, можно остановиться только на одном моменте. В данных присутствовали аномальные значения которые предположительно появились в процессе замеров показателей, хотелось бы обратить внимание на этом моменте, т.к. возможно это разовый сбой, а возможно закономерные проблемы в техпроцессе
    
- Задача по подбору модели была выполнена, для этого в несколько этапов была произведена подготовка и проверка моделей на представленных данных, в итоге выбор был не совсем очевиден модели показывали ошибку в предсказаниях на уровне 7% но с огромной разницей во времени работы алгоритма, что для больших массивов данных может быть критично. Что по качеству модели то однозначно выбор должен быть в сторону модели **Lasso** с гиперпараметрами *max_iter = 1000, selection = 'random'*, что было подтверждено на графиках распределения, где распределение у модели дерева в значительной степени выглядит хуже модели Lasso, где последняя имет более правильную форму. Но модель ExtraTreesRegressor можно использовать как альтернативный вариант.
 
<span style="color:white">**Итог выбора:**</span>

- модель Lasso(max_iter = 1000, selection = 'random')
    
<span style="color:white">альтернативный вариант для эксперсс-оценки:</span>
    
*- модель ExtraTreesRegressor(max_depth = 5, n_estimators = 70)*
</span>
</div>