# Восстановление золота из руды

Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий.

Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используйте данные с параметрами добычи и очистки. 

Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Вам нужно:

1. Подготовить данные;
2. Провести исследовательский анализ данных;
3. Построить и обучить модель.

Чтобы выполнить проект, обращайтесь к библиотекам *pandas*, *matplotlib* и *sklearn.* Вам поможет их документация.

## Подготовка данных

In [1]:
#импортируем всё, что может понадобиться
import warnings
warnings.filterwarnings('ignore')

import pandas as pd 

import seaborn as sns

import matplotlib.pyplot as plt

import numpy as np

import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV 
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.dummy import DummyRegressor
from sklearn.metrics import make_scorer
from sklearn.model_selection import cross_val_score
import plotly.figure_factory as ff

In [2]:
#загрузим данные на любой платформе
try:
    df_train = pd.read_csv('gold_recovery_train_new.csv')
    df_test = pd.read_csv('gold_recovery_test_new.csv')
    df_full = pd.read_csv('gold_recovery_full_new.csv')
except:
    df_train = pd.read_csv('/datasets/gold_recovery_train_new.csv')
    df_test = pd.read_csv('/datasets/gold_recovery_test_new.csv')
    df_full = pd.read_csv('/datasets/gold_recovery_full_new.csv')
display(df_full.head())
display(df_train.head())
display(df_test.head())

Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-01-15 00:00:00,6.055403,9.889648,5.507324,42.19202,70.541216,10.411962,0.895447,16.904297,2.143149,...,14.016835,-502.488007,12.099931,-504.715942,9.925633,-498.310211,8.079666,-500.470978,14.151341,-605.84198
1,2016-01-15 01:00:00,6.029369,9.968944,5.257781,42.701629,69.266198,10.462676,0.927452,16.634514,2.22493,...,13.992281,-505.503262,11.950531,-501.331529,10.039245,-500.169983,7.984757,-500.582168,13.998353,-599.787184
2,2016-01-15 02:00:00,6.055926,10.213995,5.383759,42.657501,68.116445,10.507046,0.953716,16.208849,2.257889,...,14.015015,-502.520901,11.912783,-501.133383,10.070913,-500.129135,8.013877,-500.517572,14.028663,-601.427363
3,2016-01-15 03:00:00,6.047977,9.977019,4.858634,42.689819,68.347543,10.422762,0.883763,16.532835,2.146849,...,14.03651,-500.857308,11.99955,-501.193686,9.970366,-499.20164,7.977324,-500.255908,14.005551,-599.996129
4,2016-01-15 04:00:00,6.148599,10.142511,4.939416,42.774141,66.927016,10.360302,0.792826,16.525686,2.055292,...,14.027298,-499.838632,11.95307,-501.053894,9.925709,-501.686727,7.894242,-500.356035,13.996647,-601.496691


Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-01-15 00:00:00,6.055403,9.889648,5.507324,42.19202,70.541216,10.411962,0.895447,16.904297,2.143149,...,14.016835,-502.488007,12.099931,-504.715942,9.925633,-498.310211,8.079666,-500.470978,14.151341,-605.84198
1,2016-01-15 01:00:00,6.029369,9.968944,5.257781,42.701629,69.266198,10.462676,0.927452,16.634514,2.22493,...,13.992281,-505.503262,11.950531,-501.331529,10.039245,-500.169983,7.984757,-500.582168,13.998353,-599.787184
2,2016-01-15 02:00:00,6.055926,10.213995,5.383759,42.657501,68.116445,10.507046,0.953716,16.208849,2.257889,...,14.015015,-502.520901,11.912783,-501.133383,10.070913,-500.129135,8.013877,-500.517572,14.028663,-601.427363
3,2016-01-15 03:00:00,6.047977,9.977019,4.858634,42.689819,68.347543,10.422762,0.883763,16.532835,2.146849,...,14.03651,-500.857308,11.99955,-501.193686,9.970366,-499.20164,7.977324,-500.255908,14.005551,-599.996129
4,2016-01-15 04:00:00,6.148599,10.142511,4.939416,42.774141,66.927016,10.360302,0.792826,16.525686,2.055292,...,14.027298,-499.838632,11.95307,-501.053894,9.925709,-501.686727,7.894242,-500.356035,13.996647,-601.496691


Unnamed: 0,date,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-09-01 00:59:59,210.800909,14.993118,8.08,1.005021,1398.981301,-500.225577,1399.144926,-499.919735,1400.102998,...,12.023554,-497.795834,8.016656,-501.289139,7.946562,-432.31785,4.872511,-500.037437,26.705889,-499.709414
1,2016-09-01 01:59:59,215.392455,14.987471,8.08,0.990469,1398.777912,-500.057435,1398.055362,-499.778182,1396.151033,...,12.05814,-498.695773,8.130979,-499.634209,7.95827,-525.839648,4.87885,-500.162375,25.01994,-499.819438
2,2016-09-01 02:59:59,215.259946,12.884934,7.786667,0.996043,1398.493666,-500.86836,1398.860436,-499.764529,1398.075709,...,11.962366,-498.767484,8.096893,-500.827423,8.071056,-500.801673,4.905125,-499.82851,24.994862,-500.622559
3,2016-09-01 03:59:59,215.336236,12.006805,7.64,0.863514,1399.618111,-498.863574,1397.44012,-499.211024,1400.129303,...,12.033091,-498.350935,8.074946,-499.474407,7.897085,-500.868509,4.9314,-499.963623,24.948919,-498.709987
4,2016-09-01 04:59:59,199.099327,10.68253,7.53,0.805575,1401.268123,-500.808305,1398.128818,-499.504543,1402.172226,...,12.025367,-500.786497,8.054678,-500.3975,8.10789,-509.526725,4.957674,-500.360026,25.003331,-500.856333


In [3]:
# посмотрим на них. Будет TLDR, но зато всё одним разом
pd.set_option('display.max_rows', None) #датафрейм большой, сделаем, чтобы смотрелись все столбцы
names= [df_train, df_test, df_full]
names2= ['df_train', 'df_test', 'df_full']
def info_func(names):
    for name in names:
        df_temp = pd.DataFrame(name)
        display(df_temp.head(10))
        display(df_temp.info())
        display('Кол-во дублей:', df_temp.duplicated().sum())
        display('Кол-во НАНов:', df_temp.isna().sum())
        display('Статистика:', df_temp.describe(),
              '=======================================================================================================')
    return
info_func(names)

Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-01-15 00:00:00,6.055403,9.889648,5.507324,42.19202,70.541216,10.411962,0.895447,16.904297,2.143149,...,14.016835,-502.488007,12.099931,-504.715942,9.925633,-498.310211,8.079666,-500.470978,14.151341,-605.84198
1,2016-01-15 01:00:00,6.029369,9.968944,5.257781,42.701629,69.266198,10.462676,0.927452,16.634514,2.22493,...,13.992281,-505.503262,11.950531,-501.331529,10.039245,-500.169983,7.984757,-500.582168,13.998353,-599.787184
2,2016-01-15 02:00:00,6.055926,10.213995,5.383759,42.657501,68.116445,10.507046,0.953716,16.208849,2.257889,...,14.015015,-502.520901,11.912783,-501.133383,10.070913,-500.129135,8.013877,-500.517572,14.028663,-601.427363
3,2016-01-15 03:00:00,6.047977,9.977019,4.858634,42.689819,68.347543,10.422762,0.883763,16.532835,2.146849,...,14.03651,-500.857308,11.99955,-501.193686,9.970366,-499.20164,7.977324,-500.255908,14.005551,-599.996129
4,2016-01-15 04:00:00,6.148599,10.142511,4.939416,42.774141,66.927016,10.360302,0.792826,16.525686,2.055292,...,14.027298,-499.838632,11.95307,-501.053894,9.925709,-501.686727,7.894242,-500.356035,13.996647,-601.496691
5,2016-01-15 05:00:00,6.482968,10.049416,5.480257,41.633678,69.465816,10.182708,0.664118,16.999638,1.918586,...,13.938497,-500.970168,11.88335,-500.395298,10.054147,-496.374715,7.965083,-499.364752,14.017067,-599.707915
6,2016-01-15 06:00:00,6.533849,10.058141,4.5691,41.995316,69.300835,10.304598,0.807342,16.723575,2.058913,...,14.046819,-500.971133,12.091543,-500.501426,10.003247,-497.08318,8.01089,-500.002423,14.029649,-600.90547
7,2016-01-15 07:00:00,6.130823,9.935481,4.389813,42.452727,70.230976,10.443288,0.949346,16.689959,2.143437,...,13.974691,-501.819696,12.101324,-500.583446,9.873169,-499.171928,7.993381,-499.794518,13.984498,-600.41107
8,2016-01-15 08:00:00,5.83414,10.071156,4.876389,43.404078,69.688595,10.42014,1.065453,17.201948,2.209881,...,13.96403,-504.25245,12.060738,-501.174549,10.033838,-501.178133,7.881604,-499.729434,13.967135,-599.061188
9,2016-01-15 09:00:00,5.687063,9.980404,5.282514,43.23522,70.279619,10.487013,1.159805,17.483979,2.209593,...,13.989632,-503.195299,12.052233,-500.928547,9.962574,-502.986357,7.979219,-500.146835,13.981614,-598.070855


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14149 entries, 0 to 14148
Data columns (total 87 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   date                                                14149 non-null  object 
 1   final.output.concentrate_ag                         14148 non-null  float64
 2   final.output.concentrate_pb                         14148 non-null  float64
 3   final.output.concentrate_sol                        13938 non-null  float64
 4   final.output.concentrate_au                         14149 non-null  float64
 5   final.output.recovery                               14149 non-null  float64
 6   final.output.tail_ag                                14149 non-null  float64
 7   final.output.tail_pb                                14049 non-null  float64
 8   final.output.tail_sol                               14144 non-null  float64


None

'Кол-во дублей:'

0

'Кол-во НАНов:'

date                                                     0
final.output.concentrate_ag                              1
final.output.concentrate_pb                              1
final.output.concentrate_sol                           211
final.output.concentrate_au                              0
final.output.recovery                                    0
final.output.tail_ag                                     0
final.output.tail_pb                                   100
final.output.tail_sol                                    5
final.output.tail_au                                     0
primary_cleaner.input.sulfate                           20
primary_cleaner.input.depressant                        32
primary_cleaner.input.feed_size                          0
primary_cleaner.input.xanthate                         100
primary_cleaner.output.concentrate_ag                    0
primary_cleaner.output.concentrate_pb                   86
primary_cleaner.output.concentrate_sol                 2

'Статистика:'

Unnamed: 0,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,primary_cleaner.input.sulfate,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
count,14148.0,14148.0,13938.0,14149.0,14149.0,14149.0,14049.0,14144.0,14149.0,14129.0,...,14143.0,14148.0,14148.0,14148.0,14148.0,14148.0,14148.0,14148.0,14147.0,14148.0
mean,5.142034,10.13296,9.202849,44.003792,66.518832,9.607035,2.597298,10.512122,2.918421,133.320659,...,19.985454,-478.696836,15.487065,-460.229416,16.775136,-483.956022,13.06459,-483.966564,19.577539,-506.79848
std,1.369586,1.65493,2.790516,4.905261,10.295402,2.319069,0.971843,3.003617,0.903712,39.431659,...,5.657723,50.736021,5.255655,58.843586,5.831906,37.892788,5.765617,39.207913,5.764417,37.079249
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.003112,...,0.0,-799.709069,0.0,-799.889113,-0.372054,-797.142475,0.646208,-800.00618,0.195324,-809.398668
25%,4.21162,9.297355,7.484645,43.276111,62.545817,7.997429,1.905973,8.811324,2.368607,107.006651,...,14.990775,-500.628656,11.894558,-500.149,11.08398,-500.363177,8.994405,-500.105994,14.989304,-500.745104
50%,4.994652,10.297144,8.845462,44.872436,67.432775,9.48027,2.592022,10.514621,2.851025,133.018328,...,20.001789,-499.68145,14.975536,-499.388738,17.932223,-499.702452,11.997547,-499.914556,19.984175,-500.061431
75%,5.85954,11.170603,10.487508,46.166425,72.346428,11.003707,3.241723,11.933009,3.434764,159.825396,...,24.990826,-477.472413,20.059375,-400.039008,21.34655,-487.712108,17.982903,-453.186936,24.991623,-499.536466
max,16.001945,17.031899,18.124851,52.756638,100.0,19.552149,5.639565,22.31773,8.197408,250.127834,...,30.115735,-245.239184,24.007913,-145.071088,43.709931,-275.073125,27.926001,-157.396071,32.188906,-104.427459




Unnamed: 0,date,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-09-01 00:59:59,210.800909,14.993118,8.08,1.005021,1398.981301,-500.225577,1399.144926,-499.919735,1400.102998,...,12.023554,-497.795834,8.016656,-501.289139,7.946562,-432.31785,4.872511,-500.037437,26.705889,-499.709414
1,2016-09-01 01:59:59,215.392455,14.987471,8.08,0.990469,1398.777912,-500.057435,1398.055362,-499.778182,1396.151033,...,12.05814,-498.695773,8.130979,-499.634209,7.95827,-525.839648,4.87885,-500.162375,25.01994,-499.819438
2,2016-09-01 02:59:59,215.259946,12.884934,7.786667,0.996043,1398.493666,-500.86836,1398.860436,-499.764529,1398.075709,...,11.962366,-498.767484,8.096893,-500.827423,8.071056,-500.801673,4.905125,-499.82851,24.994862,-500.622559
3,2016-09-01 03:59:59,215.336236,12.006805,7.64,0.863514,1399.618111,-498.863574,1397.44012,-499.211024,1400.129303,...,12.033091,-498.350935,8.074946,-499.474407,7.897085,-500.868509,4.9314,-499.963623,24.948919,-498.709987
4,2016-09-01 04:59:59,199.099327,10.68253,7.53,0.805575,1401.268123,-500.808305,1398.128818,-499.504543,1402.172226,...,12.025367,-500.786497,8.054678,-500.3975,8.10789,-509.526725,4.957674,-500.360026,25.003331,-500.856333
5,2016-09-01 05:59:59,168.485085,8.817007,7.42,0.791191,1402.826803,-499.299521,1401.511119,-499.205357,1404.088107,...,12.029797,-499.814895,8.036586,-500.371492,8.041446,-510.037054,4.983949,-499.99099,24.978973,-500.47564
6,2016-09-01 06:59:59,144.13344,7.92461,7.42,0.788838,1398.252401,-499.748672,1393.255503,-499.19538,1396.738566,...,12.026296,-499.473127,8.027984,-500.983079,7.90734,-507.964971,5.010224,-500.043697,25.040709,-499.501984
7,2016-09-01 07:59:59,133.513396,8.055252,6.988,0.801871,1401.669677,-501.777839,1400.754446,-502.514024,1400.465244,...,12.040911,-501.293852,8.02049,-499.185229,8.116897,-511.927561,5.036498,-500.149615,25.03258,-503.970657
8,2016-09-01 08:59:59,133.735356,7.999618,6.935,0.789329,1402.358981,-499.981597,1400.985954,-496.802968,1401.168584,...,11.998184,-499.481608,8.01261,-500.896783,7.974422,-521.199104,5.061599,-499.791519,25.005063,-497.613716
9,2016-09-01 09:59:59,126.961069,8.017856,7.03,0.805298,1400.81612,-499.014158,1399.975401,-499.570552,1401.871924,...,12.040725,-499.987743,7.989503,-499.750625,7.98971,-509.946737,5.068811,-499.2939,24.992741,-499.272255


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5290 entries, 0 to 5289
Data columns (total 53 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   date                                        5290 non-null   object 
 1   primary_cleaner.input.sulfate               5286 non-null   float64
 2   primary_cleaner.input.depressant            5285 non-null   float64
 3   primary_cleaner.input.feed_size             5290 non-null   float64
 4   primary_cleaner.input.xanthate              5286 non-null   float64
 5   primary_cleaner.state.floatbank8_a_air      5290 non-null   float64
 6   primary_cleaner.state.floatbank8_a_level    5290 non-null   float64
 7   primary_cleaner.state.floatbank8_b_air      5290 non-null   float64
 8   primary_cleaner.state.floatbank8_b_level    5290 non-null   float64
 9   primary_cleaner.state.floatbank8_c_air      5290 non-null   float64
 10  primary_clea

None

'Кол-во дублей:'

0

'Кол-во НАНов:'

date                                           0
primary_cleaner.input.sulfate                  4
primary_cleaner.input.depressant               5
primary_cleaner.input.feed_size                0
primary_cleaner.input.xanthate                 4
primary_cleaner.state.floatbank8_a_air         0
primary_cleaner.state.floatbank8_a_level       0
primary_cleaner.state.floatbank8_b_air         0
primary_cleaner.state.floatbank8_b_level       0
primary_cleaner.state.floatbank8_c_air         0
primary_cleaner.state.floatbank8_c_level       0
primary_cleaner.state.floatbank8_d_air         0
primary_cleaner.state.floatbank8_d_level       0
rougher.input.feed_ag                          0
rougher.input.feed_pb                          0
rougher.input.feed_rate                        3
rougher.input.feed_size                        1
rougher.input.feed_sol                        21
rougher.input.feed_au                          0
rougher.input.floatbank10_sulfate              5
rougher.input.floatb

'Статистика:'

Unnamed: 0,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,primary_cleaner.state.floatbank8_c_level,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
count,5286.0,5285.0,5290.0,5286.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,...,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0
mean,174.839652,8.683596,7.266339,1.383803,1539.494,-497.665883,1545.174,-500.273098,1527.272,-498.33068,...,16.32007,-505.14457,13.73544,-463.349858,12.804186,-501.329122,9.881145,-495.663398,17.304935,-501.793193
std,43.02708,3.07205,0.610219,0.643474,116.7979,19.952431,122.2246,32.968307,122.538,21.964876,...,3.493583,31.427337,3.430484,86.189107,3.026591,17.951495,2.868205,34.535007,4.536544,39.044215
min,2.566156,0.003839,5.65,0.004984,5.44586e-32,-795.316337,6.647490000000001e-32,-799.997015,4.033736e-32,-799.960571,...,1.079872e-16,-799.798523,2.489718e-17,-800.836914,0.069227,-797.323986,0.528083,-800.220337,-0.079426,-809.741464
25%,147.121401,6.489555,6.89,0.907623,1498.936,-500.357298,1498.971,-500.703002,1473.23,-501.018117,...,14.03618,-500.868258,12.02862,-500.323028,10.914838,-500.726841,8.036719,-500.194668,13.997317,-500.690984
50%,177.828489,8.052207,7.25,1.19761,1585.129,-499.969164,1595.622,-500.028514,1549.595,-500.017711,...,17.00847,-500.115727,14.96486,-499.576513,12.954182,-499.990332,10.004301,-499.990535,16.014935,-500.007126
75%,208.125438,10.027764,7.6,1.797819,1602.077,-499.568951,1602.324,-499.293257,1601.144,-498.99413,...,18.03862,-499.404224,15.96213,-400.933805,15.097528,-499.283191,11.997467,-499.719913,21.020013,-499.373018
max,265.983123,40.0,15.5,4.102454,2103.104,-57.195404,1813.084,-142.527229,1715.054,-150.937035,...,30.0518,-401.565212,31.26971,-6.506986,25.258848,-244.483566,14.086866,-137.740004,26.705889,-123.307487




Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-01-15 00:00:00,6.055403,9.889648,5.507324,42.19202,70.541216,10.411962,0.895447,16.904297,2.143149,...,14.016835,-502.488007,12.099931,-504.715942,9.925633,-498.310211,8.079666,-500.470978,14.151341,-605.84198
1,2016-01-15 01:00:00,6.029369,9.968944,5.257781,42.701629,69.266198,10.462676,0.927452,16.634514,2.22493,...,13.992281,-505.503262,11.950531,-501.331529,10.039245,-500.169983,7.984757,-500.582168,13.998353,-599.787184
2,2016-01-15 02:00:00,6.055926,10.213995,5.383759,42.657501,68.116445,10.507046,0.953716,16.208849,2.257889,...,14.015015,-502.520901,11.912783,-501.133383,10.070913,-500.129135,8.013877,-500.517572,14.028663,-601.427363
3,2016-01-15 03:00:00,6.047977,9.977019,4.858634,42.689819,68.347543,10.422762,0.883763,16.532835,2.146849,...,14.03651,-500.857308,11.99955,-501.193686,9.970366,-499.20164,7.977324,-500.255908,14.005551,-599.996129
4,2016-01-15 04:00:00,6.148599,10.142511,4.939416,42.774141,66.927016,10.360302,0.792826,16.525686,2.055292,...,14.027298,-499.838632,11.95307,-501.053894,9.925709,-501.686727,7.894242,-500.356035,13.996647,-601.496691
5,2016-01-15 05:00:00,6.482968,10.049416,5.480257,41.633678,69.465816,10.182708,0.664118,16.999638,1.918586,...,13.938497,-500.970168,11.88335,-500.395298,10.054147,-496.374715,7.965083,-499.364752,14.017067,-599.707915
6,2016-01-15 06:00:00,6.533849,10.058141,4.5691,41.995316,69.300835,10.304598,0.807342,16.723575,2.058913,...,14.046819,-500.971133,12.091543,-500.501426,10.003247,-497.08318,8.01089,-500.002423,14.029649,-600.90547
7,2016-01-15 07:00:00,6.130823,9.935481,4.389813,42.452727,70.230976,10.443288,0.949346,16.689959,2.143437,...,13.974691,-501.819696,12.101324,-500.583446,9.873169,-499.171928,7.993381,-499.794518,13.984498,-600.41107
8,2016-01-15 08:00:00,5.83414,10.071156,4.876389,43.404078,69.688595,10.42014,1.065453,17.201948,2.209881,...,13.96403,-504.25245,12.060738,-501.174549,10.033838,-501.178133,7.881604,-499.729434,13.967135,-599.061188
9,2016-01-15 09:00:00,5.687063,9.980404,5.282514,43.23522,70.279619,10.487013,1.159805,17.483979,2.209593,...,13.989632,-503.195299,12.052233,-500.928547,9.962574,-502.986357,7.979219,-500.146835,13.981614,-598.070855


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19439 entries, 0 to 19438
Data columns (total 87 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   date                                                19439 non-null  object 
 1   final.output.concentrate_ag                         19438 non-null  float64
 2   final.output.concentrate_pb                         19438 non-null  float64
 3   final.output.concentrate_sol                        19228 non-null  float64
 4   final.output.concentrate_au                         19439 non-null  float64
 5   final.output.recovery                               19439 non-null  float64
 6   final.output.tail_ag                                19438 non-null  float64
 7   final.output.tail_pb                                19338 non-null  float64
 8   final.output.tail_sol                               19433 non-null  float64


None

'Кол-во дублей:'

0

'Кол-во НАНов:'

date                                                     0
final.output.concentrate_ag                              1
final.output.concentrate_pb                              1
final.output.concentrate_sol                           211
final.output.concentrate_au                              0
final.output.recovery                                    0
final.output.tail_ag                                     1
final.output.tail_pb                                   101
final.output.tail_sol                                    6
final.output.tail_au                                     0
primary_cleaner.input.sulfate                           24
primary_cleaner.input.depressant                        37
primary_cleaner.input.feed_size                          0
primary_cleaner.input.xanthate                         104
primary_cleaner.output.concentrate_ag                    0
primary_cleaner.output.concentrate_pb                  116
primary_cleaner.output.concentrate_sol                 3

'Статистика:'

Unnamed: 0,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,primary_cleaner.input.sulfate,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
count,19438.0,19438.0,19228.0,19439.0,19439.0,19438.0,19338.0,19433.0,19439.0,19415.0,...,19433.0,19438.0,19438.0,19438.0,19438.0,19438.0,19438.0,19438.0,19437.0,19438.0
mean,5.16847,9.978895,9.501224,44.076513,67.050208,9.688589,2.705795,10.583728,3.042467,144.624774,...,18.987674,-485.894516,15.010366,-461.078636,15.694452,-488.684065,12.198224,-487.149827,18.959024,-505.436305
std,1.372348,1.66924,2.787537,5.129784,10.12584,2.328642,0.949077,2.868782,0.922808,44.464071,...,5.411058,47.75857,4.890228,67.405524,5.510974,34.533396,5.333024,38.347312,5.550498,37.689057
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.003112,...,0.0,-799.798523,0.0,-800.836914,-0.372054,-797.323986,0.528083,-800.220337,-0.079426,-809.741464
25%,4.25124,9.137262,7.72282,43.402215,63.299712,8.062878,2.040119,8.938947,2.461138,114.107029,...,14.975734,-500.704892,11.940294,-500.187742,10.988606,-500.458467,8.971105,-500.129462,14.983037,-500.728067
50%,5.066094,10.102433,9.218961,45.011244,68.172738,9.743623,2.74873,10.622456,2.984909,143.232103,...,18.017481,-499.837793,14.971014,-499.459786,15.000036,-499.802605,11.019433,-499.935317,19.960541,-500.0484
75%,5.895527,11.035769,10.947813,46.275313,72.686642,11.134294,3.333216,12.104271,3.571351,175.075656,...,23.01247,-498.24973,19.034162,-400.118106,18.02619,-498.384187,14.019088,-499.436708,24.00317,-499.495378
max,16.001945,17.031899,19.61572,52.756638,100.0,19.552149,5.804178,22.31773,8.245022,265.983123,...,30.115735,-245.239184,31.269706,-6.506986,43.709931,-244.483566,27.926001,-137.740004,32.188906,-104.427459




Итого имеем:
* Дублей - нет, что, в принципе, не особо облегчает нашу задачу
* НАНов - куча, с ними надо что-то делать (или не делать) 
* Тестовая выборка не имеет некоторых столбцов, которые имеют полный и тренировочные наборы данных. Для нас это не удивительно, это написано в условиях задачи

## Анализ данных

### Проверка эффективности обогащения

Нужно проверить, что эффективность обогащения (recovery) рассчитана правильно. Будем вычислять её по формуле из ТЗ, на обучающей выборке для признака rougher.output.recovery. Далее найдём MAE между расчётами и значением признака.

In [4]:
# создадим константы для удобства
c = df_train['rougher.output.concentrate_au']
f = df_train['rougher.input.feed_au']
t = df_train['rougher.output.tail_au']

#функиция, которая сделает всё за нас
def recovery_f(c,f,t):
    recovery = (c*(f-t)) / (f*(c-t)) * 100
    return recovery

In [5]:
# посчитаем целевой признак и MAE
recovery = recovery_f(c,f,t)
mae = mean_absolute_error(df_train['rougher.output.recovery'], recovery)
print('Средняя абсолютная ошибка:', mae)

Средняя абсолютная ошибка: 9.73512347450521e-15


Погрешность между расчётным значением и записанным в датафрейме, действительно, погрешность. Получается, нет причин не применять rougher.output.recovery в качестве целевого признака

### Признаки, недоступные в тестовой выборке

In [6]:
# выделим столбцы, которых нет в тестовой выборке, но, которые есть в тренировочных данных
features_not_in_df_test = set(df_train.columns) - set(df_test.columns)
features_not_in_df_test

{'final.output.concentrate_ag',
 'final.output.concentrate_au',
 'final.output.concentrate_pb',
 'final.output.concentrate_sol',
 'final.output.recovery',
 'final.output.tail_ag',
 'final.output.tail_au',
 'final.output.tail_pb',
 'final.output.tail_sol',
 'primary_cleaner.output.concentrate_ag',
 'primary_cleaner.output.concentrate_au',
 'primary_cleaner.output.concentrate_pb',
 'primary_cleaner.output.concentrate_sol',
 'primary_cleaner.output.tail_ag',
 'primary_cleaner.output.tail_au',
 'primary_cleaner.output.tail_pb',
 'primary_cleaner.output.tail_sol',
 'rougher.calculation.au_pb_ratio',
 'rougher.calculation.floatbank10_sulfate_to_au_feed',
 'rougher.calculation.floatbank11_sulfate_to_au_feed',
 'rougher.calculation.sulfate_to_au_concentrate',
 'rougher.output.concentrate_ag',
 'rougher.output.concentrate_au',
 'rougher.output.concentrate_pb',
 'rougher.output.concentrate_sol',
 'rougher.output.recovery',
 'rougher.output.tail_ag',
 'rougher.output.tail_au',
 'rougher.output.ta

Их 34!!!! (но это не плохо и не хорошо). Согласно условию задачи (технологии производства), данные признаки невозможно посчитать заранее и, наверное, их стоит убрать из обучающей выборки. Конечно, кроме целевых - final.output.recovery, rougher.output.recovery. Иначе удачи не видать

### Предобработка данных

Вопрос объёмный, а учитывая количество данных - неподъёмный. Сконцентрируемся на этом:
* посмотрим на аномалии, а далее решим, нужно ли что-то с ними делать
* обработаем пропуски в обучающих данных, пользуясь условием, что близкие по времени данные не сильно отличаются
* добавим целевые признаки для тестовых данных, чтобы было чего потом сравнивать

#### Поиск аномалий

In [None]:
#построим график распределения значений целевых признаков
fig = go.Figure()
fig.add_trace(go.Histogram(x=df_train['final.output.recovery'], name='"Эффективность обогащения финального концентрата в %"'))
fig.add_trace(go.Histogram(x=df_train['rougher.output.recovery'], name='"Эффективность обогащения чернового концентрата в %"'))
fig.update_layout(barmode='group', 
                  title='Гистограмма распределения извлечения на финальной и флотационной стадиях',
                  xaxis_title='Извлечение, %', yaxis_title='Частота')
fig.show('svg', width=1000, height=500)

Что имеем:
* Нулевые аномалии на обеих стадиях, которые могут означать либо ошибку, либо то, что сырьё пришло "пустое". Поставщик сырья нас обманул
* Есть небольшой всплеск на 100%, но он может означать, что в сырье были самородки (что не редкость в цветной металлургии)

#### Заполнение пропусков и удаление аномалий

In [7]:
# создадим список колонок из тестового набора, но удалим целевые признаки, их мы оставим как есть, нас интересуют пропуски
train_columns = df_train.columns.tolist()
train_columns.remove('final.output.recovery')
train_columns.remove('rougher.output.recovery')

# предварительно отсортируем датасеты по дате
df_train.sort_values(by='date', inplace=True)
df_full.sort_values(by='date', inplace=True)
df_test.sort_values(by='date', inplace=True)

# заполняем только признаки, которые будут участвовать в обучении модели. Делаем всё в полном датафрейме. По условию данные близкие по времени - действительно близки
df_full[train_columns] = df_full[train_columns].ffill(axis = 0)

In [8]:
# индексируем датафреймы по дате, чтобы можно было заменять НАНы далее
df_full = df_full.set_index('date')
df_test = df_test.set_index('date')
df_train = df_train.set_index('date')

In [9]:
# подставляем здоровые данные из полного датафрейма в остальные
df_train.update(df_full)
df_test.update(df_full)

Проверяем

In [10]:
df_train.info()
df_test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 14149 entries, 2016-01-15 00:00:00 to 2018-08-18 10:59:59
Data columns (total 86 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   final.output.concentrate_ag                         14149 non-null  float64
 1   final.output.concentrate_pb                         14149 non-null  float64
 2   final.output.concentrate_sol                        14149 non-null  float64
 3   final.output.concentrate_au                         14149 non-null  float64
 4   final.output.recovery                               14149 non-null  float64
 5   final.output.tail_ag                                14149 non-null  float64
 6   final.output.tail_pb                                14149 non-null  float64
 7   final.output.tail_sol                               14149 non-null  float64
 8   final.output.tail_au                             

На одну проблему меньше

#### Добавление целевых признаков в тестовые данные

In [11]:
# добавим значения из full
df_test['final.output.recovery'] = df_full['final.output.recovery']
df_test['rougher.output.recovery'] = df_full['rougher.output.recovery']

In [12]:
df_test.info()
df_test.describe()

<class 'pandas.core.frame.DataFrame'>
Index: 5290 entries, 2016-09-01 00:59:59 to 2017-12-31 23:59:59
Data columns (total 54 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   primary_cleaner.input.sulfate               5290 non-null   float64
 1   primary_cleaner.input.depressant            5290 non-null   float64
 2   primary_cleaner.input.feed_size             5290 non-null   float64
 3   primary_cleaner.input.xanthate              5290 non-null   float64
 4   primary_cleaner.state.floatbank8_a_air      5290 non-null   float64
 5   primary_cleaner.state.floatbank8_a_level    5290 non-null   float64
 6   primary_cleaner.state.floatbank8_b_air      5290 non-null   float64
 7   primary_cleaner.state.floatbank8_b_level    5290 non-null   float64
 8   primary_cleaner.state.floatbank8_c_air      5290 non-null   float64
 9   primary_cleaner.state.floatbank8_c_level    5290 non-null

Unnamed: 0,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,primary_cleaner.state.floatbank8_c_level,...,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level,final.output.recovery,rougher.output.recovery
count,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,...,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0,5290.0
mean,174.842478,8.684695,7.266339,1.38343,1539.494,-497.665883,1545.174,-500.273098,1527.272,-498.33068,...,13.73544,-463.349858,12.804186,-501.329122,9.881145,-495.663398,17.304935,-501.793193,68.471462,84.99781
std,43.023252,3.073753,0.610219,0.643548,116.7979,19.952431,122.2246,32.968307,122.538,21.964876,...,3.430484,86.189107,3.026591,17.951495,2.868205,34.535007,4.536544,39.044215,9.513871,13.077651
min,2.566156,0.003839,5.65,0.004984,5.44586e-32,-795.316337,6.647490000000001e-32,-799.997015,4.033736e-32,-799.960571,...,2.489718e-17,-800.836914,0.069227,-797.323986,0.528083,-800.220337,-0.079426,-809.741464,0.0,0.0
25%,147.121401,6.489556,6.89,0.90739,1498.936,-500.357298,1498.971,-500.703002,1473.23,-501.018117,...,12.02862,-500.323028,10.914838,-500.726841,8.036719,-500.194668,13.997317,-500.690984,65.508598,84.509308
50%,177.828489,8.052131,7.25,1.197586,1585.129,-499.969164,1595.622,-500.028514,1549.595,-500.017711,...,14.96486,-499.576513,12.954182,-499.990332,10.004301,-499.990535,16.014935,-500.007126,69.815413,87.388553
75%,208.125438,10.028043,7.6,1.797819,1602.077,-499.568951,1602.324,-499.293257,1601.144,-498.99413,...,15.96213,-400.933805,15.097528,-499.283191,11.997467,-499.719913,21.020013,-499.373018,73.288544,89.734185
max,265.983123,40.0,15.5,4.102454,2103.104,-57.195404,1813.084,-142.527229,1715.054,-150.937035,...,31.26971,-6.506986,25.258848,-244.483566,14.086866,-137.740004,26.705889,-123.307487,100.0,99.169699


Есть 0-вые значения по целевым признакам, использовать их мы конечно же не будем. Будем дропать в следующем блоке

In [None]:
# убираем аномалии
#df_full = df_full.loc[(df_full['final.output.recovery'] > 0) & (df_full['rougher.output.recovery'] > 0)]
#df_train = df_train.loc[(df_train['final.output.recovery'] > 0) & (df_train['rougher.output.recovery'] > 0)]
#df_test = df_test.loc[(df_test['final.output.recovery'] > 0) & (df_test['rougher.output.recovery'] > 0)]
#display(df_full.describe())
#display(df_train.describe())
#display(df_test.describe())

Можно двигаться дальше

### Анализ данных

#### Концентрация металлов (Au, Ag, Pb) на различных этапах очистки

In [None]:
# создадим словарь с интересующими нас объектами
metals = {'au':['rougher.input.feed_au', 'rougher.output.concentrate_au', 'primary_cleaner.output.concentrate_au', 'final.output.concentrate_au' ], 'ag':['rougher.input.feed_ag', 'rougher.output.concentrate_ag', 'primary_cleaner.output.concentrate_ag', 'final.output.concentrate_ag' ], 'pb':['rougher.input.feed_pb', 'rougher.output.concentrate_pb', 'primary_cleaner.output.concentrate_pb', 'final.output.concentrate_pb' ], 'sol':['rougher.input.feed_sol', 'rougher.output.concentrate_sol', 'primary_cleaner.output.concentrate_sol', 'final.output.concentrate_sol']}
# все графики построим в цикле
for metal in metals:
    fig = px.box(df_train[metals[metal]], title=f'Концентрация {metal} на разных стадиях обогащения')
    fig.show()

Au - по продвижению к конечному продукту, концентрация возрастает. Собственно, ради этого всё и затевалось на этом заводе

Ag - по отношению к золоту является примесью, концентрация в конечном продукте падает,вероятно попадает в "хвосты" и извлекается далее в рамках другого технологического процесса.

Pb - на продвижение по стадиям особо не реагирует. Либо особенности технологического процесса и химии, либо добавляется искуственно, что опять же является особенностью

Sol - остальные примеси также в очень большом количестве отлетают после первого этапа, далее эффективность процесса снижается

#### Распределение размера гранул сырья на обучающей и тестовых выборках

In [None]:
# сгруппируем данные для plotly
hist_data = [df_test['rougher.input.feed_size'], df_train['rougher.input.feed_size']]
group_labels = ['Распределние размера на тестовой выборке', 'Распределние размера гранул на обучающей выборке']

# построим график
fig = ff.create_distplot(hist_data, group_labels, bin_size=5)
fig.update_layout(title_text='Распределение размера гранул сырья')
fig.show()

На стадии флотации, размеры гранул сырья хоть и сильно разнятся, но, в среднем, имеют похожую форму распределния по частоте и стараются быть 'нормальными'. Каких-то супер проблем это доставить не должно 

#### Cуммарая концентрация веществ на разных стадиях

In [14]:
sum_metals = {'rougher.input':['rougher.input.feed_ag', 'rougher.input.feed_pb', 'rougher.input.feed_sol', 'rougher.input.feed_au'],
    'rougher.output':[x for x in df_full.columns if x.startswith('rougher.output.concentrate')],
               'primary.cleaner':[x for x in df_full.columns if x.startswith('primary_cleaner.output.concentrate')],
               'final':[x for x in df_full.columns if x.startswith('final.output.concentrate')]
                  }

for metal in sum_metals:
    hist_data = [np.sum(df_full[sum_metals[metal]], axis = 1)]
    group_labels = ['Концентрация']
    fig = ff.create_distplot(hist_data, group_labels)
    fig.update_layout(title_text=f'Концентрация веществ на стадии {metal}')
    fig.show()

Имеем следующее:
1. С переходом на более высокую стадию, гистограмма распределения суммарного количества веществ сжимается, что говорит нам о том, что всё лишнее постепенно удаляется из раствора
2. На стадии primary_cleaner есть небольшой всплеск значений около нуля. Вряд ли такое может быть, так что, скорее всего это аномалии. Попробуем удалить, если что-то пойдёт не так, то всегда можно вернуть на место
3. Также помним, что есть 0 значения по целевым признакам, от них также будем избавляться

#### Аномалии

In [15]:
# удаляем
df_full = df_full[np.sum(df_full[sum_metals['primary.cleaner']], axis = 1) > 0]
# заменяем данные в остальных датасетах
df_train = df_train.merge(df_full, how='inner')
df_test = df_test.merge(df_full[df_test.columns], how='inner')
# профит

In [16]:
# борьба с нулевыми значениями в целевых признаках
df_full = df_full.loc[(df_full['final.output.recovery'] > 0) & (df_full['rougher.output.recovery'] > 0)]
df_train = df_train.loc[(df_train['final.output.recovery'] > 0) & (df_train['rougher.output.recovery'] > 0)]
df_test = df_test.loc[(df_test['final.output.recovery'] > 0) & (df_test['rougher.output.recovery'] > 0)]
display(df_full.describe())
display(df_train.describe())
display(df_test.describe())

Unnamed: 0,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,primary_cleaner.input.sulfate,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
count,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,...,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0,18848.0
mean,5.19896,10.030318,9.489024,44.292759,67.437596,9.700515,2.692079,10.598722,3.032764,145.188881,...,19.04006,-485.728804,15.05687,-461.306777,15.759829,-488.420381,12.255994,-486.961975,19.047325,-505.261843
std,1.326194,1.510454,2.8068,4.01412,8.866445,2.307169,0.95302,2.85023,0.913306,44.106244,...,5.424415,47.647695,4.881833,66.314693,5.500482,34.390486,5.330873,37.858349,5.51216,37.381906
min,0.01,0.01,0.01,0.01,0.168611,0.0,0.0,0.0,0.0,0.051279,...,1.079872e-16,-799.798523,2.489718e-17,-800.836914,-0.372054,-797.323986,0.528083,-800.220337,-0.079426,-809.741464
25%,4.271088,9.148408,7.680258,43.424311,63.513256,8.058638,2.027906,8.933251,2.456036,114.718648,...,14.98029,-500.703483,11.95267,-500.189864,10.994041,-500.452942,8.97471,-500.129396,14.986243,-500.724712
50%,5.079826,10.110375,9.206063,45.010693,68.282446,9.757114,2.732702,10.63125,2.973366,143.618265,...,18.01906,-499.839909,14.97386,-499.472337,15.016959,-499.803193,11.032743,-499.935837,19.969779,-500.0484
75%,5.898205,11.049269,10.96122,46.262709,72.744702,11.140695,3.318849,12.096591,3.554258,175.307881,...,23.01726,-498.249898,19.07826,-400.133879,18.02923,-498.382998,14.023218,-499.440471,24.935864,-499.494957
max,16.001945,17.031899,19.61572,52.756638,100.0,19.552149,5.804178,22.31773,8.245022,265.983123,...,30.11574,-245.239184,24.00791,-7.834746,43.709931,-244.483566,27.926001,-137.740004,32.188906,-104.427459


Unnamed: 0,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,primary_cleaner.input.sulfate,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
count,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,...,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0,13725.0
mean,5.164996,10.170553,9.154032,44.188519,66.808927,9.622242,2.578954,10.523165,2.911019,133.865293,...,20.035697,-478.486348,15.524251,-460.608795,16.832643,-483.787387,13.108502,-483.776204,19.661327,-506.732605
std,1.332867,1.522093,2.844241,3.943532,9.286365,2.294249,0.977892,2.988293,0.897626,39.090577,...,5.691333,50.621769,5.267992,58.367323,5.82599,38.064895,5.77741,38.979079,5.719067,36.960148
min,0.01,0.01,0.01,0.01,0.168611,0.0,0.0,0.0,0.0,0.051279,...,7.3e-05,-799.706757,6.8e-05,-799.86084,-0.372054,-797.142475,0.668043,-800.00618,0.195324,-809.392602
25%,4.223187,9.298153,7.428656,43.290494,62.738502,7.996374,1.889206,8.805357,2.364556,107.775541,...,14.993173,-500.62638,11.911985,-500.155096,11.83155,-500.366391,8.995092,-500.106412,14.991291,-500.749421
50%,5.004025,10.303898,8.815563,44.871192,67.468279,9.500774,2.566671,10.52216,2.84013,133.469157,...,20.005098,-499.680971,14.978291,-499.415879,17.952079,-499.703286,12.002141,-499.915388,19.987274,-500.06215
75%,5.859495,11.181332,10.471206,46.149523,72.373813,11.013138,3.221016,11.91945,3.420005,159.984727,...,24.992343,-467.534188,20.06595,-400.06339,21.915021,-483.411053,17.994758,-450.681147,24.992027,-499.53538
max,16.001945,17.031899,18.124851,52.756638,100.0,19.552149,5.639565,22.31773,8.197408,250.127834,...,30.115735,-245.239184,24.007913,-145.071088,43.709931,-275.073125,27.926001,-157.396071,32.188906,-104.427459


Unnamed: 0,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,primary_cleaner.state.floatbank8_c_level,...,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level,final.output.recovery,rougher.output.recovery
count,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,...,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0,5123.0
mean,175.525841,8.666259,7.258789,1.387709,1542.63,-497.664103,1548.953,-499.619511,1531.389,-498.295525,...,13.80469,-463.176738,12.885658,-500.832609,9.972045,-495.496957,17.402356,-501.321533,69.12186,86.657027
std,42.423213,3.065337,0.605351,0.632937,112.1826,19.530878,118.6775,29.951302,118.9574,21.604527,...,3.343877,83.956642,3.006,16.06181,2.822805,33.207569,4.521802,38.214732,7.369418,5.716215
min,2.92672,0.057383,5.65,0.004984,5.44586e-32,-783.448551,6.647490000000001e-32,-799.950103,4.033736e-32,-799.960571,...,2.489718e-17,-800.836914,0.069227,-797.323986,0.528083,-800.220337,-0.079426,-809.741464,2.030917,10.430587
25%,147.859719,6.486437,6.89,0.918104,1499.299,-500.347936,1499.303,-500.692253,1484.034,-501.011189,...,12.06565,-500.304051,10.926148,-500.702628,8.060783,-500.191763,14.001858,-500.681303,65.820501,84.757174
50%,178.676656,8.039751,7.25,1.199125,1591.649,-499.969714,1596.481,-500.02661,1550.184,-500.018023,...,14.96779,-499.577893,12.971642,-499.988448,10.012775,-499.989977,16.019597,-500.004869,69.988591,87.466117
75%,208.310366,10.017786,7.59,1.797875,1602.156,-499.575528,1602.468,-499.28884,1601.323,-499.000116,...,15.96722,-400.926931,15.241254,-499.28961,12.000004,-499.722857,21.030312,-499.376238,73.343636,89.753819
max,265.983123,40.0,15.5,4.102454,1810.767,-57.195404,1813.084,-142.527229,1715.054,-150.937035,...,20.31998,-7.834746,25.258848,-244.483566,14.086866,-137.740004,26.705889,-123.307487,100.0,99.169699


#### Выводы по этапу

1.	Концентрация Au растёт с переходом на следующие этапы очистки. Концентрация примесей падает - частный случай корреляции
2.	Распределение размеров гранул сырья на обучающей и тестовых выборках имеют схожую форму и вполне сопоставимый масштаб.
3.	С переходом на более высокую стадию, гистограмма распределения суммарного количества веществ сжимается, что говорит нам о том, что всё лишнее постепенно удаляется из раствора
4.	На стадии primary_cleaner имелся небольшой всплеск значений около нуля. Вряд ли такое может быть, так что, скорее всего это аномалии. Их мы удалили и произвели замену в остальных датасетах

## Модель

### Функция для вычисления sMAPE

In [17]:
def smape(target, predicted):
    return ((1/len(target)) * np.sum(2 * np.abs(target - predicted) / (np.abs(target) + np.abs(predicted)))) * 100

### Обучение моделей

Подготовим признаки для обучения модели

In [18]:
list_test_columns = df_test.columns
# подготовим  обучающие признаки для этапа флотации
features_rougher = []
for column in list_test_columns:
    if "rougher" in column:
        features_rougher.append(column)

features_rougher_train = df_train[features_rougher]
features_rougher_train = features_rougher_train.drop('rougher.output.recovery', axis=1)
target_rougher_train = df_train['rougher.output.recovery']
display(features_rougher_train.head())
display(target_rougher_train.head())

Unnamed: 0,rougher.input.feed_ag,rougher.input.feed_pb,rougher.input.feed_rate,rougher.input.feed_size,rougher.input.feed_sol,rougher.input.feed_au,rougher.input.floatbank10_sulfate,rougher.input.floatbank10_xanthate,rougher.input.floatbank11_sulfate,rougher.input.floatbank11_xanthate,...,rougher.state.floatbank10_b_air,rougher.state.floatbank10_b_level,rougher.state.floatbank10_c_air,rougher.state.floatbank10_c_level,rougher.state.floatbank10_d_air,rougher.state.floatbank10_d_level,rougher.state.floatbank10_e_air,rougher.state.floatbank10_e_level,rougher.state.floatbank10_f_air,rougher.state.floatbank10_f_level
0,6.100378,2.284912,523.546326,55.486599,36.808594,6.48615,11.986616,6.00799,11.836743,6.005818,...,1603.011353,-434.715027,1602.375,-442.204468,1598.937256,-451.294128,1404.472046,-455.462982,1416.35498,-451.939636
1,6.161113,2.266033,525.290581,57.278666,35.753385,6.478583,11.971193,6.005766,11.996163,6.012594,...,1600.754587,-449.953435,1600.47958,-449.830646,1600.527589,-449.953649,1399.227084,-450.869848,1399.719514,-450.119001
2,6.116455,2.159622,530.02661,57.510649,35.97163,6.362222,11.920603,6.197377,11.920305,6.204633,...,1599.33733,-450.00853,1599.672797,-449.954491,1599.849325,-449.954185,1399.180945,-449.937588,1400.316682,-450.527147
3,6.043309,2.037807,542.59039,57.792734,36.862241,6.118189,11.630094,6.203177,11.69245,6.196578,...,1600.059442,-450.619948,1600.012842,-449.910497,1597.725177,-450.130127,1400.943157,-450.030142,1400.234743,-449.790835
4,6.060915,1.786875,540.531893,56.047189,34.347666,5.663707,10.957755,6.198826,10.960521,6.194897,...,1600.208824,-449.599614,1600.357732,-450.034364,1599.759049,-449.909799,1401.560902,-448.877187,1401.160227,-450.407128


0    87.107763
1    86.843261
2    86.842308
3    87.226430
4    86.688794
Name: rougher.output.recovery, dtype: float64

In [19]:
# подготовим  обучающие признаки для финального этапа
features_final_train = df_train[df_test.columns]
features_final_train = features_final_train.drop('final.output.recovery', axis=1)
target_final_train = df_train['final.output.recovery']

# подготовим тестовые выборки
features_rougher_test = df_test[features_rougher]
features_rougher_test = features_rougher_test.drop('rougher.output.recovery', axis=1)
target_rougher_test = df_test['rougher.output.recovery']
features_final_test = df_test.drop('final.output.recovery', axis=1)
target_final_test = df_test['final.output.recovery']

In [21]:
display(features_rougher_train.info())
#display(target_final_train.info())
display(features_final_test.info())
#display(target_final_test.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13725 entries, 0 to 14074
Data columns (total 22 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   rougher.input.feed_ag               13725 non-null  float64
 1   rougher.input.feed_pb               13725 non-null  float64
 2   rougher.input.feed_rate             13725 non-null  float64
 3   rougher.input.feed_size             13725 non-null  float64
 4   rougher.input.feed_sol              13725 non-null  float64
 5   rougher.input.feed_au               13725 non-null  float64
 6   rougher.input.floatbank10_sulfate   13725 non-null  float64
 7   rougher.input.floatbank10_xanthate  13725 non-null  float64
 8   rougher.input.floatbank11_sulfate   13725 non-null  float64
 9   rougher.input.floatbank11_xanthate  13725 non-null  float64
 10  rougher.state.floatbank10_a_air     13725 non-null  float64
 11  rougher.state.floatbank10_a_level   13725

None

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5123 entries, 0 to 5255
Data columns (total 53 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   primary_cleaner.input.sulfate               5123 non-null   float64
 1   primary_cleaner.input.depressant            5123 non-null   float64
 2   primary_cleaner.input.feed_size             5123 non-null   float64
 3   primary_cleaner.input.xanthate              5123 non-null   float64
 4   primary_cleaner.state.floatbank8_a_air      5123 non-null   float64
 5   primary_cleaner.state.floatbank8_a_level    5123 non-null   float64
 6   primary_cleaner.state.floatbank8_b_air      5123 non-null   float64
 7   primary_cleaner.state.floatbank8_b_level    5123 non-null   float64
 8   primary_cleaner.state.floatbank8_c_air      5123 non-null   float64
 9   primary_cleaner.state.floatbank8_c_level    5123 non-null   float64
 10  primary_clea

None

In [None]:
# для кросс-валидации тоже создадим функцию
def cross_val_func (model, features, target):
    scores = cross_val_score(model, features, 
                                   target, scoring=make_scorer(smape, greater_is_better=True), cv=5,n_jobs=-1)
    smape_result = np.mean(scores)
    return smape_result

In [None]:
# для подсчёта финальной метрики sMAPE
def smape_full(model):
    smape_rougher = cross_val_func(model, features_rougher_train, target_rougher_train)
    smape_final = cross_val_func(model, features_final_train, target_final_train)
    smape_rf = 0.25 * smape_rougher + 0.75 * smape_final
    print('sMAPE c кросс-валидацией на этапе флотации:', smape_rougher)
    print('sMAPE c кросс-валидацией на финальном этапе:', smape_final)
    print('Финальная sMAPE c кросс-валидацией составила', smape_rf)

При выборе модели предлагаю использовать 4 классических алгоритма: линейная регрессия, случайный лес, решающее дерево и, для сравнения, dummy регрессия. Далее, для лучшей модели попробуем подобрать оптимальные гиперпараметры и ещё улучшить результат метрики

In [None]:
model = LinearRegression()
smape_full(model)

In [None]:
model = RandomForestRegressor()
smape_full(model)

In [None]:
model = DecisionTreeRegressor()
smape_full(model)

In [None]:
model = DummyRegressor()
smape_full(model)

Лучше всех на данном этапе предсказывает решающее дерево, попробуем улучшить его с помощью подбора гиперпараметров

### Подбор гиперпараметров

In [None]:
best_smape = 10
best_depth = 0
for depth in range (1, 15):
    model = DecisionTreeRegressor (max_depth=depth)
    smape_rougher = cross_val_func (model, features_rougher_train, target_rougher_train)
    smape_final = cross_val_func (model, features_final_train, target_final_train)
    smape_last = 0.25 * smape_rougher + 0.75 * smape_final
    if smape_last < best_smape:
        best_smape = smape_last
        best_depth = depth
print('Наилучшая модель с sMAPE, равным {}, получена для решающего дерева с глубиной {}'.format(best_smape, best_depth))

In [None]:
best_smape = 10
best_est = 0
best_depth = 0
for est in range (10, 51, 10):
    for depth in range (1, 5):
        model = RandomForestRegressor(n_estimators=est, max_depth=depth)
        smape_rougher = cross_val_func (model, features_rougher_train, target_rougher_train)
        smape_final = cross_val_func (model, features_final_train, target_final_train)
        smape_last = 0.25 * smape_rougher + 0.75 * smape_final
        if smape_last < best_smape:
            best_smape = smape_last
            best_est = est
            best_depth = depth
print('Наилучшая модель с sMAPE, равным {}, получена для случайного леса \
с количеством деревьев {} и глубиной {}'.format(best_smape, best_est, best_depth))

Подбор гиперпараметров в разумных диапазонах значений параметров не даёт увеличение метрики. Для проверки на тестовых данных предлагаю использовать данные модели с дефолтными гиперпараметрами. 

### Проверка на тестовых данных

In [22]:
# сделаем аналогичную функцию для теста
def smape_full_test(model):
    model_rougher = model
    model_rougher.fit(features_rougher_train, target_rougher_train)
    predicted_rougher = model_rougher.predict(features_rougher_test)
    

    model_final = model
    model_final.fit(features_final_train, target_final_train)
    predicted_final = model_final.predict(features_final_test)
    
    smape_rougher = smape(target_rougher_test, predicted_rougher)
    smape_final = smape(target_final_test, predicted_final)
    smape_test = 0.25 * smape_rougher + 0.75 * smape_final
    print('sMAPE тестовых данных на этапе флотации:', smape_rougher)
    print('sMAPE тестовых данных на финальном этапе', smape_final)
    print('Конечная sMAPE', smape_test)

In [23]:
model = DecisionTreeRegressor()
smape_full_test(model)

sMAPE тестовых данных на этапе флотации: 7.544068608729063
sMAPE тестовых данных на финальном этапе 10.50681759143363
Конечная sMAPE 9.766130345757489


In [25]:
model = RandomForestRegressor(n_estimators=31, max_depth=4)
smape_full_test(model)

sMAPE тестовых данных на этапе флотации: 4.799494410715379
sMAPE тестовых данных на финальном этапе 6.389799269729528
Конечная sMAPE 5.99222305497599


In [24]:
model = DummyRegressor()
smape_full_test(model)

sMAPE тестовых данных на этапе флотации: 5.364780952068203
sMAPE тестовых данных на финальном этапе 8.58252552273144
Конечная sMAPE 7.778089380065631


## Общий вывод

В процессе работы над проектом проделано следующее:
* Проведён исследовательский анализ данных
* Проведена предобработка данных
* Проведён анализ данных по целевым направлениям

Также обучена модель решающего дерева для пресказания целевых признаков.
В целом, можно заключить, что модель решающего дерева справляется со своей задачей. Финальная метрика sMAPE на тестовых данных составила 9.77 против 7.77 константной модели