# Восстановление золота из руды

Необходимо подготовить прототип модели машинного обучения для компании «Цифры», которая разрабатывает решения для эффективной работы промышленных предприятий.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. У нас есть данные с параметрами добычи и очистки.
Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

В процессе выполнения проекта необходимо:

- Подготовить данные;
- Провести исследовательский анализ данных;
- Построить и обучить модель.

***Технологический процесс***

Когда добытая руда проходит первичную обработку, получается дроблёная смесь. Её отправляют на флотацию (обогащение) и двухэтапную очистку.


**Стадии:**

1. Флотация

Во флотационную установку подаётся смесь золотосодержащей руды. После обогащения получается черновой концентрат и «отвальные хвосты», то есть остатки продукта с низкой концентрацией ценных металлов.
На стабильность этого процесса влияет непостоянное и неоптимальное физико-химическое состояние флотационной пульпы (смеси твёрдых частиц и жидкости).

2. Очистка

Черновой концентрат проходит две очистки. На выходе получается финальный концентрат и новые отвальные хвосты.


***Описание данных***

**Технологический процесс**

* `Rougher feed` — исходное сырье
* `Rougher additions` (или `reagent additions`) — флотационные реагенты: Xanthate, Sulphate, Depressant
    * `Xanthat **` — ксантогенат (промотер, или активатор флотации);
    * `Sulphate` — сульфат (на данном производстве сульфид натрия);
    * `Depressant` — депрессант (силикат натрия).
* `Rougher process` (англ. «грубый процесс») — флотация
* `Rougher tails` — отвальные хвосты
* `Float banks` — флотационная установка
* `Cleaner process` — очистка
* `Rougher Au` — черновой концентрат золота
* `Final Au` — финальный концентрат золота

**Параметры этапов**

* `air amount` — объём воздуха
* `fluid levels` — уровень жидкости
* `feed size` — размер гранул сырья
* `feed rate` — скорость подачи


Нужно спрогнозировать сразу две величины:

1. эффективность обогащения чернового концентрата `rougher.output.recovery`;
2. эффективность обогащения финального концентрата `final.output.recovery`.


Данные находятся в трёх файлах:

* `gold_recovery_train_new_8ds.csv` — обучающая выборка;
* `gold_recovery_test_new_8ds.csv` — тестовая выборка;
* `gold_recovery_full_new_8ds.csv` — исходные данные.

Данные индексируются датой и временем получения информации (признак `date`). Соседние по времени параметры часто похожи.

Некоторые параметры недоступны, потому что замеряются и/или рассчитываются значительно позже. Из-за этого в тестовой выборке отсутствуют некоторые признаки, которые могут быть в обучающей. Также в тестовом наборе нет целевых признаков.

Исходный датасет содержит обучающую и тестовую выборки со всеми признаками.

Данные сырые. Необхоима их проверка и предобработка.

## Загрузка и подготовка данных

In [2]:
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important; }</style>"))

***Выгрузка библиотек***

In [29]:
import pandas as pd
pd.set_option('display.max_columns', None)

***Константы***

In [4]:
RANDOM_SEED = 0

In [5]:
# Based on: https://stackoverflow.com/a/17303428 (для красивого оформления текста)
class color:
   PURPLE = '\033[95m'
   CYAN = '\033[96m'
   DARKCYAN = '\033[36m'
   BLUE = '\033[94m'
   GREEN = '\033[92m'
   YELLOW = '\033[93m'
   RED = '\033[91m'
   BOLD = '\033[1m'
   UNDERLINE = '\033[4m'
   END = '\033[0m'

***Функции***

In [6]:
#Рандоманая выгрузка строк
show_sample = lambda x: display(x.sample(5, random_state=RANDOM_SEED).reset_index(drop=True))

In [26]:
def com_info(data):
    name = [x for x in globals() if globals()[x] is data][0]
    print(color.UNDERLINE + 'Общая информация по данным '+ name + color.END)
    show_sample(data)
    print(data.info())
    display(pd.DataFrame(round((data.isna().mean()), 2)).style.background_gradient('coolwarm')\
                                                                .set_caption('% пропусков').format({0:'{:.2%}'.format}))
    display(data.describe().T.style.set_caption('Статистика'))
    print('Количество дублей: ', data.duplicated().sum())
    print('******************************************************************')
    print('')

***Загрука данных***

In [27]:
df_train = pd.read_csv('../datasets/gold_recovery_train_new_8ds.csv')
df_test = pd.read_csv('../datasets/gold_recovery_test_new_8ds.csv')
df_full = pd.read_csv('../datasets/gold_recovery_full_new_8ds.csv')

## Изучение общей информации

In [28]:
df_list = [df_train, df_test, df_full]
for i in df_list:
    com_info(i)

[4mОбщая информация по данным df_train[0m


Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2018-06-08 12:59:59,4.068389,11.448127,5.983031,45.728369,63.185926,7.436988,2.577877,10.211517,2.042844,...,30.026765,-485.043326,22.022924,-466.815927,25.026081,-495.662399,21.919914,-500.07517,24.989364,-501.42034
1,2016-06-24 08:59:59,4.672297,10.013952,8.4176,45.142223,70.512351,8.21711,1.566327,11.871072,2.433252,...,15.997023,-499.721909,7.967451,-501.191492,16.024186,-500.172937,7.020786,-500.459658,24.969568,-498.972262
2,2017-03-12 03:59:59,4.999209,8.771206,8.3969,48.307998,66.501485,9.825832,3.145526,7.156999,3.558258,...,25.012867,-400.07025,22.977935,-400.084529,20.06091,-449.437364,19.983941,-449.840148,24.992126,-499.687118
3,2016-06-08 04:59:59,3.879375,9.816033,7.747834,47.63135,49.30489,8.156908,2.20317,9.323327,3.720784,...,8.983344,-550.003505,7.115827,-550.971423,7.866452,-551.17745,6.040703,-550.015381,18.010314,-500.538411
4,2016-08-01 14:59:59,4.403698,10.823148,9.911247,43.92737,69.502636,9.3444,2.947228,12.024562,3.293919,...,20.074004,-401.480443,10.031345,-402.416679,10.010939,-400.062267,4.957975,-400.499557,23.045125,-500.498783


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14149 entries, 0 to 14148
Data columns (total 87 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   date                                                14149 non-null  object 
 1   final.output.concentrate_ag                         14148 non-null  float64
 2   final.output.concentrate_pb                         14148 non-null  float64
 3   final.output.concentrate_sol                        13938 non-null  float64
 4   final.output.concentrate_au                         14149 non-null  float64
 5   final.output.recovery                               14149 non-null  float64
 6   final.output.tail_ag                                14149 non-null  float64
 7   final.output.tail_pb                                14049 non-null  float64
 8   final.output.tail_sol                               14144 non-null  float64


Unnamed: 0,0
date,0.00%
final.output.concentrate_ag,0.00%
final.output.concentrate_pb,0.00%
final.output.concentrate_sol,1.00%
final.output.concentrate_au,0.00%
final.output.recovery,0.00%
final.output.tail_ag,0.00%
final.output.tail_pb,1.00%
final.output.tail_sol,0.00%
final.output.tail_au,0.00%


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
final.output.concentrate_ag,14148.0,5.142034,1.369586,0.0,4.21162,4.994652,5.85954,16.001945
final.output.concentrate_pb,14148.0,10.13296,1.65493,0.0,9.297355,10.297144,11.170603,17.031899
final.output.concentrate_sol,13938.0,9.202849,2.790516,0.0,7.484645,8.845462,10.487508,18.124851
final.output.concentrate_au,14149.0,44.003792,4.905261,0.0,43.276111,44.872436,46.166425,52.756638
final.output.recovery,14149.0,66.518832,10.295402,0.0,62.545817,67.432775,72.346428,100.0
final.output.tail_ag,14149.0,9.607035,2.319069,0.0,7.997429,9.48027,11.003707,19.552149
final.output.tail_pb,14049.0,2.597298,0.971843,0.0,1.905973,2.592022,3.241723,5.639565
final.output.tail_sol,14144.0,10.512122,3.003617,0.0,8.811324,10.514621,11.933009,22.31773
final.output.tail_au,14149.0,2.918421,0.903712,0.0,2.368607,2.851025,3.434764,8.197408
primary_cleaner.input.sulfate,14129.0,133.320659,39.431659,0.003112,107.006651,133.018328,159.825396,250.127834


Количество дублей:  0
******************************************************************

[4mОбщая информация по данным df_test[0m


Unnamed: 0,date,primary_cleaner.input.sulfate,primary_cleaner.input.depressant,primary_cleaner.input.feed_size,primary_cleaner.input.xanthate,primary_cleaner.state.floatbank8_a_air,primary_cleaner.state.floatbank8_a_level,primary_cleaner.state.floatbank8_b_air,primary_cleaner.state.floatbank8_b_level,primary_cleaner.state.floatbank8_c_air,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2016-09-02 05:59:59,126.329123,8.003034,7.16,0.699695,1400.760536,-500.200817,1399.437375,-500.679938,1399.429209,...,11.960962,-500.130469,7.924387,-500.362897,7.84912,-500.357611,4.98373,-500.111778,9.935444,-500.440997
1,2016-10-02 01:59:59,137.116643,3.9728,8.6,0.803511,1598.994956,-500.061922,1603.985367,-499.302443,1600.063771,...,12.015829,-580.205684,9.996712,-499.568551,10.02944,-500.834429,4.916034,-500.806331,20.014843,-499.598636
2,2016-10-05 16:59:59,136.160058,4.001874,7.7,0.701256,1648.213302,-500.612006,1649.936185,-499.849197,1647.739364,...,13.988463,-498.835101,13.073075,-501.503654,10.127322,-498.489453,7.952812,-498.803034,22.987675,-500.658281
3,2017-10-31 11:59:59,220.706679,9.139982,7.04,2.364929,1700.289848,-508.068208,1700.434596,-489.509097,1542.893209,...,18.019398,-502.523088,15.929214,-501.4411,14.96239,-500.562438,11.010074,-500.306513,16.008406,-500.749837
4,2017-12-25 11:59:59,212.717029,15.009052,8.150001,0.859222,1601.389637,-399.591203,1602.644217,-397.938382,1301.027142,...,19.997723,-498.411588,14.901334,-498.971556,11.04044,-498.615851,8.993469,-499.880708,12.000884,-499.051922


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5290 entries, 0 to 5289
Data columns (total 53 columns):
 #   Column                                      Non-Null Count  Dtype  
---  ------                                      --------------  -----  
 0   date                                        5290 non-null   object 
 1   primary_cleaner.input.sulfate               5286 non-null   float64
 2   primary_cleaner.input.depressant            5285 non-null   float64
 3   primary_cleaner.input.feed_size             5290 non-null   float64
 4   primary_cleaner.input.xanthate              5286 non-null   float64
 5   primary_cleaner.state.floatbank8_a_air      5290 non-null   float64
 6   primary_cleaner.state.floatbank8_a_level    5290 non-null   float64
 7   primary_cleaner.state.floatbank8_b_air      5290 non-null   float64
 8   primary_cleaner.state.floatbank8_b_level    5290 non-null   float64
 9   primary_cleaner.state.floatbank8_c_air      5290 non-null   float64
 10  primary_clea

Unnamed: 0,0
date,0.00%
primary_cleaner.input.sulfate,0.00%
primary_cleaner.input.depressant,0.00%
primary_cleaner.input.feed_size,0.00%
primary_cleaner.input.xanthate,0.00%
primary_cleaner.state.floatbank8_a_air,0.00%
primary_cleaner.state.floatbank8_a_level,0.00%
primary_cleaner.state.floatbank8_b_air,0.00%
primary_cleaner.state.floatbank8_b_level,0.00%
primary_cleaner.state.floatbank8_c_air,0.00%


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
primary_cleaner.input.sulfate,5286.0,174.839652,43.02708,2.566156,147.121401,177.828489,208.125438,265.983123
primary_cleaner.input.depressant,5285.0,8.683596,3.07205,0.003839,6.489555,8.052207,10.027764,40.0
primary_cleaner.input.feed_size,5290.0,7.266339,0.610219,5.65,6.89,7.25,7.6,15.5
primary_cleaner.input.xanthate,5286.0,1.383803,0.643474,0.004984,0.907623,1.19761,1.797819,4.102454
primary_cleaner.state.floatbank8_a_air,5290.0,1539.494325,116.797884,0.0,1498.935802,1585.129123,1602.076529,2103.10358
primary_cleaner.state.floatbank8_a_level,5290.0,-497.665883,19.952431,-795.316337,-500.357298,-499.969164,-499.568951,-57.195404
primary_cleaner.state.floatbank8_b_air,5290.0,1545.174232,122.224588,0.0,1498.970993,1595.621798,1602.323545,1813.083671
primary_cleaner.state.floatbank8_b_level,5290.0,-500.273098,32.968307,-799.997015,-500.703002,-500.028514,-499.293257,-142.527229
primary_cleaner.state.floatbank8_c_air,5290.0,1527.272362,122.538034,0.0,1473.229862,1549.594682,1601.143775,1715.053773
primary_cleaner.state.floatbank8_c_level,5290.0,-498.33068,21.964876,-799.960571,-501.018117,-500.017711,-498.99413,-150.937035


Количество дублей:  0
******************************************************************

[4mОбщая информация по данным df_full[0m


Unnamed: 0,date,final.output.concentrate_ag,final.output.concentrate_pb,final.output.concentrate_sol,final.output.concentrate_au,final.output.recovery,final.output.tail_ag,final.output.tail_pb,final.output.tail_sol,final.output.tail_au,...,secondary_cleaner.state.floatbank4_a_air,secondary_cleaner.state.floatbank4_a_level,secondary_cleaner.state.floatbank4_b_air,secondary_cleaner.state.floatbank4_b_level,secondary_cleaner.state.floatbank5_a_air,secondary_cleaner.state.floatbank5_a_level,secondary_cleaner.state.floatbank5_b_air,secondary_cleaner.state.floatbank5_b_level,secondary_cleaner.state.floatbank6_a_air,secondary_cleaner.state.floatbank6_a_level
0,2017-02-08 14:59:59,5.295988,8.195301,13.379583,47.758663,65.280176,9.925318,3.387088,7.605304,3.382011,...,24.937716,-499.827034,22.955855,-499.981726,23.018173,-499.465128,20.014626,-500.003639,24.991929,-599.773615
1,2016-10-29 13:59:59,3.020476,9.071122,16.816693,49.797229,63.724514,8.165338,3.167601,10.705567,3.591239,...,19.999104,-500.526123,16.899111,-500.418689,17.000241,-497.845707,13.990843,-499.834974,0.127304,-808.800767
2,2017-08-10 06:59:59,3.455687,12.662607,6.890618,45.799572,62.002449,7.103502,4.485478,11.579938,3.446024,...,16.0313,-500.548355,12.014055,-399.804953,15.987138,-500.414523,11.99019,-500.074479,15.009936,-500.026179
3,2018-03-20 17:59:59,5.360341,12.297913,6.589168,42.586163,56.365844,8.325812,1.211108,8.21783,2.221499,...,23.05153,-500.327972,14.984485,-499.893529,30.004056,-499.853016,15.0319,-500.068586,12.989058,-499.878706
4,2017-02-26 19:59:59,4.645203,10.322894,14.283728,46.100397,74.086821,12.162428,4.429356,9.392597,3.720634,...,24.994581,-398.620115,23.01043,-399.770903,22.975057,-455.682049,20.005831,-449.548036,25.005151,-499.842326


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19439 entries, 0 to 19438
Data columns (total 87 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   date                                                19439 non-null  object 
 1   final.output.concentrate_ag                         19438 non-null  float64
 2   final.output.concentrate_pb                         19438 non-null  float64
 3   final.output.concentrate_sol                        19228 non-null  float64
 4   final.output.concentrate_au                         19439 non-null  float64
 5   final.output.recovery                               19439 non-null  float64
 6   final.output.tail_ag                                19438 non-null  float64
 7   final.output.tail_pb                                19338 non-null  float64
 8   final.output.tail_sol                               19433 non-null  float64


Unnamed: 0,0
date,0.00%
final.output.concentrate_ag,0.00%
final.output.concentrate_pb,0.00%
final.output.concentrate_sol,1.00%
final.output.concentrate_au,0.00%
final.output.recovery,0.00%
final.output.tail_ag,0.00%
final.output.tail_pb,1.00%
final.output.tail_sol,0.00%
final.output.tail_au,0.00%


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
final.output.concentrate_ag,19438.0,5.16847,1.372348,0.0,4.25124,5.066094,5.895527,16.001945
final.output.concentrate_pb,19438.0,9.978895,1.66924,0.0,9.137262,10.102433,11.035769,17.031899
final.output.concentrate_sol,19228.0,9.501224,2.787537,0.0,7.72282,9.218961,10.947813,19.61572
final.output.concentrate_au,19439.0,44.076513,5.129784,0.0,43.402215,45.011244,46.275313,52.756638
final.output.recovery,19439.0,67.050208,10.12584,0.0,63.299712,68.172738,72.686642,100.0
final.output.tail_ag,19438.0,9.688589,2.328642,0.0,8.062878,9.743623,11.134294,19.552149
final.output.tail_pb,19338.0,2.705795,0.949077,0.0,2.040119,2.74873,3.333216,5.804178
final.output.tail_sol,19433.0,10.583728,2.868782,0.0,8.938947,10.622456,12.104271,22.31773
final.output.tail_au,19439.0,3.042467,0.922808,0.0,2.461138,2.984909,3.571351,8.245022
primary_cleaner.input.sulfate,19415.0,144.624774,44.464071,0.003112,114.107029,143.232103,175.075656,265.983123


Количество дублей:  0
******************************************************************



***df_train***

- Типы данных не оптимизированы, необходимо понизить разрядность признаков
- В данных есть пропуски, больше всего в признаке `secondary_cleaner.output.tail_sol` (11%)
- Некоторые признаки отрицательные - например, `primary_cleaner.state.floatbank8_b_level`, `primary_cleaner.state.floatbank8_c_level`, `rougher.state.floatbank10_a_level` и т.д.
- Полных дублей в данных нет.

## Предобработка