# Восстановление золота из руды

Необходимо подготовить прототип модели машинного обучения для компании «Цифры», которая разрабатывает решения для эффективной работы промышленных предприятий.
Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. У нас есть данные с параметрами добычи и очистки.
Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

В процессе выполнения проекта необходимо:

- Подготовить данные;
- Провести исследовательский анализ данных;
- Построить и обучить модель.

***Технологический процесс***

Когда добытая руда проходит первичную обработку, получается дроблёная смесь. Её отправляют на флотацию (обогащение) и двухэтапную очистку.


**Стадии:**

1. Флотация

Во флотационную установку подаётся смесь золотосодержащей руды. После обогащения получается черновой концентрат и «отвальные хвосты», то есть остатки продукта с низкой концентрацией ценных металлов.
На стабильность этого процесса влияет непостоянное и неоптимальное физико-химическое состояние флотационной пульпы (смеси твёрдых частиц и жидкости).

2. Очистка

Черновой концентрат проходит две очистки. На выходе получается финальный концентрат и новые отвальные хвосты.


***Описание данных***

**Технологический процесс**

* `Rougher feed` — исходное сырье
* `Rougher additions` (или `reagent additions`) — флотационные реагенты: Xanthate, Sulphate, Depressant
    * `Xanthat **` — ксантогенат (промотер, или активатор флотации);
    * `Sulphate` — сульфат (на данном производстве сульфид натрия);
    * `Depressant` — депрессант (силикат натрия).
* `Rougher process` (англ. «грубый процесс») — флотация
* `Rougher tails` — отвальные хвосты
* `Float banks` — флотационная установка
* `Cleaner process` — очистка
* `Rougher Au` — черновой концентрат золота
* `Final Au` — финальный концентрат золота

**Параметры этапов**

* `air amount` — объём воздуха
* `fluid levels` — уровень жидкости
* `feed size` — размер гранул сырья
* `feed rate` — скорость подачи


Нужно спрогнозировать сразу две величины:

1. эффективность обогащения чернового концентрата `rougher.output.recovery`;
2. эффективность обогащения финального концентрата `final.output.recovery`.


Данные находятся в трёх файлах:

* `gold_recovery_train_new_8ds.csv` — обучающая выборка;
* `gold_recovery_test_new_8ds.csv` — тестовая выборка;
* `gold_recovery_full_new_8ds.csv` — исходные данные.

Данные индексируются датой и временем получения информации (признак `date`). Соседние по времени параметры часто похожи.

Некоторые параметры недоступны, потому что замеряются и/или рассчитываются значительно позже. Из-за этого в тестовой выборке отсутствуют некоторые признаки, которые могут быть в обучающей. Также в тестовом наборе нет целевых признаков.

Исходный датасет содержит обучающую и тестовую выборки со всеми признаками.

Данные сырые. Необхоима их проверка и предобработка.

## Загрузка и подготовка данных

In [8]:
from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important; }</style>"))

***Выгрузка библиотек***

In [3]:
import pandas as pd

***Константы***

In [6]:
RANDOM_SEED = 0

In [9]:
# Based on: https://stackoverflow.com/a/17303428 (для красивого оформления текста)
class color:
   PURPLE = '\033[95m'
   CYAN = '\033[96m'
   DARKCYAN = '\033[36m'
   BLUE = '\033[94m'
   GREEN = '\033[92m'
   YELLOW = '\033[93m'
   RED = '\033[91m'
   BOLD = '\033[1m'
   UNDERLINE = '\033[4m'
   END = '\033[0m'

***Функции***

In [7]:
#Рандоманая выгрузка строк
show_sample = lambda x: display(x.sample(5, random_state=RANDOM_SEED).reset_index(drop=True))

In [None]:
def com_info(data):
    name = [x for x in globals() if globals()[x] is data][0]
    print(color.UNDERLINE + 'Общая информация по данным '+ name + color.END)
    show_sample(data)

***Загрука данных***

In [5]:
df_train = pd.read_csv('../datasets/gold_recovery_train_new_8ds.csv')
df_test = pd.read_csv('../datasets/gold_recovery_test_new_8ds.csv')
df_full = pd.read_csv('../datasets/gold_recovery_full_new_8ds.csv')

## Изучение общей информации

## Предобработка