<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Анализ-данных" data-toc-modified-id="Анализ-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Анализ данных</a></span></li><li><span><a href="#Модель" data-toc-modified-id="Модель-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Модель</a></span></li><li><span><a href="#Чек-лист-готовности-проекта" data-toc-modified-id="Чек-лист-готовности-проекта-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист готовности проекта</a></span></li></ul></div>

# Восстановление золота из руды

Подготовьте прототип модели машинного обучения для «Цифры». Компания разрабатывает решения для эффективной работы промышленных предприятий.

Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды. Используйте данные с параметрами добычи и очистки. 

Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.

Вам нужно:

1. Подготовить данные;
2. Провести исследовательский анализ данных;
3. Построить и обучить модель.

Чтобы выполнить проект, обращайтесь к библиотекам *pandas*, *matplotlib* и *sklearn.* Вам поможет их документация.

## Подготовка данных

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, make_scorer
from sklearn.model_selection import cross_val_score
import warnings
warnings.filterwarnings('ignore')

In [2]:
train = pd.read_csv('/datasets/gold_recovery_train_new.csv')
test = pd.read_csv('/datasets/gold_recovery_test_new.csv')
full_data = pd.read_csv('/datasets/gold_recovery_full_new.csv')


FileNotFoundError: [Errno 2] No such file or directory: '/datasets/gold_recovery_train_new.csv'

In [None]:
(train.shape), (test.shape), (full_data.shape)

In [None]:
display (train.head())

In [None]:
display (test.head())

In [None]:
display (full_data.head())

In [None]:
train.info()
train.duplicated().sum()

In [None]:
train.isna().sum()

In [None]:
test.info()
test.duplicated().sum()

In [None]:
test.isna().sum()

In [None]:
full_data.info()
full_data.duplicated().sum()

In [None]:
full_data.isna().sum()

<div class="alert alert-info">
<font color='black'> <b> Пропущенные значения имеются во всех трех датасетах</font> <b>

In [None]:
C = train['rougher.output.concentrate_au']
F = train['rougher.input.feed_au']
T = train['rougher.output.tail_au']
recovery = (C*(F-T))/(F*(C-T))*100

In [None]:
mae_recovery=mean_absolute_error(train['rougher.output.recovery'], recovery)
display (mae_recovery)

In [None]:
display (recovery.head(10), train['rougher.output.recovery'].head(10))

<div class="alert alert-info">
<font color='black'> <b> При проверке столбца эффективности обогащения видно, что расчеты по формуле совпали со значениями столбца. МАЕ ничтожно мала </font> <b>

<div class="alert alert-info">
<font color='black'> <b> Проверим, сколько столбцов (34 шт.)и какие столбцы не попали в тестовый датафрейм. Видно, что эти признаки характеризуют концентрацию металлов после флотации и очисток,"отвальные хвосты" после каждого этапа обработки, расчетные характеристики применения флотационных реагентов </font> <b>

In [None]:
columns_not_in_test=[]
for column in train.columns:
    if column not in test.columns:
        print (column)
        columns_not_in_test.append(column)

In [None]:
display (len(columns_not_in_test))

<div class="alert alert-info">
<font color='black'> <b>  В тестовый датафрейм не попали характеристики продукта после флотации и очисток,  а также характеристики эффективности обогащения</font> <b>

<div class="alert alert-info">
<font color='black'> <b> Приведем столбец с датой к нужному формату </font> <b>

In [None]:
full_data['date'] = pd.to_datetime(full_data['date'], format = '%Y-%m-%d')

## Анализ данных

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(full_data['final.output.concentrate_ag'], bins = 150, label = 'Финальная очистка', stacked=True,  alpha=0.7)
plt.hist(full_data['primary_cleaner.output.concentrate_ag'], bins = 150, label = 'Первая очистка', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.output.concentrate_ag'], bins = 150, label = 'Флотация', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.input.feed_ag'], bins = 150, label = 'Сырье', stacked=True, alpha=0.7)
plt.legend()
plt.title('Концентрация серебра', fontsize=16)
plt.xlabel('Концентрация',fontsize=12)
plt.ylabel('Количество',fontsize=12)

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(full_data['final.output.concentrate_au'], bins = 150, label = 'Финальная очистка', stacked=True,  alpha=0.7)
plt.hist(full_data['primary_cleaner.output.concentrate_au'], bins = 150, label = 'Первая очистка', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.output.concentrate_au'], bins = 150, label = 'Флотация', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.input.feed_au'], bins = 150, label = 'Сырье', stacked=True, alpha=0.7)
plt.legend()
plt.title('Концентрация золота', fontsize=16)
plt.xlabel('Концентрация',fontsize=12)
plt.ylabel('Количество',fontsize=12)

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(full_data['final.output.concentrate_pb'], bins = 150, label = 'Финальная очистка', stacked=True,  alpha=0.7)
plt.hist(full_data['primary_cleaner.output.concentrate_pb'], bins = 150, label = 'Первая очистка', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.output.concentrate_pb'], bins = 150, label = 'Флотация', stacked=True, alpha=0.7)
plt.hist(full_data['rougher.input.feed_pb'], bins = 150, label = 'Сырье', stacked=True, alpha=0.7)
plt.legend()
plt.title('Концентрация свинца', fontsize=16)
plt.xlabel('Концентрация',fontsize=12)
plt.ylabel('Количество',fontsize=12)

<div class="alert alert-info">
<font color='black'> <b> Концентрация серебра после флотации повысилась, а потом начала снижаться. Для золота ситуация иная - к финальной очистке его концентрация заметно выросла. Концентрация свинца после первой очистки практическине изменилась</font> <b>

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(train['rougher.input.feed_size'], bins = 150, label = 'Тренироврчная выборка', stacked=True,  alpha=0.7)
plt.hist(full_data['rougher.input.feed_size'], bins = 150, label = 'Тестовая выборка', stacked=True, alpha=0.7)
plt.legend()
plt.title('Размер гранул', fontsize=16)
plt.xlabel('Размер',fontsize=12)
plt.ylabel('Количество',fontsize=12)

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(train['primary_cleaner.input.feed_size'], bins = 150, label = 'Тренироврчная выборка', stacked=True,  alpha=0.7)
plt.hist(full_data['primary_cleaner.input.feed_size'], bins = 150, label = 'Тестовая выборка', stacked=True, alpha=0.7)
plt.legend()
plt.title('Размер гранул', fontsize=16)
plt.xlabel('Размер',fontsize=12)
plt.ylabel('Количество',fontsize=12)

<div class="alert alert-info">
<font color='black'> <b> При исследовании размеров гранул на тренировочной и тестовой выборках было установлено, что распределения размеров гранул близки друг к другу </font> <b>

In [None]:
sum_rougher_input=full_data['rougher.input.feed_ag']+\
full_data['rougher.input.feed_au']+\
full_data['rougher.input.feed_pb']+full_data['rougher.input.feed_sol']
sum_rougher_output=full_data['rougher.output.concentrate_ag']\
+full_data['rougher.output.concentrate_au']+\
full_data['rougher.output.concentrate_pb']+full_data['rougher.output.concentrate_sol']
sum_final=full_data['final.output.concentrate_ag']+\
full_data['final.output.concentrate_au']+\
full_data['final.output.concentrate_pb']+full_data['final.output.concentrate_sol']

In [None]:
plt.figure(figsize=(13, 8))
plt.hist(sum_rougher_input, bins = 150, label = 'Сырье', stacked=True,  alpha=0.7)
plt.hist(sum_rougher_output, bins = 150, label = 'Флотация', stacked=True,  alpha=0.7)
plt.hist(sum_final, bins = 150, label = 'Финальная очистка', stacked=True,  alpha=0.7)
plt.legend()
plt.title('Концентрация металлов', fontsize=16)
plt.xlabel('Концентрация',fontsize=12)
plt.ylabel('Количество',fontsize=12)

<div class="alert alert-info">
<font color='black'> <b> Суммарная концентрация металлов увеличивается от стадии к стадии. На финальном этапе заметно, что сократился интервал значений концентрации, и увеличилось количество значений внутри этого интервала </font> <b>

## Модель

In [None]:
def f_smape(target_r, pred_r, target_f, pred_f):
    rougher = 100/len(target_r)*np.sum(2*np.abs(pred_r-target_r)/(np.abs(target_r)+np.abs(pred_r)))
    final = 100/len(target_f)*np.sum(2*np.abs(pred_f-target_f)/(np.abs(target_f)+np.abs(pred_f)))
    return 0.25 * rougher + 0.75 * final

In [None]:
test['rougher.output.recovery']=train['rougher.output.recovery'].loc[:5290]
test['final.output.recovery']=train['final.output.recovery'].loc[:5290]
test=test.dropna()
test = test.drop('date', axis=1)
#full_data['rougher.output.recovery']=train['rougher.output.recovery']
#full_data['final.output.recovery']=train['final.output.recovery']
#full_data=full_data.dropna()
#full_data = full_data.drop('date', axis=1)
#full_data = full_data.loc[:5290]

features= test.drop(['rougher.output.recovery','final.output.recovery'], axis=1)
y_rougher = test['rougher.output.recovery']
y_final = test['final.output.recovery']

#features= full_data.drop(['rougher.output.recovery','final.output.recovery'], axis=1)
#y_rougher = full_data['rougher.output.recovery']
#y_final = full_data['final.output.recovery']

x_train_r, x_test_r, y_train_r, y_test_r = \
train_test_split(features, y_rougher, test_size=0.25, random_state=12345)
x_train_f, x_test_f, y_train_f, y_test_f = \
train_test_split(features, y_final, test_size=0.25, random_state=12345)

In [None]:
tree_params = {'max_depth': list(range(1, 20))}

In [None]:
dtr_model_r = GridSearchCV(DecisionTreeRegressor(random_state=12345),
                         tree_params, cv=5) 
dtr_model_r.fit(x_train_r, y_train_r)
params = dtr_model_r.best_params_
dtr_best_r = DecisionTreeRegressor(**params, random_state=12345)
dtr_best_r.fit(x_train_r, y_train_r)
dtr_model_r.best_params_

In [None]:
dtr_model_f = GridSearchCV(DecisionTreeRegressor(random_state=12345),
                         tree_params, cv=5) 
dtr_model_f.fit(x_train_f, y_train_f)
params = dtr_model_f.best_params_
dtr_best_f = DecisionTreeRegressor(**params, random_state=12345)
dtr_best_f.fit(x_train_f, y_train_f)
dtr_model_f.best_params_

In [None]:
pred_rougher = dtr_best_r.predict(x_test_r)
pred_final = dtr_best_f.predict(x_test_f)
f_smape(y_test_r, pred_rougher, y_test_f, pred_final)

In [None]:
def smape_loss(y_true, y_pred):
    return 200 * (abs(y_true - y_pred)/
                 (abs(y_true) + abs(y_pred))).mean()

In [None]:
from sklearn.metrics import make_scorer
scorer = make_scorer(smape_loss, greater_is_better=False)

In [None]:
rfr_params = {'max_depth': list(range(3, 6))}
rfr_model_r = GridSearchCV(RandomForestRegressor(random_state=12345),
                         rfr_params, cv=5, n_jobs=-1, scoring = scorer) 
rfr_model_r.fit(x_train_r, y_train_r)
params = rfr_model_r.best_params_
rfr_best_r = RandomForestRegressor(**params, random_state=12345)
rfr_best_r.fit(x_train_r, y_train_r)
rfr_model_r.best_params_

In [None]:
rfr_model_f = GridSearchCV(RandomForestRegressor(random_state=12345),
                         rfr_params, cv=5, n_jobs=-1, scoring = scorer) 
rfr_model_f.fit(x_train_f, y_train_f)
params = rfr_model_f.best_params_
rfr_best_f = RandomForestRegressor(**params, random_state=12345)
rfr_best_f.fit(x_train_f, y_train_f)
rfr_model_f.best_params_

In [None]:
pred_rougher = rfr_best_r.predict(x_test_r)
pred_final = rfr_best_f.predict(x_test_f)
f_smape(y_test_r, pred_rougher, y_test_f, pred_final)