### Блок практики

Давайте попробуем оценить, насколько и вправду гномы оказались умными и осведомленными в области построения различных моделей машинного обучения, и найдем, насколько сильно их модели ошибаются на наших данных!

В начале посчитайте **MSE** модели. Для этого нужно посчитать квадратичное отклонение на каждом объекте, а потом просто усредниться! Полезно иметь формулу перед глазами.

$$
MSE = \frac{1}{n} \sum_i^n (a(x_i)-y_i)^2
$$

In [4]:
### Your code is here

error_1 = ((df['prediction_1'] - df['trip_duration'])**2).mean()
error_2 = ((df['prediction_2'] - df['trip_duration'])**2).mean()

print(f"MSE первой модели равно: {int(error_1)}")
print(f"MSE второй модели равно: {int(error_2)}")

MSE первой модели равно: 99994
MSE второй модели равно: 124936


### Задание 5

Видно, что у MSE достаточно большой порядок. Как мы и говорили, глазам куда будет приятнее, если мы будем считать **RMSE**:

$$
RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_i^n (a(x_i)-y_i)^2}|
$$

In [5]:
### Your code is here

print(f"RMSE первой модели равно: {int(error_1**(1/2))}")
print(f"RMSE второй модели равно: {int(error_2**(1/2))}")

RMSE первой модели равно: 316
RMSE второй модели равно: 353


Что можете сказать про модели первого и второго гнома? Чья оказалась лучше с точки зрения **MSE**? 

*Ответ: с точки зрения MSE/RMSE модель первого гнома оказалась лучше. Как минимум, это значит, что если обе модели очень сильно ошибаются на какой-то группе объектов, то у первого эта ошибка не такая уж и гигантская: например, 8000 против 10000. Как раз-таки это связано с крайней чувствительностью MSE к большим ошибкам. Чем дальше предсказание от ответа, тем метрика принимает все более ужасающие значения.
Но это не значит, что в среднем предсказания первой модели на всех объектах лучше во всех смыслах.*

Давайте теперь замерим значения средней абсолютной ошибки, то есть **MAE**:

$$
MAE = \frac{1}{n} \sum_i^n |a(x_i)-y_i|
$$

### Задание 6

In [6]:
### Your code is here

absolute_error_1 = (abs(df['prediction_1'] - df['trip_duration'])).mean()
absolute_error_2 = (abs(df['prediction_2'] - df['trip_duration'])).mean()

print(f"MAE первой модели равно: {int(absolute_error_1)}")
print(f"MAE второй модели равно: {int(absolute_error_2)}")

MAE первой модели равно: 300
MAE второй модели равно: 281


### Задание 7

Если бы Вас попросили выбрать лучшую модель среди предложенных, на какой Вы бы остановились? Если брать за финальную метрику **MAE**, то поменяли бы Вы решение?

Конечно! Мы наблюдаем ту самую ситуацию, когда, имея 2 разные модели с разными предсказаниями, финальный выбор однозначно сделать нельзя, например, сказав *"Первая модель в среднем и в общем лучше второй!"*. **Нет!** Все зависит от формы ошибки, которую мы выбираем. Иными словами, от вида той самой функции, которая наказывает наши модели и замеряет качество их прогнозов.

Ситуация, когда **MAE** и **MSE**, выбирая между 2-х,  указывают на разные модели, знакома нам еще из лекции. 

Такое может происходить, когда в одной из моделей ошибка, в среднем, независимо от порядка чисел, чуть-чуть получше, чем во второй. Но при этом если первая модель и ошибается, то куда суровее второй. 

Представьте: Петя и Миша играют в дартс. Петя в 9/10 случаев попадает в яблочко, но каждый 10-ый раз кидает дротик в потолок. Миша же, хоть и не так часто забрасывает в центр (всего 6/10), но при этом, оставшиеся 4 попытки реализует не совсем фатально: попадает всего-лишь немного дальше яблочка. 

В таком выдуманном сценарии Петя будет лучше с точки зрения **MAE**, а Миша - с точки зрения **MSE**, так как не допускает фатальных ошибок, хоть и в среднем набирает меньше очков. 

Давайте и вправду убедимся в том, что фатальных ошибок у второй модели больше. 

Посчитайте, в скольки случаях предсказания откланяются от ответа более, чем на **500**, для первой и второй моделей!

In [7]:
### Your code is here

counter_1 = sum(abs(df['prediction_1'] - df['trip_duration']) >= 500)
counter_2 = sum(abs(df['prediction_2'] - df['trip_duration']) >= 500)

print(f"Количество отклонений >= 500 от верного ответа для первой модели равно: {counter_1}")
print(f"Количество отклонений >= 500 от верного ответа для второй модели равно: {counter_2}")

Количество отклонений >= 500 от верного ответа для первой модели равно: 33061
Количество отклонений >= 500 от верного ответа для второй модели равно: 228789


Полученные результаты кажутся нам логичными: как и подмечали ранее, первая модель скорее лучше в смысле "суровых ошибок", когда у второй среднее абсолюнтное отклонение прогноза от действительности поменьше.

**Несимметричные метрики**

Зачастую, чтобы выбрать среди всего многообразия моделей, мы можем использовать несимметричные метрики. 

**MSE** и **MAE** относятся к симметричным. Они одинаково наказывают модель как за перепредсказание, так и за недопредсказание. Ошибки *+2* и *-2* переводятся **MSE** и **MAE** в одинаковую меру: **4** в первом случае и **2** во втором.

В действительности же, можно придумать целый ряд задач, когда лучше выбирать несимметричную метрику.

Представьте, что мы - дистрибьютор инсулина, и нам нужно построить модель, которая оптимизирует поставки. В таком случае, кажется, что поставить лекарства на 2 единицы больше и на 2 единицы меньше - совершенно разные сценарии и разная интерпретация катастрофичности ошибки. 

В первом случае мы можем потерять немного прибыли, а во втором - лишить пациента жизненноважного лекарства. Поэтому хотелось бы научиться еще и по-разному оценивать *недо- и перепредсказания*. Для этого как раз-таки и используют несимметричные метрики! Одну из них предлагаю посчитать Вам ниже.

Рассчитайте **RMSLE**. Придумайте, как проверить характер несимметричности данной метрики: за что она наказывает больше - за перепредсказания или за недопредсказания? Это нужно будет в тестовом теоретическом задании.

$$
\text{RMSLE}(X, y, a) = \sqrt{\frac{1}{\ell}\sum_{i=1}^{\ell} \big(\log{(y_i + 1)} - \log{(a(x_i) + 1)}\big)^2}
$$

Для взятия логарифма используйте библиотеку **math**

P.S. Очевидно, что для некоторых отрицательных предсказаний, формула не будет работать, так как логарифм от отрицательных значений взять нельзя. Поэтому давайте подкорректируем наши прогнозы: все отрицательные числа переведем в нули (лучше уж в нашей задаче предсказать *ноль секунд*, чем *минус 100 секунд*)

### Задание 8

In [19]:
### Your code is here

df['prediction_1'] = df['prediction_1'].apply(lambda x: max(x, 0))
df['prediction_2'] = df['prediction_2'].apply(lambda x: max(x, 0))

In [20]:
### Чтобы понять, за что модель штрафует больше, проделаем следующий фокус:
### Пусть истинное значение таргета равно 100
### Одна из моделей предсказана 110
### А вторая 90, замерим, где ошибка будет больше:

from math import log

under_estimating = ((log(90+1)-log(100+1))**2)**(1/2)

over_estimating = ((log(110+1)-log(100+1))**2)**(1/2)

print(f"Ошибка RMSLE при недопредсказании: {round(under_estimating, 3)}")
print(f"Ошибка RMSLE при перепредсказании: {round(over_estimating, 3)}")

Ошибка RMSLE при недопредсказании: 0.104
Ошибка RMSLE при перепредсказании: 0.094


Как видно, RMSLE больше штрафует за недопредсказание!

In [21]:
from math import log


msle_1 = (((df['prediction_1'] + 1).apply(log) - (df['trip_duration'] + 1).apply(log))**2).mean()
msle_2 = (((df['prediction_2'] + 1).apply(log) - (df['trip_duration'] + 1).apply(log))**2).mean()

print(f"RMSLE первой модели равно: {msle_1**(1/2)}")
print(f"RMSLE второй модели равно: {msle_2**(1/2)}")

RMSLE первой модели равно: 0.5537581774590482
RMSLE второй модели равно: 1.5564340528341787


Посчитайте, для какого количества объектов первая модель сделала перепредсказания и недопредсказания.

P.S. оставьте колонку с предсказанием такой, какой она оказалась после замены отрицательных значений

### Задание 9

In [22]:
### Your code is here

over_predicted_1 = sum(df['prediction_1'] - df['trip_duration'] > 0)

under_predicted_1 = sum(df['prediction_1'] - df['trip_duration'] < 0)

print(f"Предсказания первой модели оказались больше действительных в {over_predicted_1} случаях")
print(f"Предсказания первой модели оказались меньше действительных в {under_predicted_1} случаях")

Предсказания первой модели оказались больше действительных в 1456721 случаях
Предсказания первой модели оказались меньше действительных в 1923 случаях


### Задание 10

Аналогично для второй модели

In [23]:
### Your code is here

over_predicted_2 = sum(df['prediction_2'] - df['trip_duration'] > 0)

under_predicted_2 = sum(df['prediction_2'] - df['trip_duration'] < 0)

print(f"Предсказания второй модели оказались больше действительных в {over_predicted_2} случаях")
print(f"Предсказания второй модели оказались меньше действительных в {under_predicted_2} случаях")

Предсказания второй модели оказались больше действительных в 811778 случаях
Предсказания второй модели оказались меньше действительных в 646866 случаях


Сравните две модели заново. Согласуется ли полученный результат с подсчетом **RMSLE** ранее?

Да, согласуется! С точки зрения RMSLE, первая модель лучше. Мы знаем, что RMSLE более чувствителен к недопредсказанием, чем перепредсказаниям. При этом видно, что первая модель и вправду ошибалась чаще в бОльшую сторону, чем в мЕньшую.