# 314. Оптимальная константа 2.0

Успешно пройдя все этапы отбора, Кеша осуществил свою заветную мечту и попал на стажировку в свою любимую IT-компанию. Так как Кеша отлично показал себя при прохождении секций, руководитель доверил ему сложную исследовательскую задачу: с помощью машинного обучения решить важную проблему бизнеса - повышение счастья новых пользователей сервиса, который развивает команда Кеши.

Желая сделать этот мир лучше, наш герой с головой погрузился в продуктовую составляющую задачи, сформулировал ее в терминах машинного обучения и довольно быстро смог построить пайплайн для обучения моделей. Дело за малым: осталось внедрить модель в систему realtime-обработки запросов и вырастить самую главную метрику - счастье пользователей сервиса. Однако, разработчик, который должен был помогать Кеше дотаскивать необходимые для его модели признаки до обработчика запросов, внезапно заболел. Так как Кеша очень ответственный и ему не терпится внедрить свою модель, он нашел временный выход из ситуации - попробовать в качестве прогноза использовать модель без фичей, то есть выдающую на все запросы константный прогноз.

Единственная трудность заключается в том, что показатель «счастье пользователей», за улучшение которого борется Кеша, является сложноизмеримой величиной, которую пока никто не смог записать в виде простой аналитической формулы. Как вдумчивый исследователь, Кеша хочет попробовать несколько разных метрик качества, для каждой из них получить оптимальное значение константы и затем промерить полученные константы в онлайн эксперименте, дабы определить, какая из них лучше растит счастье.

Перед выкаткой эксперимента в онлайн, Кеша обратился к вам, как к своему потенциальному коллеге, чтобы вы помогли ему провалидировать результаты. Помогите Кеше максимизировать всеобщее счастье!

Для вашего удобства Кеша уже сделал предварительную обработку данных и подготовил обучающую выборку. Решается задача регрессии, в которой целевая функция имеет вид $t_i = \frac{b_i}{a_i}$, где $a_i$ и $b_i$ - некоторые статистики, влияющие на счастье пользователя. Кеша знаком с техникой перевзвешивания и активно ее использует для решения задачи: каждому объекту обучающей выборки приписывается некоторый вес, который отвечает за "важность" данного объекта (чем больше вес, тем сильнее модель при обучении штрафуется за отклонение предсказания от значения целевой функции на данном объекте). При целевой переменной указанного вида зачастую бывает разумно для повышения устойчивости модели в качестве веса использовать $w_i = b_i$, что и делает Кеша. Таким образом, обучающая выборка - это набор из $n$ объектов, представляющих собой тройки $(x_i,a_i,b_i)$, где $x_i$ - признаковое описание объекта, то есть вектор вещественных чисел длиной $k$ (важно помнить, что признаки не будут использоваться при применении в продакшене), $a_i$ и $b_i$ - статистики, необходимые для вычисления целевой функции $t_i$ и веса $w_i$.

Пусть $p$ - прогноз модели, которую обучает Кеша. Тогда используемые в нашей задаче метрики качества можно записать следующим образом:

**Mean squared error:**

$MSE=\frac{\sum w_i*(t_i-p)^2}{\sum w_i}$

**Mean squared logarithmic error:**

$MSLE=\frac{\sum w_i*(ln(1+t_i)-ln(1+p))^2}{\sum w_i}$

**Logistic loss:**

$LogLoss=\frac{\sum w_i*[\frac{t_i}{C}ln(\frac{p}{C})-(1-\frac{t_i}{C})ln(1-\frac{p}{C})]}{\sum w_i}$

## Решение

Самое простое решение:
1. Взять производные
2. Приравнять к 0 
3. Найти p

**Производная по $MSE$:**

$p = \frac{\sum w_i*t_i}{\sum w_i}$

**Производная по $MSLE$:**

$p = exp(\frac{\sum w_i*ln(1+t_i)}{\sum w_i})-1$

**Производная по $LogLoss$:**

$p*\sum w_i*t_i - C*\sum w_i*t_i + p*\sum w_i - p*\sum w_i*t_i = 0$

Отсюда, выражаем $p$:

$p = \frac{\sum w_i*t_i}{\sum w_i}$

In [None]:
import numpy as np 

n, k = list(map(int, input().split()))
arr = np.array([list(map(float, input().split())) for i in range(n)])

a = arr[:,-2]
b = arr[:,-1]
w = arr[:,-1]
t = a/b

p1 = sum(w*t)/sum(w)
p2 = np.exp(sum(w*np.log(1+t))/sum(w))-1
p3 = sum(w*t)/sum(w)

print(p1, p2, p3)