## Rules

1. All mathematical expressions should be written in **LaTeX** for better clarity and formatting.
2. Ensure that the entire notebook can execute seamlessly from start to finish without encountering errors.
3. Focus on optimizing the runtime of the code wherever possible to enhance performance.

## Notation

- $c$: The optimal constant model.  
- $y_i$: The target values in the dataset.  
- $w_i$: The weights associated with the loss function.
- $q$: Quantile value in range $[0, 1]$.

# Важно! О формате сдачи

* **При решении ноутбука используйте данный шаблон. Не нужно удалять текстовые ячейки c разметкой частей ноутбука и формулировками заданий. Добавлять свои ячейки, при необходимости, конечно можно**
* **Везде, где в формулровке задания есть какой-либо вопрос (или просьба вывода), необходимо прописать ответ в ячейку (код или markdown).**
* **Наличие кода решения (или аналитического решения - в зависимости от задачи) обязательно. Письменные ответы на вопросы без сопутствующего кода/аналитического решения оцениваются в 0 баллов.**

## Problem 1

### Description

Consider the loss function:

\begin{align}
L = \sum w_i \cdot \left( \log(y_i) - \log(c) \right)^2
\end{align}

where:

- $\sum w_i = 1$

#### Tasks

1. **Analytically find the best constant $c$** for the given loss function.
2. **Determine the name of the aggregation of $y_i$'s** at the end if $w_1 = w_2 = \dots = w_n$.

### Solution

$L = \sum_{i=1}^{n} w_i \cdot (\log(y_i) - \log(c))^2$
where $\sum_{i=1}^{n} w_i = 1$.

Найдем производную L от c.

$\frac{dL}{dz} = \sum_{i=1}^{n} w_i \cdot 2 \cdot (\log(y_i) - \log(c)) \cdot (-1)$

$\frac{dL}{dz} = -2 \sum_{i=1}^{n} w_i \cdot (\log(y_i) - \log(c))$

Приравниваем к нулю.

$-2 \sum_{i=1}^{n} w_i \cdot (\log(y_i) - \log(c)) = 0$

Делим обе части уравнения на -2.

$\sum_{i=1}^{n} w_i \cdot (\log(y_i) - \log(c)) = 0$

Раскрываем скобки.

$\sum_{i=1}^{n} w_i \cdot \log(y_i) - \sum_{i=1}^{n} w_i \cdot \log(c) = 0$


Так как $\sum_{i=1}^{n} w_i = 1$:

$\sum_{i=1}^{n} w_i \cdot \log(y_i) - \log(c) = 0$

$\log(c) = \sum_{i=1}^{n} w_i \cdot \log(y_i)$

Итак,

$c = \exp\left(\sum_{i=1}^{n} w_i \cdot \log(y_i)\right)$

$\sum_{i=1}^{n} w_i \cdot \log(y_i) = \log\left(\prod_{i=1}^{n} y_i^{w_i}\right)$

$c = \prod_{i=1}^{n} y_i^{w_i}$

Оптимальной константой $c$ является взвешенное среднее геометрическое значений $y_i$.

Если $w_i = \frac{1}{n}$, то:

$c = \prod_{i=1}^{n} y_i^{\frac{1}{n}} = \left(\prod_{i=1}^{n} y_i\right)^{\frac{1}{n}}$

Это среднее геометрическое значений $y_i$.
---

### Final Answer
1) $c = \prod_{i=1}^{n} y_i^{w_i}$

2) Среднее геометрическое значений $y_i$

## Problem 2

### Description

Consider the **quantile loss function** $L$, and prove that the optimal constant $c$ corresponds to the quantile $q$ of the data $y_1, \dots, y_n$.

The quantile loss function is defined as:

\begin{align}
L =
\begin{cases}
q \cdot (y_i - c), & \text{if } y_i \geq c \\
(1-q) \cdot (c - y_i), & \text{if } y_i < c
\end{cases}
\end{align}

**Hint**:

Proof for optimal MAE constant on [this page](https://ds100.org/course-notes/constant_model_loss_transformations/loss_transformations.html).



### Solution

$$
L(c) = \sum_{i=1}^n \begin{cases} q \cdot (y_i - c), & \text{if } y_i \ge c \\ (1 - q) \cdot (c - y_i), & \text{if } y_i < c \end{cases}
$$

Нужно минимизировать $L(c)$, возьмем производную.

$$
\frac{\partial L}{\partial c} = \sum_{i=1}^n \begin{cases} -q, & \text{if } y_i \ge c \\ (1 - q), & \text{if } y_i < c \end{cases}
$$

Приравняем к нулю.

$$
\sum_{i: y_i \ge c} (-q) + \sum_{i: y_i < c} (1 - q) = 0.
$$
Так как $n_{\ge c} + n_{<c} = n$, подставим $n_{<c} = n - n_{\ge c}$:

$$
-q \cdot n_{\ge c} + (1 - q) \cdot (n - n_{\ge c}) = 0.
$$

Упростим:

$$
-n_{\ge c}q + (1 - q)n - (1 - q)n_{\ge c} = 0.
$$

Вынесем $n_{\ge c}$:

$$
n_{\ge c}\big(-q - (1 - q)\big) + (1 - q)n = 0.
$$

Упростим коэффициенты:

$$
-n_{\ge c} + (1 - q)n = 0 \quad \implies \quad n_{\ge c} = (1 - q)n.
$$

Следовательно:
$$
\frac{n_{<\,c}}{n} = q
$$


Следовательно, c — это значение, ниже которого лежит доля q данных. Это в точности соответствует определению q-квантили.

---

### Final Answer

Оптимальная константа c, минимизирующая квантильную функцию потерь, совпадает с q-квантилью данных y1, …, yn.


## Problem 3

In [12]:
import numpy as np

def bruteforce_constant(y: np.ndarray, loss_func: callable, tol: float) -> float:
    """
    Finds the optimal constant c by brute force using a specified loss function.

    Parameters:
    y (np.ndarray): Array of target values.
    loss_func (callable): A function that computes the loss given y and c.
    tol (float): The step size for generating potential c values between min(y) and max(y).

    Returns:
    float: The optimal constant c that minimizes the loss.
    """

    c_values = np.arange(np.min(y), np.max(y), tol)

    best_loss = float('inf')
    best_c = None
    for c in c_values:
        current_loss = loss(y, c)
        if current_loss < best_loss:
            best_loss = current_loss
            best_c = c

    return best_c

def loss(y, c):
    return np.sum(np.log(np.cosh(y - c)))

y = np.array([1, 2, 3, 4, 55, 99, 100])
optimal_c = bruteforce_constant(y, loss, tol=0.001)
min_loss = loss(y, optimal_c)
print(f"The optimal constant c is: {optimal_c}")
print(f"The minimum loss is: {min_loss}")

The optimal constant c is: 4.1969999999996475
The minimum loss is: 243.96167948452023


## Problem 4

In [9]:
from scipy.optimize import minimize
import numpy as np

def minimize_constant(y: np.ndarray, loss_func: callable, tol: float) -> float:
    """
    Finds the optimal constant c using scipy's minimize function with a specified loss function.

    Parameters:
    y (np.ndarray): Array of target values.
    loss_func (callable): A function that computes the loss given y and c.
    tol (float): The tolerance for the optimization process.

    Returns:
    float: The optimal constant c that minimizes the loss.
    """
    initial_guess = np.mean(y)
    def loss_wrapper(c):
        return loss(y, c)

    result = minimize(loss_wrapper, initial_guess, tol=tol)

    return result.x[0]

def loss(y, c):
    return np.sum(np.log(np.cosh(y - c)))

y = np.array([1, 2, 3, 4, 55, 99, 100])
optimal_c = minimize_constant(y, loss, tol=0.001)
min_loss = loss(y, optimal_c)
print(f"The optimal constant c is: {optimal_c}")
print(f"The minimum loss is: {min_loss}")

The optimal constant c is: 4.197181683003827
The minimum loss is: 243.96167941355066


# Problem 5

## Description
In a multiclass classification problem, we often compare a model’s performance with a simple baseline. Two baseline approaches are:

1. **Always predict the most frequent class** (also known as the “constant baseline”).  
2. **Randomly sample a class** for every object with probabilities proportional to the class frequencies in the training set.

The goal of this task is to determine which of these two approaches yields a higher **Accuracy** on a given dataset.

You are provided with:  
1. A set of objects \\( X \\) and their true class labels \\( y \\), where \\( y \in \{C_1, C_2, \dots, C_k\} \\).  
2. The frequencies (or proportions) of each class in the training data.

You need to:  
1. **Explain** how to implement these two baseline approaches (always predicting the most frequent class vs. sampling a class according to its frequency).  
2. **Calculate** the expected Accuracy for each approach.  
3. **Compare** the results to determine which method is more likely to produce a higher Accuracy.

In [6]:
#Solution
import numpy as np
def constant_base(class_freq):
  return np.max(class_freq)
def random_by_prop(class_freq):
  return np.sum(class_freq ** 2)
def sravnenie_bases(class_frequencies):
  constant_baseline_accuracy = constant_base(class_frequencies)
  random_sampling_accuracy = random_by_prop(class_frequencies)
  print(f"Ожидаемая точность (с константой) пример 1: {constant_baseline_accuracy:.4f}")
  print(f"Ожидаемая точность (случайный выбор) пример 2: {random_sampling_accuracy:.4f}")

  if constant_baseline_accuracy > random_sampling_accuracy:
      result = "Всегда предсказывать самый частый класс лучше."
  elif constant_baseline_accuracy == random_sampling_accuracy:
      result = "Методы равны по точности."
  else:
      result = "Случайный выбор лучше."  # Спойлер: такого не будет

  return result
class_frequencies = np.array([0.5, 0.3, 0.2])
result = sravnenie_bases(class_frequencies)
print(result)
print('\n')
class_frequencies = np.array([0.92, 0.08])
result = sravnenie_bases(class_frequencies)
print(result)
print('\n')
class_frequencies = np.array([0.5, 0.5])
result = sravnenie_bases(class_frequencies)
print(result)

Ожидаемая точность (с константой) пример 1: 0.5000
Ожидаемая точность (случайный выбор) пример 2: 0.3800
Всегда предсказывать самый частый класс лучше.


Ожидаемая точность (с константой) пример 1: 0.9200
Ожидаемая точность (случайный выбор) пример 2: 0.8528
Всегда предсказывать самый частый класс лучше.


Ожидаемая точность (с константой) пример 1: 0.5000
Ожидаемая точность (случайный выбор) пример 2: 0.5000
Методы равны по точности.


Почему же это так работает?

В первом решении всё понятно — просто предсказываем самый частый класс. Соответственно, Accuracy (ну так не со всеми метриками будет хорошо работать :)) будет равен как раз частоте появления этого класса в выборке (но не факт, что в тесте такое же распределение по классам). Соответственно,

$$
\text{Accuracy} = p_{max}
$$

Во втором подходе для каждого объекта мы случайным образом выбираем класс в зависимости от его частоты. Ожидаемая точность этого метода рассчитывается так:

$$
\text{Accuracy} = \sum_{i=1}^k p_i^2,
$$

где $p_i$ — это доля объектов класса $C_i$.

Поскольку $p_{max}$ — это максимальная из всех $p_i$, то для каждого $i$, $p_i \le p_{max}$. Тогда $p_i^2 \le p_{max} \cdot p_i$, потому что если $p_i \le p_{max}$, умножение обеих сторон на $p_i$ (неотрицательное число) сохранит неравенство.

Теперь суммируем неравенства $p_i^2 \le p_{max} \cdot p_i$ для всех $i$ от 1 до $k$ (количества классов):

$$
\sum_{i=1}^k p_i^2 \le \sum_{i=1}^k (p_{max} \cdot p_i)
$$

$$
\sum_{i=1}^k p_i^2 \le p_{max} \sum_{i=1}^k p_i
$$

$$
\sum_{i=1}^k p_i^2 \le p_{max} \cdot 1
$$

$$
\sum_{i=1}^k p_i^2 \le p_{max}
$$

Ч. Т. Д. :>

### Final answer

Always predict the most frequent class is better than Randomly sample a class for every object with probabilities proportional to the class frequencies in the training set
(Всегда предсказывать наиболее частый класс лучше, чем рандомно выбирать класс для каждого объекта с вероятностями, пропорциональными частотам классов в обучающем наборе).