In [None]:
from typing import Tuple, Iterable, List, Dict, Callable, Any, Optional, Union
from collections import Counter

import math

# <center>Функции</center>

# 1. Метрики

Данное задание призвано как проверить навыки работы с функциями, так и ознакомить Вас с метриками, которые используются во время тренировки моделей Supervised Learning.

### 1.1 Gini score

Критерий Gini показывает, насколько однородным является выбранная группа, и расчитывается по следующей формуле:

$$Gini = 1 - \sum p_{j}^{2}$$

где $p_{j}$ - это частота каждого класса в данной группе (или, иными словами, вероятность того, что случайно взятый экземпляр из этой группы принадлежит к данному классу).  
  
Например, у нас есть группа из 20 шариков, 10 из которых - синие, 7 - зелёные, и 3 - красные. В данном случае критерий Gini будет равен:

$$Gini = 1 - ((\frac{10}{20})^{2} + (\frac{7}{20})^{2} + (\frac{3}{20})^{2}) = 1 - 0.395 = 0.605$$

Критерий Gini может принимать значения от 0 (абсолютно гомогенная группа, состоящая из одного класса) до 1 (максимальная неопределённость, множество классов с одинаковыми вероятностями выпадения)

#### Задание: написать функцию, которая получает на вход список целых чисел, и вычисляет значение критерия Gini

In [None]:
def gini_score(items: Iterable[int]) -> float:
    """
    Возвращает коэффициент Джини для последовательности элементов.
    """
    values = Counter(items)
    n = len(items)
    summ = 0

    for val in values:
        summ += (values[val] / n)**2

    return 1 - summ

In [None]:
gini_score([0]*10 + [1]*7 + [2]*3)

0.605

In [None]:
gini_score(["C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "З", "З", "З", "З", "З", "З", "З", "К", "К", "К"])

0.605

---

### 1.2 Entropy

Энтропия измеряет степень неопределённости группы, и, конкретно в нашем случае, описывает количество информации, требуемое для описания распределения (distributon) в группе.  
Формула (средней) энтропии:

$$Entropy = - \sum p_{j}\log p_{j}$$

как и в случае с критерием Gini, $p_{j}$ - это частота каждого класса в данной группе.  
  
В том же примере с шариками (группа из 20 шариков, 10 из которых - синие, 7 - зелёные, и 3 - красные), уровень энтропии будет равен:

$$Entropy = -\ (\frac{10}{20} * \log(\frac{10}{20}) + \frac{7}{20} * \log(\frac{7}{20}) + \frac{3}{20} * \log(\frac{3}{20})) = - \ (-0.347 - 0.367 -0.285) = 0.999$$

Энтропия может принимать значения от 0 (абсолютно гомогенная группа, состоящая из одного класса) до бесконечности (максимальная неопределённость), хотя на практике максимальное значение ограничено логарифмической функцией и достигает величины в 20-30 единиц (можете попробовать запустить её со списком из миллиона уникальных значений).

#### Задание: написать функцию, которая получает на вход список целых чисел, и вычисляет значение Энтропии

In [None]:
def entropy_score(items: Iterable[int]) -> float:
    """
    Возвращает коэффициент энтропии для последовательности элементов.
    """
    values = Counter(items)
    n = len(items)
    summ = 0

    for val in values:
        p_j = values[val] / n
        summ += p_j * math.log(p_j)

    return -summ

In [None]:
entropy_score(["C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "З", "З", "З", "З", "З", "З", "З", "К", "К", "К"])

0.9985793315873921

---

### 1.3 Mean Squared Error (MSE)

Среднеквадратичная ошибка (Mean Squared Error, MSE) - это метрика, используемая в задачах регрессии, для оценки разницы между прогнозируемыми и фактическими значениями.  
  
MSE измеряет среднеквадратичное отклонение прогнозируемых значений от фактических значений и вычисляется путем суммирования квадратов разностей между каждым прогнозируемым и фактическим значением, а затем деления на количество наблюдений:

$$MSE = \sum_{i=0}^{n} \frac{(y^{'}_{i} - y_{i})^{2}}{n}$$

где $y^{'}_{i}$ - это предсказанное значение для $i$-того элемента, $y_{i}$ - его реальное значение, $n$ - общее количество элементов.  
  
Очевидно, что в идеальном случае, когда все предсказания в точности равны реальным значениям, **MSE** будет равен нулю (сверху же данный показатель не ограничен).

В рамках этого задания мы слегка изменим эту метрику, и вместо $y^{'}_{i}$ (отдельного предсказания для каждого элемента) будем испльзовать среднее значение всех элементов в группе - $\hat{y}$:

$$MSE = \sum_{i=0}^{n} \frac{(\hat{y} - y_{i})^{2}}{n}$$

Пример: дана группа чисел $[-0.1, -2.0 ,  1.0 ,  1.8,  0.8]$.
  
Среднее значение группы:

$$\hat{y} = \frac{-0.1-2.0+1.0+1.8+0.8}{5} = 0.3$$

Значит, среднеквадратичное отклонение будет равно:

$$MSE = \frac{(0.3 - (-0.1))^{2} + (0.3 - (-2.0))^{2} + (0.3 - 1.0)^{2} + (0.3 - 1.8)^{2} + (0.3 - 0.8)^{2}}{5} = 1.688$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет среднеквадратичную ошибку:

In [None]:
def mse_score(items: Iterable[Union[int, float]]) -> float:
    """
    Возвращает среднеквадратичную ошибку последовательности
    (она же - несмещенная оценка дисперсии)
    """

    n = len(items)
    mean = sum(items) / n
    summ = 0

    for val in items:
        summ += (val - mean)**2
    
    return summ / n

In [None]:
mse_score([-0.1, -2.0, 1.0, 1.8, 0.8])

1.688

---

### 1.4 Root Mean Squared Error (RMSE)

Корень средней квадратичной ошибки (Root Mean Squared Error, RMSE) имеет преимущество в том, что представляет величину ошибки в единице прогнозируемого столбца, что упрощает процесс интерпретации.  
  
Если вы пытаетесь спрогнозировать сумму в долларах, корень средней квадратичной ошибки можно интерпретировать как величину ошибки в долларах.
  
Аналогично предыдущему примеру, в данном задании мы будем вместо прогнозируемых значений использовать среднее группы:

$$RMSE = \sqrt{\sum_{i=0}^{n} \frac{(y^{'}_{i} - y_{i})^{2}}{n}} \longrightarrow RMSE = \sqrt{\sum_{i=0}^{n} \frac{(\hat{y} - y_{i})^{2}}{n}}$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет корень среднеквадратичной ошибки:

In [None]:
def rmse_score(items: Iterable[Union[int, float]]) -> float:
    """
    Возвращает корень среднеквадратичной ошибки 
    """
    return math.sqrt(mse_score(items))

In [None]:
rmse_score([-0.1, -2.0, 1.0, 1.8, 0.8])

1.2992305415129373

---

### 1.5 Mean Absolute Percentage Error (MAPE)

Средняя процентная ошибка (МАРЕ) измеряет отклонение фактических значений от прогнозируемых значений в процентах.  
  
MAPE часто используется в бизнесе и экономике для оценки точности прогнозирования, особенно при прогнозировании спроса на товары или услуги.  
  
Преимущество данной метрики в том, что она позволяет сравнивать эффективность моделей, натренированных на данных различного масштаба.  
  
Формула для расчёта MAPE:

$$MAPE = \frac{100}{n} * \sum{\mid \frac{y^{'}_{i} - y_{i}}{y_{i}} \mid}$$

Поскольку реальное значение $y_{i}$ может быть равен нулю, то для избежания деления на ноль в некоторых случаях в знаменатель добавляется ничтожно малое число $\varepsilon$ (оно должно быть существенно ниже имеющихся реальных значений):

$$MAPE = \frac{100}{n} * \sum{\mid \frac{y^{'}_{i} - y_{i}}{y_{i}} \mid} \ \longrightarrow \ MAPE = \frac{100}{n} * \sum{ \frac{\mid y^{'}_{i} - y_{i}\mid}{\mid y_{i} \mid + \varepsilon}}$$

Другой способ избежать деление на ноль - это просто убрать из расчёта экземпляры, где реальное значение равно нулю (ибо для них применение этой метрики не имеет смысла)

Аналогично предыдущему примеру, в данном задании мы будем вместо прогнозируемых значений использовать среднее группы:

$$MAPE = \frac{100}{n} * \sum{ \frac{\mid \hat{y} - y_{i}\mid}{\mid y_{i} \mid + \varepsilon}}$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет MAPE:

In [None]:
def mape_score(items: Iterable[Union[int, float]]) -> float:
    """
    Возвращает среднюю процентную ошибку
    """
    new_items = []
    
    for val in items:
        if val != 0 :
            new_items.append(val)
    
    n = len(items)
    mean = sum(items) / n
    summ = 0
    for val in new_items:
        summ += abs(val - mean) / abs(val)
    
    return 100 * summ / n

In [None]:
mape_score([-0.1, -2.0, 1.0, 1.8, 0.8])

146.16666666666669

---

# 2. Взвешенная оценка

В некоторых ситуациях нам надо расчитать среднее взвешанное значение заданной метрики для нескольких групп. Слово *взвешенное* подразумевает, что вклад каждой группы в финальное значение пропорционален количеству элементов в ней.
  
Например: у нас есть две группы `A: [1, 1, 2, 1, 3, 2]` и `B: [3, 3, 2]`. Задача - расчитать взвешенное значение критерия Gini:

$$Gini_{total} = \frac{N_{A}}{N_{A} + N_{B}}Gini_{A} + \frac{N_{B}}{N_{A} + N_{B}}Gini_{B} = \frac{6}{9}*0.611 + \frac{3}{9}*0.444 = 0.556$$

#### Задание: написать функцию, которая получает на вход функцию метрики и несколько списоков чисел, и вычисляет взвешенное значение переданной метрики:

In [None]:
def weighted_metric_score(metric: Callable, *items: Iterable) -> float:
    """
    Возвращает взвешенную метрику для списка последовательностей
    Список самих метрик определен выше в виде функций
    """
    N = 0
    summ = 0

    for item in items:
        N += len(item)

    for item in items:
        n = len(item)
        summ += metric(item) * n / N
    
    return summ

In [None]:
weighted_metric_score(gini_score, [0,0,0,0], [1,1,1])

0.0

---

# 3. Разделенение группы

### 3.1 Деление группы на две

Легче всего описать это задание с вводных данных:  
  
Есть два списка: один - вспомогательный (`features, F`), состоящий из чисел, второй - основной (`targets, T`), при этом их элементы связаны попарно:

$$F_{i} \leftrightarrow T_{i}$$

Нам даётся число из вспомогательной группы `F`. Наша задача - разделить основную и вспомогательную группы так на две подгруппы так, чтобы все элементы $\color{red}{первой}$ вспомогательной подгруппы были бы меньше или равны данному числу, а все элемены $\color{blue}{второй}$ вспомогательной подгруппы - больше этого числа.
  
Например: нам данны следующие основная и вспомогательная группы:

$$
T = [1, 1, 2, 2, 1, 1, 2, 1, 3, 1, 3, 4, 1]  \\
F = [3, 1, 9, 9, 1, 5, 2, 1, 7, 1, 3, 4, 9]
$$

Допустим, из вспомогательного списка выбрано число `5`. Таким образом, эти списки будут разделены следующим образом:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{red}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{2}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,1,2,1,1,3,4}] \ , \ [\color{blue}{2,2,3,1}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{red}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,5,2,1,1,3,4}] \ , \ [\color{blue}{9,9,7,9}]
$$

#### Задание: написать функцию, которая получает на вход основной список `targets`, вспомогательный список `features` и "делитель" `split_value` и возвращает результат разбиения основного списка `sub_targets_1`, `sub_targets_2`:

In [None]:
def split_target_by_feature(targets: Iterable, features: Iterable, split_value: Union[int, float]) -> Tuple[Iterable, Iterable]:
    """
    Выполняет деление основной группы по целевому значению вспомогательной
    """
    part_a, part_b = [], []

    for i in range(len(targets)):
        if features[i] <= split_value:
            part_a.append(targets[i])
        else:
            part_b.append(targets[i])
    
    return part_a, part_b

In [None]:
split_target_by_feature([1,1,2,2,1,1,2,1,3,1,3,4,1], [3,1,9,9,1,5,2,1,7,1,3,4,9], 5)

([1, 1, 1, 1, 2, 1, 1, 3, 4], [2, 2, 3, 1])

---

### 3.2 Поиск оптимального "делителя"

Следующий шаг - поиск оптимального "делителя", который позволит получить таке две подгруппы основного списка `targets`, взвешенная оценка которых для указанной метрики будет минимальна.  
  
Используя предыдущий пример, оценим вариант двух разбиений:  
первый, когда "делитель" равен 5:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{red}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{3}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,1,2,1,1,3,4}] \ , \ [\color{blue}{2,2,3,1}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{red}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,5,2,1,1,3,4}] \ , \ [\color{blue}{9,9,7,9}]
$$

второй - когда "делитель" равен 3:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{blue}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{3}, \color{red}{1}, \color{red}{3}, \color{blue}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,2,1,1,3}] \ , \ [\color{blue}{2,2,1,3,1,4}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{blue}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{blue}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,2,1,1,3}] \ , \ [\color{blue}{9,9,5,7,9,4}]
$$

Допустим, что в качестве метрики выбрана этнропия.  
  
В таком случае, взвешенная оценка в первом варианте будет равна:

$$
Entropy_{total} = \frac{9}{13} * Entropy([1,1,1,1,2,1,1,3,4]) + \frac{4}{13} * Entropy([2,2,3,1]) = 0.694 + 0.320 = 1.014
$$

А во втором варианте:

$$
Entropy_{total} = \frac{7}{13} * Entropy([1,1,1,2,1,1,3]) + \frac{6}{13} * Entropy([2,2,1,3,1,4]) = 0.429 + 0.614 = 1.043
$$

Таким образом, `5` даёт меньшее значение взвешенной метрики по сравнению с `3`.

#### Задание: написать функцию, которая получает на вход функцию метрики `score_func`, основной список `targets`, вспомогательный список `features` и возвращает оптимальное значение "делителя":

In [None]:
def find_best_split_value(score_func: Callable, targets: Iterable, features: Iterable) -> Union[int, float]:
    """
    Возвращает оптимальный делитель из множества значений вспомогательной последовательности
    Критерий оптимальности - минимальное значение метрики (так как все вышеописанные метрики стремятся к нулю
    для огомогенных последовательностей и при этом всегда не отрицательны)
    """

    best_score = float("inf")


    for split_value in set(features):

        cur_split = split_target_by_feature(targets, features, split_value)
        cur_score = weighted_metric_score(score_func, cur_split[0], cur_split[1]) 

        #print(f"cur splitter {split_value} give score {cur_score}")
        
        if cur_score < best_score:
            best_score = cur_score
            cur_splitter = split_value
    
    return cur_splitter

In [None]:
find_best_split_value(entropy_score, [1,1,2,2,1,1,2,1,3,1,3,4,1], [3,1,9,9,1,5,2,1,7,1,3,4,9])

1

---

### 3.3 Выбор оптимального вспомогательного списка

Расширим вводные данные: теперь помимо основного списка `targets`, нам даётся не один, а несколько вспомогательных списков `features` `F1`, `F2` ... `Fn`.

#### Задание: написать функцию, которая получает на вход функцию метрики `score_func`, основной список `targets`, группу вспомогательных списков`options` `F1`, `F2` ... `Fn` и возвращает индекс выбранного вспомогательного списка и оптимальное значение "делителя":

In [None]:
def find_best_split_value(score_func: Callable, targets: Iterable, options: List[Iterable]) -> Tuple[Iterable, Union[int, float]]:
    """
    Используя локальную функцию find_best_split_value(), находит среди предложенных вспомогательных последовательностей.
    Возвращает индекс данной последовательности и оптимальный делитель.
    """

    def find_best_split_value(score_func: Callable, targets: Iterable, features: Iterable) ->  Tuple[Iterable, Union[int, float]]:
        """
        Возвращает оптимальный делитель и скор по указанной метрике для входящей пары последовательностей
        """

        best_score = float("inf")


        for split_value in set(features):

            cur_split = split_target_by_feature(targets, features, split_value)
            cur_score = weighted_metric_score(score_func, cur_split[0], cur_split[1]) 
            
            if cur_score < best_score:
                best_score = cur_score
                cur_splitter = split_value
        
        return cur_splitter, best_score

    best_score = float("inf")

    for cur_index, features in enumerate(options):
        
        cur_splitter, cur_best_score = find_best_split_value(score_func, targets, features)
        
        if cur_best_score < best_score:
            best_score = cur_best_score
            index = cur_index
            splitter = cur_splitter

    return index, splitter

In [None]:
find_best_split_value(entropy_score, [1,1,2,2,1,1,2,1,3,1,3,4,1], [[3,1,9,9,1,5,2,1,7,1,3,4,9]])

(0, 1)

---

# <center>Классы</center>

# 4. Узел (Node)

#### Задание: напишите класс `Node`
  
Он должен иметь следующие атрибуты:
- **id**       : int - **уникальный** номер для каждого экземпляра этого класса
- **values**   : Iterable - значения, хранимые в данном узле
- **parent**   : Optional `Node`- "родительский" узел, из которого был создан данный экземпляр (по умолчанию = None)
- **children** : Optional List `[Node]` - узлы, образованные из данного экземпляра (по умолчанию = None)  
  
Также он должен обладать следующими методами:
- **is_root** -> bool : проверяет, является ли данный узел "корневым" (т.е. имеется у него "родитель" или нет)
- **is_leaf** -> bool : проверяет, является ли данный узел терминальным (т.е. имеется у него "дети" или нет)

In [None]:
class Node:

    COUNTER = 0

    def __init__(self, values=0, parent=None, children=None):

        self.id = Node.COUNTER
        self.values = values
        self.parent = parent
        self.children = children

        Node.COUNTER += 1
    
    def is_root(self):
        return not(bool(self.parent))
    
    def is_leaf(self):
        return not(bool(self.children))

In [None]:
A = Node(1)

In [None]:
B = Node(2, A)

In [None]:
A.children = B

In [None]:
A.id, B.id

(0, 1)

In [None]:
A.is_root(), A.is_leaf()

(True, False)

In [None]:
B.is_root(), B.is_leaf()

(False, True)

---

# 5. Условие (Condition) и Группа условий (Conditions Group)

#### Задание: напишите классы `Condition` и `ConditionsGroup`

**Condition** представляет собой описание следующего правила: `признак Х` - `меньше или равно | больше` - `значение`  
  
Таким образом, этот класс должен обладать соответствующими атрибутами:
- **feature** : str|int
- **greater** : bool
- **value**   : int|float

**ConditionsGroup** должен сохранять список разных условий и иметь атрибут **conditions**

In [None]:
class Condition:
    ...

class ConditionsGroup:
    ...

---

<div class="alert alert-info">
    <center><strong>Задание на 10 баллов</strong></center>
</div>

Реализуйте операцию объединения экземпляров классов **Condition** и **ConditionsGroup** следующим образом:
- Если объединяются два экземпляра класса **Condition** и у обоих одинаковые атрибуты `feature` и `greater`, то объединение должно возвращать новый экземпляр **Condition** с тем значением атрибута `value`, который соответсвует логике

In [None]:
c1 = Condition(feature="рост", greater=False, value=180)
c2 = Condition(feature="рост", greater=False, value=160)

c1 + c2 -> Condition(feature="рост", greater=False, value=160)

SyntaxError: ignored

- В любом другом случае должен возвращаться новый экземпляр **ConditionsGroup**, и, если при этом между элементами этого экземпляра возможно произвести объединение первого типа - то это нужно сделать (таким образом, не будет нескольких элементов с одинаковыми `feature` и `greater`)

In [None]:
c1 = Condition(feature="рост", greater=False, value=180)
c2 = Condition(feature="рост", greater=True, value=160)

cg_1 = c1 + c2
cg_1 -> ConditionsGroup(Condition(feature="рост", greater=False, value=180),
                        Condition(feature="рост", greater=True, value=160))

---

<center><h1>Удачи!</h1></center>