In [12]:
from typing import Tuple, Iterable, List, Dict, Callable, Any, Optional, Union

# <center>Функции</center>

# 1. Метрики

Данное задание призвано как проверить навыки работы с функциями, так и ознакомить Вас с метриками, которые используются во время тренировки моделей Supervised Learning.

### 1.1 Gini score

Критерий Gini показывает, насколько однородным является выбранная группа, и расчитывается по следующей формуле:

$$Gini = 1 - \sum p_{j}^{2}$$

где $p_{j}$ - это частота каждого класса в данной группе (или, иными словами, вероятность того, что случайно взятый экземпляр из этой группы принадлежит к данному классу).  
  
Например, у нас есть группа из 20 шариков, 10 из которых - синие, 7 - зелёные, и 3 - красные. В данном случае критерий Gini будет равен:

$$Gini = 1 - ((\frac{10}{20})^{2} + (\frac{7}{20})^{2} + (\frac{3}{20})^{2}) = 1 - 0.395 = 0.605$$

Критерий Gini может принимать значения от 0 (абсолютно гомогенная группа, состоящая из одного класса) до 1 (максимальная неопределённость, множество классов с одинаковыми вероятностями выпадения)

#### Задание: написать функцию, которая получает на вход список целых чисел, и вычисляет значение критерия Gini

In [13]:
def gini_score(items: Iterable[int]) -> float:
  items = [items.count(i) for i in set(items)]
  divider = sum(items)
  result = 1
  for i in items:
    result = result - (i/divider)**2
  return result
    

In [14]:
list_1= ['R', 'R','R','R','R','R', 'R', 'R', 'R', 'R', 'W', 'W', 'W', 'W', 'W', 'W', 'W', 'B', 'B', 'B', ]
gini_score (list_1)

0.6050000000000001

---

### 1.2 Entropy

Энтропия измеряет степень неопределённости группы, и, конкретно в нашем случае, описывает количество информации, требуемое для описания распределения (distributon) в группе.  
Формула (средней) энтропии:

$$Entropy = - \sum p_{j}\log p_{j}$$

как и в случае с критерием Gini, $p_{j}$ - это частота каждого класса в данной группе.  
  
В том же примере с шариками (группа из 20 шариков, 10 из которых - синие, 7 - зелёные, и 3 - красные), уровень энтропии будет равен:

$$Entropy = -\ (\frac{10}{20} * \log(\frac{10}{20}) + \frac{7}{20} * \log(\frac{7}{20}) + \frac{3}{20} * \log(\frac{3}{20})) = - \ (-0.347 - 0.367 -0.285) = 0.999$$

Энтропия может принимать значения от 0 (абсолютно гомогенная группа, состоящая из одного класса) до бесконечности (максимальная неопределённость), хотя на практике максимальное значение ограничено логарифмической функцией и достигает величины в 20-30 единиц (можете попробовать запустить её со списком из миллиона уникальных значений).

#### Задание: написать функцию, которая получает на вход список целых чисел, и вычисляет значение Энтропии

In [15]:
import math
def entropy_score(items: Iterable[int]) -> float:
  items = [items.count(i) for i in set(items)]
  divider = sum(items)
  result = 0
  for i in items:
     result = result - (i/divider)*math.log(i/divider)
     
  return result

In [16]:
list_1= ['R', 'R','R','R','R','R', 'R', 'R', 'R', 'R', 'W', 'W', 'W', 'W', 'W', 'W', 'W', 'B', 'B', 'B', ]
entropy_score (list_1)

0.9985793315873921

---

### 1.3 Mean Squared Error (MSE)

Среднеквадратичная ошибка (Mean Squared Error, MSE) - это метрика, используемая в задачах регрессии, для оценки разницы между прогнозируемыми и фактическими значениями.  
  
MSE измеряет среднеквадратичное отклонение прогнозируемых значений от фактических значений и вычисляется путем суммирования квадратов разностей между каждым прогнозируемым и фактическим значением, а затем деления на количество наблюдений:

$$MSE = \sum_{i=0}^{n} \frac{(y^{'}_{i} - y_{i})^{2}}{n}$$

где $y^{'}_{i}$ - это предсказанное значение для $i$-того элемента, $y_{i}$ - его реальное значение, $n$ - общее количество элементов.  
  
Очевидно, что в идеальном случае, когда все предсказания в точности равны реальным значениям, **MSE** будет равен нулю (сверху же данный показатель не ограничен).

В рамках этого задания мы слегка изменим эту метрику, и вместо $y^{'}_{i}$ (отдельного предсказания для каждого элемента) будем испльзовать среднее значение всех элементов в группе - $\hat{y}$:

$$MSE = \sum_{i=0}^{n} \frac{(\hat{y} - y_{i})^{2}}{n}$$

Пример: дана группа чисел $[-0.1, -2.0 ,  1.0 ,  1.8,  0.8]$.
  
Среднее значение группы:

$$\hat{y} = \frac{-0.1-2.0+1.0+1.8+0.8}{5} = 0.3$$

Значит, среднеквадратичное отклонение будет равно:

$$MSE = \frac{(0.3 - (-0.1))^{2} + (0.3 - (-2.0))^{2} + (0.3 - 1.0)^{2} + (0.3 - 1.8)^{2} + (0.3 - 0.8)^{2}}{5} = 1.688$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет среднеквадратичную ошибку:

In [17]:

def mse_score(items: Iterable[Union[int, float]]) -> float:
  y_ = sum(items)/len(items)
  result = 0
  for i in items:
    result = result + (y_ - i)**2
  return result/len(items)


In [18]:
list_2 = [-0.1, -2.0, 1.0, 1.8, 0.8]
mse_score(list_2)

1.688

---

### 1.4 Root Mean Squared Error (RMSE)

Корень средней квадратичной ошибки (Root Mean Squared Error, RMSE) имеет преимущество в том, что представляет величину ошибки в единице прогнозируемого столбца, что упрощает процесс интерпретации.  
  
Если вы пытаетесь спрогнозировать сумму в долларах, корень средней квадратичной ошибки можно интерпретировать как величину ошибки в долларах.
  
Аналогично предыдущему примеру, в данном задании мы будем вместо прогнозируемых значений использовать среднее группы:

$$RMSE = \sqrt{\sum_{i=0}^{n} \frac{(y^{'}_{i} - y_{i})^{2}}{n}} \longrightarrow RMSE = \sqrt{\sum_{i=0}^{n} \frac{(\hat{y} - y_{i})^{2}}{n}}$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет корень среднеквадратичной ошибки:

In [19]:
def rmse_score(items: Iterable[Union[int, float]]) -> float:
  y_ = sum(items)/len(items)
  result = 0
  for i in items:
    result = result + (y_ - i)**2
  return (result/len(items))**(1/2)

In [20]:
list_2 = [-0.1, -2.0, 1.0, 1.8, 0.8]
rmse_score(list_2)

1.2992305415129373

---

### 1.5 Mean Absolute Percentage Error (MAPE)

Средняя процентная ошибка (МАРЕ) измеряет отклонение фактических значений от прогнозируемых значений в процентах.  
  
MAPE часто используется в бизнесе и экономике для оценки точности прогнозирования, особенно при прогнозировании спроса на товары или услуги.  
  
Преимущество данной метрики в том, что она позволяет сравнивать эффективность моделей, натренированных на данных различного масштаба.  
  
Формула для расчёта MAPE:

$$MAPE = \frac{100}{n} * \sum{\mid \frac{y^{'}_{i} - y_{i}}{y_{i}} \mid}$$

Поскольку реальное значение $y_{i}$ может быть равен нулю, то для избежания деления на ноль в некоторых случаях в знаменатель добавляется ничтожно малое число $\varepsilon$ (оно должно быть существенно ниже имеющихся реальных значений):

$$MAPE = \frac{100}{n} * \sum{\mid \frac{y^{'}_{i} - y_{i}}{y_{i}} \mid} \ \longrightarrow \ MAPE = \frac{100}{n} * \sum{ \frac{\mid y^{'}_{i} - y_{i}\mid}{\mid y_{i} \mid + \varepsilon}}$$

Другой способ избежать деление на ноль - это просто убрать из расчёта экземпляры, где реальное значение равно нулю (ибо для них применение этой метрики не имеет смысла)

Аналогично предыдущему примеру, в данном задании мы будем вместо прогнозируемых значений использовать среднее группы:

$$MAPE = \frac{100}{n} * \sum{ \frac{\mid \hat{y} - y_{i}\mid}{\mid y_{i} \mid + \varepsilon}}$$

#### Задание: написать функцию, которая получает на вход список чисел, и вычисляет MAPE:

In [21]:
def mape_score(items: Iterable[Union[int, float]]) -> float:
  y_ = sum(items)/len(items)
  epsilon = 0.000001
  result = 0
  for i in items:
    result = result + abs(y_ - i)/(abs(i) + epsilon)
  return 100*result/len(items)

In [22]:
list_2 = [-0.1, -2.0, 1.0, 1.8, 0.8]
mape_score(list_2)

146.16581629045174

---

# 2. Взвешенная оценка

В некоторых ситуациях нам надо расчитать среднее взвешанное значение заданной метрики для нескольких групп. Слово *взвешенное* подразумевает, что вклад каждой группы в финальное значение пропорционален количеству элементов в ней.
  
Например: у нас есть две группы `A: [1, 1, 2, 1, 3, 2]` и `B: [3, 3, 2]`. Задача - расчитать взвешенное значение критерия Gini:

$$Gini_{total} = \frac{N_{A}}{N_{A} + N_{B}}Gini_{A} + \frac{N_{B}}{N_{A} + N_{B}}Gini_{B} = \frac{6}{9}*0.611 + \frac{3}{9}*0.444 = 0.556$$

#### Задание: написать функцию, которая получает на вход функцию метрики и несколько списоков чисел, и вычисляет взвешенное значение переданной метрики:

In [23]:
def weighted_metric_score(metric: Callable, *items: Iterable) -> float:
  result = 0
  len_i = 0
  for i in items:
    len_i += len(i)
  for i in items:
    print(metric(i))
    result = result + metric(i)*(len(i)/len_i)
  return result


In [24]:
list_1 = [1, 1, 2, 1, 3, 2] 
list_2 = [3, 3, 2]
weighted_metric_score(gini_score, list_1, list_2)

0.611111111111111
0.4444444444444444


0.5555555555555555

---

# 3. Разделенение группы

### 3.1 Деление группы на две

Легче всего описать это задание с вводных данных:  
  
Есть два списка: один - вспомогательный (`features, F`), состоящий из чисел, второй - основной (`targets, T`), при этом их элементы связаны попарно:

$$F_{i} \leftrightarrow T_{i}$$

Нам даётся число из вспомогательной группы `F`. Наша задача - разделить основную и вспомогательную группы так на две подгруппы так, чтобы все элементы $\color{red}{первой}$ вспомогательной подгруппы были бы меньше или равны данному числу, а все элемены $\color{blue}{второй}$ вспомогательной подгруппы - больше этого числа.
  
Например: нам данны следующие основная и вспомогательная группы:

$$
T = [1, 1, 2, 2, 1, 1, 2, 1, 3, 1, 3, 4, 1]  \\
F = [3, 1, 9, 9, 1, 5, 2, 1, 7, 1, 3, 4, 9]
$$

Допустим, из вспомогательного списка выбрано число `5`. Таким образом, эти списки будут разделены следующим образом:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{red}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{2}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,1,2,1,1,3,4}] \ , \ [\color{blue}{2,2,3,1}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{red}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,5,2,1,1,3,4}] \ , \ [\color{blue}{9,9,7,9}]
$$

#### Задание: написать функцию, которая получает на вход основной список `targets`, вспомогательный список `features` и "делитель" `split_value` и возвращает результат разбиения основного списка `sub_targets_1`, `sub_targets_2`:

In [25]:
def split_target_by_feature(targets: Iterable, features: Iterable, split_value: Union[int, float]) -> Tuple[Iterable, Iterable]:
  sub_targets_1 = []
  sub_targets_2 = []

  for i, n in zip(targets, features):
    if i <= split_value < n:
      sub_targets_1.append(i)
      
    else:
      sub_targets_2.append(i)
      
  return sub_targets_1, sub_targets_2,

In [26]:
targets = [1,1,2,2,1,1,2,1,3,1,3,4,1]
features = [3,1,9,9,1,5,2,1,7,1,3,4,9]
split_target_by_feature(targets, features, 5)

([2, 2, 3, 1], [1, 1, 1, 1, 2, 1, 1, 3, 4])

---

### 3.2 Поиск оптимального "делителя"

Следующий шаг - поиск оптимального "делителя", который позволит получить таке две подгруппы основного списка `targets`, взвешенная оценка которых для указанной метрики будет минимальна.  
  
Используя предыдущий пример, оценим вариант двух разбиений:  
первый, когда "делитель" равен 5:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{red}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{3}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,1,2,1,1,3,4}] \ , \ [\color{blue}{2,2,3,1}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{red}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{red}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,5,2,1,1,3,4}] \ , \ [\color{blue}{9,9,7,9}]
$$

второй - когда "делитель" равен 3:

$$
T = [\color{red}{1}, \color{red}{1}, \color{blue}{2}, \color{blue}{2}, \color{red}{1}, \color{blue}{1}, \color{red}{2}, \color{red}{1}, \color{blue}{3}, \color{red}{1}, \color{red}{3}, \color{blue}{4}, \color{blue}{1}] \rightarrow [\color{red}{1,1,1,2,1,1,3}] \ , \ [\color{blue}{2,2,1,3,1,4}] \\
F = [\color{red}{3}, \color{red}{1}, \color{blue}{9}, \color{blue}{9}, \color{red}{1}, \color{blue}{5}, \color{red}{2}, \color{red}{1}, \color{blue}{7}, \color{red}{1}, \color{red}{3}, \color{blue}{4}, \color{blue}{9}] \rightarrow [\color{red}{3,1,1,2,1,1,3}] \ , \ [\color{blue}{9,9,5,7,9,4}]
$$

Допустим, что в качестве метрики выбрана этнропия.  
  
В таком случае, взвешенная оценка в первом варианте будет равна:

$$
Entropy_{total} = \frac{9}{13} * Entropy([1,1,1,1,2,1,1,3,4]) + \frac{4}{13} * Entropy([2,2,3,1]) = 0.694 + 0.320 = 1.014
$$

А во втором варианте:

$$
Entropy_{total} = \frac{7}{13} * Entropy([1,1,1,2,1,1,3]) + \frac{6}{13} * Entropy([2,2,1,3,1,4]) = 0.429 + 0.614 = 1.043
$$

Таким образом, `5` даёт меньшее значение взвешенной метрики по сравнению с `3`.

#### Задание: написать функцию, которая получает на вход функцию метрики `score_func`, основной список `targets`, вспомогательный список `features` и возвращает оптимальное значение "делителя":

In [27]:
def find_best_split_value(score_func: Callable, targets: Iterable, features: Iterable) -> Union[int, float]:
  len_targets = len(targets)
  set_features = set(features)

  divider_list = []
  for i in set_features:
    targets_1, targets_2 = split_target_by_feature(targets, features, i)
    divider = score_func(targets_1)*len(targets_1)/len(targets) + score_func(targets_2)*len(targets_2)/len(targets)
    divider_list.append(divider)
    
  divider_list.sort()

  return divider_list[0]

In [28]:
targets = [1,1,2,2,1,1,2,1,3,1,3,4,1]
features = [3,1,9,9,1,5,2,1,7,1,3,4,9]
find_best_split_value(entropy_score, targets, features)

0.9845032506412826

---

### 3.3 Выбор оптимального вспомогательного списка

Расширим вводные данные: теперь помимо основного списка `targets`, нам даётся не один, а несколько вспомогательных списков `features` `F1`, `F2` ... `Fn`.

#### Задание: написать функцию, которая получает на вход функцию метрики `score_func`, основной список `targets`, группу вспомогательных списков`options` `F1`, `F2` ... `Fn` и возвращает индекс выбранного вспомогательного списка и оптимальное значение "делителя":

In [29]:
def find_best_split_value_res(score_func: Callable, targets: Iterable, options: List[Iterable]) -> Tuple[Iterable, Union[int, float]]:
  divider_dir = {keys:[find_best_split_value(score_func, targets, i)] for keys, i in enumerate(options)}
  #print(divider_dir)
  return min(divider_dir, key=divider_dir.get), divider_dir.get(min(divider_dir, key=divider_dir.get))

In [30]:
targets = [1,1,2,2,1,1,2,1,3,1,3,4,1]
features = [[3,1,9,9,1,5,2,1,7,1,3,4,9], [3,1,9,9,1,5,2,8,7,8,3,4,9], [3,8,9,9,1,5,2,8,7,1,3,4,9], [3,7,9,9,7,5,2,1,7,7,3,4,9]]
koef_dir = find_best_split_value_res(entropy_score, targets, features)
print(koef_dir)

(3, [0.6876338320202287])


---

# <center>Классы</center>

# 4. Узел (Node)

#### Задание: напишите класс `Node`
  
Он должен иметь следующие атрибуты:
- **id**       : int - **уникальный** номер для каждого экземпляра этого класса
- **values**   : Iterable - значения, хранимые в данном узле
- **parent**   : Optional `Node`- "родительский" узел, из которого был создан данный экземпляр (по умолчанию = None)
- **children** : Optional List `[Node]` - узлы, образованные из данного экземпляра (по умолчанию = None)  
  
Также он должен обладать следующими методами:
- **is_root** -> bool : проверяет, является ли данный узел "корневым" (т.е. имеется у него "родитель" или нет)
- **is_leaf** -> bool : проверяет, является ли данный узел терминальным (т.е. имеется у него "дети" или нет)

In [2]:
class Node:
    def __init__(self, id: int, values: Iterable, parent=None, children=None):
        self.id = id
        self.values = values
        self.parent = parent
        self.children = children if children else []

    def is_root(self) -> bool:
        return self.parent is None

    def is_leaf(self) -> bool:
        return len(self.children) == 0

---

# 5. Условие (Condition) и Группа условий (Conditions Group)

#### Задание: напишите классы `Condition` и `ConditionsGroup`

**Condition** представляет собой описание следующего правила: `признак Х` - `меньше или равно | больше` - `значение`  
  
Таким образом, этот класс должен обладать соответствующими атрибутами:
- **feature** : str|int
- **greater** : bool
- **value**   : int|float

**ConditionsGroup** должен сохранять список разных условий и иметь атрибут **conditions**

In [3]:
class Condition:
    def __init__(self, feature: Union[str, int], greater: bool, value: Union[int, float]):
        self.feature = feature
        self.greater = greater
        self.value = value

class ConditionsGroup:
    def __init__(self):
        self.conditions = []

---

<div class="alert alert-info">
    <center><strong>Задание на 10 баллов</strong></center>
</div>

Реализуйте операцию объединения экземпляров классов **Condition** и **ConditionsGroup** следующим образом:
- Если объединяются два экземпляра класса **Condition** и у обоих одинаковые атрибуты `feature` и `greater`, то объединение должно возвращать новый экземпляр **Condition** с тем значением атрибута `value`, который соответсвует логике

In [None]:
c1 = Condition(feature="рост", greater=False, value=180)
c2 = Condition(feature="рост", greater=False, value=160)

c1 + c2 -> Condition(feature="рост", greater=False, value=160)

- В любом другом случае должен возвращаться новый экземпляр **ConditionsGroup**, и, если при этом между элементами этого экземпляра возможно произвести объединение первого типа - то это нужно сделать (таким образом, не будет нескольких элементов с одинаковыми `feature` и `greater`)

In [None]:
c1 = Condition(feature="рост", greater=False, value=180)
c2 = Condition(feature="рост", greater=True, value=160)

cg_1 = c1 + c2
cg_1 -> ConditionsGroup(Condition(feature="рост", greater=False, value=180),
                        Condition(feature="рост", greater=True, value=160))

In [4]:
class Condition:
    def __init__(self, feature: Union[str, int], greater: bool, value: Union[int, float]):
        self.feature = feature
        self.greater = greater
        self.value = value

    def __add__(self, other):
        if isinstance(other, Condition) and self.feature == other.feature and self.greater == other.greater:
            value = min(self.value, other.value) if not self.greater else max(self.value, other.value)
            return Condition(self.feature, self.greater, value)
        else:
            return ConditionsGroup(self, other)

    def __repr__(self):
        return f"Condition(feature='{self.feature}', greater={self.greater}, value={self.value})"


class ConditionsGroup:
    def __init__(self, *conditions):
        self.conditions = list(conditions)

    def __add__(self, other):
        if isinstance(other, Condition):
            for condition in self.conditions:
                if condition.feature == other.feature and condition.greater == other.greater:
                    condition.value = min(condition.value, other.value) if not condition.greater else max(condition.value, other.value)
                    return self
            self.conditions.append(other)
            return self
        elif isinstance(other, ConditionsGroup):
            for condition in other.conditions:
                self += condition
            return self

    def __repr__(self):
        conditions_str = ', '.join(map(str, self.conditions))
        return f"ConditionsGroup({conditions_str})"

In [10]:
c1 = Condition(feature="рост", greater=False, value=180)
c2 = Condition(feature="рост", greater=False, value=160)
c11 = Condition(feature="рост", greater=False, value=180)
c22 = Condition(feature="рост", greater=True, value=160)
cg_1 = c1 + c2
cg_11 = c11 + c22
cg_1, cg_11

(Condition(feature='рост', greater=False, value=160),
 ConditionsGroup(Condition(feature='рост', greater=False, value=180), Condition(feature='рост', greater=True, value=160)))

---

<center><h1>Удачи!</h1></center>