In [3]:
import numpy as np

## Метрики для непрерывных величин:

### 1. Среднеквадратическая ошибка (MSE) <br>


$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ <br> <br>
Это метрика, часто используемая для задач регрессии, которая измеряет среднеквадратичное отклонение предсказанных значений от истинных.

In [20]:
def mse(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.mean((y_true - y_pred) ** 2)

y_true = np.array([3, 0, 2, 7, 8, 9, 1])
y_pred = np.array([2.5, 0, 2, 8, 7, 10, 1])

print("MSE:", mse(y_true, y_pred))  

MSE: 0.4642857142857143


### 2. Средняя абсолютная ошибка (MAE) <br> 


$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$ <br> <br>
MAE измеряет среднее абсолютное отклонение предсказаний от истинных значений.

In [5]:
def mae(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.mean(np.abs(y_true - y_pred))

# Тестирование
print("MAE:", mae(y_true, y_pred))  

MAE: 0.5


### 3. R² (Коэффициент детерминации)

$R^2$ показывает, насколько хорошо модель объясняет вариативность данных. <br> <br>
$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \overline{y})^2}$

In [8]:
def r2_score(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    mean_y = np.mean(y_true)
    ss_tot = np.sum((y_true - mean_y) ** 2)
    ss_res = np.sum((y_true - y_pred) ** 2)
    return 1 - (ss_res / ss_tot)

# Тестирование
print("R²:", r2_score(y_true, y_pred))

R²: 0.9590827338129496


## Метрики для дискретных величин:

### 4. Точность (Accuracy) 



Простая метрика для оценки доли верных предсказаний для дискретных данных. <br> <br>
$\text{Accuracy} = \frac{\text{Количество верных предсказаний}}{\text{Общее количество предсказаний}}$

In [9]:
def accuracy(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.mean(y_true == y_pred)

# Тестирование
y_true_binary = np.array([1, 0, 1, 1])
y_pred_binary = np.array([1, 0, 0, 1])
print("Accuracy:", accuracy(y_true_binary, y_pred_binary)) 

Accuracy: 0.75


### 5. Полнота (Recall)

Полнота измеряет способность модели правильно находить все положительные примеры. <br> <br>
$\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$


In [10]:
def recall(y_true, y_pred):
    tp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 1)
    fn = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 0)
    return tp / (tp + fn) if tp + fn != 0 else 0

In [11]:
print(recall(y_true, y_pred))

1.0


### 6. Точность (Precision)

Точность показывает, сколько из предсказанных положительных значений действительно положительные. <br> <br>
$\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$

In [12]:
def precision(y_true, y_pred):
    tp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 1 and yp == 1)
    fp = sum(1 for yt, yp in zip(y_true, y_pred) if yt == 0 and yp == 1)
    return tp / (tp + fp) if tp + fp != 0 else 0

print(precision(y_true, y_pred))

1.0


### 7.F1-метрика

Это гармоническое среднее между Precision и Recall. <br> <br>
$F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$

In [13]:
def f1_score(y_true, y_pred):
    p = precision(y_true, y_pred)
    r = recall(y_true, y_pred)
    return 2 * (p * r) / (p + r) if (p + r) > 0 else 0

# Тестирование
print("F1 Score:", f1_score(y_true_binary, y_pred_binary))

F1 Score: 0.8


## Метрики для смешанных данных (непрерывных и дискретных):

### 8. Косинусное сходство

Это метрика, измеряющая угол между векторами в многомерном пространстве. Подходит для задач с 10-мерными пространствами. <br> <br>
$\text{Cosine Similarity} = \frac{A \cdot B}{||A|| \cdot ||B||}$

In [15]:
def cosine_similarity(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    dot_product = np.dot(vec1, vec2)
    norm_a = np.linalg.norm(vec1)
    norm_b = np.linalg.norm(vec2)
    return dot_product / (norm_a * norm_b)

# Тестирование
vec1 = np.array([1, 2, 3])
vec2 = np.array([4, 5, 6])
print("Cosine Similarity:", cosine_similarity(vec1, vec2))

Cosine Similarity: 0.9746318461970762


### 9. Эвклидово расстояние

Стандартная метрика для измерения расстояния между точками в многомерном пространстве. <br> <br> 
$d = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$

In [16]:
def euclidean_distance(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.sqrt(np.sum((vec1 - vec2) ** 2))

# Тестирование
print("Euclidean Distance:", euclidean_distance(vec1, vec2))

Euclidean Distance: 5.196152422706632


### 10. Метрика Хэмминга

Расстояние Хэмминга измеряет количество позиций, в которых символы двух строк одинаковой длины различаются. Пусть x и 𝑦
y — это две строки одинаковой длины n. Тогда расстояние Хэмминга определяется как: 
<br> <br> 
$d_H(x, y) = \sum_{i=1}^{n} [x_i \neq y_i]$

In [18]:
def hamming_distance(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.sum(y_true != y_pred)

# Тестирование
y_true = np.array([1, 0, 1])
y_pred = np.array([1, 1, 0])
print("Hamming Distance:", hamming_distance(y_true, y_pred))

Hamming Distance: 2
