In [30]:
import numpy as np
import pandas as pd

In [15]:
from sklearn.metrics import mean_squared_error

## Регрессия ##

In [4]:
def mse(y_true: np.array or list, y_pred: np.array or list) -> float:
    """
    ______________________________________
    Получаемые параметры:
    y_true - форма (n_образцов, n_features), 
    y_pred - форма (n_образцов, n_features),
    ______________________________________
    Выход - среднеквадратичная ошибка.
    """
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    try:
        if type(y_true.shape[1]) is int:
            return 1 / y_true.shape[1] * sum( (1 / y_true.shape[0]) * sum( (y_true - y_pred)**2 ) )
    except:
        return (1 / y_true.shape[0]) * sum( (y_true - y_pred)**2 )

Одномерные

In [24]:
df10 = np.random.normal(size = 100)
df20 = np.random.normal(size = 100)

In [25]:
mse(df10, df20), mean_squared_error(df10, df20)

(2.0552915898389337, 2.0552915898389337)

Многомерные

In [26]:
df11 = np.random.normal(size = (100, 3))
df21 = np.random.normal(size = (100, 3))

In [27]:
mse(df11, df21), mean_squared_error(df11, df21)

(1.9700755435675723, 1.9700755435675725)

## Классификация ##

In [92]:
def custom_metrics_stacks(y_true: np.array or list, y_pred: np.array or list, classes: np.array or list, err_matrix = []) -> float:
    """
    ______________________________________
    Получаемые параметры:
    y_true - форма (n_образцов, 1), 
    y_pred - форма (n_образцов, 1),
    classes - список классов в правильной последовательности.
    Для получения этого списка удобно использовать model.classes_.
    err_matrix - матрица весов ошибок. По умолчанинию создается матрица с единичными весами
    ______________________________________
    Выход - нормализованное число, сумма ошибок в соответствии с матрицей ошибок,
    деленная на максимально возможные ошибки.
    Интерпретация - чем больше - тем лучше: 1 - хороший алгоритм, 0 - плохой алгоритм.
    """
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    classes = np.array(classes)
    if (len(y_true) != len(y_pred)):
        return 'Ошибка'
    else:
        # инициализация суммы ошибок
        sum_error = 0
        max_error = 0
        # проверка, подана ли матрица ошибок, если нет, то создается единичная
        if (len(err_matrix) == 0):
            # инициализация матрицы ошибок
            err_matrix = np.zeros( ( len(classes), len(classes) ) )
            for i in range( 1, len(classes) ):
                err_matrix += np.eye(len(classes),len(classes), i)
                err_matrix += np.eye(len(classes),len(classes), -i)
                
        # основной проход по игрекам
        for i in range(1,len(y_true)-1, 1):
            
            # поиск индекса, по которому обращаться в матрице ошибок
            index_true = np.where(classes == y_true[i])[0][0]
            index_of_max_err = np.where(err_matrix[index_true] == err_matrix[index_true].max())
            if not np.isscalar(index_of_max_err):
                index_pred = np.random.choice(index_of_max_err[0])
            else:
                index_pred = np.where( classes == max_dist_list )[0][0]
            # если бы был предсказан самый дальний элемент от текущего
            max_error += err_matrix[index_pred, index_true]
            
            # проверка равенства соседних элементов
            if (y_pred[i] == y_true[i-1]) or (y_pred[i] == y_true[i]) or (y_pred[i] == y_true[i+1]):
                sum_error += 0
            else:
                # поиск индекса, по которому обращаться в матрице ошибок
                index_pred = np.where( classes == int(y_pred[i]) )[0][0]
                index_true = np.where( classes == int(y_true[i]) )[0][0]
                
                sum_error += float(err_matrix[index_pred, index_true])
                
        if (max_error == 0):
            return 1
        else:
            return 1 - sum_error/max_error

In [93]:
# расчет близости классов
weights = {'0.0-0.0': 0.0, 
 '0.0-1.0': 0.207898732244132, 
 '0.0-2.0': 0.4567574858664082, 
 '0.0-3.0': 0.5633508599161167, 
 '0.0-4.0': 1.514547200352492, 
 '0.0-5.0': 2.0410300579928813, 
 '0.0-7.0': 0.3536350504758513, 
 '0.0-8.0': 0.16273411248693093, 
 '1.0-0.0': 0.207898732244132, 
 '1.0-1.0': 0.0, 
 '1.0-2.0': 0.2516816824597153, 
 '1.0-3.0': 0.3554521276719847, 
 '1.0-4.0': 1.2066360841782837, 
 '1.0-5.0': 2.029223412762427, 
 '1.0-7.0': 0.14573631823171934, 
 '1.0-8.0': 0.2867763851717027, 
 '2.0-0.0': 0.4567574858664082, 
 '2.0-1.0': 0.2516816824597153, 
 '2.0-2.0': 0.0, 
 '2.0-3.0': 0.1522092582995127, 
 '2.0-4.0': 0.9577773305560074, 
 '2.0-5.0': 2.280905095222142, 
 '2.0-7.0': 0.441953965667498, 
 '2.0-8.0': 0.538458067631418, 
 '3.0-0.0': 0.5633508599161167, 
 '3.0-1.0': 0.3554521276719847, 
 '3.0-2.0': 0.1522092582995127, 
 '3.0-3.0': 0.0, 
 '3.0-4.0': 0.851183956506299, 
 '3.0-5.0': 2.1286958369226294, 
 '3.0-7.0': 0.2897447073679853, 
 '3.0-8.0': 0.4627716258588963, 
 '4.0-0.0': 1.514547200352492, 
 '4.0-1.0': 1.2066360841782837, 
 '4.0-2.0': 0.9577773305560074, 
 '4.0-3.0': 0.851183956506299, 
 '4.0-4.0': 0.0, 
 '4.0-5.0': 3.555577258345373, 
 '4.0-7.0': 1.0608997659465642, 
 '4.0-8.0': 1.5065059920619528, 
 '5.0-0.0': 2.0410300579928813, 
 '5.0-1.0': 2.029223412762427, 
 '5.0-2.0': 2.280905095222142, 
 '5.0-3.0': 2.1286958369226294, 
 '5.0-4.0': 3.555577258345373, 
 '5.0-5.0': 0.0, 
 '5.0-7.0': 1.8389511295546441, 
 '5.0-8.0': 1.742447027590724, 
 '7.0-0.0': 0.3536350504758513, 
 '7.0-1.0': 0.14573631823171934, 
 '7.0-2.0': 0.441953965667498, 
 '7.0-3.0': 0.2897447073679853, 
 '7.0-4.0': 1.0608997659465642, 
 '7.0-5.0': 1.8389511295546441, 
 '7.0-7.0': 0.0, 
 '7.0-8.0': 0.2530558164186309, 
 '8.0-0.0': 0.16273411248693093, 
 '8.0-1.0': 0.2867763851717027, 
 '8.0-2.0': 0.538458067631418, 
 '8.0-3.0': 0.4627716258588963, 
 '8.0-4.0': 1.5065059920619528, 
 '8.0-5.0': 1.742447027590724, 
 '8.0-7.0': 0.2530558164186309, 
 '8.0-8.0': 0.0}

In [94]:
# перевод из словаря в матрицу ошибок
err_matrix = np.array([value for value in weights.values()]).reshape(8,8)
err_matrix

array([[0.        , 0.20789873, 0.45675749, 0.56335086, 1.5145472 ,
        2.04103006, 0.35363505, 0.16273411],
       [0.20789873, 0.        , 0.25168168, 0.35545213, 1.20663608,
        2.02922341, 0.14573632, 0.28677639],
       [0.45675749, 0.25168168, 0.        , 0.15220926, 0.95777733,
        2.2809051 , 0.44195397, 0.53845807],
       [0.56335086, 0.35545213, 0.15220926, 0.        , 0.85118396,
        2.12869584, 0.28974471, 0.46277163],
       [1.5145472 , 1.20663608, 0.95777733, 0.85118396, 0.        ,
        3.55557726, 1.06089977, 1.50650599],
       [2.04103006, 2.02922341, 2.2809051 , 2.12869584, 3.55557726,
        0.        , 1.83895113, 1.74244703],
       [0.35363505, 0.14573632, 0.44195397, 0.28974471, 1.06089977,
        1.83895113, 0.        , 0.25305582],
       [0.16273411, 0.28677639, 0.53845807, 0.46277163, 1.50650599,
        1.74244703, 0.25305582, 0.        ]])

In [95]:
# классы - список классов в соответствии с загружаемыми данными
classes = [0, 1, 2, 3, 4, 5, 7, 8]
# в примере нет 6-го класса, поэтому список выглядит так
classes

[0, 1, 2, 3, 4, 5, 7, 8]

In [100]:
df = pd.read_csv('Example_classification_metric.csv')

In [101]:
y1, y2 = np.array(df['true']), np.array(df['predicted'])

In [102]:
custom_metrics_stacks(y1, y2, classes, err_matrix = err_matrix)

0.9592272907097648

Можно матрицу близости классов не задавать, тогда она автоматически станет единичной (на диагонали - нули) и все классы будут равноценными.

In [103]:
custom_metrics_stacks(y1, y2, classes, err_matrix = [])

0.7885304659498208