In [1]:
# импортируем необходимые библиотеки
import numpy as np
import pandas as pd

In [2]:
# записываем CSV-файл в объект DataFrame
data = pd.read_csv('Data/results2.csv', sep=';')
data

Unnamed: 0,fact,pred
0,1.21,0.88807
1,7.09,7.903147
2,1.88,1.200113
3,0.24,1.053039
4,0.55,0.867723
5,0.08,0.13917
6,1.06,0.911489
7,0.12,1.113673
8,1.19,0.918506
9,1.63,0.948829


In [3]:
# вычисляем сумму квадратов отклонений 
# фактических значений зависимой переменной 
# от ее среднего значения
TSS = ((data['fact'] - data['fact'].mean()) ** 2).sum()
# вычисляем сумму квадратов отклонений фактических 
# значений зависимой переменной от спрогнозированных
RSS = ((data['fact'] - data['pred']) ** 2).sum()
# вычисляем R-квадрат
r_squared = 1 - (RSS / TSS)
r_squared

0.907322249223145

In [4]:
# пишем функцию для вычисления MSE
def mse(actual, predicted):
    return np.mean((actual - predicted) ** 2)

# вручную вычисляем MSE
MSE = mse(data['fact'], data['pred'])
print("MSE: %.3f" % MSE)

MSE: 0.354


In [5]:
# автоматически вычисляем MSE
from sklearn.metrics import mean_squared_error
MSE = mean_squared_error(data['fact'], data['pred'])
print("MSE: %.3f" % MSE)

MSE: 0.354


In [6]:
# пишем функцию для вычисления RMSE
def rmse(actual, predicted):
    return np.sqrt(np.mean((actual - predicted) ** 2))

# вручную вычисляем RMSE
RMSE = rmse(data['fact'], data['pred'])
print("RMSE: %.3f" % RMSE)

RMSE: 0.595


In [7]:
# автоматически вычисляем RMSE
RMSE = mean_squared_error(data['fact'], data['pred'], 
                          squared=False)
print("RMSE: %.3f" % RMSE)

RMSE: 0.595


In [8]:
# пишем функцию для вычисления MAE
def mae(actual, predicted):
    return np.mean(np.abs((actual - predicted)))

# вручную вычисляем MAE
MAE = mae(data['fact'], data['pred'])
print("MAE: %.3f" % MAE)

MAE: 0.510


In [9]:
# автоматически вычисляем MAE
from sklearn.metrics import mean_absolute_error
MAE = mean_absolute_error(data['fact'], data['pred'])
print("MAE: %.3f" % MAE)

MAE: 0.510


In [10]:
# пишем функцию для вычисления MdAE
def mdae(actual, predicted):
    return np.median(np.abs(actual - predicted))

# вручную вычисляем MdAE
MdAE = mdae(data['fact'], data['pred'])
print("MdAE: %.3f" % MdAE)

MdAE: 0.501


In [11]:
# создаем набор с равномерно распределенными 
# небольшими положительными ошибками
exmpl = pd.DataFrame(
    {'Actual': [3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
     'Forecast': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})
exmpl['error'] = exmpl['Actual'] - exmpl['Forecast']
exmpl['error^2'] = (exmpl['Actual'] - exmpl['Forecast']) ** 2
exmpl

Unnamed: 0,Actual,Forecast,error,error^2
0,3,1,2,4
1,4,2,2,4
2,5,3,2,4
3,6,4,2,4
4,7,5,2,4
5,8,6,2,4
6,9,7,2,4
7,10,8,2,4
8,11,9,2,4
9,12,10,2,4


In [12]:
# печатаем значения метрик
print("RMSE", mean_squared_error(
    exmpl['Actual'], exmpl['Forecast'], squared=False))
print("MAE", mean_absolute_error(
    exmpl['Actual'], exmpl['Forecast']))
print("MdAE", mdae(
    exmpl['Actual'], exmpl['Forecast']))

RMSE 2.0
MAE 2.0
MdAE 2.0


In [13]:
# создаем набор с небольшим варьированием 
# размеров положительных ошибок
exmpl2 = pd.DataFrame(
    {'Actual': [2, 3, 4, 5, 6, 9, 10, 11, 12, 13],
     'Forecast': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})
exmpl2['error'] = exmpl2['Actual'] - exmpl2['Forecast']
exmpl2['error^2'] = (exmpl2['Actual'] - exmpl2['Forecast']) ** 2
exmpl2

Unnamed: 0,Actual,Forecast,error,error^2
0,2,1,1,1
1,3,2,1,1
2,4,3,1,1
3,5,4,1,1
4,6,5,1,1
5,9,6,3,9
6,10,7,3,9
7,11,8,3,9
8,12,9,3,9
9,13,10,3,9


In [14]:
# печатаем значения метрик
print("RMSE", mean_squared_error(
    exmpl2['Actual'], exmpl2['Forecast'], squared=False))
print("MAE", mean_absolute_error(
    exmpl2['Actual'], exmpl2['Forecast']))
print("MdAE", mdae(
    exmpl2['Actual'], exmpl2['Forecast']))

RMSE 2.23606797749979
MAE 2.0
MdAE 2.0


In [15]:
# создаем набор с одним очень большим значением
# положительной ошибки (выбросом)
exmpl3 = pd.DataFrame(
    {'Actual': [1, 2, 3, 4, 5, 6, 7, 8, 9, 30],
     'Forecast': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]})
exmpl3['error'] = exmpl3['Actual'] - exmpl3['Forecast']
exmpl3['error^2'] = (exmpl3['Actual'] - exmpl3['Forecast']) ** 2
exmpl3

Unnamed: 0,Actual,Forecast,error,error^2
0,1,1,0,0
1,2,2,0,0
2,3,3,0,0
3,4,4,0,0
4,5,5,0,0
5,6,6,0,0
6,7,7,0,0
7,8,8,0,0
8,9,9,0,0
9,30,10,20,400


In [16]:
# печатаем значения метрик
print("RMSE", mean_squared_error(
    exmpl3['Actual'], exmpl3['Forecast'], squared=False))
print("MAE", mean_absolute_error(
    exmpl3['Actual'], exmpl3['Forecast']))
print("MdAE", mdae(
    exmpl3['Actual'], exmpl3['Forecast']))

RMSE 6.324555320336759
MAE 2.0
MdAE 0.0


In [17]:
# создаем массив фактических значений
actual = np.array([100] * 10)

In [18]:
# создаем массивы прогнозов
pred_1 = np.array([300] * 10)
pred_2 = np.array([100] * 9 + [1000])

In [19]:
# автоматически вычисляем RMSE
RMSE_model1 = mean_squared_error(actual, pred_1, squared=False)
RMSE_model2 = mean_squared_error(actual, pred_2, squared=False)

# автоматически вычисляем MAE
MAE_model1 = mean_absolute_error(actual, pred_1)
MAE_model2 = mean_absolute_error(actual, pred_2)

# автоматически вычисляем MDAE
MdAE_model1 = mdae(actual, pred_1)
MdAE_model2 = mdae(actual, pred_2)

In [20]:
# создаем датафрейм, строки - модели, столбцы - метрики
data_dict = {'RMSE': [RMSE_model1, RMSE_model2], 
             'MAE': [MAE_model1, MAE_model2],
             'MdAE': [MdAE_model1, MdAE_model2]}
df = pd.DataFrame(data_dict, index=['model1', 'model2'])
df

Unnamed: 0,RMSE,MAE,MdAE
model1,200.0,200.0,200.0
model2,284.604989,90.0,0.0


In [21]:
# пишем функцию для вычисления RMSLE
def rmsle(actual, predicted):
    return np.sqrt(np.mean((np.log(predicted + 1) - 
                            np.log(actual + 1)) ** 2))

# вручную вычисляем RMSLE
RMSLE = rmsle(data['fact'], data['pred'])
print("RMSLE: %.3f" % RMSLE)

RMSLE: 0.302


In [22]:
# автоматически вычисляем RMSLE
from sklearn.metrics import mean_squared_log_error
RMSLE = np.sqrt(mean_squared_log_error(
    data['fact'], data['pred']))
print("RMSLE: %.3f" % RMSLE)

RMSLE: 0.302


In [23]:
# зададим фактическое и спрогнозированные
# значения для случая недооценки
actual1 = 1000
predicted1 = 600

# зададим фактическое и спрогнозированные
# значения для случая переоценки
actual2 = 1000
predicted2 = 1400

# сравним поведение RMSE, MSLE и RMSLE 
# в случаях недоценки и переоценки
RMSE1 = np.sqrt(np.sum((actual1 - predicted1) ** 2))
MSLE1 = mean_squared_log_error([actual1], [predicted1])
RMSLE1 = rmsle(actual1, predicted1)
RMSE2 = np.sqrt(np.sum((actual2 - predicted2) ** 2))
MSLE2 = mean_squared_log_error([actual2], [predicted2])
RMSLE2 = rmsle(actual2, predicted2)

# создаем датафрейм, строки - модели, столбцы - метрики
data_dict = {'RMSE': [RMSE1, RMSE2], 
             'MSLE': [MSLE1, MSLE2],
             'RMSLE': [RMSLE1, RMSLE2]}
df = pd.DataFrame(data_dict, index=['прогноз меньше фактического значения', 
                                    'прогноз больше фактического значения'])
df

Unnamed: 0,RMSE,MSLE,RMSLE
прогноз меньше фактического значения,400.0,0.260263,0.51016
прогноз больше фактического значения,400.0,0.113022,0.336187


In [24]:
# создаем набор с одной большой положительной и одной
# большой отрицательной ошибками (выбросами)
exmpl4 = pd.DataFrame(
    {'Actual': [1, 2, 3, 4, 5, 6, 25, 8, 9, 30],
     'Forecast': [1, 2, 3, 4, 5, 6, 45, 8, 9, 10]})
exmpl4['error'] = exmpl4['Actual'] - exmpl4['Forecast']
exmpl4['error^2'] = (exmpl4['Actual'] - exmpl4['Forecast']) ** 2
exmpl4

Unnamed: 0,Actual,Forecast,error,error^2
0,1,1,0,0
1,2,2,0,0
2,3,3,0,0
3,4,4,0,0
4,5,5,0,0
5,6,6,0,0
6,25,45,-20,400
7,8,8,0,0
8,9,9,0,0
9,30,10,20,400


In [25]:
# создаем набор с равномерно распределенными 
# небольшими отрицательными ошибками
exmpl5 = pd.DataFrame(
    {'Actual': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
     'Forecast': [3, 4, 5, 6, 7, 8, 9, 10, 11, 12]})
exmpl5['error'] = exmpl5['Actual'] - exmpl5['Forecast']
exmpl5['error^2'] = (exmpl5['Actual'] - exmpl5['Forecast']) ** 2
exmpl5

Unnamed: 0,Actual,Forecast,error,error^2
0,1,3,-2,4
1,2,4,-2,4
2,3,5,-2,4
3,4,6,-2,4
4,5,7,-2,4
5,6,8,-2,4
6,7,9,-2,4
7,8,10,-2,4
8,9,11,-2,4
9,10,12,-2,4


In [26]:
# создаем набор с небольшим варьированием 
# размеров отрицательных ошибок
exmpl6 = pd.DataFrame(
    {'Actual': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
     'Forecast': [2, 3, 4, 5, 6, 9, 10, 11, 12, 13]})
exmpl6['error'] = exmpl6['Actual'] - exmpl6['Forecast']
exmpl6['error^2'] = (exmpl6['Actual'] - exmpl6['Forecast']) ** 2
exmpl6

Unnamed: 0,Actual,Forecast,error,error^2
0,1,2,-1,1
1,2,3,-1,1
2,3,4,-1,1
3,4,5,-1,1
4,5,6,-1,1
5,6,9,-3,9
6,7,10,-3,9
7,8,11,-3,9
8,9,12,-3,9
9,10,13,-3,9


In [27]:
# создаем набор с одним очень большим значением
# отрицательной ошибки (выбросом)
exmpl7 = pd.DataFrame(
    {'Actual': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
     'Forecast': [1, 2, 3, 4, 5, 6, 7, 8, 9, 30]})
exmpl7['error'] = exmpl7['Actual'] - exmpl7['Forecast']
exmpl7['error^2'] = (exmpl7['Actual'] - exmpl7['Forecast']) ** 2
exmpl7

Unnamed: 0,Actual,Forecast,error,error^2
0,1,1,0,0
1,2,2,0,0
2,3,3,0,0
3,4,4,0,0
4,5,5,0,0
5,6,6,0,0
6,7,7,0,0
7,8,8,0,0
8,9,9,0,0
9,10,30,-20,400


In [28]:
# вычисляем RMSE и RMSLE
RMSE = rmse(exmpl['Actual'], exmpl['Forecast'])
RMSE2 = rmse(exmpl2['Actual'], exmpl2['Forecast'])
RMSE3 = rmse(exmpl3['Actual'], exmpl3['Forecast'])
RMSE4 = rmse(exmpl4['Actual'], exmpl4['Forecast'])
RMSE5 = rmse(exmpl5['Actual'], exmpl5['Forecast'])
RMSE6 = rmse(exmpl6['Actual'], exmpl6['Forecast'])
RMSE7 = rmse(exmpl7['Actual'], exmpl7['Forecast'])

RMSLE = rmsle(exmpl['Actual'], exmpl['Forecast'])
RMSLE2 = rmsle(exmpl2['Actual'], exmpl2['Forecast'])
RMSLE3 = rmsle(exmpl3['Actual'], exmpl3['Forecast'])
RMSLE4 = rmsle(exmpl4['Actual'], exmpl4['Forecast'])
RMSLE5 = rmsle(exmpl5['Actual'], exmpl5['Forecast'])
RMSLE6 = rmsle(exmpl6['Actual'], exmpl6['Forecast'])
RMSLE7 = rmsle(exmpl7['Actual'], exmpl7['Forecast'])


# создаем датафрейм, строки - модели, столбцы - метрики
data_dict = {'RMSE': [RMSE, RMSE2, RMSE3, RMSE4, RMSE5, RMSE6, RMSE7], 
             'RMSLE': [RMSLE, RMSLE2, RMSLE3, RMSLE4, RMSLE5, RMSLE6, RMSLE7]}
df = pd.DataFrame(
    data_dict, 
    index=['равномерно распределенные положительные ошибки', 
           'небольшое варьирование размеров положительных ошибок',
           'одна большая положительная ошибка',
           'одна большая положительная и одна большая отрицательная',
           'равномерно распределенные отрицательные ошибки', 
           'небольшое варьирование размеров отрицательных ошибок',
           'одна большая отрицательная ошибка'])
df

Unnamed: 0,RMSE,RMSLE
равномерно распределенные положительные ошибки,2.0,0.362787
небольшое варьирование размеров положительных ошибок,2.236068,0.281486
одна большая положительная ошибка,6.324555,0.327641
одна большая положительная и одна большая отрицательная,8.944272,0.374033
равномерно распределенные отрицательные ошибки,2.0,0.362787
небольшое варьирование размеров отрицательных ошибок,2.236068,0.281486
одна большая отрицательная ошибка,6.324555,0.327641


In [29]:
# напишем функцию для вычисления MAPE
def custom_mape(actual, forecast):
    mape = np.mean(np.abs((actual - forecast) / actual))
    return mape

In [30]:
# вычисляем MAPE
custom_mape(50, 60)

0.2

In [31]:
# явно вычисляем MAPE, когда фактическое значение равно 0,
# из-за 0 в знаменателе у нас - деление на ноль и получаем ошибку
# MAPE = np.mean(np.abs((0 - 1) / 0))
# print("MAPE: %.3f" % MAPE)

# ZeroDivisionError                         Traceback (most recent call last)
# <ipython-input-29-f5fffa98dd7d> in <module>
#       1 # явно вычисляем MAPE, когда фактическое значение равно 0,
#       2 # из-за 0 в знаменателе у нас - деление на ноль и получаем ошибку
# ----> 3 MAPE = np.mean(np.abs((0 - 1) / 0))
#       4 print("MAPE: %.3f" % MAPE)
#
# ZeroDivisionError: division by zero

In [32]:
# вручную вычисляем MAPE, когда фактическое значение равно 0,
# вместо 0 подставляем маленькое значение, близкое к 0,
# однако чем оно меньше, тем больше MAPE
MAPE = np.mean(np.abs((0 - 1) / 0.000000001)) * 100
print("MAPE: %.3f" % MAPE)

MAPE: 100000000000.000


In [33]:
# рассмотрим функцию для вычисления MAPE в scikit-learn
def sklearn_mape(actual, forecast):
    # задаем эпсилон - очень маленькое значение 
    # (2.220446049250313e-16)
    epsilon = np.finfo(np.float64).eps
    # в знаменателе берем максимальное значение из массива 
    # двух чисел - модуля числа и эпсилон
    output = np.abs(forecast - actual) / np.maximum(
        np.abs(actual), epsilon)
    # усредняем
    mape = np.average(output)
    return mape

In [34]:
# вычисляем MAPE с помощью нашей функции sklearn_mape(), 
# когда фактическое значение равно 0
sklearn_mape(0, 1)

4503599627370496.0

In [35]:
# вычислим MAPE c помощью функции mean_absolute_percentage_error(),
# когда фактическое значение равно 0
from sklearn.metrics import mean_absolute_percentage_error
mean_absolute_percentage_error([0], [1])

4503599627370496.0

In [36]:
# отключаем экспоненциальное представление
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# вычисляем значения MAPE
mape1 = sklearn_mape(30, 30)
mape2 = sklearn_mape(20, 30)
mape3 = sklearn_mape(20, 10)
mape4 = sklearn_mape(30, 300)
mape5 = sklearn_mape(10, 20)
mape6 = sklearn_mape(30, 20)
mape7 = sklearn_mape(1, 2)
mape8 = sklearn_mape(2, 1)
mape9 = sklearn_mape(0.1, 1)
mape10 = sklearn_mape(1, 0.1)
mape11 = sklearn_mape(0, 1)
mape12 = sklearn_mape(1, 0)

# создаем датафрейм
data_dict = {'MAPE': [mape1, mape2, mape3, mape4, mape5, mape6,
                      mape7, mape8, mape9, mape10, mape11, mape12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,MAPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.5
"фактическое=20, прогноз=10 (недооценка)",0.5
"фактическое=30, прогноз=300 (большая ошибка)",9.0
"фактическое=10, прогноз=20 (переоценка)",1.0
"фактическое=30, прогноз=20 (недооценка)",0.333
"фактическое=1, прогноз=2 (переоценка)",1.0
"фактическое=2, прогноз=1 (недооценка)",0.5
"фактическое=0.1, прогноз=1 (переоценка)",9.0
"фактическое=1, прогноз=0.1 (недооценка)",0.9


In [37]:
# создаем набор с преимущественно положительными 
# ошибками (заниженные прогнозы)
exmpl_underest = pd.DataFrame(
    {'Actual': [3, 4, 3, 6, 7, 8, 9, 10, 11, 12],
     'Forecast': [1, 2, 5, 4, 5, 6, 7, 8, 9, 12]})
exmpl_underest['error'] = (exmpl_underest['Actual'] - 
                           exmpl_underest['Forecast'])
exmpl_underest['error^2'] = (exmpl_underest['Actual'] - 
                             exmpl_underest['Forecast']) ** 2
exmpl_underest

Unnamed: 0,Actual,Forecast,error,error^2
0,3,1,2,4
1,4,2,2,4
2,3,5,-2,4
3,6,4,2,4
4,7,5,2,4
5,8,6,2,4
6,9,7,2,4
7,10,8,2,4
8,11,9,2,4
9,12,12,0,0


In [38]:
# создаем набор с преимущественно отрицательными 
# ошибками (завышенные прогнозы)
exmpl_overest = pd.DataFrame(
    {'Actual': [1, 2, 5, 4, 5, 6, 7, 8, 9, 12],
     'Forecast': [3, 4, 3, 6, 7, 8, 9, 10, 11, 12]})
exmpl_overest['error'] = (exmpl_overest['Actual'] - 
                          exmpl_overest['Forecast'])
exmpl_overest['error^2'] = (exmpl_overest['Actual'] - 
                            exmpl_overest['Forecast']) ** 2
exmpl_overest

Unnamed: 0,Actual,Forecast,error,error^2
0,1,3,-2,4
1,2,4,-2,4
2,5,3,2,4
3,4,6,-2,4
4,5,7,-2,4
5,6,8,-2,4
6,7,9,-2,4
7,8,10,-2,4
8,9,11,-2,4
9,12,12,0,0


In [39]:
# вычисляем MAPE для заниженных прогнозов
mape_for_underest = sklearn_mape(exmpl_underest['Actual'], 
                                 exmpl_underest['Forecast'])
# вычисляем MAPE для завышенных прогнозов
mape_for_overest = sklearn_mape(exmpl_overest['Actual'], 
                                exmpl_overest['Forecast'])
# печатаем значения MAPE
print("MAPE для заниженных прогнозов: %.3f" % mape_for_underest)
print("MAPE для завышенных прогнозов: %.3f" % mape_for_overest)

MAPE для заниженных прогнозов: 0.331
MAPE для завышенных прогнозов: 0.539


In [40]:
# вычисляем MAPE для первой модели
print("MAPE_1й_товар: %.3f" % sklearn_mape(100000, 120000))
print("MAPE_2й_товар: %.3f" % sklearn_mape(100000000, 101000000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 101000000])
print("MAPE итого: %.3f" % sklearn_mape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

MAPE_1й_товар: 0.200
MAPE_2й_товар: 0.010
MAPE итого: 0.105
суммарная ошибка прогноза: 1020000


In [41]:
# вычисляем MAPE для второй модели
print("MAPE_1й_товар: %.3f" % sklearn_mape(100000, 110000))
print("MAPE_2й_товар: %.3f" % sklearn_mape(100000000, 105000000))
actual = np.array([100000, 100000000])
forecast = np.array([110000, 105000000])
print("MAPE итого: %.3f" % sklearn_mape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

MAPE_1й_товар: 0.100
MAPE_2й_товар: 0.050
MAPE итого: 0.075
суммарная ошибка прогноза: 5010000


In [42]:
# еще один пример
print("MAPE_1й_товар: %.5f" % sklearn_mape(100000, 120000))
print("MAPE_2й_товар: %.5f" % sklearn_mape(100000000, 100020000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 100020000])
print("MAPE итого: %.5f" % sklearn_mape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

MAPE_1й_товар: 0.20000
MAPE_2й_товар: 0.00020
MAPE итого: 0.10010
суммарная ошибка прогноза: 40000


In [43]:
# рассмотрим функцию для вычисления MDAPE
def mdape(actual, forecast):
    # задаем эпсилон - очень маленькое значение 
    # (2.220446049250313e-16)
    epsilon = np.finfo(np.float64).eps
    # в знаменателе берем максимальное значение из массива 
    # двух чисел - модуля числа и эпсилон
    output = np.abs(forecast - actual) / np.maximum(
        np.abs(actual), epsilon)
    # усредняем
    mdape = np.median(output)
    return mdape

In [44]:
# вычисляем значения MdAPE
mdape1 = mdape(30, 30)
mdape2 = mdape(20, 30)
mdape3 = mdape(20, 10)
mdape4 = mdape(30, 300)
mdape5 = mdape(10, 20)
mdape6 = mdape(30, 20)
mdape7 = mdape(1, 2)
mdape8 = mdape(2, 1)
mdape9 = mdape(0.1, 1)
mdape10 = mdape(1, 0.1)
mdape11 = mdape(0, 1)
mdape12 = mdape(1, 0)

# создаем датафрейм
data_dict = {'MdAPE': [mdape1, mdape2, mdape3, mdape4, mdape5, mdape6,
                       mdape7, mdape8, mdape9, mdape10, mdape11, mdape12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,MdAPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.5
"фактическое=20, прогноз=10 (недооценка)",0.5
"фактическое=30, прогноз=300 (большая ошибка)",9.0
"фактическое=10, прогноз=20 (переоценка)",1.0
"фактическое=30, прогноз=20 (недооценка)",0.333
"фактическое=1, прогноз=2 (переоценка)",1.0
"фактическое=2, прогноз=1 (недооценка)",0.5
"фактическое=0.1, прогноз=1 (переоценка)",9.0
"фактическое=1, прогноз=0.1 (недооценка)",0.9


In [45]:
# пишем функцию для вычисления SMAPE по Армстронгу
def adjusted_mape(actual, forecast):
    return np.mean(np.abs(forecast - actual) / ((actual + forecast) / 2))

# пишем функцию для вычисления SMAPE
# c умножением на 2 в числителе
def smape_with_multiplication_by_2(actual, forecast):
    return np.mean(2.0 * np.abs(actual - forecast) / (
        (np.abs(actual) + np.abs(forecast)))) * 100

# пишем функцию для вычисления SMAPE
# c делением на 2 в знаменателе
def smape_with_division_by_2(actual, forecast):
    return np.mean(np.abs(forecast - actual) / (
        (np.abs(actual) + np.abs(forecast)) / 2)) * 100

# пишем функцию для вычисления стандартной метрики SMAPE
# (без деления на 2 в знаменателе)
def standard_smape(actual, forecast):
    return np.mean(np.abs(forecast - actual) / (
        np.abs(actual) + np.abs(forecast))) * 100

# пишем функцию для вычисления третьего варианта SMAPE
def third_variant_smape(actual, forecast):
    return (np.sum(np.abs(forecast - actual)) / np.sum(
        actual + forecast)) * 100


In [46]:
# вычисляем значения SMAPE по Армстронгу
adjusted_mape1 = adjusted_mape(30, 30)
adjusted_mape2 = adjusted_mape(20, 30)
adjusted_mape3 = adjusted_mape(20, 10)
adjusted_mape4 = adjusted_mape(30, 300)
adjusted_mape5 = adjusted_mape(10, 20)
adjusted_mape6 = adjusted_mape(30, 20)
adjusted_mape7 = adjusted_mape(1, 2)
adjusted_mape8 = adjusted_mape(2, 1)
adjusted_mape9 = adjusted_mape(0.1, 1)
adjusted_mape10 = adjusted_mape(1, 0.1)
adjusted_mape11 = adjusted_mape(0, 1)
adjusted_mape12 = adjusted_mape(1, 0)

# вычисляем значения SMAPE c делением на 2 в знаменателе
smape1_with_div_by_2 = smape_with_division_by_2(30, 30)
smape2_with_div_by_2 = smape_with_division_by_2(20, 30)
smape3_with_div_by_2 = smape_with_division_by_2(20, 10)
smape4_with_div_by_2 = smape_with_division_by_2(30, 300)
smape5_with_div_by_2 = smape_with_division_by_2(10, 20)
smape6_with_div_by_2 = smape_with_division_by_2(30, 20)
smape7_with_div_by_2 = smape_with_division_by_2(1, 2)
smape8_with_div_by_2 = smape_with_division_by_2(2, 1)
smape9_with_div_by_2 = smape_with_division_by_2(0.1, 1)
smape10_with_div_by_2 = smape_with_division_by_2(1, 0.1)
smape11_with_div_by_2 = smape_with_division_by_2(0, 1)
smape12_with_div_by_2 = smape_with_division_by_2(1, 0)

# вычисляем значения SMAPE c умножением на 2 в числителе
smape1_with_mul_by_2 = smape_with_multiplication_by_2(30, 30)
smape2_with_mul_by_2 = smape_with_multiplication_by_2(20, 30)
smape3_with_mul_by_2 = smape_with_multiplication_by_2(20, 10)
smape4_with_mul_by_2 = smape_with_multiplication_by_2(30, 300)
smape5_with_mul_by_2 = smape_with_multiplication_by_2(10, 20)
smape6_with_mul_by_2 = smape_with_multiplication_by_2(30, 20)
smape7_with_mul_by_2 = smape_with_multiplication_by_2(1, 2)
smape8_with_mul_by_2 = smape_with_multiplication_by_2(2, 1)
smape9_with_mul_by_2 = smape_with_multiplication_by_2(0.1, 1)
smape10_with_mul_by_2 = smape_with_multiplication_by_2(1, 0.1)
smape11_with_mul_by_2 = smape_with_multiplication_by_2(0, 1)
smape12_with_mul_by_2 = smape_with_multiplication_by_2(1, 0)

# вычисляем значения стандартной метрики SMAPE 
# (без деления на 2 в знаменателе)
standard_smape1 = standard_smape(30, 30)
standard_smape2 = standard_smape(20, 30)
standard_smape3 = standard_smape(20, 10)
standard_smape4 = standard_smape(30, 300)
standard_smape5 = standard_smape(10, 20)
standard_smape6 = standard_smape(30, 20)
standard_smape7 = standard_smape(1, 2)
standard_smape8 = standard_smape(2, 1)
standard_smape9 = standard_smape(0.1, 1)
standard_smape10 = standard_smape(1, 0.1)
standard_smape11 = standard_smape(0, 1)
standard_smape12 = standard_smape(1, 0)

# вычисляем значения третьего варианта метрики SMAPE 
third_variant_smape1 = third_variant_smape(30, 30)
third_variant_smape2 = third_variant_smape(20, 30)
third_variant_smape3 = third_variant_smape(20, 10)
third_variant_smape4 = third_variant_smape(30, 300)
third_variant_smape5 = third_variant_smape(10, 20)
third_variant_smape6 = third_variant_smape(30, 20)
third_variant_smape7 = third_variant_smape(1, 2)
third_variant_smape8 = third_variant_smape(2, 1)
third_variant_smape9 = third_variant_smape(0.1, 1)
third_variant_smape10 = third_variant_smape(1, 0.1)
third_variant_smape11 = third_variant_smape(0, 1)
third_variant_smape12 = third_variant_smape(1, 0)

# создаем датафрейм, строки - модели, столбцы - значения метрик
data_dict = {'adjusted_MAPE': [adjusted_mape1, adjusted_mape2, 
                               adjusted_mape3, adjusted_mape4, 
                               adjusted_mape5, adjusted_mape6, 
                               adjusted_mape7, adjusted_mape8,
                               adjusted_mape9, adjusted_mape10,
                               adjusted_mape11, adjusted_mape12],
             'SMAPE_with_division_by_2': [smape1_with_div_by_2, 
                                          smape2_with_div_by_2, 
                                          smape3_with_div_by_2,
                                          smape4_with_div_by_2, 
                                          smape5_with_div_by_2, 
                                          smape6_with_div_by_2,
                                          smape7_with_div_by_2, 
                                          smape8_with_div_by_2,
                                          smape9_with_div_by_2,
                                          smape10_with_div_by_2,
                                          smape11_with_div_by_2, 
                                          smape12_with_div_by_2],
             'SMAPE_with_multiplication_by_2': [smape1_with_mul_by_2,
                                                smape2_with_mul_by_2,
                                                smape3_with_mul_by_2,
                                                smape4_with_mul_by_2,
                                                smape5_with_mul_by_2,
                                                smape6_with_mul_by_2,
                                                smape7_with_mul_by_2,
                                                smape8_with_mul_by_2,
                                                smape9_with_mul_by_2,
                                                smape10_with_mul_by_2,
                                                smape11_with_mul_by_2,
                                                smape12_with_mul_by_2],
             'standard_SMAPE': [standard_smape1, standard_smape2, 
                                standard_smape3, standard_smape4, 
                                standard_smape5, standard_smape6, 
                                standard_smape7, standard_smape8,
                                standard_smape9, standard_smape10,
                                standard_smape11, standard_smape12],
             'third_variant_SMAPE': [third_variant_smape1, 
                                     third_variant_smape2, 
                                     third_variant_smape3,
                                     third_variant_smape4, 
                                     third_variant_smape5,
                                     third_variant_smape6, 
                                     third_variant_smape7, 
                                     third_variant_smape8,
                                     third_variant_smape9, 
                                     third_variant_smape10,
                                     third_variant_smape11, 
                                     third_variant_smape12]}

df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,adjusted_MAPE,SMAPE_with_division_by_2,SMAPE_with_multiplication_by_2,standard_SMAPE,third_variant_SMAPE
"фактическое=30, прогноз=30 (идеально)",0.0,0.0,0.0,0.0,0.0
"фактическое=20, прогноз=30 (переоценка)",0.4,40.0,40.0,20.0,20.0
"фактическое=20, прогноз=10 (недооценка)",0.667,66.667,66.667,33.333,33.333
"фактическое=30, прогноз=300 (большая ошибка)",1.636,163.636,163.636,81.818,81.818
"фактическое=10, прогноз=20 (переоценка)",0.667,66.667,66.667,33.333,33.333
"фактическое=30, прогноз=20 (недооценка)",0.4,40.0,40.0,20.0,20.0
"фактическое=1, прогноз=2 (переоценка)",0.667,66.667,66.667,33.333,33.333
"фактическое=2, прогноз=1 (недооценка)",0.667,66.667,66.667,33.333,33.333
"фактическое=0.1, прогноз=1 (переоценка)",1.636,163.636,163.636,81.818,81.818
"фактическое=1, прогноз=0.1 (недооценка)",1.636,163.636,163.636,81.818,81.818


In [47]:
# вычисляем SMAPE для заниженных прогнозов
smape_for_underest = standard_smape(exmpl_underest['Actual'], 
                                    exmpl_underest['Forecast'])
# вычисляем SMAPE для завышенных прогнозов
smape_for_overest = standard_smape(exmpl_overest['Actual'], 
                                   exmpl_overest['Forecast'])
# печатаем значения SMAPE
print("SMAPE для заниженных прогнозов: %.3f" % smape_for_underest)
print("SMAPE для завышенных прогнозов: %.3f" % smape_for_overest)

SMAPE для заниженных прогнозов: 19.290
SMAPE для завышенных прогнозов: 19.290


In [48]:
# вычисляем SMAPE для первой модели
print("SMAPE_1й_товар: %.3f" % standard_smape(100000, 120000))
print("SMAPE_2й_товар: %.3f" % standard_smape(100000000, 101000000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 101000000])
print("SMAPE итого: %.3f" % standard_smape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

SMAPE_1й_товар: 9.091
SMAPE_2й_товар: 0.498
SMAPE итого: 4.794
суммарная ошибка прогноза: 1020000


In [49]:
# вычисляем MAPE для второй модели
print("SMAPE_1й_товар: %.3f" % standard_smape(100000, 110000))
print("SMAPE_2й_товар: %.3f" % standard_smape(100000000, 105000000))
actual = np.array([100000, 100000000])
forecast = np.array([110000, 105000000])
print("SMAPE итого: %.3f" % standard_smape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

SMAPE_1й_товар: 4.762
SMAPE_2й_товар: 2.439
SMAPE итого: 3.600
суммарная ошибка прогноза: 5010000


In [50]:
# еще один пример
print("SMAPE_1й_товар: %.5f" % standard_smape(100000, 120000))
print("SMAPE_2й_товар: %.5f" % standard_smape(100000000, 100020000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 100020000])
print("SMAPE итого: %.5f" % standard_smape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

SMAPE_1й_товар: 9.09091
SMAPE_2й_товар: 0.01000
SMAPE итого: 4.55045
суммарная ошибка прогноза: 40000


In [51]:
# пишем функцию для вычисления SMdAPE
def smdape(actual, forecast):
    return np.median(2.0 * np.abs(actual - forecast) / 
                     (np.abs(actual) + np.abs(forecast)))

In [52]:
# вычисляем значения SMdAPE
smdape1 = smdape(30, 30)
smdape2 = smdape(20, 30)
smdape3 = smdape(20, 10)
smdape4 = smdape(30, 300)
smdape5 = smdape(10, 20)
smdape6 = smdape(30, 20)
smdape7 = smdape(1, 2)
smdape8 = smdape(2, 1)
smdape9 = smdape(0.1, 1)
smdape10 = smdape(1, 0.1)
smdape11 = smdape(0, 1)
smdape12 = smdape(1, 0)

# создаем датафрейм
data_dict = {'SMdAPE': [smdape1, smdape2, smdape3, smdape4, smdape5, 
                        smdape6, smdape7, smdape8, smdape9, smdape10,
                        smdape11, smdape12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,SMdAPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.4
"фактическое=20, прогноз=10 (недооценка)",0.667
"фактическое=30, прогноз=300 (большая ошибка)",1.636
"фактическое=10, прогноз=20 (переоценка)",0.667
"фактическое=30, прогноз=20 (недооценка)",0.4
"фактическое=1, прогноз=2 (переоценка)",0.667
"фактическое=2, прогноз=1 (недооценка)",0.667
"фактическое=0.1, прогноз=1 (переоценка)",1.636
"фактическое=1, прогноз=0.1 (недооценка)",1.636


In [53]:
# пишем функцию для вычисления WAPE
def wape(actual, forecast):
    epsilon = np.finfo(np.float64).eps
    return np.sum(np.abs(actual - forecast)) / np.sum(
        np.maximum(np.abs(actual), epsilon))

In [54]:
# вычисляем WAPE для заниженных прогнозов
wape_for_underest = wape(exmpl_underest['Actual'], 
                         exmpl_underest['Forecast'])
# вычисляем WAPE для завышенных прогнозов
wape_for_overest = wape(exmpl_overest['Actual'], 
                        exmpl_overest['Forecast'])
# печатаем значения WAPE
print("WAPE для заниженных прогнозов: %.3f" % wape_for_underest)
print("WAPE для завышенных прогнозов: %.3f" % wape_for_overest)

WAPE для заниженных прогнозов: 0.247
WAPE для завышенных прогнозов: 0.305


In [55]:
# вычисляем значения WAPE
wape1 = wape(30, 30)
wape2 = wape(20, 30)
wape3 = wape(20, 10)
wape4 = wape(30, 300)
wape5 = wape(10, 20)
wape6 = wape(30, 20)
wape7 = wape(1, 2)
wape8 = wape(2, 1)
wape9 = wape(0.1, 1)
wape10 = wape(1, 0.1)
wape11 = wape(0, 1)
wape12 = wape(1, 0)

# создаем датафрейм
data_dict = {'WAPE': [wape1, wape2, wape3, wape4, wape5, 
                      wape6, wape7, wape8, wape9, wape10,
                      wape11, wape12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,WAPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.5
"фактическое=20, прогноз=10 (недооценка)",0.5
"фактическое=30, прогноз=300 (большая ошибка)",9.0
"фактическое=10, прогноз=20 (переоценка)",1.0
"фактическое=30, прогноз=20 (недооценка)",0.333
"фактическое=1, прогноз=2 (переоценка)",1.0
"фактическое=2, прогноз=1 (недооценка)",0.5
"фактическое=0.1, прогноз=1 (переоценка)",9.0
"фактическое=1, прогноз=0.1 (недооценка)",0.9


In [56]:
# вычисляем WAPE для первой модели
print("WAPE_1й_товар: %.5f" % wape(100000, 120000))
print("WAPE_2й_товар: %.5f" % wape(100000000, 101000000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 101000000])
print("WAPE итого: %.5f" % wape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

WAPE_1й_товар: 0.20000
WAPE_2й_товар: 0.01000
WAPE итого: 0.01019
суммарная ошибка прогноза: 1020000


In [57]:
# вычисляем WAPE для второй модели
print("WAPE_1й_товар: %.3f" % wape(100000, 110000))
print("WAPE_2й_товар: %.3f" % wape(100000000, 105000000))
actual = np.array([100000, 100000000])
forecast = np.array([110000, 105000000])
print("WAPE итого: %.3f" % wape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

WAPE_1й_товар: 0.100
WAPE_2й_товар: 0.050
WAPE итого: 0.050
суммарная ошибка прогноза: 5010000


In [58]:
# вес первого продукта
weight_frst_item = 100000 / (100000000 + 100000)
weight_frst_item

0.000999000999000999

In [59]:
# вес второго продукта
weight_scnd_item = 100000000 / (100000000 + 100000)
weight_scnd_item

0.999000999000999

In [60]:
# итоговое значение WAPE
WAPE_total = 0.2 * weight_frst_item + 0.01 * weight_scnd_item
print("WAPE итого: %.5f" % WAPE_total)

WAPE итого: 0.01019


In [61]:
# еще один пример
print("WAPE_1й_товар: %.5f" % wape(100000, 120000))
print("WAPE_2й_товар: %.5f" % wape(100000000, 100020000))
actual = np.array([100000, 100000000])
forecast = np.array([120000, 100020000])
print("WAPE итого: %.5f" % wape(actual, forecast))
print("суммарная ошибка прогноза:", sum(forecast) - sum(actual))

WAPE_1й_товар: 0.20000
WAPE_2й_товар: 0.00020
WAPE итого: 0.00040
суммарная ошибка прогноза: 40000


In [62]:
# пишем функцию для вычисления WMAPE
def wmape(a, f, w):
    """
    Вычисляет WMAPE.

    Параметры
    ----------   
    a: одномерный массив
        Массив фактических значений.
    f: одномерный массив
        Массив спрогнозированных значений.
    w: одномерный массив
        Массив весов.
    """     
    if not isinstance((a, f, w), (list, np.ndarray)):
        a = pd.Series(a)
        f = pd.Series(f)
        w = pd.Series(w)
         
    num = 0.0
    for i in range(len(a)):
        num += w[i] * np.abs(a[i] - f[i])
    
    den = 0.0
    for i in range(len(a)):
        den += w[i] * np.abs(a[i])
    return num / den

In [63]:
# записываем массив фактических значений
# и массив спрогнозированных значений
actual = np.array([50, 1, 50])
forecast = np.array([55, 2, 50])

# записываем значения MAPE
mape_mon = sklearn_mape(50, 55)
mape_tue = sklearn_mape(1, 2)
mape_wed = sklearn_mape(50, 50)
mape_total = sklearn_mape(actual, forecast)

# записываем значения WAPE
wape_mon = wape(50, 55)
wape_tue = wape(1, 2)
wape_wed = wape(50, 50)
wape_total = wape(actual, forecast)

# записываем значения WMAPE
weights = [8, 1, 1]
wmape_mon = wmape(50, 55, weights[0])
wmape_tue = wmape(1, 2, weights[1])
wmape_wed = wmape(50, 50, weights[2])
wmape_total = wmape(actual, forecast, weights)

# добавляем в концы массивов итоговые значения
actual = np.insert(actual, 3, sum(actual))
forecast = np.insert(forecast, 3, sum(forecast))

# создаем датафрейм
data_dict = {'Фактические значения': actual, 
             'Прогнозы': forecast,
             'Ошибка прогноза': forecast - actual,
             'MAPE': [mape_mon, mape_tue, mape_wed, mape_total],
             'WAPE': [wape_mon, wape_tue, wape_wed, wape_total],
             'веса': [weights[0], weights[1], weights[2], ''],
             'WMAPE': [wmape_mon, wmape_tue, wmape_wed, wmape_total]}
df = pd.DataFrame(data_dict, index=['понедельник', 
                                    'вторник', 
                                    'среда', 
                                    'ИТОГО'])
df.T

Unnamed: 0,понедельник,вторник,среда,ИТОГО
Фактические значения,50.0,1.0,50.0,101.0
Прогнозы,55.0,2.0,50.0,107.0
Ошибка прогноза,5.0,1.0,0.0,6.0
MAPE,0.1,1.0,0.0,0.367
WAPE,0.1,1.0,0.0,0.059
веса,8.0,1.0,1.0,
WMAPE,0.1,1.0,0.0,0.091


In [64]:
# записываем список фактических значений
# и список спрогнозированных значений
actual = np.array([50, 1, 50])
forecast = np.array([50, 12, 80])
# записываем значения WMAPE
weights = [8, 1, 1]
wmape_mon = wmape(50, 50, weights[0])
wmape_tue = wmape(1, 12, weights[1])
wmape_wed = wmape(50, 80, weights[2])
wmape_total = wmape(actual, forecast, weights)

# добавляем в концы массивов итоговые значения
actual = np.insert(actual, 3, sum(actual))
forecast = np.insert(forecast, 3, sum(forecast))

# создаем датафрейм, строки - модели, столбцы - значения метрик
data_dict = {'Фактические значения': actual, 
             'Прогнозы': forecast,
             'Ошибка прогноза': forecast - actual,
             'веса': [weights[0], weights[1], weights[2], ''],
             'WMAPE': [wmape_mon, wmape_tue, wmape_wed, wmape_total]}
df = pd.DataFrame(data_dict, index=['понедельник', 
                                    'вторник', 
                                    'среда', 
                                    'ИТОГО'])
df.T

Unnamed: 0,понедельник,вторник,среда,ИТОГО
Фактические значения,50.0,1.0,50.0,101.0
Прогнозы,50.0,12.0,80.0,142.0
Ошибка прогноза,0.0,11.0,30.0,41.0
веса,8.0,1.0,1.0,
WMAPE,0.0,11.0,0.6,0.091


In [65]:
# пишем функцию для вычисления RMSPE
def rmspe(actual, forecast):
    # задаем эпсилон - очень маленькое значение 
    # (2.220446049250313e-16)
    epsilon = np.finfo(np.float64).eps
    return np.sqrt(
        np.mean(np.square((actual - forecast) / (actual + epsilon)))
    )

In [66]:
# вычисляем значения RMSPE
rmspe1 = rmspe(30, 30)
rmspe2 = rmspe(20, 30)
rmspe3 = rmspe(20, 10)
rmspe4 = rmspe(30, 300)
rmspe5 = rmspe(10, 20)
rmspe6 = rmspe(30, 20)
rmspe7 = rmspe(1, 2)
rmspe8 = rmspe(2, 1)
rmspe9 = rmspe(0.1, 1)
rmspe10 = rmspe(1, 0.1)
rmspe11 = rmspe(0, 1)
rmspe12 = rmspe(1, 0)

# создаем датафрейм
data_dict = {'RMSPE': [rmspe1, rmspe2, rmspe3, rmspe4, rmspe5, 
                       rmspe6, rmspe7, rmspe8, rmspe9, rmspe10,
                       rmspe11, rmspe12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,RMSPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.5
"фактическое=20, прогноз=10 (недооценка)",0.5
"фактическое=30, прогноз=300 (большая ошибка)",9.0
"фактическое=10, прогноз=20 (переоценка)",1.0
"фактическое=30, прогноз=20 (недооценка)",0.333
"фактическое=1, прогноз=2 (переоценка)",1.0
"фактическое=2, прогноз=1 (недооценка)",0.5
"фактическое=0.1, прогноз=1 (переоценка)",9.0
"фактическое=1, прогноз=0.1 (недооценка)",0.9


In [67]:
# пишем функцию для вычисления RMDSPE
def rmdspe(actual, forecast):
    # задаем эпсилон - очень маленькое значение 
    # (2.220446049250313e-16)
    epsilon = np.finfo(np.float64).eps
    return np.sqrt(
        np.median(np.square((actual - forecast) / (actual + epsilon)))
    )

In [68]:
# вычисляем значения RMdSPE
rmdspe1 = rmdspe(30, 30)
rmdspe2 = rmdspe(20, 30)
rmdspe3 = rmdspe(20, 10)
rmdspe4 = rmdspe(30, 300)
rmdspe5 = rmdspe(10, 20)
rmdspe6 = rmdspe(30, 20)
rmdspe7 = rmdspe(1, 2)
rmdspe8 = rmdspe(2, 1)
rmdspe9 = rmdspe(0.1, 1)
rmdspe10 = rmdspe(1, 0.1)
rmdspe11 = rmdspe(0, 1)
rmdspe12 = rmdspe(1, 0)

# создаем датафрейм
data_dict = {'RMdSPE': [rmdspe1, rmdspe2, rmdspe3, rmdspe4, rmdspe5, 
                        rmdspe6, rmdspe7, rmdspe8, rmdspe9, rmdspe10,
                        rmdspe11, rmdspe12]}
df = pd.DataFrame(data_dict, 
                  index=['фактическое=30, прогноз=30 (идеально)',
                         'фактическое=20, прогноз=30 (переоценка)',
                         'фактическое=20, прогноз=10 (недооценка)',
                         'фактическое=30, прогноз=300 (большая ошибка)',
                         'фактическое=10, прогноз=20 (переоценка)',
                         'фактическое=30, прогноз=20 (недооценка)',
                         'фактическое=1, прогноз=2 (переоценка)',
                         'фактическое=2, прогноз=1 (недооценка)',
                         'фактическое=0.1, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0.1 (недооценка)',
                         'фактическое=0, прогноз=1 (переоценка)',
                         'фактическое=1, прогноз=0 (недооценка)'])
df

Unnamed: 0,RMdSPE
"фактическое=30, прогноз=30 (идеально)",0.0
"фактическое=20, прогноз=30 (переоценка)",0.5
"фактическое=20, прогноз=10 (недооценка)",0.5
"фактическое=30, прогноз=300 (большая ошибка)",9.0
"фактическое=10, прогноз=20 (переоценка)",1.0
"фактическое=30, прогноз=20 (недооценка)",0.333
"фактическое=1, прогноз=2 (переоценка)",1.0
"фактическое=2, прогноз=1 (недооценка)",0.5
"фактическое=0.1, прогноз=1 (переоценка)",9.0
"фактическое=1, прогноз=0.1 (недооценка)",0.9


In [69]:
# вычисляем метрики
MAPE = sklearn_mape(exmpl['Actual'], exmpl['Forecast'])
MAPE2 = sklearn_mape(exmpl2['Actual'], exmpl2['Forecast'])
MAPE3 = sklearn_mape(exmpl3['Actual'], exmpl3['Forecast'])
MAPE4 = sklearn_mape(exmpl4['Actual'], exmpl4['Forecast'])
MAPE5 = sklearn_mape(exmpl5['Actual'], exmpl5['Forecast'])
MAPE6 = sklearn_mape(exmpl6['Actual'], exmpl6['Forecast'])
MAPE7 = sklearn_mape(exmpl7['Actual'], exmpl7['Forecast'])

MDAPE = mdape(exmpl['Actual'], exmpl['Forecast'])
MDAPE2 = mdape(exmpl2['Actual'], exmpl2['Forecast'])
MDAPE3 = mdape(exmpl3['Actual'], exmpl3['Forecast'])
MDAPE4 = mdape(exmpl4['Actual'], exmpl4['Forecast'])
MDAPE5 = mdape(exmpl5['Actual'], exmpl5['Forecast'])
MDAPE6 = mdape(exmpl6['Actual'], exmpl6['Forecast'])
MDAPE7 = mdape(exmpl7['Actual'], exmpl7['Forecast'])

SMAPE = standard_smape(exmpl['Actual'], exmpl['Forecast'])
SMAPE2 = standard_smape(exmpl2['Actual'], exmpl2['Forecast'])
SMAPE3 = standard_smape(exmpl3['Actual'], exmpl3['Forecast'])
SMAPE4 = standard_smape(exmpl4['Actual'], exmpl4['Forecast'])
SMAPE5 = standard_smape(exmpl5['Actual'], exmpl5['Forecast'])
SMAPE6 = standard_smape(exmpl6['Actual'], exmpl6['Forecast'])
SMAPE7 = standard_smape(exmpl7['Actual'], exmpl7['Forecast'])

SMDAPE = smdape(exmpl['Actual'], exmpl['Forecast'])
SMDAPE2 = smdape(exmpl2['Actual'], exmpl2['Forecast'])
SMDAPE3 = smdape(exmpl3['Actual'], exmpl3['Forecast'])
SMDAPE4 = smdape(exmpl4['Actual'], exmpl4['Forecast'])
SMDAPE5 = smdape(exmpl5['Actual'], exmpl5['Forecast'])
SMDAPE6 = smdape(exmpl6['Actual'], exmpl6['Forecast'])
SMDAPE7 = smdape(exmpl7['Actual'], exmpl7['Forecast'])

WAPE = wape(exmpl['Actual'], exmpl['Forecast'])
WAPE2 = wape(exmpl2['Actual'], exmpl2['Forecast'])
WAPE3 = wape(exmpl3['Actual'], exmpl3['Forecast'])
WAPE4 = wape(exmpl4['Actual'], exmpl4['Forecast'])
WAPE5 = wape(exmpl5['Actual'], exmpl5['Forecast'])
WAPE6 = wape(exmpl6['Actual'], exmpl6['Forecast'])
WAPE7 = wape(exmpl7['Actual'], exmpl7['Forecast'])

RMSPE = rmspe(exmpl['Actual'], exmpl['Forecast'])
RMSPE2 = rmspe(exmpl2['Actual'], exmpl2['Forecast'])
RMSPE3 = rmspe(exmpl3['Actual'], exmpl3['Forecast'])
RMSPE4 = rmspe(exmpl4['Actual'], exmpl4['Forecast'])
RMSPE5 = rmspe(exmpl5['Actual'], exmpl5['Forecast'])
RMSPE6 = rmspe(exmpl6['Actual'], exmpl6['Forecast'])
RMSPE7 = rmspe(exmpl7['Actual'], exmpl7['Forecast'])

RMDSPE = rmdspe(exmpl['Actual'], exmpl['Forecast'])
RMDSPE2 = rmdspe(exmpl2['Actual'], exmpl2['Forecast'])
RMDSPE3 = rmdspe(exmpl3['Actual'], exmpl3['Forecast'])
RMDSPE4 = rmdspe(exmpl4['Actual'], exmpl4['Forecast'])
RMDSPE5 = rmdspe(exmpl5['Actual'], exmpl5['Forecast'])
RMDSPE6 = rmdspe(exmpl6['Actual'], exmpl6['Forecast'])
RMDSPE7 = rmdspe(exmpl7['Actual'], exmpl7['Forecast'])

# создаем датафрейм, строки - модели, столбцы - метрики
data_dict = {'MAPE': [MAPE, MAPE2, MAPE3, MAPE4,
                      MAPE5, MAPE6, MAPE7], 
             'MdAPE': [MDAPE, MDAPE2, MDAPE3, MDAPE4, 
                       MDAPE5, MDAPE6, MDAPE7],
             'SMAPE': [SMAPE, SMAPE2, SMAPE3, SMAPE4,
                       SMAPE5, SMAPE6, SMAPE7],
             'SMdAPE': [SMDAPE, SMDAPE2, SMDAPE3, SMDAPE4,
                        SMDAPE5, SMDAPE6, SMDAPE7],
             'WAPE': [WAPE, WAPE2, WAPE3, WAPE4, 
                      WAPE5, WAPE6, WAPE7],
             'RMSPE': [RMSPE, RMSPE2, RMSPE3, RMSPE4,
                       RMSPE5, RMSPE6, RMSPE7],
             'RMdSPE': [RMDSPE, RMDSPE2, RMDSPE3, RMDSPE4,
                        RMDSPE5, RMDSPE6, RMDSPE7]}

df = pd.DataFrame(
    data_dict, 
    index=['равномерно распределенные положительные ошибки', 
           'небольшое варьирование размеров положительных ошибок',
           'одна большая положительная ошибка',
           'одна большая положительная и одна большая отрицательная',
           'равномерно распределенные отрицательные ошибки', 
           'небольшое варьирование размеров отрицательных ошибок',
           'одна большая отрицательная ошибка'])
df

Unnamed: 0,MAPE,MdAPE,SMAPE,SMdAPE,WAPE,RMSPE,RMdSPE
равномерно распределенные положительные ошибки,0.321,0.268,20.199,0.31,0.267,0.355,0.268
небольшое варьирование размеров положительных ошибок,0.284,0.261,16.859,0.301,0.267,0.297,0.262
одна большая положительная ошибка,0.067,0.0,5.0,0.0,0.267,0.211,0.0
одна большая положительная и одна большая отрицательная,0.147,0.0,7.857,0.0,0.43,0.329,0.0
равномерно распределенные отрицательные ошибки,0.586,0.367,20.199,0.31,0.364,0.787,0.368
небольшое варьирование размеров отрицательных ошибок,0.422,0.354,16.859,0.301,0.364,0.473,0.355
одна большая отрицательная ошибка,0.2,0.0,5.0,0.0,0.364,0.632,0.0


In [70]:
# пишем функцию для вычисления обычной ошибки
def _error(actual, predicted):
    return actual - predicted

# пишем функцию для вычисления наивного прогноза
def _naive_forecasting(actual, seasonality=1):
    return actual[:-seasonality]

# пишем функцию для вычисления относительной ошибки
def _relative_error(actual, predicted, benchmark=None):
    # задаем эпсилон - очень маленькое 
    # значение (2.220446049250313e-16)
    epsilon = np.finfo(np.float64).eps
    
    if benchmark is None or isinstance(benchmark, int):
        if not isinstance(benchmark, int):
            seasonality = 1
        else:
            seasonality = benchmark
        return _error(actual[seasonality:], predicted[seasonality:]) / (
            _error(actual[seasonality:],
                   _naive_forecasting(actual, seasonality)) + epsilon)
    return _error(actual, predicted) / (_error(actual, benchmark) + epsilon)

# пишем функцию для вычисления MRAE
def mrae(actual, predicted, benchmark=None):
    """
    Вычисляет MRAE.

    Параметры
    ----------   
    actual: одномерный массив
        Массив фактических значений.
    predicted: одномерный массив
        Массив спрогнозированных значений текущей модели.
    benchmark: одномерный массив
        Массив спрогнозированных значений модели-бенчмарка.
    """     
    return np.round(np.mean(np.abs(
        _relative_error(actual, predicted, benchmark))), 3)

In [71]:
# создаем массив фактических значений и два массива прогнозов
a = np.array([100000, 100000000])
f = np.array([120000, 101000000])
f2 = np.array([110000, 105000000])

# печатаем значения метрик
print(mrae(a, f))
print(mrae(a, f2))

0.01
0.05


In [72]:
# создаем массив фактических значений
actl = np.array([64, 76, 35, 33, 29, 35, 47])
# создаем массив прогнозов текущей модели
fcst = np.array([90, 101, 44, 32, 31, 44, 102])
# создаем массив прогнозов бенчмарк-модели
benchmark_fcst = np.array([68, 75, 33, 54, 37, 38, 50])

In [73]:
# вычисляем MRAE для задачи про туристов
mrae(actl, fcst, benchmark_fcst)

8.233

In [74]:
# вычисляем метрики
MRAE = mrae(exmpl['Actual'], exmpl['Forecast'], 
            np.array(exmpl['Actual'].mean() * np.ones(10)))
MRAE2 = mrae(exmpl2['Actual'], exmpl2['Forecast'], 
            np.array(exmpl2['Actual'].mean() * np.ones(10)))
MRAE3 = mrae(exmpl3['Actual'], exmpl3['Forecast'],
            np.array(exmpl3['Actual'].mean() * np.ones(10)))
MRAE4 = mrae(exmpl4['Actual'], exmpl4['Forecast'],
             np.array(exmpl4['Actual'].mean() * np.ones(10)))
MRAE5 = mrae(exmpl5['Actual'], exmpl5['Forecast'],
             np.array(exmpl5['Actual'].mean() * np.ones(10)))
MRAE6 = mrae(exmpl6['Actual'], exmpl6['Forecast'],
             np.array(exmpl6['Actual'].mean() * np.ones(10)))
MRAE7 = mrae(exmpl7['Actual'], exmpl7['Forecast'],
             np.array(exmpl7['Actual'].mean() * np.ones(10)))

# создаем датафрейм, строки - модели, столбцы - метрики
data_dict = {'MRAE': [MRAE, MRAE2, MRAE3, MRAE4,
                      MRAE5, MRAE6, MRAE7]}

df = pd.DataFrame(
    data_dict, 
    index=['равномерно распределенные положительные ошибки', 
           'небольшое варьирование размеров положительных ошибок',
           'одна большая положительная ошибка',
           'одна большая положительная и одна большая отрицательная',
           'равномерно распределенные отрицательные ошибки', 
           'небольшое варьирование размеров отрицательных ошибок',
           'одна большая отрицательная ошибка'])
df

Unnamed: 0,MRAE
равномерно распределенные положительные ошибки,1.43
небольшое варьирование размеров положительных ошибок,0.703
одна большая положительная ошибка,0.089
одна большая положительная и одна большая отрицательная,0.224
равномерно распределенные отрицательные ошибки,1.43
небольшое варьирование размеров отрицательных ошибок,1.43
одна большая отрицательная ошибка,0.444


In [75]:
# пишем функцию для вычисления MdRAE
def mdrae(actual, predicted, benchmark=None):
    """
    Вычисляет MdRAE.

    Параметры
    ----------   
    actual: одномерный массив
        Массив фактических значений.
    predicted: одномерный массив
        Массив спрогнозированных значений текущей модели.
    benchmark: одномерный массив
        Массив спрогнозированных значений модели-бенчмарка.
    """
    return np.round(np.median(np.abs(
        _relative_error(actual, predicted, benchmark))), 3)

In [76]:
# вычисляем MdRAE для задачи про туристов
mdrae(actl, fcst, benchmark_fcst)

4.5

In [77]:
# пишем функцию для вычисления геометрического среднего
def _geometric_mean(a, axis=0):
    if not isinstance(a, np.ndarray):
        log_a = np.log(np.array(a, dtype=None))
    else:
        log_a = np.log(a)
    return np.exp(log_a.mean(axis=axis))

# пишем функцию для вычисления GMRAE
def gmrae(actual, predicted, benchmark=None):
    """
    Вычисляет GMRAE.

    Параметры
    ----------   
    actual: одномерный массив
        Массив фактических значений.
    predicted: одномерный массив
        Массив спрогнозированных значений текущей модели.
    benchmark: одномерный массив
        Массив спрогнозированных значений модели-бенчмарка.
    """
    return np.round(_geometric_mean(np.abs(
        _relative_error(actual, predicted, benchmark))), 3)

# еще один вариант вычисления GMRAE
def gmrae2(actual, predicted, benchmark):
    """
    Вычисляет GMRAE.

    Параметры
    ----------   
    actual: одномерный массив
        Массив фактических значений.
    predicted: одномерный массив
        Массив спрогнозированных значений текущей модели.
    benchmark: одномерный массив
        Массив спрогнозированных значений модели-бенчмарка.
    """
    e_t = actual - predicted
    e_t_bench = actual - benchmark
    epsilon = np.finfo(np.float64).eps
    gmrae = np.exp(np.mean(
        np.log(np.abs(e_t / (e_t_bench + epsilon)))))
    return np.round(gmrae, 3)

In [78]:
# вычисляем GMRAE для задачи про туристов
print(gmrae(actl, fcst, benchmark_fcst))
print(gmrae2(actl, fcst, benchmark_fcst))

2.415
2.415


In [79]:
# вычисляем RelMAE для задачи про туристов
rel_mae = mae(actl, fcst) / mae(actl, benchmark_fcst)
rel_mae

3.0238095238095237

In [80]:
# пишем функцию для вычисления MASE
def mase(y_true, y_pred, y_train, sp=1):
    """
    Вычисляет MASE.

    Параметры
    ----------   
    y_true: одномерный массив
        Массив фактических меток.
    y_pred: одномерный массив
        Массив спрогнозированных меток.
    y_train: одномерный массив
        Обучающий массив фактических меток 
        (для вычисления наивного прогноза)
    sp: int, значение по умолчанию 1
        Количество периодов в полном сезонном цикле.
    """
    y_pred_naive = y_train[:-sp]
    mae_naive = mean_absolute_error(y_train[sp:], y_pred_naive)
    mae_pred = mean_absolute_error(y_true, y_pred)
    epsilon = np.finfo(np.float64).eps
    return np.round(mae_pred / np.maximum(mae_naive, epsilon), 3)   

In [81]:
# создаем обучающий массив фактических меток
train_act = np.array([80000, 95000000])
# создаем тестовый массив фактических меток
test_act = np.array([100000, 100000000])
# создаем первый тестовый массив спрогнозированных меток
test_frcst = np.array([120000, 101000000])
# создаем второй тестовый массив спрогнозированных меток
test_frcst2 = np.array([110000, 105000000])

In [82]:
# печатаем значения метрик
print(mase(test_act, test_frcst, train_act, sp=1))
print(mase(test_act, test_frcst2, train_act, sp=1))

0.005
0.026


In [83]:
# создаем обучающий массив фактических меток
train_actual = np.array([54, 66, 25, 23, 19, 25, 37])
# создаем тестовый массив фактических меток
test_actual = np.array([64, 76, 35, 33, 29, 35, 47])
# создаем тестовый массив спрогнозированных меток
test_forecast = np.array([65, 67, 36, 34, 100, 36, 48])
# вычисляем MASE для задачи про туристов
mase(test_actual, test_forecast, train_actual, sp=1)

0.946

In [84]:
# еще можно вычислить MASE с помощью класса MeanAbsoluteScaledError
# библиотеки sktime
from sktime.performance_metrics.forecasting import MeanAbsoluteScaledError
MASE = MeanAbsoluteScaledError()
MASE(test_actual, test_forecast, y_train=train_actual, sp=1)

0.9461966604823747

In [85]:
# пишем функцию для вычисления MdASE
def mdase(y_true, y_pred, y_train, sp=1):
    """
    Вычисляет MdASE.

    Параметры
    ----------   
    y_true: одномерный массив
        Массив фактических меток.
    y_pred: одномерный массив
        Массив спрогнозированных меток.
    y_train: одномерный массив
        Обучающий массив фактических меток 
        (для вычисления наивного прогноза)
    sp: int, значение по умолчанию 1
        Количество периодов в полном сезонном цикле.
    """
    y_pred_naive = y_train[:-sp]
    mdae_naive = mdae(y_train[sp:], y_pred_naive)
    mdae_pred = mdae(y_true, y_pred)
    epsilon = np.finfo(np.float64).eps
    return np.round(mdae_pred / np.maximum(mdae_naive, epsilon), 3)  

In [86]:
# вычисляем MdASE для задачи про туристов
mdase(test_actual, test_forecast, train_actual, sp=1)

0.111

In [87]:
# еще можно вычислить MdASE с помощью класса MedianAbsoluteScaledError
# библиотеки sktime
from sktime.performance_metrics.forecasting import MedianAbsoluteScaledError
MDASE = MedianAbsoluteScaledError()
MDASE(test_actual, test_forecast, y_train=train_actual, sp=1)

0.1111111111111111

In [88]:
# импортируем класс DieboldMarianoTest
from dm_test import DieboldMarianoTest

# массив фактических значений
actual = np.array([9.5, 11.2, 12.1, 16.5, 18.1])
# массив прогнозов (одношаговых)
forecast1 = np.array([10.1, 11.1, 15.3, 16.2, 18.9])
forecast2 = np.array([10.3, 11.9, 15.5, 16.8, 18.7])

In [89]:
# печатаем метрики качества прогнозов
print("MAPE_1-я_модель: %.3f" % sklearn_mape(actual, forecast1))
print("MAPE_2-я_модель: %.3f" % sklearn_mape(actual, forecast2))
# печатаем результаты теста Диболда-Мариано
dmt_mape = DieboldMarianoTest(crit='MAPE', h=1, seasonal_period=1)
results = dmt_mape.db_test(actual, forecast1, forecast2)
print("Результаты теста:", results)

MAPE_1-я_модель: 0.080
MAPE_2-я_модель: 0.096
Результаты теста: dm_return(DM=-1.4548887520458251, p_value=0.21939120174583787)
