### Постановка задачи
Построить простую модель энергопотребления здания по среднему значению, 
оценить эффективность модели через метрику
\begin{equation}
RMSLE = {\sqrt{\sum_{i=1}^{n}{(log(p_i+1) - log(a_i+1))^2} \over n}}.
\end{equation}
* n - число наблюдений
* log - натуральный логарифм
* p_i - вычисленное значение метрики
* a_i - заданное значение метрики

Данные: http://video.ittensive.com/machine-learning/ashrae/train.0.0.csv.gz
Соревнование: https://www.kaggle.com/c/ashrae-energy-prediction/

© ITtensive, 2020

### Загрузка библиотек

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from matplotlib.pyplot import rcParams
rcParams['figure.figsize'] = 16, 8

### Загрузка данных
Дополнительно сразу отсечем пустые дни и выделим час из значения времени

In [2]:
energy_0 = pd.read_csv("/home/al/PycharmProjects/mashine_learn_Kagle/jupiter_bilder/train.csv")
energy_0 = energy_0[energy_0["meter_reading"] > 0]
energy_0["timestamp"] = pd.to_datetime(energy_0["timestamp"])
energy_0["hour"] = energy_0["timestamp"].dt.hour
print (energy_0.head())

     building_id  meter  timestamp  meter_reading  hour
45            46      0 2016-01-01        53.2397     0
72            74      0 2016-01-01        43.0013     0
91            93      0 2016-01-01        52.4206     0
103          105      0 2016-01-01        23.3036     0
104          106      0 2016-01-01         0.3746     0


### Разделение данных на обучение и проверку
Выделим 20% всех данных на проверку, остальные оставим на обучение

In [67]:
energy_0_train, energy_0_test = train_test_split(energy_0, test_size=0.2)
print (energy_0_train.head())

      building_id  meter           timestamp  meter_reading  hour
7193            0      0 2016-10-26 17:00:00        183.609    17
5842            0      0 2016-08-31 10:00:00        241.626    10
4081            0      0 2016-06-19 01:00:00        254.595     1
3997            0      0 2016-06-15 13:00:00        299.644    13
7140            0      0 2016-10-24 12:00:00        273.024    12


### Создадим модели
Среднее и медианное значение потребление энергии по часам

In [68]:
energy_0_train_hours = energy_0_train.groupby("hour")
energy_0_train_averages = pd.DataFrame(
    {"Среднее": energy_0_train_hours.mean()["meter_reading"],
     "Медиана": energy_0_train_hours.median()["meter_reading"]})
print (energy_0_train_averages)

         Среднее   Медиана
hour                      
0     238.141292  240.2610
1     237.492207  240.2610
2     239.963320  242.3090
3     238.892307  244.3570
4     236.675818  244.3570
5     240.579716  245.7220
6     236.355284  242.3090
7     241.121046  247.0870
8     242.814911  239.2375
9     235.611241  235.4830
10    237.642876  239.5790
11    234.733561  241.6260
12    235.568616  242.3090
13    236.679616  244.3570
14    236.369121  242.9915
15    238.101027  243.3325
16    236.741289  242.9910
17    233.032625  239.5790
18    235.582897  239.5790
19    237.350518  237.5310
20    236.394606  236.8480
21    239.661546  238.8960
22    238.209773  237.5310
23    237.832567  239.2375


### Функция проверки модели
\begin{equation}
RMSLE = {\sqrt{\sum_{i=1}^{n}{(log(p_i+1) - log(a_i+1))^2} \over n}}.
\end{equation}

Для вычисления метрики создадим шесть новых столбцов в тестовом наборе данных: с логарифмом значения метрики, предсказанием по среднему и по медиане, а также с квадратом разницы предсказаний и логарифма значения. Последний столбец добавим, чтобы сравнить предсказание с его отсутствием - нулями в значениях.

In [71]:
def calculate_model (x):
    meter_reading_log = np.log(x.meter_reading + 1)
    meter_reading_mean = np.log(energy_0_train_averages["Среднее"][x.hour] + 1)
    meter_reading_median = np.log(energy_0_train_averages["Медиана"][x.hour] + 1)
    x["meter_reading_mean_q"] = (meter_reading_log - meter_reading_mean)**2
    x["meter_reading_median_q"] = (meter_reading_log - meter_reading_median)**2
    x["meter_reading_zero_q"] = (meter_reading_log)**2
    return x

energy_0_test = energy_0_test.apply(calculate_model,
                                    axis=1, result_type="expand")
print (energy_0_test.head())

      building_id  meter           timestamp  meter_reading  hour  \
5238            0      0 2016-08-06 06:00:00        258.008     6   
5460            0      0 2016-08-15 12:00:00        312.613    12   
4714            0      0 2016-07-15 10:00:00        303.739    10   
4022            0      0 2016-06-16 14:00:00        301.009    14   
3511            0      0 2016-05-26 07:00:00        202.038     7   

      meter_reading_log  meter_reading_mean  meter_reading_median  \
5238           5.556859            5.469558              5.494332   
5460           5.748160            5.466238              5.494332   
4714           5.719456            5.474968              5.483049   
4022           5.710457            5.469616              5.497133   
3511           5.313393            5.489438              5.513779   

      meter_reading_mean_q  meter_reading_median_q  meter_reading_zero_q  
5238              0.007621                0.003910             30.878681  
5460              0.

Теперь остается просуммировать квадраты расхождений, разделить на количество значений и извлечь квадратный корень

In [72]:
energy_0_test_median_rmsle = np.sqrt(energy_0_test["meter_reading_median_q"].sum() / len(energy_0_test))
energy_0_test_mean_rmsle = np.sqrt(energy_0_test["meter_reading_mean_q"].sum() / len(energy_0_test))
energy_0_test_zero_rmsle = np.sqrt(energy_0_test["meter_reading_zero_q"].sum() / len(energy_0_test))
print ("Качество медианы:", energy_0_test_median_rmsle)
print ("Качество среднего:", energy_0_test_mean_rmsle)
print ("Качество нуля:", energy_0_test_zero_rmsle)

Качество медианы: 0.2541178189989124
Качество среднего: 0.2524486012205327
Качество нуля: 5.457644152335483
