In [156]:
import numpy as np
import pandas as pd
from datetime import date

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

plt.style.use('ggplot')
sns.set(font_scale=1.5)

In [116]:
df = pd.read_csv('data.csv', index_col='date')

# Defining Target Values and Tran Test Split

Как я понимаю нашу задачу: по историческим данным предсказать Revenue и EBITDA на один следующий временной период (t + 1)

In [117]:
df['target_revenue'] = df.groupby('Company')[['Revenue']].shift(-1)
df['target_ebitda'] = df.groupby('Company')[['EBITDA']].shift(-1)

df.dropna(axis=0, inplace=True)

In [118]:
df_train = df.loc[df.index.values[:37], :].reset_index().sort_values(by=['Company', 'date']).set_index('date')
df_test = df.loc[df.index.values[37:41], :].reset_index().sort_values(by=['Company', 'date']).set_index('date')

# Exploratory Data Analysis

Уберём строки, которые состоят из одних нулей или практически из одних нулей (не считая таргетных переменных, так как они со сдвигом, и столбца Company)

In [119]:
df_train = df_train.loc[
    ~((df_train.drop(columns=['target_revenue', 'target_ebitda', 'Company'])==0).sum(axis=1) / 13 > 0.5)
]

Как мы можем увидеть ниже, для большинства компаний есть данные по 37 кварталам, однако имеется ряд компаний с очень короткой историей. Например MNRL (5 кварталов) и BRY (10 кварталов).

In [120]:
df_train.groupby('Company')['Revenue'].count()

Company
AMPY    34
APA     37
AR      34
BATL    37
BCEI    37
BRY     10
BSM     22
CDEV    17
CHK     37
CLR     37
CNX     37
COG     37
COP     37
CPE     37
CRC     23
CRK     37
DEN     37
DVN     37
EGY     37
EOG     37
EQT     37
ESTE    37
FANG    35
GDP     37
HES     37
LONE    17
LPI     35
MCF     37
MGY     12
MNRL     5
MRO     37
MTDR    37
MUR     37
NOG     37
OAS     37
OVV     37
PDCE    37
PVAC    37
PXD     37
REI     30
RRC     37
SBOW    36
SD      37
SM      37
SWN     37
TALO    37
TPL     37
VNOM    25
WLL     37
WTI     37
XEC     37
XOG     17
Name: Revenue, dtype: int64

Поищем пропуски

In [275]:
df_train.groupby('Company').sum() == 0

Unnamed: 0_level_0,Revenue,Gross Profit,Operating Income,Pretax Income,Income (Loss) from Cont Ops,Net Income,Net Income Avail to Common,Diluted EPS,EBITDA,Total Equity,Cash from Operations,Cash from Investing Activities,Cash from Financing Activities,target_revenue,target_ebitda
Company,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
AMPY,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
APA,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
AR,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
BATL,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
BCEI,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
BRY,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
BSM,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
CDEV,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
CHK,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
CLR,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


*У VNOM в EBITDA одни нули, у LONE в Diluted EPS одни нули и у MGY в Gross Profit одни нули.*

Если честно, то пока непонятно как обрабатывать эти пропуски, так как не до конца ясна сама задача. Если нам надо предсказывать EBITDA, то VNOM можно убирать из анализа, или же оставлять, но тогда прогнозировать для него только Revenue. Что касается двух остальных кейсов, то необходимо сначала посмотреть как ведут себя все признаки. Возможно они все очень сильно коррелированы, и нам в любом случае придётся убирать Diluted EPS и Gross Profit.

Совокупная таблица со всеми статистиками по нашим данным представлена ниже. В целом, у нас много разных компаний с различными значениями показателей, поэтому сразу что-то, что выделяется, выделить тяжело.

In [125]:
df_train.groupby('Company').agg(['mean', 'std', 'min', 'max'])

Unnamed: 0_level_0,Revenue,Revenue,Revenue,Revenue,Gross Profit,Gross Profit,Gross Profit,Gross Profit,Operating Income,Operating Income,...,Cash from Financing Activities,Cash from Financing Activities,target_revenue,target_revenue,target_revenue,target_revenue,target_ebitda,target_ebitda,target_ebitda,target_ebitda
Unnamed: 0_level_1,mean,std,min,max,mean,std,min,max,mean,std,...,min,max,mean,std,min,max,mean,std,min,max
Company,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
AMPY,88.10847,39.938381,48.41,166.518,35.257206,18.987894,5.344,76.038,16.493147,19.346591,...,-182.574,699.817024,87.323412,40.724517,35.171,166.518,50.034706,38.475836,-7.784,129.54
APA,2584.189191,1242.134938,1084.0,4496.0,949.513527,764.304669,-185.999872,2329.999872,808.615121,784.663626,...,-2712.0,2268.0,2494.297302,1262.807166,596.0,4496.0,1660.885383,1112.51039,49.0,3827.000064
AR,657.956852,349.468652,92.034,1242.779008,244.179495,143.907322,34.724,549.396032,109.147177,84.373914,...,-510.952992,1525.542016,678.228735,348.236782,0.0,1242.779008,323.593823,171.242107,0.0,738.404992
BATL,138.88365,99.732188,24.197,311.999008,57.707649,44.44084,4.862,144.127,30.989514,36.587686,...,-438.476992,1122.048,139.542001,99.048414,24.197,311.999008,85.347974,73.345482,-1.087,215.327008
BCEI,74.981866,34.53964,21.436696,155.376992,33.311001,17.024821,9.721,70.267,15.860635,19.950027,...,-59.937,292.806016,75.380658,33.984966,24.89236,155.376992,43.747224,29.333988,-18.997,119.172
BRY,163.760198,87.953166,65.982,339.264992,85.487398,82.869387,-16.233,247.009992,57.651799,84.469218,...,-187.668,34.282,142.139798,107.598034,0.0,339.264992,70.3772,96.838832,-40.089,258.286
BSM,116.4925,41.166258,64.803,246.047008,72.192864,38.592738,17.108,188.173008,52.896909,40.761826,...,-104.454,264.312,112.171,44.165592,38.529,246.047008,76.797681,43.783295,13.879,205.234
CDEV,152.086177,89.681521,23.75,252.944,47.418296,36.456644,-3.569,106.117008,38.993941,35.176697,...,-0.934,1874.268032,155.607648,85.400424,29.273,252.944,107.05994,67.096872,12.945,188.008992
CHK,3076.297306,1004.789061,1995.000064,5190.000128,1979.486506,880.07704,997.000064,3996.0,274.072581,333.775069,...,-3897.999872,3463.000064,3014.486499,1089.417193,507.0,5190.000128,778.613129,442.30502,-224.0,1571.000064
CLR,826.168758,343.652588,-36.21,1645.328,319.943761,271.905309,-125.916992,1082.540992,269.205703,276.664139,...,-330.801984,1041.443968,831.912758,330.356868,114.118,1645.328,623.97581,285.245928,-3.926,1388.681984


## Data Vizualization

In [157]:
px.line(df_train, y="Revenue", color='Company', title='Revenue Dynamics by Company')

In [159]:
px.line(df_train, y="EBITDA", color='Company', title='EBITDA Dynamics by Company')

На первый взгляд кажется, что EBITDA по сравнению с Revenue более динамична, однако дело в масштабе, и в целом, EBITDA очень сильно коррелирует с Revenue.

Посчитаем эту корреляцию

Вспомним, что у VNOM EBITDA везде равна нулю, поэтому уберем её, чтобы корреляция посчиталась.

In [193]:
df_train[~(df_train['Company'] == 'VNOM')].groupby('Company')[
    ['Revenue', 'EBITDA']].corr()['Revenue'].values[1::2].mean()

0.8599744253770379

Грубая средняя оценка корреляции без учёта количество наблюдений для каждой компаним составила 0.8599. Что говорит нам о том, что в целом, необходимости в построении двух моделей, чтобы одна предсказывала Revenue, а вторая EBITDA, у нас нет.
Можно, например, прогнозировать только Revenue, а потом с помощью простой линейной регрессии расчитывать EBITDA.

Посчитаем теперь и визуализируем корреляционную матрицу по всем признакам, включая наши таргет переменные. Помимо VNOM уберём из анализа ещё LONE и MGY, так как у них есть пропуски.

In [296]:
df_corr = df_train[~(df_train['Company'].isin(['VNOM', 'LONE', 'MGY']))].groupby('Company').corr().reset_index()

In [297]:
companies = df_corr['Company'].unique()

corr_matrix = df_corr[df_corr['Company'] == companies[0]].drop(columns='Company').set_index('level_1')
for company in companies[1:]:
    corr_ = df_corr[df_corr['Company'] == company].drop(columns='Company').set_index('level_1')
    corr_matrix = corr_matrix.add(corr_, fill_value=0)
corr_matrix = corr_matrix / len(companies)
corr_matrix.index.name=None

In [308]:
fig = px.imshow(corr_matrix, text_auto=True, width=900, height=900)
fig.update_xaxes(side="top")

Как мы можем видеть, у нас достаточно много сильно коррелированных переменных, что может нам помешать при построении моделей в дальнейшем.

Если рассматривать целевые переменные, то можно выделить только Cash From Financing Activities, так как он практически с ними не коррелирует. Все же остальные признаки значимо коррелирует с целевыми переменными.

# Metric

**Average SMAPE**. Считаем для каждой компании SMAPE и потом его усредняем как среднее арифметическое.
 
Одна из идей: считать SMAPE сразу по всем прогнозам и потом уже усреднять. В таком случае компании, по которым у нас меньше данных, получат меньший вес в итоговой оценке. То есть так мы покажем, что там страшнее допустить ошибку по компании, у которой больше данных, чем по компании, у которой меньше.


Ниже представлена формула SMAPE для одной компании
![SMAPE](images/SMAPE.webp)

Я предлагаю считать среднюю SMAPE отдельно для Revenue и отдельно для EBITDA, после чего можно просто усреднить два этих показателя. Интуитивно кажется, что они будут примерно равны, так как сильно скоррелированы между собой. Поэтому большой разницы между тремя показателями SMAPE_Revenue, SMAPE_EBITDA и SMAPE_Average быть не должно. 

# Models

В качестве бейзлайна я бы попробовал обучить модель, которая обучается только на одном временном ряду и на одной категориальной переменной, отвечающей за компанию. Для Revenue и EBITDA можно обучать две разные модели. 