# Summary

This notebook calculates price growths within a specified horizon from every week and bins them into discrete levels, to be used as the multi-label target variable for a prediction task.

# Imports and configuration

In [1]:
import sys
import pickle
import numpy as np
import pandas as pd

from typing import List, Tuple

In [2]:
sys.path.append(r"C:\Users\mushj\OneDrive\Desktop\WORK\Financial Analytics\pipeline")

from fin_ml.data_engineering.discretize_price_growth import engineer_targets, generate_symmetric_intervals

In [3]:
INPUT_PATH = "C:/Users/mushj/Downloads/PROCESSED FINANCE DATA/FMP"
OUTPUT_PATH = "C:/Users/mushj/Downloads/CURATED FINANCE DATA/FMP"

In [4]:
# load historical daily prices
df = pd.read_csv(INPUT_PATH+'/FMP_daily_prices_top1k.csv')

# load list of symbols to keep (based on exploratory analysis)
with open(INPUT_PATH+'/top1k_subset', 'rb') as f:
    include_symbols = pickle.load(f)

# Prepare DataFrame

In [5]:
print("Number of symbols to include:", len(include_symbols))
print("Examples:", include_symbols[:5])

Number of symbols to include: 978
Examples: ['A', 'AA', 'AAL', 'AAON', 'AAP']


In [6]:
df = df.query("symbol in @include_symbols")
df['date'] = pd.to_datetime(df['date'])

In [7]:
df.head()

Unnamed: 0,symbol,date,close,volume
0,A,2005-01-03,16.09,3587208.0
1,A,2005-01-04,15.66,3978002.0
2,A,2005-01-05,15.66,4139634.0
3,A,2005-01-06,15.31,3353443.0
4,A,2005-01-07,15.3,2786175.0


# Engineer multi-label target variable

1. The daily stock price data is downsampled to a weekly frequency. The last daily closing price is used as the week's closing price. For example, if the week contains prices for Monday till Friday, then Friday's closing price is used.
2. Given a forecast horizon (e.g. 1 year ahead), price growths are computed for each week, between a week's closing price and EVERY subsequent DAILY closing price within the forecast horizon.
3. Discrete intervals are defined, for example, <-25%, -25to0%, 0to25% >25%. The multi-label target variable for each week is a vector of binary values that indicate whether a stock will experience a certain level of price growth within the given horizon from that week. For example, a vector of [0, 1, 0, 1] for week 50 of stock ABC means that the stock will experience at least one price change in the interval -25to0%, and at least one price change in the interval >25%, relative to the closing price of week 50.

## Get weekly data

In [8]:
%%time
weekly_df = (
    df
    .sort_values(['symbol', 'date'])
    .groupby('symbol')
    .resample('W-MON', on='date', label='left') # mark each week with Monday
    .last() # get last price of the week
    .reset_index(level='date') # set date index as column
    .reset_index(drop=True) # remove other indexes
    .rename({'date': 'week'}, axis=1)
)

CPU times: total: 19.5 s
Wall time: 19.8 s


In [9]:
weekly_df.head()

Unnamed: 0,week,symbol,close,volume
0,2004-12-27,A,16.09,3587208.0
1,2005-01-03,A,15.23,4190098.0
2,2005-01-10,A,14.86,3027509.0
3,2005-01-17,A,14.45,5241370.0
4,2005-01-24,A,14.9,2821500.0


In [10]:
weekly_df.isna().mean()

week      0.0
symbol    0.0
close     0.0
volume    0.0
dtype: float64

In [11]:
weekly_df.dtypes

week      datetime64[ns]
symbol            object
close            float64
volume           float64
dtype: object

In [47]:
# distribution of counts of weekly data points
weekly_df.value_counts('symbol').describe()

count     978.000000
mean      871.982618
std       282.940932
min       155.000000
25%       709.250000
50%      1045.000000
75%      1045.000000
max      1045.000000
Name: count, dtype: float64

## Validate weekly data

In [12]:
%%time
# store the complete sets of weeks between the start and end weeks of each symbol (span)
week_span = {}

for symbol, data in weekly_df.groupby('symbol'):
    weeks = data.query("symbol == @symbol")['week']
    start, end = weeks.min(), weeks.max()
    week_span[symbol] = set(pd.date_range(start, end, freq='W-MON'))

CPU times: total: 20.6 s
Wall time: 21.1 s


In [13]:
%%time
# detect missing weeks for each symbol
missing_weeks = []

for symbol, data in weekly_df.groupby('symbol'):
    # get weeks in symbol span that are not in symbol data
    missing = week_span[symbol].difference(set(data['week']))
    for w in missing:
        missing_weeks.append({'symbol': symbol, 'missing_week': w})
        
missing_weeks = pd.DataFrame(missing_weeks)

CPU times: total: 1.38 s
Wall time: 1.39 s


In [14]:
# check missing weeks
missing_weeks

## Set intervals

In [15]:
# log-spaced price changes between 1% and 15%
boundaries = np.logspace(np.log(0.02), np.log(0.15), num=4, base=np.e)
np.round(boundaries, 3)

array([0.02 , 0.039, 0.077, 0.15 ])

In [16]:
boundaries = [0, 0.02, 0.039, 0.077, 0.15, np.inf]
intervals = generate_symmetric_intervals(boundaries)

print(len(intervals))
for i in intervals:
    print(i)

10
(-inf, -0.15)
(-0.15, -0.077)
(-0.077, -0.039)
(-0.039, -0.02)
(-0.02, 0)
(0, 0.02)
(0.02, 0.039)
(0.039, 0.077)
(0.077, 0.15)
(0.15, inf)


## Compute price changes - 30 days

In [17]:
weekly_df = weekly_df.rename({'week': 'date'}, axis=1)

In [43]:
%%time
# calculate for each symbol separately
for symbol, data in weekly_df.groupby('symbol'):
    target_30d_df = engineer_targets(
        data, df, 
        forecast_horizon=30, horizon_margin=5, intervals=intervals
    )
    target_30d_df.to_csv(OUTPUT_PATH+f'/discrete_return_30d/{symbol}.csv', index=False)

Calculating for ALSN: 100%|█████████████████████████████████████████████████████████| 669/669 [00:02<00:00, 226.60it/s]
Calculating for AM: 100%|███████████████████████████████████████████████████████████| 401/401 [00:01<00:00, 238.67it/s]
Calculating for AMAT: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 209.56it/s]
Calculating for AMCR: 100%|█████████████████████████████████████████████████████████| 291/291 [00:01<00:00, 220.25it/s]
Calculating for AMD: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.69it/s]
Calculating for AME: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 229.72it/s]
Calculating for AMED: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.23it/s]
Calculating for AMG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.80it/s]
Calculating for AMGN: 100%|█████████████

Calculating for BG: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 215.93it/s]
Calculating for BHF: 100%|██████████████████████████████████████████████████████████| 391/391 [00:01<00:00, 196.18it/s]
Calculating for BIIB: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.70it/s]
Calculating for BILL: 100%|█████████████████████████████████████████████████████████| 265/265 [00:01<00:00, 243.03it/s]
Calculating for BIO: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 199.98it/s]
Calculating for BJ: 100%|███████████████████████████████████████████████████████████| 341/341 [00:01<00:00, 214.60it/s]
Calculating for BK: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.72it/s]
Calculating for BKNG: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 203.27it/s]
Calculating for BKR: 100%|██████████████

Calculating for CI: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 216.67it/s]
Calculating for CIEN: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 203.22it/s]
Calculating for CINF: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 214.41it/s]
Calculating for CIVI: 100%|█████████████████████████████████████████████████████████| 682/682 [00:03<00:00, 221.94it/s]
Calculating for CL: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.35it/s]
Calculating for CLF: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.21it/s]
Calculating for CLH: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 208.81it/s]
Calculating for CLVT: 100%|█████████████████████████████████████████████████████████| 324/324 [00:01<00:00, 251.75it/s]
Calculating for CLX: 100%|██████████████

Calculating for DAY: 100%|██████████████████████████████████████████████████████████| 350/350 [00:02<00:00, 161.09it/s]
Calculating for DBX: 100%|██████████████████████████████████████████████████████████| 355/355 [00:02<00:00, 153.60it/s]
Calculating for DCI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 141.09it/s]
Calculating for DD: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 142.10it/s]
Calculating for DDOG: 100%|█████████████████████████████████████████████████████████| 277/277 [00:01<00:00, 154.41it/s]
Calculating for DDS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 144.95it/s]
Calculating for DE: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 144.86it/s]
Calculating for DECK: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 141.67it/s]
Calculating for DELL: 100%|█████████████

Calculating for ERIE: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 175.51it/s]
Calculating for ES: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 175.59it/s]
Calculating for ESI: 100%|██████████████████████████████████████████████████████████| 585/585 [00:03<00:00, 180.83it/s]
Calculating for ESS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 180.40it/s]
Calculating for ESTC: 100%|█████████████████████████████████████████████████████████| 327/327 [00:01<00:00, 174.65it/s]
Calculating for ETN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 182.66it/s]
Calculating for ETR: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 171.73it/s]
Calculating for ETSY: 100%|█████████████████████████████████████████████████████████| 508/508 [00:02<00:00, 175.80it/s]
Calculating for EVR: 100%|██████████████

Calculating for GL: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 177.09it/s]
Calculating for GLOB: 100%|█████████████████████████████████████████████████████████| 547/547 [00:02<00:00, 187.01it/s]
Calculating for GLPI: 100%|█████████████████████████████████████████████████████████| 587/587 [00:03<00:00, 181.57it/s]
Calculating for GLW: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 174.19it/s]
Calculating for GM: 100%|███████████████████████████████████████████████████████████| 738/738 [00:04<00:00, 183.76it/s]
Calculating for GME: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 184.44it/s]
Calculating for GMED: 100%|█████████████████████████████████████████████████████████| 649/649 [00:03<00:00, 193.16it/s]
Calculating for GNRC: 100%|█████████████████████████████████████████████████████████| 778/778 [00:04<00:00, 180.21it/s]
Calculating for GNTX: 100%|█████████████

Calculating for INSP: 100%|█████████████████████████████████████████████████████████| 349/349 [00:02<00:00, 144.80it/s]
Calculating for INTC: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 167.31it/s]
Calculating for INTU: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 143.45it/s]
Calculating for INVH: 100%|█████████████████████████████████████████████████████████| 414/414 [00:03<00:00, 130.70it/s]
Calculating for IONS: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 143.45it/s]
Calculating for IP: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 158.15it/s]
Calculating for IPG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 154.29it/s]
Calculating for IPGP: 100%|█████████████████████████████████████████████████████████| 943/943 [00:06<00:00, 153.99it/s]
Calculating for IQV: 100%|██████████████

Calculating for LII: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 207.85it/s]
Calculating for LIN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 214.97it/s]
Calculating for LITE: 100%|█████████████████████████████████████████████████████████| 494/494 [00:02<00:00, 219.47it/s]
Calculating for LKQ: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.24it/s]
Calculating for LLY: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 219.37it/s]
Calculating for LMT: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 201.38it/s]
Calculating for LNC: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 198.66it/s]
Calculating for LNG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.33it/s]
Calculating for LNT: 100%|██████████████

Calculating for MSA: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.68it/s]
Calculating for MSCI: 100%|█████████████████████████████████████████████████████████| 895/895 [00:03<00:00, 224.76it/s]
Calculating for MSFT: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.80it/s]
Calculating for MSGS: 100%|█████████████████████████████████████████████████████████| 486/486 [00:02<00:00, 230.02it/s]
Calculating for MSI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.62it/s]
Calculating for MSM: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.23it/s]
Calculating for MSTR: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 215.08it/s]
Calculating for MTB: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.40it/s]
Calculating for MTCH: 100%|█████████████

Calculating for ON: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.31it/s]
Calculating for ONTO: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.96it/s]
Calculating for ORCL: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.02it/s]
Calculating for ORI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.30it/s]
Calculating for ORLY: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.87it/s]
Calculating for OSK: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.38it/s]
Calculating for OTIS: 100%|█████████████████████████████████████████████████████████| 251/251 [00:01<00:00, 234.48it/s]
Calculating for OVV: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.56it/s]
Calculating for OWL: 100%|██████████████

Calculating for QCOM: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.50it/s]
Calculating for QDEL: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 219.92it/s]
Calculating for QGEN: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.62it/s]
Calculating for QRVO: 100%|█████████████████████████████████████████████████████████| 523/523 [00:02<00:00, 227.85it/s]
Calculating for QS: 100%|███████████████████████████████████████████████████████████| 230/230 [00:00<00:00, 235.61it/s]
Calculating for R: 100%|██████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.71it/s]
Calculating for RARE: 100%|█████████████████████████████████████████████████████████| 571/571 [00:02<00:00, 221.33it/s]
Calculating for RBA: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.72it/s]
Calculating for RBC: 100%|██████████████

Calculating for SMAR: 100%|█████████████████████████████████████████████████████████| 350/350 [00:01<00:00, 248.74it/s]
Calculating for SMCI: 100%|█████████████████████████████████████████████████████████| 928/928 [00:04<00:00, 224.52it/s]
Calculating for SMG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 221.87it/s]
Calculating for SNA: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.54it/s]
Calculating for SNDR: 100%|█████████████████████████████████████████████████████████| 405/405 [00:01<00:00, 250.49it/s]
Calculating for SNOW: 100%|█████████████████████████████████████████████████████████| 225/225 [00:00<00:00, 251.10it/s]
Calculating for SNPS: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.54it/s]
Calculating for SNV: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.04it/s]
Calculating for SNX: 100%|██████████████

Calculating for TRMB: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.18it/s]
Calculating for TROW: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.36it/s]
Calculating for TRU: 100%|██████████████████████████████████████████████████████████| 498/498 [00:02<00:00, 205.88it/s]
Calculating for TRV: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.37it/s]
Calculating for TSCO: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.63it/s]
Calculating for TSLA: 100%|█████████████████████████████████████████████████████████| 758/758 [00:03<00:00, 224.03it/s]
Calculating for TSN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.19it/s]
Calculating for TT: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.80it/s]
Calculating for TTC: 100%|██████████████

Calculating for WCC: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.75it/s]
Calculating for WDAY: 100%|█████████████████████████████████████████████████████████| 631/631 [00:02<00:00, 219.05it/s]
Calculating for WDC: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.44it/s]
Calculating for WEC: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.24it/s]
Calculating for WELL: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.82it/s]
Calculating for WEN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 211.62it/s]
Calculating for WEX: 100%|████████████████████████████████████████████████████████| 1038/1038 [00:04<00:00, 225.78it/s]
Calculating for WFC: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 221.96it/s]
Calculating for WFRD: 100%|█████████████

CPU times: total: 6min 29s
Wall time: 1h 11min 38s


In [49]:
with open(OUTPUT_PATH+f'/discrete_return_30d/labels', 'wb') as f:
    pickle.dump(intervals, f)

## Sample result

In [51]:
target_30d_df

Unnamed: 0,symbol,week,labels
0,ZTS,2013-01-28,"[0, 0, 0, 0, 1, 1, 1, 1, 1, 0]"
1,ZTS,2013-02-04,"[0, 0, 1, 1, 1, 1, 1, 1, 0, 0]"
2,ZTS,2013-02-11,"[0, 0, 1, 1, 1, 1, 0, 0, 0, 0]"
3,ZTS,2013-02-18,"[0, 0, 0, 0, 1, 1, 1, 1, 1, 0]"
4,ZTS,2013-02-25,"[0, 0, 1, 1, 1, 1, 0, 0, 0, 0]"
...,...,...,...
618,ZTS,2024-12-02,"[0, 1, 1, 0, 1, 1, 0, 0, 0, 0]"
619,ZTS,2024-12-09,
620,ZTS,2024-12-16,
621,ZTS,2024-12-23,


In [44]:
t_df = pd.DataFrame(target_30d_df.dropna()['labels'].to_list())
t_df.columns = intervals

In [45]:
t_df.describe()

Unnamed: 0,"(-inf, -0.15)","(-0.15, -0.077)","(-0.077, -0.039)","(-0.039, -0.02)","(-0.02, 0)","(0, 0.02)","(0.02, 0.039)","(0.039, 0.077)","(0.077, 0.15)","(0.15, inf)"
count,619.0,619.0,619.0,619.0,619.0,619.0,619.0,619.0,619.0,619.0
mean,0.009693,0.124394,0.368336,0.646204,1.0,0.943457,0.689822,0.458805,0.156704,0.012924
std,0.098054,0.330298,0.482743,0.478534,0.0,0.231154,0.46294,0.498703,0.363816,0.113038
min,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0
50%,0.0,0.0,0.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0
75%,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
