# Summary

This notebook calculates price growths within a specified horizon from every week and bins them into discrete levels, to be used as the multi-label target variable for a prediction task.

# Imports and configuration

In [1]:
import os
import sys
import pickle
import numpy as np
import pandas as pd

from typing import List, Tuple

In [2]:
sys.path.append(r"C:\Users\mushj\OneDrive\Desktop\WORK\Financial Analytics\pipeline")

from fin_ml.data_engineering.discretize_price_growth import engineer_targets, generate_symmetric_intervals

In [3]:
# configuration
HORIZON_DAYS = 90
HORIZON_MARGIN = 5

INPUT_PATH = "C:/Users/mushj/Downloads/PROCESSED FINANCE DATA/FMP"
OUTPUT_PATH = "C:/Users/mushj/Downloads/CURATED FINANCE DATA/FMP"

In [4]:
# load historical daily prices
df = pd.read_csv(INPUT_PATH+'/FMP_daily_prices_top1k.csv')

# load list of symbols to keep (based on exploratory analysis)
with open(INPUT_PATH+'/top1k_subset', 'rb') as f:
    include_symbols = pickle.load(f)

# Prepare DataFrame

In [5]:
print("Number of symbols to include:", len(include_symbols))
print("Examples:", include_symbols[:5])

Number of symbols to include: 978
Examples: ['A', 'AA', 'AAL', 'AAON', 'AAP']


In [6]:
df = df.query("symbol in @include_symbols")
df['date'] = pd.to_datetime(df['date'])

In [7]:
df.head()

Unnamed: 0,symbol,date,close,volume
0,A,2005-01-03,16.09,3587208.0
1,A,2005-01-04,15.66,3978002.0
2,A,2005-01-05,15.66,4139634.0
3,A,2005-01-06,15.31,3353443.0
4,A,2005-01-07,15.3,2786175.0


# Engineer multi-label target variable

1. The daily stock price data is downsampled to a weekly frequency. The last daily closing price is used as the week's closing price. For example, if the week contains prices for Monday till Friday, then Friday's closing price is used.
2. Given a forecast horizon (e.g. 1 year ahead), price growths are computed for each week, between a week's closing price and EVERY subsequent DAILY closing price within the forecast horizon.
3. Discrete intervals are defined, for example, <-25%, -25to0%, 0to25% >25%. The multi-label target variable for each week is a vector of binary values that indicate whether a stock will experience a certain level of price growth within the given horizon from that week. For example, a vector of [0, 1, 0, 1] for week 50 of stock ABC means that the stock will experience at least one price change in the interval -25to0%, and at least one price change in the interval >25%, relative to the closing price of week 50.

## Get weekly data

In [8]:
%%time
weekly_df = (
    df
    .sort_values(['symbol', 'date'])
    .groupby('symbol')
    .resample('W-MON', on='date', label='left') # mark each week with Monday
    .last() # get last price of the week
    .reset_index(level='date') # set date index as column
    .reset_index(drop=True) # remove other indexes
    .rename({'date': 'week'}, axis=1)
)

CPU times: total: 18.7 s
Wall time: 18.9 s


In [9]:
weekly_df.head()

Unnamed: 0,week,symbol,close,volume
0,2004-12-27,A,16.09,3587208.0
1,2005-01-03,A,15.23,4190098.0
2,2005-01-10,A,14.86,3027509.0
3,2005-01-17,A,14.45,5241370.0
4,2005-01-24,A,14.9,2821500.0


In [10]:
weekly_df.isna().mean()

week      0.0
symbol    0.0
close     0.0
volume    0.0
dtype: float64

In [11]:
weekly_df.dtypes

week      datetime64[ns]
symbol            object
close            float64
volume           float64
dtype: object

In [12]:
# distribution of counts of weekly data points
weekly_df.value_counts('symbol').describe()

count     978.000000
mean      871.982618
std       282.940932
min       155.000000
25%       709.250000
50%      1045.000000
75%      1045.000000
max      1045.000000
Name: count, dtype: float64

## Validate weekly data

In [13]:
%%time
# store the complete sets of weeks between the start and end weeks of each symbol (span)
week_span = {}

for symbol, data in weekly_df.groupby('symbol'):
    weeks = data.query("symbol == @symbol")['week']
    start, end = weeks.min(), weeks.max()
    week_span[symbol] = set(pd.date_range(start, end, freq='W-MON'))

CPU times: total: 21.6 s
Wall time: 22 s


In [14]:
%%time
# detect missing weeks for each symbol
missing_weeks = []

for symbol, data in weekly_df.groupby('symbol'):
    # get weeks in symbol span that are not in symbol data
    missing = week_span[symbol].difference(set(data['week']))
    for w in missing:
        missing_weeks.append({'symbol': symbol, 'missing_week': w})
        
missing_weeks = pd.DataFrame(missing_weeks)

CPU times: total: 1.39 s
Wall time: 1.44 s


In [15]:
# check missing weeks
missing_weeks

## Set intervals

In [16]:
# log-spaced price changes between 1% and 15%
boundaries = np.logspace(np.log(0.02), np.log(0.15), num=4, base=np.e)
np.round(boundaries, 3)

array([0.02 , 0.039, 0.077, 0.15 ])

In [17]:
boundaries = [0, 0.02, 0.039, 0.077, 0.15, np.inf]
intervals = generate_symmetric_intervals(boundaries)

print(len(intervals))
for i in intervals:
    print(i)

10
(-inf, -0.15)
(-0.15, -0.077)
(-0.077, -0.039)
(-0.039, -0.02)
(-0.02, 0)
(0, 0.02)
(0.02, 0.039)
(0.039, 0.077)
(0.077, 0.15)
(0.15, inf)


## Compute price changes

In [18]:
weekly_df = weekly_df.rename({'week': 'date'}, axis=1)

In [19]:
directory = OUTPUT_PATH+f'/discrete_return_{HORIZON_DAYS}d'
if not os.path.exists(directory):
    os.makedirs(directory)
    print('Created', directory)
else:
    pass

Created C:/Users/mushj/Downloads/CURATED FINANCE DATA/FMP/discrete_return_90d


In [20]:
with open(f'{directory}/labels', 'wb') as f:
    pickle.dump(intervals, f)

In [21]:
%%time
# calculate for each symbol separately
for symbol, data in weekly_df.groupby('symbol'):
    target_df = engineer_targets(
        data, df, 
        forecast_horizon=HORIZON_DAYS, horizon_margin=HORIZON_MARGIN, intervals=intervals
    )
    target_df.to_csv(f'{directory}/{symbol}.csv', index=False)

Calculating for A: 100%|██████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.50it/s]
Calculating for AA: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 221.85it/s]
Calculating for AAL: 100%|████████████████████████████████████████████████████████| 1006/1006 [00:04<00:00, 211.01it/s]
Calculating for AAON: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.80it/s]
Calculating for AAP: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.17it/s]
Calculating for AAPL: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 233.37it/s]
Calculating for ABBV: 100%|█████████████████████████████████████████████████████████| 631/631 [00:02<00:00, 237.48it/s]
Calculating for ABNB: 100%|█████████████████████████████████████████████████████████| 213/213 [00:00<00:00, 270.24it/s]
Calculating for ABT: 100%|██████████████

Calculating for APO: 100%|██████████████████████████████████████████████████████████| 719/719 [00:03<00:00, 229.00it/s]
Calculating for APP: 100%|██████████████████████████████████████████████████████████| 195/195 [00:00<00:00, 264.14it/s]
Calculating for APPF: 100%|█████████████████████████████████████████████████████████| 498/498 [00:02<00:00, 230.39it/s]
Calculating for APTV: 100%|█████████████████████████████████████████████████████████| 686/686 [00:03<00:00, 226.92it/s]
Calculating for AR: 100%|███████████████████████████████████████████████████████████| 587/587 [00:02<00:00, 225.11it/s]
Calculating for ARE: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.48it/s]
Calculating for ARES: 100%|█████████████████████████████████████████████████████████| 558/558 [00:02<00:00, 228.63it/s]
Calculating for ARMK: 100%|█████████████████████████████████████████████████████████| 578/578 [00:02<00:00, 231.02it/s]
Calculating for ARW: 100%|██████████████

Calculating for BURL: 100%|█████████████████████████████████████████████████████████| 588/588 [00:02<00:00, 226.96it/s]
Calculating for BWA: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 190.54it/s]
Calculating for BWXT: 100%|█████████████████████████████████████████████████████████| 757/757 [00:03<00:00, 212.28it/s]
Calculating for BX: 100%|███████████████████████████████████████████████████████████| 916/916 [00:04<00:00, 223.95it/s]
Calculating for BXP: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 227.61it/s]
Calculating for BYD: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.04it/s]
Calculating for C: 100%|██████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.99it/s]
Calculating for CACC: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.88it/s]
Calculating for CACI: 100%|█████████████

Calculating for COKE: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.81it/s]
Calculating for COLB: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 218.88it/s]
Calculating for COLD: 100%|█████████████████████████████████████████████████████████| 364/364 [00:01<00:00, 206.82it/s]
Calculating for COLM: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.62it/s]
Calculating for COO: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 231.15it/s]
Calculating for COP: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 230.50it/s]
Calculating for COR: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 211.59it/s]
Calculating for COST: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 228.17it/s]
Calculating for COTY: 100%|█████████████

Calculating for DOCU: 100%|█████████████████████████████████████████████████████████| 350/350 [00:01<00:00, 244.79it/s]
Calculating for DOV: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 218.86it/s]
Calculating for DOW: 100%|██████████████████████████████████████████████████████████| 303/303 [00:01<00:00, 256.35it/s]
Calculating for DOX: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 216.17it/s]
Calculating for DPZ: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 198.05it/s]
Calculating for DRI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 202.33it/s]
Calculating for DT: 100%|███████████████████████████████████████████████████████████| 284/284 [00:01<00:00, 266.71it/s]
Calculating for DTE: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.08it/s]
Calculating for DTM: 100%|██████████████

Calculating for FCN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.49it/s]
Calculating for FCNCA: 100%|██████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.92it/s]
Calculating for FCX: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.05it/s]
Calculating for FDS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 221.54it/s]
Calculating for FDX: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.92it/s]
Calculating for FE: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.95it/s]
Calculating for FFIV: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 228.27it/s]
Calculating for FHB: 100%|██████████████████████████████████████████████████████████| 440/440 [00:01<00:00, 226.68it/s]
Calculating for FHN: 100%|██████████████

Calculating for HAS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.87it/s]
Calculating for HAYW: 100%|█████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 216.99it/s]
Calculating for HBAN: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 213.18it/s]
Calculating for HCA: 100%|██████████████████████████████████████████████████████████| 722/722 [00:03<00:00, 221.71it/s]
Calculating for HCP: 100%|██████████████████████████████████████████████████████████| 161/161 [00:00<00:00, 268.53it/s]
Calculating for HD: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 211.58it/s]
Calculating for HEI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 201.62it/s]
Calculating for HES: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.58it/s]
Calculating for HHH: 100%|██████████████

Calculating for JHG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 209.14it/s]
Calculating for JKHY: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 215.90it/s]
Calculating for JLL: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 208.98it/s]
Calculating for JNJ: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 221.03it/s]
Calculating for JNPR: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.92it/s]
Calculating for JPM: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 219.16it/s]
Calculating for JWN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.36it/s]
Calculating for K: 100%|██████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.85it/s]
Calculating for KBR: 100%|██████████████

Calculating for M: 100%|██████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 229.92it/s]
Calculating for MA: 100%|███████████████████████████████████████████████████████████| 972/972 [00:04<00:00, 219.64it/s]
Calculating for MAA: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.39it/s]
Calculating for MAN: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.23it/s]
Calculating for MANH: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.62it/s]
Calculating for MAR: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 230.28it/s]
Calculating for MAS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 224.00it/s]
Calculating for MASI: 100%|█████████████████████████████████████████████████████████| 909/909 [00:04<00:00, 213.17it/s]
Calculating for MAT: 100%|██████████████

Calculating for NET: 100%|██████████████████████████████████████████████████████████| 278/278 [00:01<00:00, 250.40it/s]
Calculating for NEU: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 209.58it/s]
Calculating for NFE: 100%|██████████████████████████████████████████████████████████| 310/310 [00:01<00:00, 260.49it/s]
Calculating for NFG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.05it/s]
Calculating for NFLX: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.42it/s]
Calculating for NI: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 226.64it/s]
Calculating for NKE: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 225.73it/s]
Calculating for NLY: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.98it/s]
Calculating for NNN: 100%|██████████████

Calculating for PEG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 216.75it/s]
Calculating for PEGA: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 208.17it/s]
Calculating for PEN: 100%|██████████████████████████████████████████████████████████| 486/486 [00:02<00:00, 224.94it/s]
Calculating for PENN: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 220.51it/s]
Calculating for PEP: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 223.21it/s]
Calculating for PFE: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 222.52it/s]
Calculating for PFG: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:04<00:00, 219.30it/s]
Calculating for PFGC: 100%|█████████████████████████████████████████████████████████| 484/484 [00:02<00:00, 226.87it/s]
Calculating for PG: 100%|███████████████

Calculating for RKT: 100%|██████████████████████████████████████████████████████████| 231/231 [00:01<00:00, 153.09it/s]
Calculating for RL: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 150.33it/s]
Calculating for RLI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 150.40it/s]
Calculating for RMD: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 146.39it/s]
Calculating for RNG: 100%|██████████████████████████████████████████████████████████| 589/589 [00:03<00:00, 149.91it/s]
Calculating for RNR: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 147.86it/s]
Calculating for ROIV: 100%|█████████████████████████████████████████████████████████| 213/213 [00:01<00:00, 155.97it/s]
Calculating for ROK: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:07<00:00, 149.01it/s]
Calculating for ROKU: 100%|█████████████

Calculating for STE: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 182.81it/s]
Calculating for STLD: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 190.34it/s]
Calculating for STT: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 186.68it/s]
Calculating for STWD: 100%|█████████████████████████████████████████████████████████| 804/804 [00:04<00:00, 185.84it/s]
Calculating for STX: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 181.56it/s]
Calculating for STZ: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 181.70it/s]
Calculating for SUI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 184.33it/s]
Calculating for SW: 100%|███████████████████████████████████████████████████████████| 498/498 [00:02<00:00, 185.90it/s]
Calculating for SWK: 100%|██████████████

Calculating for UDR: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 187.88it/s]
Calculating for UGI: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 183.04it/s]
Calculating for UHAL: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 174.05it/s]
Calculating for UHS: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 162.80it/s]
Calculating for UI: 100%|███████████████████████████████████████████████████████████| 691/691 [00:04<00:00, 166.17it/s]
Calculating for ULTA: 100%|█████████████████████████████████████████████████████████| 898/898 [00:05<00:00, 177.40it/s]
Calculating for UNH: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 178.84it/s]
Calculating for UNM: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:05<00:00, 177.03it/s]
Calculating for UNP: 100%|██████████████

Calculating for WTFC: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 165.16it/s]
Calculating for WTM: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 170.85it/s]
Calculating for WTRG: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 165.35it/s]
Calculating for WTW: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 163.54it/s]
Calculating for WU: 100%|███████████████████████████████████████████████████████████| 955/955 [00:05<00:00, 167.76it/s]
Calculating for WWD: 100%|████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 167.21it/s]
Calculating for WY: 100%|█████████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 168.45it/s]
Calculating for WYNN: 100%|███████████████████████████████████████████████████████| 1045/1045 [00:06<00:00, 166.52it/s]
Calculating for X: 100%|████████████████

CPU times: total: 6min 27s
Wall time: 1h 12min 29s





## Sample result

In [22]:
target_df

Unnamed: 0,symbol,week,labels
0,ZTS,2013-01-28,"[0, 0, 0, 0, 1, 1, 1, 1, 1, 0]"
1,ZTS,2013-02-04,"[0, 1, 1, 1, 1, 1, 1, 1, 0, 0]"
2,ZTS,2013-02-11,"[0, 1, 1, 1, 1, 1, 0, 0, 0, 0]"
3,ZTS,2013-02-18,"[0, 0, 1, 0, 1, 1, 1, 1, 1, 0]"
4,ZTS,2013-02-25,"[0, 1, 1, 1, 1, 1, 0, 0, 0, 0]"
...,...,...,...
618,ZTS,2024-12-02,
619,ZTS,2024-12-09,
620,ZTS,2024-12-16,
621,ZTS,2024-12-23,


In [23]:
t_df = pd.DataFrame(target_df.dropna()['labels'].to_list())
t_df.columns = intervals
t_df.describe()

Unnamed: 0,"(-inf, -0.15)","(-0.15, -0.077)","(-0.077, -0.039)","(-0.039, -0.02)","(-0.02, 0)","(0, 0.02)","(0.02, 0.039)","(0.039, 0.077)","(0.077, 0.15)","(0.15, inf)"
count,611.0,611.0,611.0,611.0,611.0,611.0,611.0,611.0,611.0,611.0
mean,0.111293,0.330606,0.549918,0.772504,1.0,0.97054,0.85761,0.780687,0.541735,0.202946
std,0.314752,0.470817,0.49791,0.419559,0.0,0.16923,0.349736,0.41412,0.498663,0.402522
min,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0
50%,0.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
75%,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
