In [44]:
import pickle as pkl
import polars as pl
import pandas as pd
import numpy as np

from factorlib.utils.system import get_data_dir
from factorlib.utils.helpers import resample

In [45]:
raw_data_dir = get_data_dir() / 'raw'
sp500_components = pl.scan_csv(raw_data_dir / 'sp500_historical_components.csv', try_parse_dates=True).collect(streaming=True)
sp500_components.columns = ['date_index', 'ticker']
sp500_components = sp500_components.to_pandas().set_index('date_index')
sp500_components = sp500_components.resample('MS', convention='start').first().ffill()
sp500_components = pl.from_pandas(sp500_components.reset_index())
sp500_components.null_count()

date_index,ticker
u32,u32
0,0


In [65]:
ticker_strings = sp500_components.select(pl.col('ticker')).to_series().to_list()
tickers = []
for ticker in ticker_strings:
    tickers.append(ticker.split(','))
tickers

[['AAL',
  'AAMRQ',
  'AAPL',
  'ABI',
  'ABS',
  'ABT',
  'ABX',
  'ACKH',
  'ACV',
  'ADM',
  'ADP',
  'ADSK',
  'AEE',
  'AEP',
  'AET',
  'AGC',
  'AGN',
  'AHM',
  'AIG',
  'AIT',
  'AL',
  'ALL',
  'AM',
  'AMAT',
  'AMD',
  'AMGN',
  'AMH',
  'AMP',
  'AN',
  'ANDW',
  'ANV',
  'APD',
  'AR',
  'ARC',
  'ARNC',
  'AS',
  'ASC',
  'ASH',
  'AT',
  'ATI',
  'AVP',
  'AVY',
  'AXP',
  'AZA.A',
  'BA',
  'BAC',
  'BAX',
  'BBI',
  'BC',
  'BCO',
  'BCR',
  'BDK',
  'BDX',
  'BEAM',
  'BEV',
  'BF.B',
  'BFI',
  'BFO',
  'BGG',
  'BHGE',
  'BHMSQ',
  'BK',
  'BKB',
  'BLL',
  'BLS',
  'BLY',
  'BMET',
  'BMS',
  'BMY',
  'BNI',
  'BNL',
  'BOAT',
  'BOL',
  'BR',
  'BSX',
  'BT',
  'BUD',
  'C',
  'CA',
  'CAG',
  'CAL',
  'CAR',
  'CAT',
  'CB',
  'CBB',
  'CBE',
  'CBS',
  'CCB',
  'CCI',
  'CCK',
  'CCTYQ',
  'CEG',
  'CEN',
  'CFL',
  'CG',
  'CGP',
  'CHA',
  'CHRS',
  'CI',
  'CIN',
  'CL',
  'CLX',
  'CMA',
  'CMB',
  'CMCSA',
  'CMI',
  'CNG',
  'CNP',
  'CNW',
  'COMS',
  'C

In [71]:
alpha_only_tickers = []
for ticker_list in tickers:
    new_list = [ticker for ticker in ticker_list if ticker.isalpha()]
    alpha_only_tickers.append(new_list)
alpha_only_tickers

[['AAL',
  'AAMRQ',
  'AAPL',
  'ABI',
  'ABS',
  'ABT',
  'ABX',
  'ACKH',
  'ACV',
  'ADM',
  'ADP',
  'ADSK',
  'AEE',
  'AEP',
  'AET',
  'AGC',
  'AGN',
  'AHM',
  'AIG',
  'AIT',
  'AL',
  'ALL',
  'AM',
  'AMAT',
  'AMD',
  'AMGN',
  'AMH',
  'AMP',
  'AN',
  'ANDW',
  'ANV',
  'APD',
  'AR',
  'ARC',
  'ARNC',
  'AS',
  'ASC',
  'ASH',
  'AT',
  'ATI',
  'AVP',
  'AVY',
  'AXP',
  'BA',
  'BAC',
  'BAX',
  'BBI',
  'BC',
  'BCO',
  'BCR',
  'BDK',
  'BDX',
  'BEAM',
  'BEV',
  'BFI',
  'BFO',
  'BGG',
  'BHGE',
  'BHMSQ',
  'BK',
  'BKB',
  'BLL',
  'BLS',
  'BLY',
  'BMET',
  'BMS',
  'BMY',
  'BNI',
  'BNL',
  'BOAT',
  'BOL',
  'BR',
  'BSX',
  'BT',
  'BUD',
  'C',
  'CA',
  'CAG',
  'CAL',
  'CAR',
  'CAT',
  'CB',
  'CBB',
  'CBE',
  'CBS',
  'CCB',
  'CCI',
  'CCK',
  'CCTYQ',
  'CEG',
  'CEN',
  'CFL',
  'CG',
  'CGP',
  'CHA',
  'CHRS',
  'CI',
  'CIN',
  'CL',
  'CLX',
  'CMA',
  'CMB',
  'CMCSA',
  'CMI',
  'CNG',
  'CNP',
  'CNW',
  'COMS',
  'COP',
  'COST',
  'COV

In [72]:
dates = sp500_components.select(pl.col('date_index')).to_series().to_list()
dates

[datetime.datetime(1996, 1, 1, 0, 0),
 datetime.datetime(1996, 2, 1, 0, 0),
 datetime.datetime(1996, 3, 1, 0, 0),
 datetime.datetime(1996, 4, 1, 0, 0),
 datetime.datetime(1996, 5, 1, 0, 0),
 datetime.datetime(1996, 6, 1, 0, 0),
 datetime.datetime(1996, 7, 1, 0, 0),
 datetime.datetime(1996, 8, 1, 0, 0),
 datetime.datetime(1996, 9, 1, 0, 0),
 datetime.datetime(1996, 10, 1, 0, 0),
 datetime.datetime(1996, 11, 1, 0, 0),
 datetime.datetime(1996, 12, 1, 0, 0),
 datetime.datetime(1997, 1, 1, 0, 0),
 datetime.datetime(1997, 2, 1, 0, 0),
 datetime.datetime(1997, 3, 1, 0, 0),
 datetime.datetime(1997, 4, 1, 0, 0),
 datetime.datetime(1997, 5, 1, 0, 0),
 datetime.datetime(1997, 6, 1, 0, 0),
 datetime.datetime(1997, 7, 1, 0, 0),
 datetime.datetime(1997, 8, 1, 0, 0),
 datetime.datetime(1997, 9, 1, 0, 0),
 datetime.datetime(1997, 10, 1, 0, 0),
 datetime.datetime(1997, 11, 1, 0, 0),
 datetime.datetime(1997, 12, 1, 0, 0),
 datetime.datetime(1998, 1, 1, 0, 0),
 datetime.datetime(1998, 2, 1, 0, 0),
 datet

In [77]:
candidates_dict = dict(zip(dates, alpha_only_tickers))
candidates_dict

{datetime.datetime(1996, 1, 1, 0, 0): ['AAL',
  'AAMRQ',
  'AAPL',
  'ABI',
  'ABS',
  'ABT',
  'ABX',
  'ACKH',
  'ACV',
  'ADM',
  'ADP',
  'ADSK',
  'AEE',
  'AEP',
  'AET',
  'AGC',
  'AGN',
  'AHM',
  'AIG',
  'AIT',
  'AL',
  'ALL',
  'AM',
  'AMAT',
  'AMD',
  'AMGN',
  'AMH',
  'AMP',
  'AN',
  'ANDW',
  'ANV',
  'APD',
  'AR',
  'ARC',
  'ARNC',
  'AS',
  'ASC',
  'ASH',
  'AT',
  'ATI',
  'AVP',
  'AVY',
  'AXP',
  'BA',
  'BAC',
  'BAX',
  'BBI',
  'BC',
  'BCO',
  'BCR',
  'BDK',
  'BDX',
  'BEAM',
  'BEV',
  'BFI',
  'BFO',
  'BGG',
  'BHGE',
  'BHMSQ',
  'BK',
  'BKB',
  'BLL',
  'BLS',
  'BLY',
  'BMET',
  'BMS',
  'BMY',
  'BNI',
  'BNL',
  'BOAT',
  'BOL',
  'BR',
  'BSX',
  'BT',
  'BUD',
  'C',
  'CA',
  'CAG',
  'CAL',
  'CAR',
  'CAT',
  'CB',
  'CBB',
  'CBE',
  'CBS',
  'CCB',
  'CCI',
  'CCK',
  'CCTYQ',
  'CEG',
  'CEN',
  'CFL',
  'CG',
  'CGP',
  'CHA',
  'CHRS',
  'CI',
  'CIN',
  'CL',
  'CLX',
  'CMA',
  'CMB',
  'CMCSA',
  'CMI',
  'CNG',
  'CNP',
  'CNW'

In [78]:
with open(raw_data_dir / "sp500_candidates.pkl", "wb") as outfile:
    pkl.dump(candidates_dict, outfile)