In [1]:
from processor.processor import Processor as processor
from database.adatabase import ADatabase
from xgboost import XGBRegressor
from statistics import mean
import math
import pandas as pd
import numpy as np
from scipy.optimize import minimize
import matplotlib.pyplot as plt
from datetime import datetime, timedelta
from tqdm import tqdm
from dotenv import load_dotenv
from asset.stock import Stock
from asset.bond import Bond
from asset.option import Option
import warnings
import pytz
import copy
warnings.simplefilter(action="ignore")
import pickle

In [2]:
market = ADatabase("market")
sec = ADatabase("sec")
market = ADatabase("market")
fred = ADatabase("fred")
db = ADatabase("sapling")

In [3]:
sp500 = pd.read_html("https://en.wikipedia.org/wiki/List_of_S%26P_500_companies",attrs={"id":"constituents"})[0].rename(columns={"Symbol":"ticker"})

In [4]:
fred.connect()
spy = fred.retrieve("sp500")
spy = spy.rename(columns={"value":"spy"})
spy["spy"] = spy["spy"].replace(".",np.nan)
spy.dropna(inplace=True)
spy["spy"] = [float(x) for x in spy["spy"]]
spy["date"] = spy["date"].shift(-5)
spy = processor.column_date_processing(spy)
fred.disconnect()

In [5]:
prices = []
market.connect()

for ticker in tqdm(sp500["ticker"].unique()):
    try:
        price = processor.column_date_processing(market.query("prices",{"ticker":ticker}))
        price.sort_values("date",inplace=True)
        price["y"] = price["adjclose"].shift(-5)
        prices.append(price)
    except Exception as e:
        print(ticker,str(e))
        continue
market.disconnect()

  2%|█████                                                                                                                                                                                                                | 12/503 [00:00<00:04, 113.18it/s]

MMM 'date'
AOS 'date'
AMD 'date'
AFL 'date'
A 'date'
APD 'date'
ARE 'date'
LNT 'date'
GOOGL 'date'
GOOG 'date'
MO 'date'
AMZN 'date'


 10%|█████████████████████▏                                                                                                                                                                                               | 50/503 [00:00<00:04, 112.48it/s]

AXP 'date'
AWK 'date'
APH 'date'
ANSS 'date'
AON 'date'
APA 'date'
AMAT 'date'
APTV 'date'
ANET 'date'
T 'date'
ATO 'date'


 16%|█████████████████████████████████                                                                                                                                                                                    | 78/503 [00:00<00:03, 120.03it/s]

BKR 'date'
BALL 'date'
BAC 'date'
BK 'date'
BBWI 'date'
BRK.B 'date'
BIO 'date'
TECH 'date'
BLK 'date'
BX 'date'
BWA 'date'
BSX 'date'
BMY 'date'
BR 'date'
BRO 'date'


 20%|███████████████████████████████████████████▍                                                                                                                                                                        | 103/503 [00:00<00:03, 115.19it/s]

CZR 'date'
CPT 'date'
CPB 'date'
KMX 'date'
CTLT 'date'
COR 'date'
CNC 'date'
CNP 'date'
CF 'date'
CRL 'date'
SCHW 'date'
CVX 'date'
CMG 'date'


 25%|█████████████████████████████████████████████████████▌                                                                                                                                                              | 127/503 [00:01<00:03, 106.59it/s]

CI 'date'
CTAS 'date'
CSCO 'date'
C 'date'
KO 'date'
CTSH 'date'
ED 'date'
STZ 'date'


 28%|███████████████████████████████████████████████████████████▍                                                                                                                                                        | 141/503 [00:01<00:03, 115.74it/s]

CPRT 'date'
GLW 'date'
CTVA 'date'
CTRA 'date'
CVS 'date'
DHR 'date'
DRI 'date'
DVA 'date'
DVN 'date'
DXCM 'date'
FANG 'date'


 36%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                                        | 179/503 [00:01<00:02, 115.11it/s]

D 'date'
DPZ 'date'
DOW 'date'
DTE 'date'
DUK 'date'
EMN 'date'
ETN 'date'
EW 'date'
ELV 'date'
LLY 'date'
ETR 'date'
EQT 'date'
EQIX 'date'
EQR 'date'


 38%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                                   | 192/503 [00:01<00:02, 114.15it/s]

ESS 'date'
EXC 'date'
EXPE 'date'
EXPD 'date'
EXR 'date'
XOM 'date'
FICO 'date'
FRT 'date'
FIS 'date'
FITB 'date'
FSLR 'date'


 43%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 218/503 [00:01<00:02, 113.73it/s]

F 'date'
FTNT 'date'
FTV 'date'
FOX 'date'
GRMN 'date'
IT 'date'
GNRC 'date'
GPC 'date'
GS 'date'


 49%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 245/503 [00:02<00:02, 109.05it/s]

HAL 'date'
HIG 'date'
HAS 'date'
HCA 'date'
HSIC 'date'
HSY 'date'
HPE 'date'
HRL 'date'
HST 'date'
HWM 'date'
IBM 'date'
IEX 'date'
IDXX 'date'
ITW 'date'


 54%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 271/503 [00:02<00:02, 115.38it/s]

IR 'date'
PODD 'date'
IP 'date'
IPG 'date'
ISRG 'date'
JBL 'date'
JKHY 'date'
J 'date'
JNJ 'date'
JCI 'date'


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 283/503 [00:02<00:02, 109.39it/s]

K 'date'
KVUE 'date'
KMB 'date'
KIM 'date'
KMI 'date'
LHX 'date'
LH 'date'
LRCX 'date'
LW 'date'
LVS 'date'
LYV 'date'


 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 310/503 [00:02<00:01, 116.19it/s]

L 'date'
LULU 'date'
LYB 'date'
MTB 'date'
MRO 'date'
MPC 'date'
MMC 'date'
MLM 'date'
MTCH 'date'
MRK 'date'
MET 'date'
MTD 'date'
MGM 'date'


 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 334/503 [00:02<00:01, 104.49it/s]

MU 'date'
MSFT 'date'
MRNA 'date'
MOH 'date'
TAP 'date'
MPWR 'date'
NTAP 'date'
NFLX 'date'
NEM 'date'
NWSA 'date'
NWS 'date'


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 361/503 [00:03<00:01, 116.15it/s]

NSC 'date'
NTRS 'date'
NOC 'date'
NRG 'date'
NUE 'date'
ORLY 'date'
OXY 'date'
OMC 'date'
ON 'date'
ORCL 'date'
PKG 'date'
PH 'date'
PYPL 'date'
PNR 'date'


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 399/503 [00:03<00:00, 115.45it/s]

PSX 'date'
PNW 'date'
POOL 'date'
PPG 'date'
PPL 'date'
PLD 'date'
PRU 'date'
PTC 'date'
PSA 'date'
QRVO 'date'
RL 'date'
RJF 'date'
RTX 'date'
REG 'date'


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 411/503 [00:03<00:00, 114.48it/s]

RF 'date'
RSG 'date'
RVTY 'date'
ROP 'date'
ROST 'date'
SPGI 'date'
STX 'date'
SRE 'date'
SPG 'date'
SWKS 'date'
SW 'date'


 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 435/503 [00:03<00:00, 107.33it/s]

SWK 'date'
STT 'date'
STLD 'date'
SYK 'date'
TMUS 'date'
TROW 'date'
TTWO 'date'
TPR 'date'
TRGP 'date'
TSLA 'date'
TXN 'date'
TXT 'date'


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 461/503 [00:04<00:00, 115.52it/s]

TMO 'date'
TSCO 'date'
TT 'date'
TYL 'date'
USB 'date'
UBER 'date'
UDR 'date'
UPS 'date'
URI 'date'
VLO 'date'
VTR 'date'
VLTO 'date'


 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 485/503 [00:04<00:00, 109.63it/s]

VZ 'date'
VTRS 'date'
V 'date'
VST 'date'
WRB 'date'
WMT 'date'
WBD 'date'
WM 'date'
WEC 'date'
WFC 'date'
WY 'date'


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 503/503 [00:04<00:00, 112.41it/s]

WYNN 'date'
XEL 'date'
XYL 'date'
YUM 'date'





In [6]:
training_data = pd.concat(prices).merge(spy[["date","spy"]],how="left",on="date").sort_values("date").reset_index(drop=True)

In [7]:
model = XGBRegressor()
model.fit(training_data[["adjclose","spy"]].iloc[:int(training_data.index.size*0.7)]
          ,training_data[["y"]].iloc[:int(training_data.index.size*0.7)])

XGBoostError: [05:57:37] C:\buildkite-agent\builds\buildkite-windows-cpu-autoscaling-group-i-0b3782d1791676daf-1\xgboost\xgboost-ci-windows\src\data\data.cc:507: Check failed: valid: Label contains NaN, infinity or a value too large.

In [None]:
db.cloud_connect()
db.drop("model")
db.store("model",pd.DataFrame([{"model":pickle.dumps(model)}]))
db.disconnect() 