## Backtesting
### Datos Sintéticos
En este cuaderno se presenta la generación de datos sintéticos de mercado con características similares a las vistas
en las series reales. Entre los objetivos de disponer de datos sintéticos podemos destacar:
- Poder simular escenarios más alla de la serie histórica de precios de la que disponemos
- Realizar la parte de desarrollo de las estrategias de trading sin hacer simulaciones continuas sobre la serie histórica 
para disminuir el riesgo de caer en el sesgo de selección

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Generación Aleatoria Multivariable
Si generamos por separado variables aleatorias que siguen una distribución normal,
estas serán independientes

In [None]:
x1 = np.random.randn(5000)
x2 = np.random.randn(5000)

In [None]:
fig, ax = plt.subplots(figsize=(4,4))
_ = ax.hist2d(x1, x2, bins=25)

Una distribución normal multivariable está determinada por 
las medias de las variables y su matriz de covarianzas

In [None]:
scov = np.array([[1, 0.6],
                 [0.6, 1]])
scov

In [None]:
np.random.multivariate_normal([0, 0], scov, size=5)

In [None]:
rnd2d_samples = np.random.multivariate_normal([0, 0], scov, size=5000)

In [None]:
x1 = rnd2d_samples[:,0]
x2 = rnd2d_samples[:,1]

In [None]:
fig, ax = plt.subplots(figsize=(4,4))
_ = ax.hist2d(x1, x2, bins=25)

___

## Proceso aleatorio con deriva

Si asumimos que una serie de precios la podemos modelar con un camino aleatorio con deriva, este quedaría
expresado como 

$$P_t = \alpha + Pt_{t-1} + \epsilon$$

donde:
- $\alpha$ estaría representando el cambio subyacente de precio justificado por los fundamentales
- $\epsilon$ es el término de error generado por el proceso estocástico y determinado por la volatilidad



In [None]:
def rndwalk_drift_series(p0, exp_ret, sigma, n):
    log_prices = np.zeros(n)
    log_prices[0] = np.log(p0)
    
    for i in range(1, n):
        log_prices[i] = log_prices[i-1] + exp_ret + sigma*np.random.randn()
    return np.exp(log_prices)    

In [None]:
rnd_stock = rndwalk_drift_series(10, 0.001, 0.06, 250)

In [None]:
plt.plot(rnd_stock)

___

### Datos

In [None]:
ticker_list = ['BBVA','SAN','REP','TEF','IBE','FER','ITX','ACS','AMS','GRF']

In [None]:
import pickle
with open('../data/stock_data.pkl', 'rb') as handle:
    stock_data = pickle.load(handle)

In [None]:
close_series = {ticker: df.close
                for ticker, df in stock_data.items()
                if ticker in ticker_list
               }
stock_df = pd.DataFrame(close_series)
stock_df = stock_df.loc['2016':]

___

Hacemos la prueba de ver otros posibles caminos con propiedades similares

In [None]:
stock_price = stock_df['IBE']

In [None]:
stock_ret = np.log(stock_price).diff()
ret_mean = stock_ret.mean()
ret_std = stock_ret.std()
ret_mean, ret_std

In [None]:
stock_real = stock_price[:250]

In [None]:
stock_paths = []
for i in range(8):
    rnd_path = rndwalk_drift_series(stock_real.iloc[0], ret_mean, ret_std, 250)
    rnd_series = pd.Series(
        rnd_path, 
        index=stock_real.index,
        name=f'rnd{i}'
    )
    stock_paths.append(rnd_series)

In [None]:
rnd_df = pd.concat(stock_paths, axis=1)
rnd_df.head()

In [None]:
rnd_df['stock'] = stock_real
rnd_df.plot(figsize=(12, 4))

In [None]:
simu_rets = np.log(rnd_df).diff().dropna()
simu_rets.describe()

___

### Generación Sintética de Escenarios Combinados
En la realidad se ha visto que las expectativas de mercado cambian y la volatilidad no es constante.
Para considerar estas propiedades vamos a muestrear las propiedades estadísticas de períodos históricos
y a replicarlos por periodos arbitrarios dentro de los datos generados.

In [None]:
def sample_market_rets(df, window):
    n_all_days = df.shape[0]
    available_size = n_all_days - window
    start = np.random.randint(0, available_size)
    
    market_snapshot = df.iloc[start: start+window, :]
    rets = np.log(market_snapshot).diff().dropna()
    rets.reset_index(drop=True, inplace=True)
    return rets

In [None]:
market_ret = sample_market_rets(stock_df, 60)
market_ret.head()

In [None]:
market_ret.mean()

In [None]:
market_ret.corr().style.background_gradient()

____
Para la generación vamos a concatenar la réplica de los diferentes contextos de mercado. Los pasos serían
  1. Muestrear e identificar los parámetros del contexto 
  2. Elegir de forma aleatoria durante cuánto tiempo se va reproducir ese contexto
  3. Generar la distribución aleatoria multivariable de retornos
  4. Transformar los retornos a precios desde el punto de partida deseado

In [None]:
n = 12
win_sample = 75

In [None]:
ret_list = []
for i in range(n):
    # Paso 1
    market_ret = sample_market_rets(stock_df, win_sample)
    i_mean = market_ret.mean()
    i_covmat = market_ret.cov()
    
    # Paso 2
    fwd_win = np.random.randint(40,120)
    
    # Paso 3 
    rnd_rets = np.random.multivariate_normal(i_mean, i_covmat, size=fwd_win)
    rnd_rets_df = pd.DataFrame(rnd_rets, columns=stock_df.columns)
    ret_list.append(rnd_rets_df)

In [None]:
all_rets = pd.concat(ret_list)
all_rets.reset_index(inplace=True, drop=True)

In [None]:
all_rets.shape

In [None]:
all_rets.head()

Pasamos de rendimientos a precios a partir del último precio de la serie real (Paso 4)

In [None]:
# Necesitamos un valor adicional que sera el precio inicial
logprices = np.zeros((all_rets.shape[0]+1, all_rets.shape[1]))
logprices[0] = np.log(stock_df.iloc[0])
logprices[1:,:] = all_rets.values
logprices = logprices.cumsum(axis=0)
prices = pd.DataFrame(np.exp(logprices), columns=stock_df.columns)

In [None]:
prices

____
### Ejercicios Propuestos
1. Generar al menos 4 años de datos sintéticos
2. Elegir un ticker para comparar las distribución de rendimientos entre las series históricas y generadas.
3. Ver la evolución histórica de series generadas de BBVA y SAN