## Configurações padrão para geração do Dataset
#### Métodos  disponíveis
- SMA => Média móvel simples = $\frac{1}{n} \sum_{i=0}^{n-1} Price_{t-x}$ 
    - x => tamanho da janela de amostragem
- EMA => Média móvel exponencial = $\alpha (currentPrice - EMA_{t-1}) + EMA_{t-1}$
    - $\alpha = \frac{2}{n+1}$ => Fator de suavização
    - n => número de amostras na análise
    - $EMA_{t-1}$ => média móvel exponencial anterior
- MACD => Convergência/Divergência da média móvel = $EMA(n) - EMA(k)$
    - n => média exponencial rápida
    - k => média exponencial lenta
- CCI => Índice de Canal de Commodities = $\frac{TP - SMA(TP,N)}{0.015 * DP(TP)}$
    - DP => Desvio padrão de TP
    - SMA => Média móvel simples
    - TP => Preço típico (uma média simples entre os valores de fechamento, alta e baixa)
- ADX => Indicador de força da tendência = $\frac{(n-1)*ESA(TR) + TR}{n}$
    - TR => True Range = $max(H-L, abs(H-C_{t-1}), abs(L-C_{t-1}))$
- MTM => Indicador de vomento = $Price_{t}-Price_{t-n}$
- ROC => Taxa de variação = $\frac{Price_{t}-Price_{t-n}}{Price_{t-n}}100$
- TSI => Indicador de Força Real = $\frac{EMA(EMA(PC,n), k)}{EMA(EMA(|PC|,n), k)}100$
    - PC => Variação do preço de fechamento = $price_{t-1} - price_t$
- K (%K) => Oscilador estocástico = $\frac{C_t-L_{t-n}}{H_{t-n}-L_{t-n}}$
    - C => Preço de fechamento
    - L => Menor valor
    - H => Maior valor
- D (%D) => Média móvel simples do Oscilador estocástico = $\frac{\sum_{i=0}^{n-1} \%K_{t-i}}{n}$
    - %K => Oscilador estocástico
- R (%R) => Williams %R = $\frac{H_{t-n}-C_t}{H_{t-n}-L_{t-n}}$ 
    - C => Preço de fechamento
    - L => Menor valor
    - H => Maior valor

In [1]:
# Disponíveis = ['SMA','EMA','MACD','CCI', 'ADX','MTM','ROC','TSI','K','D','R']
methods = ['MTC']
output  = 'close'

# MTC - Moving time considered (quantos dias do passado serão utlizados nos dados de entrada)
daysQtd = 3


# SMA - Simple Moving Average
colSMA     = [1, 2]                           # Colunas de 'data' que serão utilizados para o calculo
windowSMA  = [12, 15, 26]                     # A operação será realizada para cada granularização em cada coluna

# EMA - Exponential Moving Average
colEMA     = [1, 2]                           # Colunas de 'data' que serão utilizados para o calculo
windowEMA  = [23, 37, 15]                     # A operação será realizada para cada granularização em cada coluna

# MACD - Moving Average Convergence/Divergence
colMACD    = [1, 2]                           # Colunas de 'data' que serão utilizados para o calculo
meanFast   = [ 5, 16, 7]                      # Valor da granulização da média móvel rápida
meanSlow   = [15, 26, 8]                      # Valor da granulização da média móvel lenta

# CCI - Commodity Channel Index
colCCI     = [1, 2, 3]                        # Tem normalmente como entrada os valores de HLC
windowCCI  = [35, 15]                         # valor da granulização do modelo

# ADX - Average Directional Index
colADX     = [2, 3, 4]                        # Tem como entrada os valores de HL (nessa mesma ordem)
windowADX  = [20, 14]                         # Fator de amortecimento considerado para as EMA (normalmente 14)

# MTM - Momentum indicator
colMTM     = [1,2]                            # Colunas de 'data' que serão utilizados para o calculo
windowMTM  = [14,13]                          # A operação será realizada para cada granularização em cada coluna

# ROC - Price Rate of Change
colROC     = [1,2]                            # Colunas de 'data' que serão utilizados para o calculo
windowROC  = [14,13]                          # A operação será realizada para cada granularização em cada coluna

# TSI - True Strength Index
colTSI        = [2]                           # Colunas de 'data' que serão utilizados para o calculo
fastWindTSI   = [13,45]                       # Janela para média exponencial rápida
slowWindTSI   = [26,17]                       # Janela para média exponencial lenta

# %K - Stochastic Oscillator
colK          = [1,2,3]                       # Inserir dados de Máximo, Mínimo e Fechamento (HLC)
windowK       = [14,13]                       # Espaçamento entre as amostras (normalmente 14)

# %D - Stochastic Oscilator Average
colD          = [1,2,3]                       # Inserir dados de Máximo, Mínimo e Fechamento (HLC)
windowD       = [14,13]                       # Espaçamento entre as amostras (normalmente 14) para o %K
windowDP      = [26,17]                       # Espaçamento entre as amostras para média simples

# %R - Williams
colR          = [1,2,3]                       # Inserir dados de Máximo, Mínimo e Fechamento (HLC)
windowR       = [14,13]                       # Espaçamento entre as amostras (normalmente 14)


## Pacotes utilizados

In [2]:
import pandas as pd

## Funções de transformação dos dados

In [14]:
# ************************************* MTC - Moving time considered **************************************
def mtc(datas, days):
    rowq, colq = datas.shape
    
    colsName = [f'{datas.iloc[:,c].name}|T-{days}|' for c in range(colq)]
    res = pd.DataFrame(datas.values, columns = colsName)
    
    for q in range(days-1,-1,-1):
        colsName = [f'{datas.iloc[:,c].name}|T-{q}|' if q>0 else f'{datas.iloc[:,c].name}'
                    for c in range(colq)]
        newData = pd.DataFrame(datas.iloc[days-q:,:].values, columns = colsName)
        
        res = pd.concat([res, newData], axis=1)
    return res

# ************************************** SMA - Simple Moving Average **************************************
def sma(datas, windows):
    rowsq, colsq = datas.shape
    res = pd.DataFrame({})
    for c in range(colsq):
        colsName = [f'{datas.iloc[:,c].name}_SMA_{w}' for w in windows]
        newCols  = pd.DataFrame({}, columns = colsName) 
        cont = 0
        for w in windows:
            newCols[colsName[cont]] = datas.iloc[:,c].rolling(window=w).mean()
            cont += 1
        
        res = pd.concat([res, newCols], axis=1)  
    return res

# ************************************ EMA - Exponetial Moving Average ***********************************
def ema(datas, windows):
    rowsq, colsq = datas.shape
    res = pd.DataFrame({})
    for c in range(colsq):
        colsName = [f'{datas.iloc[:,c].name}_EMA_{w}' for w in windows]
        newCols  = pd.DataFrame({}, columns = colsName) 
        cont = 0
        for w in windows:
            newCols[colsName[cont]] = datas.iloc[:,c].ewm(span=w).mean()
            cont += 1
        
        res = pd.concat([res, newCols], axis=1)  
    return res

# ******************************* MACD - Moving Average Convergence/Divergence ***************************
def macd(datas, fast, slow):
    rowsq, colsq = datas.shape
    res = pd.DataFrame({})
    for c in range(colsq):
        colsName = [f'{datas.iloc[:,c].name}_MACD_{fast[i]}:{slow[i]}' for i in range(len(fast))]
        newCols  = pd.DataFrame({}, columns = colsName) 
        
        for i in range(len(fast)):
            newCols[colsName[i]] = (datas.iloc[:,c].ewm(span=fast[i]).mean() 
                                    - datas.iloc[:,c].ewm(span=slow[i]).mean())
        
        res = pd.concat([res, newCols], axis=1)  
    return res

# ************************************ CCI - Commodity Channel Index **************************************
def cci(datas, window):
    TP = datas.mean(axis = 1)
    res = pd.DataFrame({})
    for w in window:
        MA = TP.rolling(window=w).mean()
        DP = TP.rolling(window=w).std()
        newCols  = pd.DataFrame({f'HLC_CCI_{w}': (TP-MA)/(0.015*DP)}) 
        res = pd.concat([res, newCols], axis=1)  
    return res

# ************************************ ADX - Average Directional Index ***********************************
def adx(datas, window):    
    TR   = pd.Series([max(datas.iloc[i,0]-datas.iloc[i,1], abs(datas.iloc[i,0]-datas.iloc[i-1,2]), 
                          abs(datas.iloc[i,1]-datas.iloc[i-1,2])) for i in range(len(datas.iloc[:,0]))])
    TR[0] = TR[1]
    res = pd.DataFrame({})
    for w in window:
        ATR   = TR.ewm(span=w).mean()
        items = ['Nan'] 
        for i in range(len(ATR)-1):
            items.append((ATR[i]*(w-1)+TR[i+1])/(w))     
        newCols = pd.DataFrame({f'ADX_{w}':items})
        res = pd.concat([res, newCols], axis=1) 
    return res

# ************************************** MTM - Momentum indicator ****************************************
def mtm(datas, window):
    rowq, colq = datas.shape  
    res = pd.DataFrame({})
    for c in range(colq):
        for w in window:
            items = []
            for r in range(rowq):
                items.append(datas.iloc[r,c] - datas.iloc[r-w,c] if r-w > 0 else 'NaN') 
            newCols = pd.DataFrame({f'{datas.iloc[:,c].name}_MTM_{w}':items})
            res = pd.concat([res, newCols], axis=1) 
    return res

# ************************************ ROC - Price Rate of Change ****************************************
def roc(datas, window):
    rowq, colq = datas.shape  
    res = pd.DataFrame({})
    for c in range(colq):
        for w in window:
            items = []
            for r in range(rowq):
                items.append(100*((datas.iloc[r,c]-datas.iloc[r-w,c])/datas.iloc[r-w,c]) if r-w > 0 else 'NaN') 
            newCols = pd.DataFrame({f'{datas.iloc[:,c].name}_MTM_{w}':items})
            res = pd.concat([res, newCols], axis=1) 
    return res

# ************************************ TSI - True Strength Index *****************************************
def tsi(datas, fast, slow):
    rowq, colq = datas.shape
    res = pd.DataFrame({})
    for c in range(colq):
        PC  = [datas.iloc[l-1,c]-datas.iloc[l,c] if l>=1 else 'NaN' for l in range(rowq)]
        PCM = [abs(PC[i]) if i>=1 else 'NaN' for i in range(rowq)]
        for w in  range(len(fast)):
            num = (pd.Series(PC).ewm(span=fast[w]).mean()).ewm(span=slow[w]).mean()
            den = (pd.Series(PCM).ewm(span=fast[w]).mean()).ewm(span=slow[w]).mean()
            newCols = pd.DataFrame({f'{datas.iloc[:,c].name}_TSI_{fast[w]}:{slow[w]}':((num/den)*100)})  
            res = pd.concat([res, newCols], axis=1)
    return res

# ************************************** %K - Stochastic Oscillator ***************************************
def k(datas, window):
    rowq = len(datas.iloc[:,0])
    res = pd.DataFrame({})
      
    for w in window:
        items = [] 
        for i in range(rowq):
            items.append((datas.iloc[i,2]-datas.iloc[i-w,1])/(datas.iloc[i-w,0]-datas.iloc[i-w,1]) 
                         if i-w>=0 else 'NaN')
        newCols = pd.DataFrame({f'K%_{w}': items})
        res = pd.concat([res, newCols], axis=1)
    
    return res
          
# *********************************** %D - Stochastic Oscilator Average ***********************************
def d(datas, windowK, windowMean):
    datas = k(datas, windowK)
    datas = sma(datas,windowMean)
    return datas

# ******************************************** %R - Williams **********************************************
def r(datas, window):
    rowq = len(datas.iloc[:,0])
    res = pd.DataFrame({})
      
    for w in window:
        items = [] 
        for i in range(rowq):
            items.append((datas.iloc[i-w,0]-datas.iloc[i,2])/(datas.iloc[i-w,0]-datas.iloc[i-w,1]) 
                         if i-w>=0 else 'NaN')
        newCols = pd.DataFrame({f'R%_{w}': items})
        res = pd.concat([res, newCols], axis=1)
    
    return res


# ------------------------------------------- Generate -------------------------------------------------------
def generate(methods):
    datas  = []
    bounds = []
    if('SMA' in methods):
        datas.append(sma(data.iloc[:,colSMA], windowSMA))
        bounds.append(max(windowSMA))
    if('EMA' in methods):
        datas.append(ema(data.iloc[:,colEMA], windowEMA))
        bounds.append(max(windowEMA))
    if('MACD' in methods):
        datas.append(macd(data.iloc[:,colMACD], meanFast, meanSlow))
        bounds.append(max(max(meanFast), max(meanSlow)))
    if('CCI' in methods):
        datas.append(cci(data.iloc[:,colCCI], windowCCI))
        bounds.append(max(windowCCI))
    if('ADX' in methods):
        datas.append(adx(data.iloc[:,colADX], windowADX))
        bounds.append(max(windowADX))
    if('MTM' in methods):
        datas.append(mtm(data.iloc[:,colMTM], windowMTM))
        bounds.append(max(windowMTM))
    if('ROC' in methods):
        datas.append(roc(data.iloc[:,colROC], windowROC))
        bounds.append(max(windowROC))
    if('TSI' in methods):
        datas.append(tsi(data.iloc[:,colTSI], fastWindTSI, slowWindTSI))
        bounds.append(max(max(fastWindTSI), max(slowWindTSI)))
    if('K' in methods):
        datas.append(k(data.iloc[:,colK], windowK))
        bounds.append(max(windowK))
    if('D' in methods):
        datas.append(d(data.iloc[:,colD], windowD, windowDP))
        bounds.append(max(max(windowD), max(windowDP)))
    if('R' in methods):
        datas.append(r(data.iloc[:,colR], windowR))
        bounds.append(max(windowR))
    return {'datas':datas, 'bounds':bounds}
        
def saveCSV(datas, bounds, dataOut):
    data = pd.concat(datas, axis=1)
    data = data.iloc[(max(bounds)+1): ,:]
    dataOut = dataOut.iloc[(max(bounds)+1):,:]
    data.to_csv('Data/Generated/dataset.csv', index=False, sep = ',')  
    dataOut.to_csv('Data/Generated/dataout.csv', index=False, sep = ',') 


## Importando dados externos

In [9]:
data = pd.read_csv("Data/ibovespa.csv", sep=",") 

data['high'] = data["Series 1"] * 1.01
data['low'] = data["Series 1"] * 0.91
data['close'] = data["Series 1"]

data = data.iloc[:,2:]
display(data.head(3))

# Define qual é a saída desejada
rowq, colq = data.shape
dataOut = pd.DataFrame({'OutPut |T+1|' : (data.loc[1:,output])})
data = data.iloc[:rowq-1, :]

# Verifica se tem espaçamento de dados passados
if('MTC' in methods):
    data = mtc(data, daysQtd)
    dataOut = pd.DataFrame({'OutPut |T+1|' : (data.loc[1:rowq-daysQtd-2,output])})
    data = data.iloc[:rowq-daysQtd-2, :]
    

display(data.head(3))

Unnamed: 0,high,low,close
0,95533.9406,86075.1346,94588.06
1,96882.4724,87290.1484,95923.24
2,95995.8843,86491.3413,95045.43


Unnamed: 0,high|T-3|,low|T-3|,close|T-3|,high|T-2|,low|T-2|,close|T-2|,high|T-1|,low|T-1|,close|T-1|,high,low,close
0,95533.9406,86075.1346,94588.06,96882.4724,87290.1484,95923.24,95995.8843,86491.3413,95045.43,97350.1529,87711.5239,96386.29
1,96882.4724,87290.1484,95923.24,95995.8843,86491.3413,95045.43,97350.1529,87711.5239,96386.29,97198.3600,87574.7600,96236.00
2,95995.8843,86491.3413,95045.43,97350.1529,87711.5239,96386.29,97198.3600,87574.7600,96236.00,97149.6275,87530.8525,96187.75
3,97350.1529,87711.5239,96386.29,97198.3600,87574.7600,96236.00,97149.6275,87530.8525,96187.75,97316.8633,87681.5303,96353.33
4,97198.3600,87574.7600,96236.00,97149.6275,87530.8525,96187.75,97316.8633,87681.5303,96353.33,96482.8962,86930.1342,95527.62
...,...,...,...,...,...,...,...,...,...,...,...,...
986,102888.1445,92701.1995,101869.45,101987.6285,91889.8435,100977.85,101829.9473,91747.7743,100821.73,102865.1064,92680.4424,101846.64
987,101987.6285,91889.8435,100977.85,101829.9473,91747.7743,100821.73,102865.1064,92680.4424,101846.64,107275.8976,96654.5216,106213.76
988,101829.9473,91747.7743,100821.73,102865.1064,92680.4424,101846.64,107275.8976,96654.5216,106213.76,107958.6071,97269.6361,106889.71
989,102865.1064,92680.4424,101846.64,107275.8976,96654.5216,106213.76,107958.6071,97269.6361,106889.71,107522.4285,96876.6435,106457.85


Unnamed: 0,OutPut |T+1|
1,96236.00
2,96187.75
3,96353.33
4,95527.62
5,96007.89
...,...
987,106213.76
988,106889.71
989,106457.85
990,106279.37


### Chama de funções

In [18]:
result = generate(methods)
result['datas'].append(data)
result['bounds'].append(0)
saveCSV(result['datas'], result['bounds'], dataOut)

[       high|T-3|    low|T-3|  close|T-3|    high|T-2|    low|T-2|  close|T-2|   
0     95533.9406  86075.1346    94588.06   96882.4724  87290.1484    95923.24  \
1     96882.4724  87290.1484    95923.24   95995.8843  86491.3413    95045.43   
2     95995.8843  86491.3413    95045.43   97350.1529  87711.5239    96386.29   
3     97350.1529  87711.5239    96386.29   97198.3600  87574.7600    96236.00   
4     97198.3600  87574.7600    96236.00   97149.6275  87530.8525    96187.75   
..           ...         ...         ...          ...         ...         ...   
986  102888.1445  92701.1995   101869.45  101987.6285  91889.8435   100977.85   
987  101987.6285  91889.8435   100977.85  101829.9473  91747.7743   100821.73   
988  101829.9473  91747.7743   100821.73  102865.1064  92680.4424   101846.64   
989  102865.1064  92680.4424   101846.64  107275.8976  96654.5216   106213.76   
990  107275.8976  96654.5216   106213.76  107958.6071  97269.6361   106889.71   

       high|T-1|    low|T-

####  Como chamar cada função de forma individual
* sma(data.iloc[:,colSMA], windowSMA)
* ema(data.iloc[:,colEMA], windowEMA)
* macd(data.iloc[:,colMACD], meanFast, meanSlow)
* cci(data.iloc[:,colCCI], windowCCI)
* adx(data.iloc[:,colADX], windowADX)
* mtm(data.iloc[:,colMTM], windowMTM)
* roc(data.iloc[:,colROC], windowROC)
* tsi(data.iloc[:,colTSI], fastWindTSI, slowWindTSI)
* k(data.iloc[:,colK], windowK)
* d(data.iloc[:,colD], windowD, windowDP)
* r(data.iloc[:,colR], windowR)