### Base de Dados

**Input**: 
* input/factors/YYYYMMDD.csv - fatores de todas ações listadas na NYSE na frequência de um minuto do dia DD-MM-YYYY.
* input/returns/YYYYMMDD.csv - retornos de todas ações listadas na NYSE na frequência de um minuto do dia DD-MM-YYYY.

**Output**: 
* output/data/median_breakpoint/equal_weighted/YYYYMMDD.csv - retornos de todas ações listadas na NYSE e portfólios baseado em fatores a partir desses ativos na frequência de um minuto do dia DD-MM-YYYY.

O objetivo desse notebook é juntar duas bases de dados, uma contendo dados de retornos das ações e outro contendo os decis de cada ação. A partir desse merge, vamos criar portfólios Value Weighted dos fatores utilizando os tercis como Breakpoints.

In [2]:
# pacotes
import numpy as np
import pandas as pd

In [3]:
# oculta mensagens de avisos
import warnings
warnings.filterwarnings("ignore")

In [3]:
# pd.set_option('display.max_columns', None)

In [7]:
pd.set_option('display.max_rows', None)

In [1]:
day = '20050103'

In [4]:
factors_path = f'../../../input/factors/{day}.csv'
factors = pd.read_csv(factors_path, index_col=0)
# precisamos dropar todas ações que não tem TAQ_TICKER, pois é a única variável q conseguimos ligar na outra base
factors = factors[factors['TAQ_TICKER'] != '<undefined>']

In [8]:
factors

Unnamed: 0,date,COMNAM,TAQ_TICKER,MARKETCAP,pNYSE_size,pNYSE_value,pNYSE_prof,pNYSE_dur,pNYSE_valprof,pNYSE_fscore,...,pNYSE_season,pNYSE_indrrev,pNYSE_indrrevlv,pNYSE_indmomrev,pNYSE_ciss,pNYSE_price,pNYSE_age,pNYSE_shvol,pNYSE_exchsw,pNYSE_ipo
10001,20050103,ENERGY WEST INC,EWST,17335.33,10.0,10.0,1.0,,6.0,1,...,7.0,1.0,,,8.0,1.0,5,10.0,10,1
10002,20050103,BANCTRUST FINANCIAL GROUP INC,BTFG,262630.4,10.0,,,,,1,...,8.0,1.0,,,7.0,4.0,5,10.0,10,1
10012,20050103,D P A C TECHNOLOGIES CORP,DPAC,20646.84,10.0,7.0,8.0,7.0,9.0,10,...,10.0,1.0,,,3.0,1.0,5,1.0,10,1
10025,20050103,A E P INDUSTRIES INC,AEPI,124562.1,10.0,7.0,7.0,8.0,9.0,1,...,3.0,1.0,,,9.0,2.0,5,10.0,10,1
10026,20050103,J & J SNACK FOODS CORP,JJSF,428905.9,9.0,6.0,9.0,7.0,10.0,10,...,5.0,6.0,6.0,5.0,6.0,8.0,5,9.0,10,1
10028,20050103,D G S E COMPANIES INC,DGSE,14935.52,10.0,5.0,9.0,5.0,9.0,1,...,1.0,1.0,,,2.0,1.0,5,10.0,10,1
10032,20050103,PLEXUS CORP,PLXS,517956.0,8.0,5.0,3.0,6.0,2.0,1,...,10.0,10.0,,,4.0,2.0,5,3.0,10,1
10042,20050103,CANYON RESOURCES CORP,CAU,34939.2,10.0,2.0,,2.0,,1,...,5.0,1.0,,,1.0,1.0,5,1.0,10,1
10044,20050103,ROCKY MOUNTAIN CHOCOLATE FAC INC,RMCF,62524.0,10.0,3.0,8.0,3.0,7.0,10,...,9.0,8.0,,,10.0,2.0,5,9.0,10,1
10051,20050103,HANGER ORTHOPEDIC GROUP INC,HGR,174358.3,10.0,7.0,8.0,7.0,9.0,1,...,7.0,5.0,,,1.0,1.0,5,2.0,10,1


In [5]:
# returns dataframe
returns_path = f'../../../input/returns/{day}.csv'
returns = pd.read_csv(returns_path, index_col=0)

### Functions

Como a metodologia para se criar o portfólio é a mesma, isso é, comprado em todos ativos acima da mediana e vendido em todos ativos abaixo da mediana, vamos criar funções que façam isso recebendo a coluna do fator em questão como parâmetro.

In [5]:
def portfolio_position(col):
    long_position = []      # posição comprado
    short_position = []     # posição vendido  

    # primeiro, precisamos dropar as linhas tais que tem valor NaN no parâmetro de localidade do fator
    temp = factors[factors[col].notna()]
    """
    Criamos um loop com o critério:
    acima da mediana '5' (estritamente), então o portfolio assume a posição comprado
    abaixo da mediana '5' (fracamente), então o portfolio assume a posição vendido
    """
    for permno in temp.index:
        if temp.loc[permno][col] > 5:
            long_position.append(temp.loc[permno]['TAQ_TICKER'])
        else:
            short_position.append(temp.loc[permno]['TAQ_TICKER'])
    """
    agora precisamos criar dois loops, um para cada lista:
    o loop deve verificar se o ticker dentro da lista é uma das colunas da base de retornos,
    isso é, verifica se temos dados de retornos para essa ação.
    """

    drop_long_position = []
    drop_short_position = []

    for ticker in long_position:
        if ticker not in returns.columns:
            drop_long_position.append(ticker)

    for ticker in drop_long_position:
        long_position.remove(ticker)

    for ticker in short_position:   
        if ticker not in returns.columns:
            drop_short_position.append(ticker)

    for ticker in drop_short_position:
        short_position.remove(ticker)

    return(long_position, short_position)

In [6]:
def portfolio_formation(col):
    # usaremos a função portfolio_position() para obtermos as firmas na posição comprada e vendida
    long_position, short_position = portfolio_position(col)
    # a nova coluna do fator se chamará:
    new_col = col[6].upper() + col[7:] + ' Factor'
    """
    O portfolio é formado subtraindo os retornos médio (equal weighted) das ações em short_position
    dos retornos médio (equal weighted) das ações em long_position
    """
    returns[new_col] = returns[long_position].mean(axis=1) - returns[short_position].mean(axis=1)

### Data Generator Loop

Esse loop deverá gerar dados diários (um .csv para cada dia) com todos retornos e todos portfolios (para cada fator).

In [7]:
# precisamos criar um range de datas para o período de dados que temos
bdates = pd.bdate_range('2005-01-01', '2019-12-31')
bdates_ = []

# precisamos torná-los da maneira que os csv's estão nomeados
for date in bdates:
    day = str(date)[:4] + str(date)[5:7] + str(date)[8:10]
    bdates_.append(day)

In [8]:
for day in bdates_:
    try:
        # factors dataframe
        factors_path = f'../../../input/factors/{day}.csv'
        factors = pd.read_csv(factors_path, index_col=0)
        # precisamos dropar todas ações que não tem TAQ_TICKER, pois é a única variável q conseguimos ligar na outra base
        factors = factors[factors['TAQ_TICKER'] != '<undefined>']
        
        # returns dataframe
        returns_path = f'../../../input/returns/{day}.csv'
        returns = pd.read_csv(returns_path, index_col=0)

        # agora precisamos fazer o loop que para cada coluna de pNYSE_factors, forma-se um portfolio
        pNYSE_factors = factors.columns[4:]
        for pNYSE in pNYSE_factors:
            portfolio_formation(pNYSE)

        # precisamos agora fazer a conversão do dataframe para csv
        output_path = f'../../../output/data/median_breakpoint/equal_weighted/{day}.csv'
        returns.to_csv(output_path, sep=',', encoding='utf-8')
    except:
        pass