# **Configurando as bibliotecas do projeto**

## *Instalação de bibliotecas*

## *Importação de bibliotecas*

In [1]:
'''
    Essa célula será usada para a importação de bibliotecas.
'''

# Instala a biblioteca que será utilizada para se obter os dados financeiros.
import yfinance as yf
# Importa a biblioteca que será utilizada para a manipulação de DataFrames.
import pandas as pd
# Importa a biblioteca que será utilizada para lidar com objetos do tipo "datetime".
from datetime import datetime, timedelta
# Importa a biblioteca que será responsável pela tipagem de funções.
from typing import Union, Optional
# Importa a biblioteca que será utilizada para a manipulação de arrays e também para o uso de algumas funções matemáticas.
import numpy as np

# **Data Engineering**

### *Configurações iniciais*

In [2]:
'''
    Essa célula será usada para se obter os tickets das companhias que fazem parte do S&P 500, com base em dados da wikipedia.
'''

# Salva em uma variável a url que contém a tabela com os tickets das companhias.
url = 'https://en.wikipedia.org/wiki/List_of_S%26P_500_companies'

# Lê todas as tabelas presentes na url acima.
sp500_table = pd.read_html(url)

# Salva a coluna "Symbol" da primeira tabela em uma variável (tal coluna contém todos os tickets das companhias que fazem parte do S&P 500).
sp500_tickets = sp500_table[0]['Symbol']

# Transforma os tickets obtidos em uma lista.
sp500_tickets = sp500_tickets.tolist()

# Exibe a lista de tickets criada acima.
sp500_tickets

['MMM',
 'AOS',
 'ABT',
 'ABBV',
 'ACN',
 'ADBE',
 'AMD',
 'AES',
 'AFL',
 'A',
 'APD',
 'ABNB',
 'AKAM',
 'ALB',
 'ARE',
 'ALGN',
 'ALLE',
 'LNT',
 'ALL',
 'GOOGL',
 'GOOG',
 'MO',
 'AMZN',
 'AMCR',
 'AEE',
 'AAL',
 'AEP',
 'AXP',
 'AIG',
 'AMT',
 'AWK',
 'AMP',
 'AME',
 'AMGN',
 'APH',
 'ADI',
 'ANSS',
 'AON',
 'APA',
 'AAPL',
 'AMAT',
 'APTV',
 'ACGL',
 'ADM',
 'ANET',
 'AJG',
 'AIZ',
 'T',
 'ATO',
 'ADSK',
 'ADP',
 'AZO',
 'AVB',
 'AVY',
 'AXON',
 'BKR',
 'BALL',
 'BAC',
 'BK',
 'BBWI',
 'BAX',
 'BDX',
 'BRK.B',
 'BBY',
 'BIO',
 'TECH',
 'BIIB',
 'BLK',
 'BX',
 'BA',
 'BKNG',
 'BWA',
 'BSX',
 'BMY',
 'AVGO',
 'BR',
 'BRO',
 'BF.B',
 'BLDR',
 'BG',
 'BXP',
 'CHRW',
 'CDNS',
 'CZR',
 'CPT',
 'CPB',
 'COF',
 'CAH',
 'KMX',
 'CCL',
 'CARR',
 'CTLT',
 'CAT',
 'CBOE',
 'CBRE',
 'CDW',
 'CE',
 'COR',
 'CNC',
 'CNP',
 'CF',
 'CRL',
 'SCHW',
 'CHTR',
 'CVX',
 'CMG',
 'CB',
 'CHD',
 'CI',
 'CINF',
 'CTAS',
 'CSCO',
 'C',
 'CFG',
 'CLX',
 'CME',
 'CMS',
 'KO',
 'CTSH',
 'CL',
 'CMCSA',
 'CAG'

In [3]:
'''
    Essa célula será usada para definir o intervalo de tempo dos dados que serão coletados, especificando a data de início e a data de fim.
'''

# Define a data inicial cujos dados serão coletados.
start_date = datetime(2019,1,2).date()
# Define a data final cujos dados serão coletados.
end_date = datetime(2023,12,30).date()

In [4]:
'''
    Essa célula será usada para criar um dicionário chamado setup, que contém os parâmetros principais para a coleta de dados, 
    incluindo a lista de tickers das companhias do S&P 500 e o intervalo de tempo.
'''

# Cria um dicionário para guardar alguns parâmetros importantes para a coleta de dados.
setup = {
    "tickets": sp500_tickets,
    "start_date": start_date,
    "end_date": end_date
}

### *Obtendo dados dos tickers via yfinance (Open, High, Low, Close, Adj Close, Volume)*

In [5]:
'''
    Essa célula será usada para a obtenção de alguns dados (Open, High, Low, Close, Adj Close, Volume) 
    dos tickers presentes na variável de configuração setup.
'''

# Cria um array que guardará os DataFrames que contém os dados referentes a cada um dos tickers presentes na variável de configuração setup.
data_array = np.empty(len(sp500_tickets), dtype=object)

# Itera sobre cada um dos tickers presentes na variável de configuração setup.
for i, ticker in enumerate(sp500_tickets):
    # Faz o download dos dados do ticker em questão
    ticker_data = yf.download(ticker, setup['start_date'], setup['end_date'])
    # Adiciona um nome ao DataFrame do ticker em questão.
    ticker_data.name=ticker
    # Salva o DataFrame do ticker em questão na variável "data_array".
    data_array[i] = ticker_data

[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%*******

$BF.B: possibly delisted; No price data found  (1d 2019-01-02 -> 2023-12-30)


[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%*******

### *Filtrando os dados obtidos*

In [6]:
'''
    Essa célula será responsável por filtrar a variável "data_array" de modo que esta só contenha DataFrames não vazios.
'''

# Cria um filtro para identificar quais DataFrames presentes em "data_array" são vazios, isto é, não possuem nenhum índice.
void_filter = np.array([df.index.empty for df in data_array])

# Aplica a negação do filtro gerado acima (ou seja, filtra os DataFrames que não são vazios) no array "data_array" e armazena o resultado 
# na variável "filtered_data_array". 
filtered_data_array = data_array[~void_filter]

# Exibe uma mensagem que informa quantos tickers foram removidos na filtragem realizada acima.
print(f"Foram removidos {len(data_array) - len(filtered_data_array)} tickers que estavam vazios.")

Foram removidos 5 tickers que estavam vazios.


In [7]:
'''
    Essa célula será responsável por filtrar a variável "data_array" de modo que esta só contenha DataFrames cujos índices se iniciem em 
    setup['start_date'].
'''

# Armazena o tamanho atual do array "filtered_data_array" para que se tenha ideia ao final dessa célula, de quantos tickers 
# foram removidos com o filtro que será aplicado aqui.
filtered_data_array_initial_len = len(filtered_data_array)

# Cria um filtro para saber quais dos DataFrames presentes em "filtered_data_array" possuem datas iniciais (isto é, índices de posição 0) 
# iguais à "setup['start_date']".
start_date_filter = [df.index[0].date() == setup['start_date'] for df in filtered_data_array]

# Aplica o filtro criado acima, removendo assim todos os DataFrames presentes em "filtered_data_array" cujos índices iniciais são diferentes de 
# "setup['start_date']".
filtered_data_array = filtered_data_array[start_date_filter]

# Exibe uma mensagem informando quantos DataFrames não satisfaziam a condição do filtro criado acima, e informando também quantos DataFrames
# ainda existem em "data_array".
print(f"Foram removidos {filtered_data_array_initial_len - len(filtered_data_array)} tickers que não possuiam data inicial igual à {setup['start_date']}. Agora, todos os demais {len(filtered_data_array)} tickers \npossuem data de inicio em {setup['start_date']}.")

Foram removidos 13 tickers que não possuiam data inicial igual à 2019-01-02. Agora, todos os demais 485 tickers 
possuem data de inicio em 2019-01-02.


In [8]:
'''
    Essa célula será utilizada para mostrar que, nos dados baixados, não existem DataFrames em "data_array" cujos índices terminam em uma 
    data anterior à última data de negociação possível antes de setup['end_date'], isto é não existem DataFrames em "data_array" cujos índices
    terminam em uma data anterior à 2023-12-29.
'''

# Obtem qual é o menor dentre os últimos índices de cada um dos DataFrames presentes em "filtered_data_array"
lowest_last_date = np.min(np.array([df.index[len(df.index)-1] for df in filtered_data_array]))

# Exibe uma mensagem que informa qual é a menor data final entre todos os DataFrames presentes em "filtered_data_array" e gera uma
# conclusão a partir de tal data.
print(f"Dentre os tickers que passaram nos filtros acima, a menor data final é {lowest_last_date.date()}, que é a última data possível de negociação dentro do \nperiodo estabelecido na variável 'setup' ({setup['end_date']}). Ou seja, nenhum filtro precisa ser aplicado em relação a data final dos tickers.")

Dentre os tickers que passaram nos filtros acima, a menor data final é 2023-12-29, que é a última data possível de negociação dentro do 
periodo estabelecido na variável 'setup' (2023-12-30). Ou seja, nenhum filtro precisa ser aplicado em relação a data final dos tickers.


# **Feature Engineering**

### *Gerando os retornos aritméticos (diários, semanais e mensais) dos tickers*

In [9]:
def get_ticker_daily_arithmetic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos aritméticos diários de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_daily_arithmetic_returns (pd.Series): Série temporal dos retornos aritméticos diários do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Cria uma série temporal contendo os retornos diários do ticker em questão.
    ticker_daily_arithmetic_returns = daily_adjusted_closing_prices.pct_change()

    # Como não é possível calcular o retorno diário do "dia 0", removeremos a primeira linha da série temporal gerada acima.
    ticker_daily_arithmetic_returns = ticker_daily_arithmetic_returns[1:]
    
    # Retorna a série temporal resultante.
    return ticker_daily_arithmetic_returns

In [10]:
def get_ticker_weekly_arithmetic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos aritméticos semanais de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_weekly_arithmetic_returns (pd.Series): Série temporal dos retornos aritméticos semanais do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Transforma a série temporal dos preços de fechamento diários na série temporal dos preços de fechamento semanais.
    weekly_adjusted_closing_prices = daily_adjusted_closing_prices.resample('W').last()
    
    # Cria uma série temporal contendo os retornos semanais do ticker em questão.
    ticker_weekly_arithmetic_returns = weekly_adjusted_closing_prices.pct_change()

    # Como não é possível calcular o retorno semanal da "semana 0", removeremos a primeira linha da série temporal gerada acima.
    ticker_weekly_arithmetic_returns = ticker_weekly_arithmetic_returns[1:]
    
    # Retorna a série temporal resultante.
    return ticker_weekly_arithmetic_returns

In [11]:
def get_ticker_monthly_arithmetic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos aritméticos mensais de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_monthly_arithmetic_returns (pd.Series): Série temporal dos retornos aritméticos mensais do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Transforma a série temporal dos preços de fechamento diários na série temporal dos preços de fechamento mensais.
    monthly_adjusted_closing_prices = daily_adjusted_closing_prices.resample('M').last()
    
    # Cria uma série temporal contendo os retornos mensais do ticker em questão.
    ticker_monthly_arithmetic_returns = monthly_adjusted_closing_prices.pct_change()

    # Como não é possível calcular o retorno mensal no "mês 0", removeremos a primeira linha da série temporal gerada acima.
    ticker_monthly_arithmetic_returns = ticker_monthly_arithmetic_returns[1:]
    
    # Retorna a série temporal resultante.
    return ticker_monthly_arithmetic_returns

### *Gerando os retornos logarítmicos (diários, semanais e mensais) dos tickers*

In [12]:
def get_ticker_daily_logarithmic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos logarítmicos diários de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_daily_arithmetic_returns (pd.Series): Série temporal dos retornos logarítmicos diários do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Obtem a série temporal dos retornos diários do ticker em questão
    ticker_daily_arithmetic_returns = get_ticker_daily_arithmetic_returns(daily_adjusted_closing_prices)
    
    # Transforma a série temporal dos retornos diários do ticker em questão em sua versão logarítmica.
    ticker_daily_logarithmic_returns = ticker_daily_arithmetic_returns.apply(lambda x: np.log(1 + x))
    
    # Retorna a série temporal resultante.
    return ticker_daily_logarithmic_returns

In [13]:
def get_ticker_weekly_logarithmic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos logarítmicos semanais de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_weekly_logarithmic_returns (pd.Series): Série temporal dos retornos logarítmicos semanais do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Obtem a série temporal dos retornos semanais do ticker em questão
    ticker_weekly_arithmetic_returns = get_ticker_weekly_arithmetic_returns(daily_adjusted_closing_prices)
    
    # Transforma a série temporal dos retornos semanais do ticker em questão em sua versão logarítmica.
    ticker_weekly_logarithmic_returns = ticker_weekly_arithmetic_returns.apply(lambda x: np.log(1 + x))
    
    # Retorna a série temporal resultante.
    return ticker_weekly_logarithmic_returns

In [14]:
def get_ticker_monthly_logarithmic_returns(daily_adjusted_closing_prices: pd.Series) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal dos retornos logarítmicos mensais de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_weekly_logarithmic_returns (pd.Series): Série temporal dos retornos logarítmicos mensais do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Obtem a série temporal dos retornos semanais do ticker em questão
    ticker_monthly_arithmetic_returns = get_ticker_monthly_arithmetic_returns(daily_adjusted_closing_prices)
    
    # Transforma a série temporal dos retornos semanais do ticker em questão em sua versão logarítmica.
    ticker_monthly_logarithmic_returns = ticker_monthly_arithmetic_returns.apply(lambda x: np.log(1 + x))
    
    # Retorna a série temporal resultante.
    return ticker_monthly_logarithmic_returns

### *Calculando os retornos cumulativos logarítmicos (diário, semanal e mensal) dos tickers*

In [15]:
'''
    Não julgo que seja necessário criar uma função para se calcular os retornos logarítmicos, visto que, basta que usemos o método 'cumsum()'
    no retorno das funções "get_ticker_daily_logarithmic_returns", "get_ticker_weekly_logarithmic_returns" e 
    "get_ticker_monthly_logarithmic_returns" para que obtenhamos os retornos cumulativos desejados.
'''

'\n    Não julgo que seja necessário criar uma função para se calcular os retornos logarítmicos, visto que, basta que usemos o método \'cumsum()\'\n    no retorno das funções "get_ticker_daily_logarithmic_returns", "get_ticker_weekly_logarithmic_returns" e \n    "get_ticker_monthly_logarithmic_returns" para que obtenhamos os retornos cumulativos desejados.\n'

### *Métricas de volatilidade*

*Volatilidade histórica (diária, semanal e mensal) e desvio-padrão móvel (volatilidade móvel)*

In [16]:
def get_ticker_daily_historical_volatility(daily_adjusted_closing_prices: pd.Series) -> float:
    '''
        Description:
            Essa função calcula a volatilidade histórica diária de um certo ticker baseada nos retornos diários logarítmicos deste.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_daily_historical_volatility (float): Número que representa a volatilidade histórica diária do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a volatilidade histórica diária do ticker em questão.
    ticker_daily_historical_volatility = get_ticker_daily_logarithmic_returns(daily_adjusted_closing_prices).std()
    
    # Retorna o resultado obtido.
    return ticker_daily_historical_volatility

In [17]:
def get_ticker_weekly_historical_volatility(daily_adjusted_closing_prices: pd.Series) -> float:
    '''
        Description:
            Essa função calcula a volatilidade histórica semanal de um certo ticker baseada nos retornos semanais logarítmicos deste.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_weekly_historical_volatility (float): Número que representa a volatilidade histórica semanal do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a volatilidade histórica semanal do ticker em questão.
    ticker_weekly_historical_volatility = get_ticker_weekly_logarithmic_returns(daily_adjusted_closing_prices).std()
    
    # Retorna o resultado obtido.
    return ticker_weekly_historical_volatility

In [18]:
def get_ticker_monthly_historical_volatility(daily_adjusted_closing_prices: pd.Series) -> float:
    '''
        Description:
            Essa função calcula a volatilidade histórica mensal de um certo ticker baseada nos retornos mensais logarítmicos deste.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
        Return:
            ticker_monthly_historical_volatility (float): Número que representa a volatilidade histórica mensal do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a volatilidade histórica mensal do ticker em questão.
    ticker_monthly_historical_volatility = get_ticker_monthly_logarithmic_returns(daily_adjusted_closing_prices).std()
    
    # Retorna o resultado obtido.
    return ticker_monthly_historical_volatility

In [19]:
def get_ticker_moving_volatility(daily_adjusted_closing_prices: pd.Series, time_interval: int) -> pd.Series:
    '''
        Description:
            Essa função calcula a volatilidade móvel de "time_interval" dias de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
            time_interval (int): Quantidade de dias da janela móvel.
        Return:
            moving_volatility (pd.Series): Série temporal que representa a evolução da volatilidade móvel de "time_interval" dias do ticker
                                           em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a volatilidade móvel de "time_interval" dias da série temporal "daily_adjusted_closing_prices".
    moving_volatility = daily_adjusted_closing_prices.rolling(window=time_interval).std()
    
    # Remove os primeiros (time_interval - 1) dados da série temporal gerada acima, isto é, remove os dados NaN de tal série temporal.
    moving_volatility = moving_volatility[time_interval-1:]

    # Retorna o resultado obtido.
    return moving_volatility

### *Métricas de tendência e momentum*

*Médias móveis simples, médias móveis exponenciais e índice de força relativa (calculado usando SMA e EMA)*

In [20]:
def get_ticker_simple_moving_average(daily_adjusted_closing_prices: pd.Series, time_interval: int) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal que representa a média móvel simples de "time_interval" dias de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
            time_interval (int): Quantidade de dias da janela móvel.
        Return:
            ticker_simple_moving_average (pd.Series): Série temporal que representa a média móvel simples de "time_interval" dias do ticker
            em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula e salva a série temporal que representa a média móvel simples de "time_interval" dias do ticker em questão.
    ticker_simple_moving_average = daily_adjusted_closing_prices.rolling(window=time_interval).mean()
    
    # Remove os valores nulos gerados na criação da série temporal acima.
    ticker_simple_moving_average = ticker_simple_moving_average.dropna()
    
    # Retorna a série temporal resultante.
    return ticker_simple_moving_average

In [21]:
def get_ticker_exponential_moving_average(daily_adjusted_closing_prices: pd.Series, time_interval: int, 
                                          remove_adjustment_period: Optional[bool]  = True) -> pd.Series:
    '''
        Description:
            Essa função calcula e retorna a série temporal que representa a média móvel exponencial de "time_interval" dias de um certo ticker.
            Tal média é calculada de forma não ajustada, isto é, a média é calculada recursivamente sem ajuste dos pesos, resultando em uma 
            média que responde mais rapidamente às mudanças recentes.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
            time_interval (int): Quantidade de dias da janela móvel.
            remove_adjustment_period (bool) [Default = True]: Se True, remove os primeiros "time_interval" dias da série temporal, isto é, 
                                                              remove o período de ajuste dos dados. Caso contrário, mantém esse 
                                                              período na série temporal.
        Return:
            ticker_exponential_moving_average (pd.Series): Série temporal que representa a média móvel exponencial de "time_interval" 
            dias do ticker em questão.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''

    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula e salva a série temporal que representa a média móvel exponencial de "time_interval" dias do ticker em questão.
    ticker_exponential_moving_average = daily_adjusted_closing_prices.ewm(span=time_interval, adjust=False).mean()
    
    # Caso remove_adjustment_period seja igual à True, os primeiros "time_interval" dias serão removidos da série temporal gerada acima.
    if remove_adjustment_period: 
        ticker_exponential_moving_average = ticker_exponential_moving_average[time_interval-1:]
        
    # Retorna a série temporal resultante.
    return ticker_exponential_moving_average

In [22]:
def calculate_rsi_with_sma(daily_adjusted_closing_prices: pd.Series, time_interval: int) -> pd.Series:
    '''
        Description:
            Essa função calcula o Índice de Força Relativa (RSI) usando médias móveis simples (SMA) para a série temporal de preços
            "daily_adjusted_closing_prices" que representa os preços de fechamento diários ajustados de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
            time_interval (int): Quantidade de dias da janela móvel.
        Return:
            rsi (pd.Series): Série temporal que representa a evolução do índice de força relativa da série temporal 
                             "daily_adjusted_closing_prices" calculado através de médias móveis simples.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a variação diária de preços da série temporal "daily_adjusted_closing_prices".
    price_variations = daily_adjusted_closing_prices.diff()
    
    # Separa os ganhos das perdas filtrando todos os price_variations maiores que zero e setando como zero o valor de todos os price_variations
    # menores que 0.
    gains = price_variations.where(price_variations > 0, 0)
    # Separa as perdas dos ganhos filtrando todos os price_variations menores que zero e setando como zero o valor de todos os price_variations
    # maiores que 0.
    losses = -price_variations.where(price_variations < 0, 0)
    
    # Calcula as médias móveis simples de "time_interval" dias dos ganhos e das perdas
    average_gain = gains.rolling(window=time_interval).mean()
    average_loss = losses.rolling(window=time_interval).mean()
    
    # Calcula a força relativa (RS)
    rs = average_gain/average_loss
    
    # Calcula o RSI
    rsi = 100 - (100 / (1 + rs))
    
    # Remove os primeiros (time_interval - 1) valores da série temporal "rsi" (que são valores NaN) e retorna o resultado obtido.
    return rsi[time_interval-1:]

In [23]:
def calculate_rsi_with_ema(daily_adjusted_closing_prices: pd.Series, time_interval: int,
                           remove_adjustment_period: Optional[bool]  = True) -> pd.Series:
    '''
        Description:
            Essa função calcula o Índice de Força Relativa (RSI) usando médias móveis exponenciais (EMA) para a série temporal de preços
            "daily_adjusted_closing_prices" que representa os preços de fechamento diários ajustados de um certo ticker.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento diários ajustados do ticker em questão.
            time_interval (int): Quantidade de dias da janela móvel.
            remove_adjustment_period (bool) [Default = True]: Se True, remove os primeiros "time_interval" dias da série temporal, isto é, 
                                                              remove o período de ajuste dos dados. Caso contrário, mantém esse 
                                                              período na série temporal.
        Return:
            rsi (pd.Series): Série temporal que representa a evolução do índice de força relativa da série temporal 
                             "daily_adjusted_closing_prices" calculado através de médias móveis exponenciais.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a variação diária de preços da série temporal "daily_adjusted_closing_prices".
    price_variations = daily_adjusted_closing_prices.diff()
    
    # Separa os ganhos das perdas filtrando todos os price_variations maiores que zero e setando como zero o valor de todos os price_variations
    # menores que 0.
    gains = price_variations.where(price_variations > 0, 0)
    # Separa as perdas dos ganhos filtrando todos os price_variations menores que zero e setando como zero o valor de todos os price_variations
    # maiores que 0.
    losses = -price_variations.where(price_variations < 0, 0)
    
    # Calcula as médias móveis exponenciais de "time_interval" dias dos ganhos e das perdas.
    average_gain = gains.ewm(span=time_interval, adjust=False).mean()
    average_loss = losses.ewm(span=time_interval, adjust=False).mean()
    
    # Calcula a força relativa (RS).
    rs = average_gain/average_loss
    
    # Calcula o RSI.
    rsi = 100 - (100 / (1 + rs))
    
    # Caso remove_adjustment_period seja igual à True, os primeiros "time_interval" dias serão removidos da série temporal gerada acima.
    if remove_adjustment_period: 
        rsi = rsi[time_interval-1:]
    
    # Retorna o resultado obtido.
    return rsi

### *Métricas de reversão de média*

*Bandas de bollinger + (Pensar em uma métrica como o Z-score dos retornos, mas que não assuma normalidade / Outras métricas de reversão de média)*

In [32]:
def get_bollinger_bands_with_ema(daily_adjusted_closing_prices: pd.Series, time_interval: int, std_dev_factor: float) -> pd.DataFrame:
    '''
        Description:
            Calcula, para a série temporal "daily_adjusted_closing_prices", as suas Bandas de Bollinger usando Médias Móveis Exponenciais (EMA)
            de "time_interval" dias.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento de um certo ativo.
            time_interval (int): Janela de tempo para a EMA e o Desvio-padrão móvel (Volatilidade móvel).
            std_dev_factor (float): Fator para multiplicar o desvio padrão.
        Returns:
            results (pd.DataFrame): Dicionário contendo a Banda de Bollinger Superior e a Banda de Bollinger Inferior.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            TypeError: É esperado que o parâmetro "std_dev_factor" seja do tipo float.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso o parâmetro 'std_dev_factor' não seja do tipo int, um erro é retornado.
    if not isinstance(std_dev_factor, float):
        raise TypeError("É esperado que o parâmetro 'std_dev_factor' seja do tipo float.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a Média Móvel Exponencial (EMA) de "time_interval" dias da série temporal "daily_adjusted_closing_prices".
    ema = get_ticker_exponential_moving_average(daily_adjusted_closing_prices, time_interval)
    
    # Calcula o Desvio-padrão móvel (Volatilidade móvel) de "time_interval" dias da série temporal "daily_adjusted_closing_prices".
    rolling_std = get_ticker_moving_volatility(daily_adjusted_closing_prices, time_interval)
    
    # Calcula as Bandas de Bollinger
    upper_band = ema + (rolling_std * std_dev_factor)
    lower_band = ema - (rolling_std * std_dev_factor)
    
    # Cria um DataFrame com os resultados obtidos
    bollinger_bands = pd.DataFrame({
        'Upper Band': upper_band,
        'Lower Band': lower_band
    })
    
    # Retorna o DataFrame que contém os resultados obtidos.
    return bollinger_bands

In [31]:
def get_bollinger_bands_with_sma(daily_adjusted_closing_prices: pd.Series, time_interval: int, std_dev_factor: float) -> pd.DataFrame:
    '''
        Description:
            Calcula, para a série temporal "daily_adjusted_closing_prices", as suas Bandas de Bollinger usando Médias Móveis Simples (SMA)
            de "time_interval" dias.
        Args:
            daily_adjusted_closing_prices (pd.Series): Série temporal dos preços de fechamento de um certo ativo.
            time_interval (int): Janela de tempo para a SMA e o Desvio-padrão móvel (Volatilidade móvel).
            std_dev_factor (float): Fator para multiplicar o desvio padrão.
        Returns:
            results (pd.DataFrame): Dicionário contendo a Banda de Bollinger Superior e a Banda de Bollinger Inferior.
        Errors:
            TypeError: É esperado que o parâmetro "daily_adjusted_closing_prices" seja um objeto do tipo pd.Series.
            TypeError: É esperado que o parâmetro "time_interval" seja do tipo int.
            TypeError: É esperado que o parâmetro "std_dev_factor" seja do tipo float.
            ValueError: É esperado que a série temporal "daily_adjusted_closing_prices" contenha apenas números.
    '''
    
    # Caso o parâmetro 'daily_adjusted_closing_prices' não seja um objeto do tipo pd.Series, um erro é retornado.
    if not isinstance(daily_adjusted_closing_prices, pd.Series):
        raise TypeError("É esperado que o parâmetro 'daily_adjusted_closing_prices' seja um objeto do tipo pd.Series.")

    # Caso o parâmetro 'time_interval' não seja do tipo int, um erro é retornado.
    if not isinstance(time_interval, int):
        raise TypeError("É esperado que o parâmetro 'time_interval' seja do tipo int.")
    
    # Caso o parâmetro 'std_dev_factor' não seja do tipo int, um erro é retornado.
    if not isinstance(std_dev_factor, float):
        raise TypeError("É esperado que o parâmetro 'std_dev_factor' seja do tipo float.")
    
    # Caso a série temporal 'daily_adjusted_closing_prices' não seja numérica, um erro é retornado.
    if not(pd.api.types.is_numeric_dtype(daily_adjusted_closing_prices)):
        raise ValueError("É esperado que a série temporal 'daily_adjusted_closing_prices' contenha apenas números.")
    
    # Calcula a Média Móvel Simples (SMA) de "time_interval" dias da série temporal "daily_adjusted_closing_prices".
    sma = get_ticker_simple_moving_average(daily_adjusted_closing_prices, time_interval)
    
    # Calcula o Desvio-padrão móvel (Volatilidade móvel) de "time_interval" dias da série temporal "daily_adjusted_closing_prices".
    rolling_std = get_ticker_moving_volatility(daily_adjusted_closing_prices, time_interval)
    
    # Calcula as Bandas de Bollinger
    upper_band = sma + (rolling_std * std_dev_factor)
    lower_band = sma - (rolling_std * std_dev_factor)
    
    # Cria um DataFrame com os resultados obtidos
    bollinger_bands = pd.DataFrame({
        'Upper Band': upper_band,
        'Lower Band': lower_band
    })
    
    # Retorna o DataFrame que contém os resultados obtidos.
    return bollinger_bands