## Projeto de ETL com análise de carteira de ativos financeiros
---

Este projeto tem como objetivo a realização de análises abrangentes dos dados históricos de ativos financeiros, com um foco específico em quatro categorias distintas: ETFs de dividendos, ações preferenciais, ações ordinárias e fundos imobiliários. Utilizando técnicas de Extração, Transformação e Carga (ETL), estarei coletando e preparando os dados, a fim de explorar tendências, correlações e padrões que podem ser fundamentais para tomadas de decisão financeira mais informadas.

Durante a execução deste projeto, focaremos em compreender essas categorias de ativos e forneceremos insights gerais, oferecendo uma visão mais clara do desempenho e volatilidade ao longo do tempo. Este projeto tem como objetivo aprimorar minhas habilidades oferecendo todo um processo de ETL juntamente com análises descritivas e históricas dos dados observados.

### 0. Carregando bibliotecas

In [1]:
# Carregando bibliotecas padrão
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import yfinance as yf
from IPython.display import HTML

### 1. Extraindo Dados

In [2]:
def extrai_dados(ticker, data_ini, data_fim=None):
    """Essa função recupera dados utilizando o yfinance na API do Yahoo Finance.
    
    Argumentos:
        ticker: String contendo o nome do ativo
        data_ini: String de data de inicio dos dados
        (Argumento opcional)data_fim: String de data limite dos dados. Caso não seja preenchido a função ira usar a data atual.
        
    Retorna:
        Um dataframe contendo os dados do ativo.
    """
    
    # Caso uma data final não seja inserida, a data atual será utilizada.
    if data_fim is None:
        data_fim = pd.to_datetime('today')
    
    list_tickers = []
    for ticker in tickers:
        # Inicio do processo de extração
        dados = yf.download(ticker, data_ini, data_fim)
        dados['Ticker'] = ticker
        dados.name = ticker
        list_tickers.append(dados)
        
    df = pd.concat(list_tickers)
    
    return df

Estarei extraindo dados de ETFs de dividendos(DIVO11 e BBSD11), ações preferenciais(PETR4 e GGBR4), 
ações ordinárias(VALE3 e TOTS3) e fundos imobiliários(IRDM11 e KNIP11).

In [3]:
tickers = ['DIVO11.SA', 'BBSD11.SA', 'PETR4.SA', 'GGBR4.SA', 'VALE3.SA', 'TOTS3.SA', 'IRDM11.SA', 'KNIP11.SA']
df = extrai_dados(tickers, '2023-01-01')

[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed
[*********************100%%**********************]  1 of 1 completed


In [4]:
df.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume,Ticker
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2023-01-02,72.599998,72.599998,70.419998,71.199997,71.199997,8375,DIVO11.SA
2023-01-03,71.199997,71.199997,69.5,69.5,69.5,8579,DIVO11.SA
2023-01-04,69.510002,70.709999,69.510002,70.300003,70.300003,77763,DIVO11.SA
2023-01-05,70.410004,71.75,70.360001,71.5,71.5,29469,DIVO11.SA
2023-01-06,72.290001,73.099998,72.040001,72.150002,72.150002,6900,DIVO11.SA


In [5]:
df.sort_values(by=['Date', 'Ticker'])

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume,Ticker
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2023-01-02,90.900002,90.900002,87.000000,87.699997,87.699997,172,BBSD11.SA
2023-01-02,72.599998,72.599998,70.419998,71.199997,71.199997,8375,DIVO11.SA
2023-01-02,27.885714,28.266666,27.428572,28.057142,26.808254,5094495,GGBR4.SA
2023-01-02,91.510002,92.330002,91.510002,92.040001,83.205429,51001,IRDM11.SA
2023-01-02,90.980003,90.980003,88.809998,89.550003,82.648163,68406,KNIP11.SA
...,...,...,...,...,...,...,...
2023-10-20,78.400002,78.650002,78.059998,78.300003,78.300003,50648,IRDM11.SA
2023-10-20,92.550003,92.809998,92.449997,92.800003,92.800003,74140,KNIP11.SA
2023-10-20,38.689999,38.860001,37.389999,37.849998,37.849998,65992700,PETR4.SA
2023-10-20,25.750000,26.250000,25.709999,25.730000,25.730000,2676200,TOTS3.SA


### 2. Transformação de dados

### 2.1 Analisando a estrutura

In [6]:
#Visão geral dos ativos
for ticker in tickers:
    print('\033[1m'+f"Ativo: {ticker}\033[0m"+"\n",
          df[df['Ticker'] == ticker].iloc[:, :-1].head(), "\n")

[1mAtivo: DIVO11.SA[0m
                  Open       High        Low      Close  Adj Close  Volume
Date                                                                     
2023-01-02  72.599998  72.599998  70.419998  71.199997  71.199997    8375
2023-01-03  71.199997  71.199997  69.500000  69.500000  69.500000    8579
2023-01-04  69.510002  70.709999  69.510002  70.300003  70.300003   77763
2023-01-05  70.410004  71.750000  70.360001  71.500000  71.500000   29469
2023-01-06  72.290001  73.099998  72.040001  72.150002  72.150002    6900 

[1mAtivo: BBSD11.SA[0m
                  Open       High        Low      Close  Adj Close  Volume
Date                                                                     
2023-01-02  90.900002  90.900002  87.000000  87.699997  87.699997     172
2023-01-03  86.989998  89.459999  85.519997  85.849998  85.849998     359
2023-01-04  87.570000  89.290001  85.949997  86.879997  86.879997      42
2023-01-05  86.879997  87.699997  85.900002  87.699997  87

<b>Por ser um dataframe pequeno, não estarei realizando operações para diminuir seu tamanho.

In [7]:
def estrutura_dados(dataframe):
    """ Função que exibe a estrutura geral dos dados
    Argumento: Um ou mais dataframes que terão suas informações exibidas.
    Retorna: Exibição de atributos da estrutura do(s) dataframe(s) solicitado(s).
    """
    for ticker in tickers:
        print('\033[1m'+f"Estrutura dos dados de: {ticker}\033[0m"+"\n")
        print(df[df['Ticker'] == ticker].info(), "\n")
        print('\033[1m'+"\nDados Faltando:"+'\033[0m')
        print(df[df['Ticker'] == ticker].isnull().sum())
        print('\033[1m'+"\nDados Duplicados:"+'\033[0m')
        print( df[df['Ticker'] == ticker].duplicated().sum(),"\n",'_' * 100, "\n")

In [8]:
estrutura_dados(df)

[1mEstrutura dos dados de: DIVO11.SA[0m

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 202 entries, 2023-01-02 to 2023-10-20
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Open       202 non-null    float64
 1   High       202 non-null    float64
 2   Low        202 non-null    float64
 3   Close      202 non-null    float64
 4   Adj Close  202 non-null    float64
 5   Volume     202 non-null    int64  
 6   Ticker     202 non-null    object 
dtypes: float64(5), int64(1), object(1)
memory usage: 12.6+ KB
None 

[1m
Dados Faltando:[0m
Open         0
High         0
Low          0
Close        0
Adj Close    0
Volume       0
Ticker       0
dtype: int64
[1m
Dados Duplicados:[0m
0 
 ____________________________________________________________________________________________________ 

[1mEstrutura dos dados de: BBSD11.SA[0m

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 202 entries, 2023-01-02 to 2023

### 2.2 Transformação

### 2.2.1 Criando novos atributos

#### Os períodos utilizados a seguir são baseados em recomendações de frequência de uso de estudiosos da área.

In [9]:
# Cálculo de Variação Percentual
def calc_variacao_pct(dataframe):
    """
    Calcula a variação percentual de um ativo financeiro.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.

    Retorna:
    Variação para cada entrada.
    """
    
    for ticker in tickers:

        # Calcula a variação percentual para cada entrada de dados.
        vari = round(((df['Close'] - df['Open']) / df['Open']) * 100, 2)

    return vari


In [10]:
df['variacao_pct'] = calc_variacao_pct(ticker)

In [11]:
# Cálculo de retorno diário
def calc_retorno_diario(dataframe):
    """
    Calcula o retorno diário de um ativo financeiro.
    O retorno diário mede a variação percentual no preço de fechamento de um ativo de um dia para o outro.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.

    Retorna:
    Retorno diário para cada entrada.
    """
    
    # Calcula o retorno diário para cada entrada de dados.
    retorno_diario = round(((df['Close'].pct_change()) * 100), 3)

    return retorno_diario


In [12]:
df['retorno_diario'] = calc_retorno_diario(df)

In [13]:
# Cálculo de Indicador de Força Relativa (RSI)

def calc_RSI(dataframe, ticker, periodo):
    """
    Calcula o indicador de força relativa
    O RSI é usado para avaliar a sobrecompra ou sobrevenda de um ativo.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.
    ticker: String contendo nome do ativo financeiro.
    periodo: Um numero inteiro representando os dias do período a ser calculado.

    Retorna:
    O cálculo de RSI determinado pela quantidade de dias da janela.
    """
    # Filtra o DataFrame apenas para o ticker desejado
    ticker_df = dataframe[dataframe['Ticker'] == ticker].copy()
    
    delta = ticker_df['Close'].diff(1)
    ganho = delta.where(delta > 0, 0)
    perda = -delta.where(delta < 0, 0)
    ganho_medio = ganho.rolling(window=periodo).mean()
    perda_media = perda.rolling(window=periodo).mean()
    rs = ganho_medio / perda_media
    rsi = 100 - (100 / (1 + rs))
        
    dataframe.loc[dataframe['Ticker'] == ticker, f'rsi_{periodo}d'] = rsi.values

In [14]:
periodo = 14
for ticker in tickers:
    calc_RSI(df, ticker, periodo)

In [15]:
def calc_ATR(dataframe, ticker, periodo):
    """
    Calcula o indicador de força relativa
    O ATR mede a volatilidade média em um determinado período.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.
    ticker: String contendo nome do ativo financeiro.
    periodo: Um numero inteiro representando os dias do período a ser calculado.

    Retorna:
    O(s) dataframe(s) atualizado(s) com o cálculo de ATR determinado pela quantidade de dias da janela.
    """
    
    # Filtra o DataFrame apenas para o ticker desejado
    ticker_df = dataframe[dataframe['Ticker'] == ticker].copy()

    # Crie um DataFrame vazio para armazenar os cálculos intermediários
    true = pd.DataFrame()

    # Diferença entre High e Low
    true['HL'] = ticker_df['High'] - ticker_df['Low']

    # Diferença entre High e Close
    true['HC'] = abs(ticker_df['High'] - ticker_df['Close'].shift(1))

    # Diferença entre Low e Close
    true['LC'] = abs(ticker_df['Low'] - ticker_df['Close'].shift(1))

    # True Range para cada dia, calculado como o valor máximo entre HL, HC e LC
    true['TR'] = true[['HL', 'HC', 'LC']].max(axis=1)

    # Calcula a média móvel do True Range usando rolling
    atr = true['TR'].rolling(window=periodo).mean()

    # Atualiza o DataFrame original com os valores calculados
    dataframe.loc[dataframe['Ticker'] == ticker, f'atr_{periodo}d'] = atr.values


In [16]:
periodo = 14
for ticker in tickers:
    calc_ATR(df, ticker, periodo)

In [17]:
# Cálculo de Volatilidade por período

def calc_volatilidade_periodo(dataframe, ticker, periodo):
    """
    Calcula a volatilidade durante um período de um ativo financeiro.
    A volatilidade histórica mede o risco do ativo.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.
    ticker: String contendo nome do ativo financeiro.
    periodo: Um numero inteiro representando os dias do período a ser calculado.

    Retorna:
    O cálculo de volatilidade determinado pela quantidade de dias do período.
    """
    
    # Filtra o DataFrame apenas para o ticker desejado
    ticker_df = dataframe[dataframe['Ticker'] == ticker].copy()

    # Calcula a volatilidade para cada entrada de dados.
    volatilidade = round(((ticker_df['Close'].rolling(window=periodo).std()) * 100), 3)
    
    # Atualiza o DataFrame original com os valores calculados
    dataframe.loc[dataframe['Ticker'] == ticker, f'volat_{periodo}d'] = volatilidade.values


In [18]:
periodo = 20
for ticker in tickers:
    calc_volatilidade_periodo(df, ticker, periodo)

In [19]:
# Cálculo de média móvel

def calc_medias_moveis(dataframe, ticker, periodo_simples, periodo_exponencial):
    """
    Calcula a média móvel simples e exponencial de um ativo financeiro.
    Médias móveis são usadas para suavizar os dados e identificar tendências.

    Argumentos:
    dataframe: Um ou mais Dataframes com informações financeiras do ativo.
    ticker: String contendo nome do ativo financeiro.
    periodo_simples: Um numero inteiro representando os dias do período a ser calculado.
    periodo_exponencial: Um numero inteiro representando os dias do período a ser calculado.

    Retorna:
    Os cálculos de média móvel simples e exponencial determinados pela quantidade de dias da janela.
    """
    
    # Filtra o DataFrame apenas para o ticker desejado
    ticker_df = dataframe[dataframe['Ticker'] == ticker].copy()
                       
    # Calcula a média móvel simples e exponencial para cada entrada de dados#
    media_movel_simples = round(((ticker_df['Close'].rolling(window=periodo_simples).mean()) * 100), 3)
    media_movel_exponencial = round(((ticker_df['Close'].ewm(span=periodo_exponencial, adjust=False).mean()) * 100), 3)
    
    # Atualiza o DataFrame original com os valores calculados
    dataframe.loc[dataframe['Ticker'] == ticker, f'media_movel_simples_{periodo_simples}d'] = media_movel_simples.values
    dataframe.loc[dataframe['Ticker'] == ticker, f'media_movel_expo_{periodo_exponencial}d'] = media_movel_exponencial.values


In [20]:
periodo_simples = 50
periodo_exponencial = 26
for ticker in tickers:
    calc_medias_moveis(df, ticker, periodo_simples, periodo_exponencial)

### 2.2.2 Formatando dados

In [21]:
# Formate o índice no formato desejado ('YYYY-MM-DD')
df.index = df.index.strftime('%Y-%m-%d')

# Converta o índice formatado em objetos date
df.index = pd.to_datetime(df.index).date

novos_nomes ={
    'Open': 'opening_price',
    'Close': 'closing_price',
    'Adj Close': 'adj_close',
}

# Renomeia as colunas
df.rename(columns=novos_nomes, inplace=True)

# Convertendo todos os nomes de colunas para minúsculo
df.columns = df.columns.str.lower()

# Renomeia o indice para data_registro
df.index.name = 'data_registro'

df['data_registro'] = df.index

def mover_coluna(dataframe, coluna, posicao):
    """
    Função para mover uma coluna de sua determinada posição e colocá-la em outra
    Argumentos:
    dataframe: Dataframe que sera alterado
    coluna: String contendo o nome da coluna a ser movida
    posicao: Inteiro representando a posição da coluna
    
    Retorna: dataframe com as posições alteradas
    """
    
    
    # Verifica se a coluna existe no DataFrame
    if coluna in dataframe.columns:
        # Lista todas as colunas em uma ordem desejada
        colunas_ordem_desejada = list(dataframe.columns)
        colunas_ordem_desejada.remove(coluna)
        colunas_ordem_desejada.insert(posicao, coluna)
        
        # Cria um novo DataFrame com a ordem desejada
        novo_dataframe = dataframe[colunas_ordem_desejada]
    
        return novo_dataframe

df = mover_coluna(df,'data_registro', 0)
df = mover_coluna(df,'ticker', 1)

"""
A linha seguinte serve para verificar o funcionamento dos cálculos das funções baseadas em períodos.
Neste caso, analisamos a partir de 14 dias do primeiro registro devido as
funções começarem a retornar valores em períodos iguais ou maiores que 2 semanas.
"""
df[df.groupby('ticker').cumcount() >= 14].groupby('ticker').head()

Unnamed: 0_level_0,data_registro,ticker,opening_price,high,low,closing_price,adj_close,volume,variacao_pct,retorno_diario,rsi_14d,atr_14d,volat_20d,media_movel_simples_50d,media_movel_expo_26d
data_registro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
2023-01-20,2023-01-20,DIVO11.SA,75.529999,76.120003,75.370003,75.949997,75.949997,28873,0.56,0.132,72.94688,1.514285,,,7310.795
2023-01-23,2023-01-23,DIVO11.SA,75.379997,76.489998,75.300003,75.300003,75.300003,606407,-0.11,-0.856,81.182853,1.477857,,,7327.033
2023-01-24,2023-01-24,DIVO11.SA,75.309998,76.480003,75.309998,75.949997,75.949997,25795,0.85,0.863,80.874356,1.475714,,,7346.882
2023-01-25,2023-01-25,DIVO11.SA,75.949997,77.110001,75.5,76.800003,76.800003,15050,1.12,1.119,80.113695,1.487143,,,7371.557
2023-01-26,2023-01-26,DIVO11.SA,76.900002,77.489998,76.82,77.129997,77.129997,3108,0.3,0.43,79.36325,1.422143,,,7396.849
2023-01-20,2023-01-20,BBSD11.SA,92.300003,92.449997,91.389999,91.800003,91.800003,276,-0.54,-0.542,65.648871,2.437144,,,8949.791
2023-01-23,2023-01-23,BBSD11.SA,89.959999,92.989998,89.959999,91.18,91.18,457,1.36,-0.675,72.451547,2.372144,,,8962.251
2023-01-24,2023-01-24,BBSD11.SA,91.18,91.940002,91.0,91.860001,91.860001,373,0.75,0.746,71.614576,2.193572,,,8978.825
2023-01-25,2023-01-25,BBSD11.SA,90.199997,92.959999,90.199997,92.959999,92.959999,113,3.06,1.197,72.288124,2.262144,,,9002.319
2023-01-26,2023-01-26,BBSD11.SA,91.400002,93.739998,91.400002,93.720001,93.720001,99,2.54,0.818,72.795332,2.307144,,,9029.703


### 4. Carga de Dados (Load)

### 4.1 Load para arquivo .xlsx e .pickle

In [22]:
from datetime import datetime

# Obtém a data atual
hoje = datetime.today().date()

# Formata a data como uma string no formato 'YYYY-MM-DD'
hoje_str = hoje.strftime('%Y-%m-%d')

# Cria o nome do arquivo com a data formatada
file_name_excel = f'etl_stocks_{hoje_str}.xlsx'

# Cria o arquivo em formato .xlsx
df.to_excel(file_name_excel)

# String para o nome do arquivo
file_name_pickle = f'etl_stocks_{hoje_str}.pickle

# Cria o arquivo em formato .pickle
df.to_pickle(file_name_pickle)


### 4.2 Load para banco de dados PostgreSQL

In [2]:
# Interage com o sistema operacional
import os

# Fornece acesso a funções do sistema
import sys

# Obtem informações sobre erros de exceções e rastreio de pilhas
import traceback

# Biblioteca para acesso ao banco PostgreSQL
import psycopg2
import psycopg2.extras as extras
from psycopg2.extensions import register_adapter, AsIs


# Habilitar o rastreamento de erros
os.environ['PSYCOPG_DEBUG'] = '1'


# Biblioteca para acessar o arquivo .ini contendo os dados para conexão
from configparser import ConfigParser

def ler_config(filename='connection.ini', section='database'):
    """ Função para ler as configurações de um banco de dados
    Argumentos: 
    filename: String contendo o nome do arquivo
    section: String contendo a seção dos dados a serem lidos
    """
    
    # Cria instância para analisar os arquivos de configuração
    parser = ConfigParser()
    
    # Lê orquivo especificado
    parser.read(filename)
    
    # Retorna um dicionário contendo as informações da seção especificada
    return dict(parser[section])

# Função que adapta o tipo numpy.int64 para que o banco possa interpretar os dados
def addapt_numpy_int64(numpy_int64):
    return AsIs(numpy_int64)

def inserir_dados(df):
    """ Função para inserção de dados em banco PostgreSQL
    Argumentos: 
    df: Um dataframe que será inserido no banco
    Retorna: Notificação de sucesso ou erro de inserção de dados
    """
    try:
        
        # Lê as informações de configuração
        config = ler_config()
        
        # Obtem as informações de conexão
        user = config.get('user')
        password = config.get('password')
        host = config.get('host')
        port = config.get('port')
        database = config.get('dbname')
        
        # Cria a string DSN que contém todas as informações de conexão
        dsn = f"dbname={database} user={user} password={password} host={host} port={port}"

        # Efetua a conexão com o banco usando a string DSN
        conn = psycopg2.connect(dsn)
        
        # Cria um cursor que receberá a query
        cur = conn.cursor()

        # Nome da tabela onde serão inseridos os dados
        tabela = 'stocks'
        
        # Nome das colunas do dataframe (percisam ser iguais as do banco)
        colunas = df.columns.tolist()
        
        # Função para o banco conseguir entender o tipo numpy.int64
        register_adapter(np.int64, addapt_numpy_int64)

        # Cria a consulta de insert dinamicamente
        insert_query = f"INSERT INTO {tabela} ({', '.join(colunas)}) VALUES ({', '.join(['%s'] * len(colunas))})"

        # Loop pelas linhas do DataFrame para inserir todos os registros
        for _, row in df.iterrows():
            valores = tuple(row)
            cur.execute(insert_query, valores)

        # Faz o commit das alterações e fecha a conexão.
        conn.commit()
        conn.close()
        
        print("Dados inseridos com sucesso!")
    
    except(Exception, psycopg2.Error) as error:
        exc_type, exc_obj, exc_tb = sys.exc_info()
        filename = exc_tb.tb_frame.f_code.co_filename
        line_number = exc_tb.tb_lineno
    
        # Imprime as informações de erro e a linha do erro
        print(f"Erro ao inserir dados: {error}")
        print(f"Erro na linha {line_number} do arquivo {filename}")
            
        # Captura o traceback
        traceback.print_exc()

In [24]:
inserir_dados(df)

Dados inseridos com sucesso!


### 5. Análise de Dados

### 5.1 Análise utilizando SELECT SQL e ferramentas Python

In [3]:
def select_query(query):
    """ Função para enviar queries de SELECT ao banco de dados
    Argumento: 
    query: String contendo a query de SELECT
    
    Retorna: Retorna os dados solicitados ao banco
    """
    
    try:
        
        # Lê as informações de configuração
        config = ler_config()
        
        # Obtem as informações de conexão
        user = config.get('user')
        password = config.get('password')
        host = config.get('host')
        port = config.get('port')
        database = config.get('dbname')
        
        # Cria a string DSN que contém todas as informações de conexão
        dsn = f"dbname={database} user={user} password={password} host={host} port={port}"

        # Efetua a conexão com o banco usando a string DSN
        conn = psycopg2.connect(dsn)
        
        # Cria um cursor
        cur = conn.cursor()

        # Executa a query
        cur.execute(query)
        
        # Recupera todos os resultados
        resultados = cur.fetchall()

        # Fecha a conexão e o cursor
        cur.close()
        conn.close()
        
        # Salva os nomes das colunas a partir do cursor
        colnomes = [desc[0] for desc in cur.description]

        # Cria um dataframe com os resultados e nomes das colunas
        dados = pd.DataFrame(resultados, columns=colnomes)
    
        return dados
    
    except(Exception, psycopg2.Error) as error:
        exc_type, exc_obj, exc_tb = sys.exc_info()
        filename = exc_tb.tb_frame.f_code.co_filename
        line_number = exc_tb.tb_lineno
    
        # Imprime as informações de erro e a linha do erro
        print(f"Erro ao ler os dados: {error}")
        print(f"Erro na linha {line_number}")
            
        # Captura o traceback
        traceback.print_exc()

### 5.1.1 Dados descritivos

In [7]:
query = """
        SELECT
          ticker,
          MIN(opening_price) AS abertura_min,
          MAX(opening_price) AS abertura_max,
          MIN(closing_price) AS fechamento_min,
          MAX(closing_price) AS fechamento_max,
          AVG(opening_price) AS media_abertura,
          AVG(closing_price) AS media_fechamento,
          PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY opening_price) AS mediana_abertura,
          PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY closing_price) AS mediana_fechamento,
          STDDEV(opening_price) AS desvio_abertura,
          STDDEV(closing_price) AS desvio_fechamento,
          SUM(volume) AS soma_volume,
          ROUND(AVG(volume), 2) as media_volume
        FROM stocks
        GROUP BY ticker;
    """
descritivos = select_query(query)
descritivos

Unnamed: 0,ticker,abertura_min,abertura_max,fechamento_min,fechamento_max,media_abertura,media_fechamento,mediana_abertura,mediana_fechamento,desvio_abertura,desvio_fechamento,soma_volume,media_volume
0,BBSD11.SA,78.84,101.82,79.08,101.83,92.28396,92.252426,92.345001,92.200001,6.13134,6.109184,150198,743.55
1,DIVO11.SA,66.8,82.15,66.65,82.05,75.903317,75.859852,75.735001,75.924999,4.120909,4.110643,7555711,37404.51
2,GGBR4.SA,21.47,31.866667,21.45,31.90476,26.164656,26.109814,25.65,25.655,2.160747,2.201745,2033671075,10067678.59
3,IRDM11.SA,77.43,93.44,77.0,93.44,85.52807,85.412228,86.279999,86.18,4.366867,4.403236,13405228,66362.51
4,KNIP11.SA,88.51,95.3,88.47,95.62,91.492673,91.574357,91.474998,91.610001,1.566804,1.590936,21021691,104067.78
5,PETR4.SA,21.96,38.69,22.34,38.52,28.315297,28.371485,27.14,27.025,3.784714,3.810844,12050206600,59654488.12
6,TOTS3.SA,25.1,30.65,25.0,30.83,28.304257,28.301584,28.385,28.349999,1.342254,1.341216,909523700,4502592.57
7,VALE3.SA,61.2,97.85,61.05,98.0,74.51896,74.338862,69.235001,69.079998,10.190635,10.253542,5203040900,25757628.22


Iremos trabalhar com top 2 para as métricas. <br>
Os maiores fechamentos foram de BBSD11 e VALE3. <br>
Os menores fechamentos foram GGB4 e PETR4. <br>
As maiores médias de abertura foram de BBSD11 e KNIP11. <br>
As maiores variações(desvios) são de VALE3 e BBSD11. <br>
Os maiores volumes negociados foram de PETR4 e VALE3. <br>
Os menores volumes negociados foram de BBSD11 e DIVO11.

### 5.1.2 Análises Históricas

Vamos procurar as maiores variações positivas do período observado.

In [29]:
query = """
        WITH var_positivo AS(
        SELECT 
            data_registro, 
            ticker, 
            variacao_pct,
            RANK() OVER (PARTITION BY ticker ORDER BY variacao_pct DESC) as ranking
        FROM stocks
        GROUP BY ticker, data_registro, variacao_pct
        )
        
        SELECT data_registro, ticker, variacao_pct
        FROM var_positivo
        WHERE ranking < 4 
        ORDER BY data_registro ASC, variacao_pct DESC, ticker 
        """
var_positivo = select_query(query)
var_positivo

Unnamed: 0,data_registro,ticker,variacao_pct
0,2023-01-04,PETR4.SA,4.96
1,2023-01-04,KNIP11.SA,1.81
2,2023-01-05,TOTS3.SA,3.9
3,2023-01-10,GGBR4.SA,3.65
4,2023-01-10,DIVO11.SA,2.7
5,2023-01-17,PETR4.SA,5.85
6,2023-01-17,TOTS3.SA,5.82
7,2023-01-17,DIVO11.SA,1.97
8,2023-01-19,DIVO11.SA,2.02
9,2023-01-25,BBSD11.SA,3.06


Muitos tickers tem valores altos de variação com datas que são muito proximas entre si ou até que coincidem. <br>
Vamos analisar as datas para entender o que pode ter ocorrido.

<b>Dia 04/01 </b> - A IBOVESPA fecha em alta após o senador Jean Paul Prates, indicado pelo governo para presidir a Petrobras, afirmar que não haveria intervenção nos preços dos combustíveis. Provavelmente esse evento influenciou na alta da TOTS3 no dia seguinte.

<b>Dia 10/01 </b> - As notícias encontradas para períodos próximos indicam que os resultados positivos foram influenciados por 3 eventos: A resposta rápida do governo aos atos de 08/01, a reabertura da China com Hong Kong que aumentou os preços de petróleo no mundo e por último, dados apontavam que existia a expectativa de que o banco central dos EUA poderia finalizar o ciclo de alta nas taxas de juros mais cedo do que o esperado.

<b>Dia 17/01 </b> - Após três quedas a IBOVESPA fecha em alta de 2,15%. A valorização pode estar relacionada com a alta dos commodities, como o petróleo. Os contratos futuros do mesmo encerraram o pregão de hoje em alta com dados do PIB da China e a sinalização do presidente da Opep, Haitham al-Ghais, de que a demanda pela commodity deve crescer em 2023.

<b>Mês 05 </b> - Diversos reports relacionadas aos valores de dividendos que serão pagos por múltiplas empresas.

<b>Mês 06 </b> - Sem muitas informações encontradas, apenas que eram ações com potencial para o mês.

<b>Mês 07 </b> - Oscilações consideradas normais pro mercado.

<b>Mês 08 </b> - Oscilação consideras normais pro mercado.

<b>Mês 09 </b> - Pagamento de dividendos da VALE3.

Agora vamos procurar pelo top três maiores variações negativas de cada segmento de ticker.

In [28]:
query = """
        WITH var_negativo AS(
        SELECT 
            data_registro, 
            ticker, 
            variacao_pct,
            RANK() OVER (PARTITION BY ticker ORDER BY variacao_pct ASC) as ranking
        FROM stocks
        GROUP BY ticker, data_registro, variacao_pct
        )
        
        SELECT data_registro, ticker, variacao_pct
        FROM var_negativo
        WHERE ranking < 4
        ORDER BY data_registro ASC, variacao_pct ASC, ticker
        """
var_negativo = select_query(query)
var_negativo

Unnamed: 0,data_registro,ticker,variacao_pct
0,2023-01-02,BBSD11.SA,-3.52
1,2023-01-02,KNIP11.SA,-1.57
2,2023-01-03,DIVO11.SA,-2.39
3,2023-02-09,GGBR4.SA,-4.21
4,2023-02-09,DIVO11.SA,-2.03
5,2023-03-20,BBSD11.SA,-3.67
6,2023-03-20,DIVO11.SA,-2.16
7,2023-03-23,TOTS3.SA,-5.7
8,2023-03-28,IRDM11.SA,-2.77
9,2023-03-29,IRDM11.SA,-3.07


<b> Mês 01 </b> - IBOVESPA em queda de 3,06% e Ifix em queda de 0,21% devido a aversão a risco local com forte recuo da bolsa tiveram grande impacto no mercado.

<b> Mês 02 </b> - Queda da GGBR4 por ter saído da lista de recomendações da Goldman Sachs e JP. Sem maiores informações sobre DIVO11, provavelmente oscilação do mercado.

<b> 20/03 </b> - Sem muitas informações sobre o DIVO11, provavelmente oscilação de mercado.

<b> 23/03 </b> - Queda de 2,29% do IBOVESPA com Dólar subindo 1% chegando a R$ 5,28 impactaram a TOTS3. Neste dia apenas 12 ações subiram. Muitas ações tiveram perdas gigantes, um exemplo é a MGLU3 que teve queda de -13,37%.

<b> 28/03 e 29/03 </b> - As quedas do IRDM11 não foram justificadas pelos gestores do fundo, porém, especialistas acreditam que são causadas pela taxa SELIC ter mantido seu valor na reunião de Março o que causou o Ifix a cair continuamente, assim impactando boa parte dos FIIs.

<b> 13/04 </b> - Queda do IBOVESPA em 0,26%. As baixas podem ter acontecido devido a fala do presidente do BC rejeitando uma queda antecipada dos juros e também da fala do presidente do Brasil durante viagem à China questionando o dólar como moeda de troca internacional.

<b> 02/05 </b> - Queda nas ações de várias petrolíferas e ruídos no mercado relacionados com a escolha do conselho da Petrobrás impactaram a PETR4.

<b> 04/05 </b> - As ações da VALE3 e GGBR4 caíram devido relatórios de contração da indústria de metais chinesa. 

<b> 10/05 e 18/05 </b> - Não foram encontradas notícias relevantes sobre FIIs, provavelmente flutuações consideradas normais para o mercado devido aos rumores de recessão que foram reportados até a data deste registro.

<b> 30/05 </b> - O desempenho da VALE3 pode ser explicado pela constante desvalorização do minério de ferro que até a data do registro somava 25,51% em 12 meses. Os valores também foram influenciados por uma menor produção da empresa que caiu de 400 milhões de toneladas em 2019 para 300 milhões após a catástrofe em Brumadinho. Especialistas dizem que essa diminuição também se dá devido as condições climáticas bem mais chuvosas que o comum não estão sendo favoráveis a extração de minérios.

<b> 02/06 </b> - Valores negativos do TOTS3 podem ter sido causados por um movimento de realização de lucros.

<b> 13/06 </b> - Sem informações.

<b> 28/06 </b> - Indústria de metais chinesa segue demonstrando fraqueza fazendo a VALE3 recuar. Sem informações sobre KNIP11.

<b> 30/06 </b> - Cortes na gasolina influenciaram na queda da PETR4.

<b> 27/07 </b> - A PETR4 já vinha de queda e com ruídos no mercado sobre uma possível mudança na diretoria da estatal derrubaram mais ainda as ações.

<b> 28/07 </b> - A VALE3 divulgou resultado abaixo do esperado pelo mercado, por isso a queda ocorreu.

<b> 09/08 </b> - A GGBR4 reportou lucro líquido ajustado de 2,1 bi no segundo trimestre, número 50,1% menor que os números do primeiro trimestre.

Analisando a soma de volume vendido mês a mês de cada ticker

In [56]:
for ticker in tickers:
    query = f"""
        WITH soma_volume AS (
          SELECT
            ticker,
            EXTRACT(MONTH FROM data_registro) AS mes,
            SUM(volume) AS soma_volume
          FROM
            stocks
          GROUP BY
            ticker,
            EXTRACT(MONTH FROM data_registro)
        )

        SELECT
          ticker,
          mes,
          soma_volume
        FROM soma_volume
        WHERE ticker = '{ticker}'
        ORDER BY ticker ASC, mes ASC
    """

    soma_volumes = select_query(query)

    # Lista de indicadores para as setas ↑ ou ↓
    indicators = []

    for i in range(len(soma_volumes)):
        if i == 0:
            indicators.append('')  # Pois a primeira linha não possui uma anterior para ser comparada
        else:
            if soma_volumes['soma_volume'][i] < soma_volumes['soma_volume'][i - 1]:
                indicators.append('<font color="red">↓</font>')
            else:
                indicators.append('<font color="green">↑</font>')

    # Adiciona a coluna contendo a lista de indicadores
    soma_volumes['indicador'] = indicators

    # HTML para formatar a saída com as cores
    html_table = soma_volumes[['ticker', 'mes', 'soma_volume', 'indicador']].to_html(index=False, escape=False)
    display(HTML(html_table))


ticker,mes,soma_volume,indicador
DIVO11.SA,1,1096305,
DIVO11.SA,2,1098797,↑
DIVO11.SA,3,579024,↓
DIVO11.SA,4,478431,↓
DIVO11.SA,5,672320,↑
DIVO11.SA,6,1161839,↑
DIVO11.SA,7,746200,↓
DIVO11.SA,8,352132,↓
DIVO11.SA,9,200282,↓
DIVO11.SA,10,1170381,↑


ticker,mes,soma_volume,indicador
BBSD11.SA,1,6971,
BBSD11.SA,2,71040,↑
BBSD11.SA,3,4268,↓
BBSD11.SA,4,8613,↑
BBSD11.SA,5,3317,↓
BBSD11.SA,6,15613,↑
BBSD11.SA,7,13643,↓
BBSD11.SA,8,3435,↓
BBSD11.SA,9,6450,↑
BBSD11.SA,10,16848,↑


ticker,mes,soma_volume,indicador
PETR4.SA,1,1485512700,
PETR4.SA,2,1124794800,↓
PETR4.SA,3,1492304700,↑
PETR4.SA,4,1137044600,↓
PETR4.SA,5,1441438400,↑
PETR4.SA,6,1466708000,↑
PETR4.SA,7,971702000,↓
PETR4.SA,8,1232223100,↑
PETR4.SA,9,892997400,↓
PETR4.SA,10,805480900,↓


ticker,mes,soma_volume,indicador
GGBR4.SA,1,228757200,
GGBR4.SA,2,201406590,↓
GGBR4.SA,3,259998185,↑
GGBR4.SA,4,155307100,↓
GGBR4.SA,5,257398600,↑
GGBR4.SA,6,187549000,↓
GGBR4.SA,7,185615700,↓
GGBR4.SA,8,252488800,↑
GGBR4.SA,9,178677300,↓
GGBR4.SA,10,126472600,↓


ticker,mes,soma_volume,indicador
VALE3.SA,1,482054400,
VALE3.SA,2,384190600,↓
VALE3.SA,3,514656200,↑
VALE3.SA,4,449556400,↓
VALE3.SA,5,695091700,↑
VALE3.SA,6,654623500,↓
VALE3.SA,7,552314100,↓
VALE3.SA,8,643578300,↑
VALE3.SA,9,536765700,↓
VALE3.SA,10,290210000,↓


ticker,mes,soma_volume,indicador
TOTS3.SA,1,93849000,
TOTS3.SA,2,79074400,↓
TOTS3.SA,3,122036300,↑
TOTS3.SA,4,98351600,↓
TOTS3.SA,5,99548700,↑
TOTS3.SA,6,95706300,↓
TOTS3.SA,7,72382900,↓
TOTS3.SA,8,111148500,↑
TOTS3.SA,9,97571900,↓
TOTS3.SA,10,39854100,↓


ticker,mes,soma_volume,indicador
IRDM11.SA,1,1136215,
IRDM11.SA,2,1038381,↓
IRDM11.SA,3,2097045,↑
IRDM11.SA,4,1593457,↓
IRDM11.SA,5,1520595,↓
IRDM11.SA,6,1217353,↓
IRDM11.SA,7,1120951,↓
IRDM11.SA,8,1451938,↑
IRDM11.SA,9,1395901,↓
IRDM11.SA,10,833392,↓


ticker,mes,soma_volume,indicador
KNIP11.SA,1,1800743,
KNIP11.SA,2,1331759,↓
KNIP11.SA,3,2025267,↑
KNIP11.SA,4,1467802,↓
KNIP11.SA,5,2298227,↑
KNIP11.SA,6,2083121,↓
KNIP11.SA,7,2988144,↑
KNIP11.SA,8,3207425,↑
KNIP11.SA,9,2458289,↓
KNIP11.SA,10,1360914,↓


Analisando o volume negociado temos o IRDM11 com 7 de 10 meses de quedas e BSD11 com 4 de 10 meses de quedas <br>
A mediana de quedas é de 5 e de ascenções também. Isto pode indicar um ano bastante volátil. <br>
O maior volume pertence a PETR4 e o menor a BSD11. <br>

### 5.1.3 Visualização de dados

Tableau Dashboard para ter uma visão geral dos dados.

In [22]:
# Essa linha precisa ser executada para que o dashboard fique habilitado à interação
embed ='''<div class='tableauPlaceholder' id='viz1698820524134' style='position: relative'>
<noscript>
<a href='#'><img alt='Painel 1 ' src='https:&#47;&#47;public.tableau.com&#47;static&#47;images&#47;da&#47;dashboard_stocks_portfolio&#47;Painel1&#47;1_rss.png' style='border: none' /></a></noscript><object class='tableauViz'  style='display:none;'><param name='host_url' value='https%3A%2F%2Fpublic.tableau.com%2F' /> <param name='embed_code_version' value='3' /> <param name='site_root' value='' /><param name='name' value='dashboard_stocks_portfolio&#47;Painel1' /><param name='tabs' value='no' /><param name='toolbar' value='yes' />
<param name='static_image' value='https:&#47;&#47;public.tableau.com&#47;static&#47;images&#47;da&#47;dashboard_stocks_portfolio&#47;Painel1&#47;1.png' /> <param name='animate_transition' value='yes' /><param name='display_static_image' value='yes' /><param name='display_spinner' value='yes' /><param name='display_overlay' value='yes' /><param name='display_count' value='yes' /><param name='language' value='pt-BR' /><param name='filter' value='publish=yes' /></object></div>                <script type='text/javascript'>                    var divElement = document.getElementById('viz1698820524134');                    var vizElement = divElement.getElementsByTagName('object')[0];                    if ( divElement.offsetWidth > 800 ) { vizElement.style.width='1000px';vizElement.style.height='827px';} else if ( divElement.offsetWidth > 500 ) { vizElement.style.width='1000px';vizElement.style.height='827px';} else { vizElement.style.width='1000px';vizElement.style.height='827px';}                     var scriptElement = document.createElement('script');                    scriptElement.src = 'https://public.tableau.com/javascripts/api/viz_v1.js';                    
vizElement.parentNode.insertBefore(scriptElement, vizElement);                </script>'''

HTML(embed)

### 6. Relatório Geral.

Observando todos estes dados, vemos que no ano de 2023, até o mês de outubro, tivemos os seguintes pontos: 

1. Os tickers analisados em maioria tiveram 5 meses com indicadores em alta e 5 em baixa.
2. Muitas das grandes variações se deram por políticas internas e externas, principalmente quando se tratam da indústria de metais como visto na GGBR4.
3. Dos analisados, os que tiveram maiores flutuações de volume negociado (em porcentagem) foram PETR4 e VALE3, em muitos casos devido a políticas externas.
4. As menores variações de fechamento foram TOTS3 e KNIP11. 
5. VALE3 perdeu muito de seu valor saindo de uma média de fechamento de 90 para uma de 60 que se estabilizou durante o periodo observado.
6. PETR4 teve alta durante o ano e se mantém entre 32~35 em média de fechamento.
7. Os ETFs observados não foram muito atrativos durante o período para o mercado brasileiro e não tiveram um grande volume negociado.
8. PETR4 teve a melhor volatilidade dentre os observados tendo menos períodos negativos.

### 7. Conclusão e recomendações

Sensibilidade a políticas: É essencial ter cautela ao lidar com ações como PETR4, VALE3 e GGBR4 durante períodos de turbulência política, já que seus preços demonstraram volatilidade em resposta a eventos dessa natureza.

Impacto da Ibovespa: Durante quedas da Ibovespa, a maioria das ações na carteira sofreu, com TOTS3 se destacando como particularmente afetada. No entanto, é digno notar que os ETFs se mantiveram relativamente estáveis mesmo em dias de quedas significativas, o que pode indicar uma estratégia de mitigação de riscos a ser considerada.

Fundo IRDM11: A análise sugere que o fundo IRDM11 pode não ser a escolha mais transparente, especialmente em relação à divulgação de informações durante períodos de queda. A falta de clareza quanto aos motivos das quedas pode ser uma preocupação para investidores em potencial.

Altas e Quedas em eventos específicos: Observou-se que as maiores altas ocorreram em períodos de anúncios de dividendos, enquanto as maiores quedas coincidiram com a divulgação de relatórios de desempenho. Esses eventos parecem desempenhar um papel significativo na dinâmica do mercado.

Influência da Indústria de Metais Chinesa: VALE3 e GGBR4 demonstraram uma forte dependência da indústria de metais chinesa, o que pode ser um fator importante a ser considerado ao avaliar o desempenho dessas ações.

Influência Estrangeira e Nacional: Concluímos que o mercado brasileiro foi altamente influenciado por eventos internacionais, com um destaque para a importância das políticas dos Estados Unidos e da China. Contrariamente, eventos domésticos, exceto declarações presidenciais, tiveram um impacto relativamente menor. Portanto, é aconselhável manter um olhar atento sobre o que ocorre nos cenários políticos dessas duas nações, uma vez que suas decisões podem ditar as futuras variações na nossa bolsa de valores.