## Imports and Defs

In [51]:
import assets.helper as b3
import assets.functions as run

from typing import Dict, Union, List, Optional, Any

import pandas as pd
import numpy as np
import plotly.express as px
import os
import plotly.io as pio
import plotly.graph_objects as go
import plotly.graph_objects as go
from plotly.graph_objs import Figure
from plotly.subplots import make_subplots


## Content

#### Merge Mix and Match all

In [None]:
try:
    math = run.load_pkl(f'{b3.app_folder}math')
except Exception as e:
    math = run.get_math()
    math = run.save_pkl(math, f'{b3.app_folder}math')


In [None]:

try:
    setorial = run.load_pkl(f'{b3.app_folder}setorial')
except Exception as e:
    setorial = run.get_classificacao_setorial(setorial='')
    setorial = run.save_pkl(setorial, f'{b3.app_folder}setorial')
# setorial.head(3)

In [None]:

try:
    b3_cvm = run.load_pkl(f'{b3.app_folder}b3_cvm')
except Exception as e:
    b3_cvm = run.b3_grab(b3.search_url)
    b3_cvm = run.save_pkl(b3_cvm, f'{b3.app_folder}b3_cvm')


In [None]:
# SETOR: O setor econômico mais amplo ao qual a empresa pertence.
# SUBSETOR: Uma categorização mais específica dentro do setor mais amplo.
# SEGMENTO: Uma classificação ainda mais granular do negócio da empresa.
# DENOM_CIA: Esta é a denominação ou nome da empresa.
# COMPANHIA: Nome ou denominação oficial da empresa listada.
# PREGAO: Refere-se ao nome pelo qual a empresa é conhecida no pregão da bolsa de valores.
# LISTAGEM: Categoria ou segmento de listagem da empresa na bolsa de valores, que pode indicar o nível de governança corporativa ou outros critérios.
# TICK: Abreviação ou símbolo da empresa usada no mercado de ações.
# TICKERS: Símbolos de negociação da empresa em diferentes mercados ou plataformas.
# CD_CVM: Este poderia ser um código ou identificador único relacionado à empresa, possivelmente relacionado à Comissão de Valores Mobiliários do Brasil (CVM).
# CVM: Código ou identificador relacionado à empresa na Comissão de Valores Mobiliários, o órgão regulador do mercado de capitais no Brasil.
# ISIN: Número de Identificação Internacional de Valores Mobiliários – um identificador único para valores mobiliários.
# CNPJ_CIA: Este é o número do Cadastro Nacional da Pessoa Jurídica (CNPJ) da empresa, um identificador único para empresas no Brasil.
# CNPJ: Cadastro Nacional da Pessoa Jurídica – é o número de identificação das empresas brasileiras.
# SITE: Site oficial ou página relevante da empresa.
# ATIVIDADE: Descreve a principal atividade de negócios da empresa.

# ANO: Este é o ano ao qual os dados se referem.
# DT_REFER: Esta é a data de referência para a entrada de dados.
# DT_FIM_EXERC: Esta é a data final para o exercício ou período de relato financeiro.
# DT_INI_EXERC: Esta poderia ser a data inicial para o exercício ou período de relato financeiro.

# AGRUPAMENTO: Isso descreve o nível de agregação dos dados. Por exemplo, 'con' pode indicar dados consolidados.
# BALANCE_SHEET: Isso indica a seção específica da demonstração financeira, como Balanço Patrimonial ('BPA').
# GRUPO_DFP: Isso representa o tipo de grupo de demonstração financeira. Por exemplo, 'DF Consolidado - Balanço Patrimonial Ativo' sugere que é um balanço patrimonial consolidado focado em ativos.
# CD_CONTA: Este poderia ser um código ou identificador único relacionado a uma conta específica ou item de linha na demonstração financeira.
# DS_CONTA: Descreve a conta específica ou item de linha na demonstração financeira, como 'Ativo Total'.

# VL_CONTA: Representa o valor associado à conta específica ou item de linha.
# MOEDA: Isso indica a moeda na qual os valores são representados. 'REAL' sugere Real Brasileiro.
# ESCALA_MOEDA: Isso fornece a escala ou unidade para os valores monetários. 'MIL' pode indicar que os valores estão em milhares.

# ST_CONTA_FIXA: Pode indicar o status ou tipo de conta. O significado de valores como 'S' dependeria do contexto dos dados.
# COLUNA_DF: O propósito desta coluna não é imediatamente claro a partir da amostra. Pode representar algum tipo de classificação ou categorização relacionada aos dados financeiros.

# ESCRITURADOR: Entidade ou empresa responsável por registrar ou gerenciar os valores mobiliários da empresa.
# ACIONISTAS: Informações ou identificadores relacionados aos acionistas da empresa.

# FILENAME: Este é o arquivo de onde os dados são originados. Ele fornece o nome do arquivo que contém a respectiva entrada de dados.
# DEMONSTRATIVO: Este representa o tipo de demonstração financeira. Pode indicar se os dados são de um relatório intermediário (como 'itr') ou de outro tipo de relatório financeiro.
# VERSAO: Isso pode representar a versão ou iteração dos dados/relatórios financeiros.

columns = [
    'SETOR_x',
    'SUBSETOR_x',
    'SEGMENTO_x',
    'DENOM_CIA',
        # 'COMPANHIA',
    'PREGAO',
    'LISTAGEM',
    'TICK',
    'TICKERS',
    'CD_CVM',
        # 'CVM',
        # 'ISIN',
    'CNPJ_CIA',
        # 'CNPJ',
    'SITE',
    'ATIVIDADE',
        # 'ANO',
    'DT_REFER',
        # 'DT_FIM_EXERC',
        # 'DT_INI_EXERC',
    'AGRUPAMENTO',
    'BALANCE_SHEET',
    # 'GRUPO_DFP',
    'CD_CONTA',
    'DS_CONTA',
    'VL_CONTA',
    # 'MOEDA',
    # 'ESCALA_MOEDA',
    # 'ST_CONTA_FIXA',
    # 'COLUNA_DF',
    'ESCRITURADOR',
    'ACIONISTAS', 
    # 'FILENAME', 
    # 'DEMONSTRATIVO', 
    # 'VERSAO',
]


In [None]:
b3_cvm.keys()

In [None]:
columns = ['FILENAME', 'DEMONSTRATIVO', 'BALANCE_SHEET', 'ANO', 'AGRUPAMENTO',
       'CNPJ_CIA', 'DT_REFER', 'VERSAO', 'DENOM_CIA', 'CD_CVM', 'GRUPO_DFP',
       'MOEDA', 'ESCALA_MOEDA', 'DT_FIM_EXERC', 'CD_CONTA', 'DS_CONTA',
       'VL_CONTA', 'ST_CONTA_FIXA', 'DT_INI_EXERC', 'COLUNA_DF', 'COMPANHIA',
       'PREGAO', 'TICK', 'LISTAGEM', 'TICKERS', 'ISIN', 
       'ATIVIDADE', 'SETOR', 'SUBSETOR', 'SEGMENTO', 'SITE', 'ESCRITURADOR',]
df = b3_cvm['CONSUMO CICLICO'][columns].set_index('DT_REFER')
df = convert_columns(df)
df['DENOM_CIA'].unique()

#### Acoes


In [None]:
acoes = run.load_pkl(f'{b3.app_folder}acoes')
# Process the data and return the result
acoes['Trimestre'] = pd.to_datetime(acoes['Trimestre'], errors='coerce', dayfirst=True)
acoes['BALANCE_SHEET'] = 'STK'
column_mapping = {
    'Ações ON': '00.01.01',
    'Ações PN': '00.02.01',
    'Ações ON em Tesouraria': '00.01.02',
    'Ações PN em Tesouraria': '00.02.02'
}
acoes = acoes.rename(columns={"Companhia": "DENOM_CIA", "Trimestre": "DT_REFER"})

acoes = acoes.melt(id_vars=['DENOM_CIA', 'DT_REFER', 'BALANCE_SHEET'], 
                        value_vars=['Ações ON', 'Ações PN', 'Ações ON em Tesouraria', 'Ações PN em Tesouraria'],
                        var_name='DS_CONTA', value_name='VL_CONTA').sort_values(by=['DENOM_CIA', 'DT_REFER', 'DS_CONTA'])

acoes['CD_CONTA'] = acoes['DS_CONTA'].map(column_mapping)


In [None]:
intel_b3 = run.load_pkl(f'{b3.app_folder}intel_b3')
df = intel_b3['BENS INDUSTRIAIS']


In [None]:
company = 'ARMAC LOCACAO LOGISTICA E SERVICOS SA'
quarter = '2019-12-31'
mc = acoes['DENOM_CIA'] == company
mc &= acoes['DT_REFER'] == quarter
acoesc = acoes[mc]

mc = df['DENOM_CIA'] == company
mc &= df['DT_REFER'] == quarter
dfc = df[mc]

df_ffill = pd.concat([dfc, acoesc], ignore_index=True).ffill()

In [None]:
def process_stock_data(group):
    company, quarter = group.name
    
    # Filter acoes based on company and quarter
    mc = acoes['DENOM_CIA'] == company
    mc &= acoes['DT_REFER'] == quarter
    acoesc = acoes[mc]

    # Concatenate and ffill
    return pd.concat([group, acoesc], ignore_index=True).ffill()

result_df


In [None]:

df_ffill

In [None]:
intelacoes = {}
for setor, df in intel_b3.items():
    print(setor)
    df_concat = pd.concat([df.set_index(['DENOM_CIA', 'DT_REFER']), acoes.set_index(['DENOM_CIA', 'DT_REFER'])], axis=0, sort=False).reset_index()
    filled_df = df_concat.groupby(['DENOM_CIA', 'DT_REFER'], group_keys=False).apply(lambda group: group.ffill().bfill()).reset_index()
    intelacoes[setor] = filled_df


In [None]:
# Concatenate them vertically
df_concat = pd.concat([df.set_index(['DENOM_CIA', 'DT_REFER']), acoes.set_index(['DENOM_CIA', 'DT_REFER'])], axis=0, sort=False).reset_index()

In [None]:
filled_df = df_concat.groupby(['DENOM_CIA', 'DT_REFER'], group_keys=False).apply(lambda group: group.ffill().bfill()).reset_index()


In [None]:
m = filled_df['DENOM_CIA'] == 'ARMAC LOCACAO LOGISTICA E SERVICOS SA'
m &= filled_df['DT_REFER'] == '2019-12-31'
m &= filled_df['BALANCE_SHEET'] == 'STK'

filled_df[m][cols]

#### Intel


In [None]:
b3_cvm = run.load_pkl(f'{b3.app_folder}b3_cvm')


In [None]:
column_types = {'index': 'int',
 'FILENAME': 'category',
 'DEMONSTRATIVO': 'category',
 'BALANCE_SHEET': 'category',
 'ANO': 'category',
 'AGRUPAMENTO': 'category',
 'CNPJ_CIA': 'category',
 'DT_REFER': 'object',
 'VERSAO': 'category',
 'DENOM_CIA': 'category',
 'CD_CVM': 'category',
 'GRUPO_DFP': 'category',
 'MOEDA': 'category',
 'ESCALA_MOEDA': 'category',
 'DT_FIM_EXERC': 'object',
 'CD_CONTA': 'category',
 'DS_CONTA': 'category',
 'VL_CONTA': 'float',
 'ST_CONTA_FIXA': 'category',
 'DT_INI_EXERC': 'object',
 'COLUNA_DF': 'category',
 'COMPANHIA': 'category',
 'PREGAO': 'category',
 'TICK': 'category',
 'LISTAGEM': 'category',
 'CVM': 'category',
 'TICKERS': 'category',
 'ISIN': 'category',
 'CNPJ': 'category',
 'ATIVIDADE': 'category',
 'SETOR': 'category',
 'SUBSETOR': 'category',
 'SEGMENTO': 'category',
 'SITE': 'category',
 'ESCRITURADOR': 'category',
 'CD_CONTA_original': 'category',
 'DS_CONTA_original': 'category'}
date_columns = ['DT_REFER', 'DT_FIM_EXERC', 'DT_INI_EXERC']


In [None]:
df = pd.read_csv('BENS INDUSTRIAIS_intel.csv', dtype=column_types, index_col='Unnamed: 0', parse_dates=True)
# df = pd.read_csv('COMUNICACOES_df.csv')
# df_typed = pd.read_csv(f)


In [None]:
# Criando um dicionário onde as chaves são os nomes das colunas e os valores são os valores únicos para cada coluna
col_dict = {col: df[col].unique().tolist() for col in df.columns}
df.columns

In [None]:
col_dict['BALANCE_SHEET']

In [None]:
df = df[['CNPJ_CIA', 'DENOM_CIA', 'DT_REFER', 'CD_CONTA', 'DS_CONTA', 'VL_CONTA', 'SETOR', 'SUBSETOR', 'SEGMENTO', 'DT_INI_EXERC', 'ATIVIDADE', 'SITE', 'ESCRITURADOR', 'FILENAME', 'DEMONSTRATIVO', 'BALANCE_SHEET', 'ANO', 'AGRUPAMENTO', 'VERSAO', 'GRUPO_DFP', 'MOEDA', 'ESCALA_MOEDA', 'ST_CONTA_FIXA', 'COLUNA_DF', 'COMPANHIA', 'TICKERS', 'CVM', 'ISIN', 'DT_FIM_EXERC', ]]
# 'PREGAO', 'TICK', 'CD_CVM', 'LISTAGEM', # 'CD_CONTA_original', 'DS_CONTA_original', 
df

In [None]:
formulas_old = [
    # Relações Entre Ativos e Passivos
    ('_020302_reservas_de_capital', '_020303_reservas_de_reavaliacao', '_020304_reservas_de_lucros'),
    # Dívida
    ('_0201040101_emprestimos_e_financiamentos_em_moeda_nacional', '_0201040102_emprestimos_e_financiamentos_em_moeda_estrangeira', '_02010402_debentures', '_02010403_arrendamentos', '_02010409_outros_emprestimos_financiamentos_e_debentures'),
    ('_0202010101_emprestimos_e_financiamentos_em_moeda_nacional', '_0202010102_emprestimos_e_financiamentos_em_moeda_estrangeira', '_02020102_debentures', '_02020103_arrendamentos', '_02020209_outros_emprestimos_financiamentos_e_debentures'),
    ('_0201040102_emprestimos_e_financiamentos_em_moeda_estrangeira', '_0202010102_emprestimos_e_financiamentos_em_moeda_estrangeira'),
    ('_010101_caixa_e_disponibilidades_de_caixa',),
    ('_010202_investimentos_nao_capex', '_010203_imobilizados', '_010204_intangivel'),
    ('_0305_lajir_ebit_resultado_antes_do_resultado_financeiro_e_dos_tributos', '_070401_depreciacao_e_amortizacao'),
    # Resultados Fundamentalistas
    ('_0203_patrimonio_liquido',),
    ('_010101_caixa_e_disponibilidades_de_caixa',),
    ('_070803_remuneracao_de_capital_de_terceiros', '_070804_remuneracao_de_capital_proprio'),
    # Análise do Fluxo de Caixa
    ('_0601_caixa_das_operacoes', '_0602_caixa_de_investimentos_capex'),
    ('_0603_caixa_de_financiamento',),
    ('_060201_investimentos', '_060202_imobilizado_e_intangivel'),
]

def de_transform_corrected(key):
    # Strip the leading underscore and split at the first underscore
    parts = key[1:].split('_', 1)

    # Adjust code by inserting periods every two characters
    code = '.'.join([parts[0][i:i+2] for i in range(0, len(parts[0]), 2)])
    
    # Adjust description capitalization
    description = ' '.join([word.capitalize() if word not in ['e', 'de', 'do', 'dos', 'da', 'das', 'em'] else word.lower() for word in parts[1].split('_')])
    
    return code, description

# De-transform the formulas using the corrected function
formulas = []
for group in formulas_old:
    new_group = []
    for key in group:
        new_group.append(de_transform_corrected(key))
    formulas.append(tuple(new_group))

formulas


In [None]:
balance_sheet = df.groupby(['CNPJ_CIA', 'DT_REFER'], group_keys=True)
balance_sheet.groups.keys()
df_ = balance_sheet.get_group(('00.242.184/0001-04', '2019-12-31'))


In [None]:
# (, 'Emprestimos e Financiamentos em Moeda Estrangeira'),
m = df['CD_CONTA'] == '07.08.04'
df[m]

##### Dados Abertos

In [None]:
def read(file):
    path = "C:\\Users\\faust\\OneDrive\\Área de Trabalho\\dados abertos\\"
    df = pd.read_csv(path+file+".csv", sep=';', encoding='latin1')
    return df.head(25)



In [None]:
file = "fca_cia_aberta_2010"
fca_cia_aberta_2010 = read(file)
# link para o NSD do formulário cadastral
fca_cia_aberta_2010

In [None]:
file = "fca_cia_aberta_auditor_2010"
fca_cia_aberta_auditor_2010 = read(file)
# informações dos auditores CNPJ e CPF, datas dos auditores CPF
fca_cia_aberta_auditor_2010

In [None]:
file = "fca_cia_aberta_canal_divulgacao_2010"
fca_cia_aberta_canal_divulgacao_2010 = read(file)
# Onde as DRE são divulgadas
fca_cia_aberta_canal_divulgacao_2010

In [None]:
file = "fca_cia_aberta_departamento_acionistas_2010"
fca_cia_aberta_departamento_acionistas_2010 = read(file)
# Endereços dos DRI
fca_cia_aberta_departamento_acionistas_2010

In [None]:
file = "fca_cia_aberta_dri_2010"
fca_cia_aberta_dri_2010 = read(file)
# NOMES e endereços dos DRI
fca_cia_aberta_dri_2010

In [None]:
file = "fca_cia_aberta_endereco_2010"
fca_cia_aberta_endereco_2010 = read(file)
# Endereço completo do DRI
fca_cia_aberta_endereco_2010

In [None]:
file = "fca_cia_aberta_geral_2010"
fca_cia_aberta_geral_2010 = read(file)
# Cadastro CVM, Atividade, Descrição e Controle Acionário
fca_cia_aberta_geral_2010

In [None]:
file = "fca_cia_aberta_pais_estrangeiro_negociacao_2010"
fca_cia_aberta_pais_estrangeiro_negociacao_2010 = read(file)
# País estrangeiro... ?
fca_cia_aberta_pais_estrangeiro_negociacao_2010

In [None]:
file = "fca_cia_aberta_valor_mobiliario_2010"
fca_cia_aberta_valor_mobiliario_2010 = read(file)
# Valor mobiliário, Mercado e Segmento
fca_cia_aberta_valor_mobiliario_2010

In [None]:
file = "fre_cia_aberta_2023"
fre_cia_aberta_2023 = read(file)
# Link do Documento
fre_cia_aberta_2023

In [None]:
file = "fre_cia_aberta_acao_entregue_2023"
fre_cia_aberta_acao_entregue_2023 = read(file)
# Remuneração da Diretoria
fre_cia_aberta_acao_entregue_2023

In [None]:
file = "fre_cia_aberta_administrador_declaracao_genero_2023"
fre_cia_aberta_administrador_declaracao_genero_2023 = read(file)
# Gênero dos administradores
fre_cia_aberta_administrador_declaracao_genero_2023

In [None]:
file = "fre_cia_aberta_administrador_declaracao_raca_2023"
fre_cia_aberta_administrador_declaracao_raca_2023 = read(file)
# Raça dos administradores
fre_cia_aberta_administrador_declaracao_raca_2023

In [None]:
file = "fre_cia_aberta_administrador_membro_conselho_fiscal_2023"
fre_cia_aberta_administrador_membro_conselho_fiscal_2023 = read(file)
# Membros do Conselho Fiscal
fre_cia_aberta_administrador_membro_conselho_fiscal_2023

In [None]:
file = "fre_cia_aberta_ativo_imobilizado_2023"
fre_cia_aberta_ativo_imobilizado_2023 = read(file)
# Ativos e Propriedades por empresa
fre_cia_aberta_ativo_imobilizado_2023

In [None]:
file = "fre_cia_aberta_ativo_intangivel_2023"
fre_cia_aberta_ativo_intangivel_2023 = read(file)
# Ativos e Propriedades por empresa
fre_cia_aberta_ativo_intangivel_2023

In [None]:
file = "fre_cia_aberta_auditor_2023"
fre_cia_aberta_auditor_2023 = read(file)
# Remuneração por auditor
fre_cia_aberta_auditor_2023

In [None]:
file = "fre_cia_aberta_auditor_responsavel_2023"
fre_cia_aberta_auditor_responsavel_2023 = read(file)
# Endereço do Auditor
fre_cia_aberta_auditor_responsavel_2023

In [None]:
file = "fre_cia_aberta_capital_social_2023"
fre_cia_aberta_capital_social_2023 = read(file)
# Modificações no Capital Social e Ações
fre_cia_aberta_capital_social_2023

In [None]:
file = "fre_cia_aberta_capital_social_aumento_2023"
fre_cia_aberta_capital_social_aumento_2023 = read(file)
# Idem
fre_cia_aberta_capital_social_aumento_2023

In [None]:
file = "fre_cia_aberta_capital_social_aumento_classe_acao_2023"
fre_cia_aberta_capital_social_aumento_classe_acao_2023 = read(file)
# Em branco
fre_cia_aberta_capital_social_aumento_classe_acao_2023

In [None]:
file = "fre_cia_aberta_capital_social_classe_acao_2023"
fre_cia_aberta_capital_social_classe_acao_2023 = read(file)
# Preferencial Classe A, B e C
fre_cia_aberta_capital_social_classe_acao_2023

In [None]:
file = "fre_cia_aberta_capital_social_desdobramento_2023"
fre_cia_aberta_capital_social_desdobramento_2023 = read(file)
# Desdobramentos de Ações
fre_cia_aberta_capital_social_desdobramento_2023

In [None]:
file = "fre_cia_aberta_capital_social_desdobramento_classe_acao_2023"
fre_cia_aberta_capital_social_desdobramento_classe_acao_2023 = read(file)
# em branco
fre_cia_aberta_capital_social_desdobramento_classe_acao_2023

In [None]:
file = "fre_cia_aberta_capital_social_reducao_2023"
fre_cia_aberta_capital_social_reducao_2023 = read(file)
# Redução de capital
fre_cia_aberta_capital_social_reducao_2023

In [None]:
file = "fre_cia_aberta_capital_social_titulo_conversivel_2023"
fre_cia_aberta_capital_social_titulo_conversivel_2023 = read(file)
# Redução de capital
fre_cia_aberta_capital_social_titulo_conversivel_2023

In [None]:
file = "fre_cia_aberta_direito_acao_2023"
fre_cia_aberta_direito_acao_2023 = read(file)
# ?
fre_cia_aberta_direito_acao_2023

In [None]:
file = "fre_cia_aberta_historico_emissor_2023"
fre_cia_aberta_historico_emissor_2023 = read(file)
# Constituição do emissor e local
fre_cia_aberta_historico_emissor_2023

In [None]:
file = "fre_cia_aberta_informacao_financeira_2023"
fre_cia_aberta_informacao_financeira_2023 = read(file)
# DRE Resumido
fre_cia_aberta_informacao_financeira_2023

In [None]:
file = "fre_cia_aberta_membro_comite_2023"
fre_cia_aberta_membro_comite_2023 = read(file)
# CPF e Remuneração
fre_cia_aberta_membro_comite_2023

In [None]:
file = "fre_cia_aberta_obrigacao_2023"
fre_cia_aberta_obrigacao_2023 = read(file)
# Obrigações e Dívidas
fre_cia_aberta_obrigacao_2023

In [None]:
file = "fre_cia_aberta_outro_valor_mobiliario_2023"
fre_cia_aberta_outro_valor_mobiliario_2023 = read(file)
# ?
fre_cia_aberta_outro_valor_mobiliario_2023

In [None]:
file = "fre_cia_aberta_participacao_sociedade_2023"
fre_cia_aberta_participacao_sociedade_2023 = read(file)
# Participações em outras empresas
fre_cia_aberta_participacao_sociedade_2023

In [None]:
file = "fre_cia_aberta_participacao_sociedade_valorizacao_acao_2023"
fre_cia_aberta_participacao_sociedade_valorizacao_acao_2023 = read(file)
# ?
fre_cia_aberta_participacao_sociedade_valorizacao_acao_2023

In [None]:
file = "fre_cia_aberta_posicao_acionaria_2023"
fre_cia_aberta_posicao_acionaria_2023 = read(file)
# Composição acionária por acionista majoritário
fre_cia_aberta_posicao_acionaria_2023[['CNPJ_Companhia', 'Data_Referencia', 'Versao', 'ID_Documento',
       'ID_Acionista', 'Acionista', 'Tipo_Pessoa_Acionista',
       'CPF_CNPJ_Acionista', 'ID_Acionista_Relacionado',
       'Acionista_Relacionado', 'Tipo_Pessoa_Acionista_Relacionado',
       'CPF_CNPJ_Acionista_Relacionado',
       'Quantidade_Acao_Ordinaria_Circulacao',
       'Percentual_Acao_Ordinaria_Circulacao',
       'Quantidade_Acao_Preferencial_Circulacao',
       'Percentual_Acao_Preferencial_Circulacao',
       'Quantidade_Total_Acoes_Circulacao',
       'Percentual_Total_Acoes_Circulacao', ]]
# fre_cia_aberta_posicao_acionaria_2023.columns


In [None]:
file = "fre_cia_aberta_relacao_familiar_2023"
fre_cia_aberta_relacao_familiar_2023 = read(file)
# Parentescos
fre_cia_aberta_relacao_familiar_2023

In [None]:
file = "fre_cia_aberta_relacao_subordinacao_2023"
fre_cia_aberta_relacao_subordinacao_2023 = read(file)
# Subordnicação 
fre_cia_aberta_relacao_subordinacao_2023

In [None]:
file = "fre_cia_aberta_transacao_parte_relacionada_2023"
fre_cia_aberta_transacao_parte_relacionada_2023 = read(file)
# Partes relacionadas
fre_cia_aberta_transacao_parte_relacionada_2023

In [None]:
file = "fre_cia_aberta_2023"
fre_cia_aberta_2023 = read(file)
# Link do Documento
fre_cia_aberta_2023

In [None]:
def plot_group(cias_por_setor, window):
    for company, group_df in cias_por_setor:
        try:
            # Calculate the moving average for the last 4 periods
            group_df['MA'] = group_df['VL_CONTA'].rolling(window=window).mean()
            
            # Calculate the rolling sum for the last 4 periods
            group_df['Rolling_Sum'] = group_df['VL_CONTA'].rolling(window=window).sum()
            
            # Calculate the lifelong cumulative sum
            group_df['Cumulative_Sum'] = group_df['VL_CONTA'].cumsum()
            
            # Plot raw data
            # group_df['VL_CONTA'].plot(label='Raw Data', legend=True)

            # Plot moving average
            group_df['MA'].plot(label=f'{window} Quarters Moving Average', legend=True, linestyle='--')
            
            # Plot rolling sum
            group_df['Rolling_Sum'].plot(label=f'{window} Quarters Sum', legend=True, linestyle='-.')
            
            # Plot lifelong cumulative sum
            group_df['Cumulative_Sum'].plot(label='Lifelong Cumulative Sum', legend=True, linestyle='-.')

            plt.title(f"{group_df['CD_CVM'].iloc[-1]} {group_df['DENOM_CIA'].iloc[-1]}")
            plt.show()
        except Exception as e:
            print(f"Error plotting for {company}: {e}")
    return True

cias_por_setor = df[(df['AGRUPAMENTO'] == 'con') & (df['CD_CONTA'] == '3.11')].groupby('CD_CVM')
plot_group(cias_por_setor, window)

In [None]:
import matplotlib.pyplot as plt

cias_por_setor = df[(df['AGRUPAMENTO'] == 'con') & (df['CD_CONTA'] == '2.03')].groupby('DENOM_CIA')

fig, ax = plt.subplots(figsize=(10, 6))

for company, group_df in cias_por_setor:
    try:
        group_df[['VL_CONTA']].plot(ax=ax, label=company)
    except:
        print(company)

ax.set_title("VL_CONTA by Company")
ax.set_ylabel("VL_CONTA")
ax.set_xlabel("Index")
ax.legend(loc="best")

plt.show()


#### Intelacoes Fundamentalista

In [None]:
intelacoes = run.load_pkl(f'{b3.app_folder}intelacoes')
intelacoes.keys()

In [None]:
df = pd.read_pickle('BENS INDUSTRIAIS_intelacoes.pkl')
# df.to_csv('BENS INDUSTRIAIS_intelacoes.csv')

In [None]:
columns = ['Unnamed: 0', 'FILENAME', 'DEMONSTRATIVO', 'BALANCE_SHEET', 'ANO',
       'AGRUPAMENTO', 'CNPJ_CIA', 'DT_REFER', 'VERSAO', 'DENOM_CIA', 'CD_CVM',
       'GRUPO_DFP', 'MOEDA', 'ESCALA_MOEDA', 'DT_FIM_EXERC', 'CD_CONTA',
       'DS_CONTA', 'VL_CONTA', 'ST_CONTA_FIXA', 'DT_INI_EXERC', 'COLUNA_DF',
       'COMPANHIA', 'PREGAO', 'TICK', 'LISTAGEM', 'CVM', 'TICKERS', 'ISIN',
       'CNPJ', 'ATIVIDADE', 'SETOR', 'SUBSETOR', 'SEGMENTO', 'SITE',
       'ESCRITURADOR', 'CD_CONTA_original', 'DS_CONTA_original', 'Companhia',
       'Trimestre', 'Ações ON', 'Ações PN', 'Ações ON em Tesouraria',
       'Ações PN em Tesouraria', 'URL']
cols = ['SETOR', 'SUBSETOR', 'SEGMENTO', 'CNPJ_CIA', 'DENOM_CIA', 'CD_CVM',  'PREGAO', 'TICK', 'LISTAGEM', 'TICKERS', 'DT_REFER', 'BALANCE_SHEET', 'CD_CONTA', 'DS_CONTA', 'VL_CONTA', ]
datetime_cols = ['DT_REFER', 'DT_FIM_EXERC', 'DT_INI_EXERC', 'Trimestre']
company_cols = ['SETOR', 'SUBSETOR', 'SEGMENTO', 'CNPJ_CIA', 'DENOM_CIA', 'CD_CVM']
dateseries_col = ['DT_REFER']
sheet_cols = ['BALANCE_SHEET', 'CD_CONTA', 'DS_CONTA', 'VL_CONTA']
stocks_cols = ['Ações ON', 'Ações PN', 'Ações ON em Tesouraria', 'Ações PN em Tesouraria']


In [None]:
# Grouping by 'SETOR', 'SUBSETOR', and 'SEGMENTO' to count unique companies and aggregate their TICK values
ticks_by_setor = df.groupby(['SETOR', 'SUBSETOR', 'SEGMENTO']).agg({
    'DENOM_CIA': 'nunique',
    'TICK': lambda x: list(set(x.dropna()))
}).reset_index()

# Renaming columns for clarity
ticks_by_setor.rename(columns={'DENOM_CIA': 'TOTAL DE COMPANHIAS'}, inplace=True)

ticks_by_setor


In [None]:
conta = '02.03'

# Filtering the data for the account 'CD_CONTA' with value '02.03' and the latest quarter
conta_by_setor = df[df['DT_REFER'] == df['DT_REFER'].max()]
conta_by_setor = conta_by_setor[conta_by_setor['CD_CONTA'] == conta]

# Grouping by 'SETOR', 'SUBSETOR', and 'SEGMENTO' to aggregate 'VL_CONTA' values
conta_by_setor = conta_by_setor.groupby(['SETOR', 'SUBSETOR', 'SEGMENTO', ]).agg({
    'VL_CONTA': ['nunique', 'sum', 'max', 'min', 'mean', 'std', 'skew', lambda x: x.kurt()]
}).reset_index()

conta_by_setor.rename(columns={'VL_CONTA': conta}, inplace=True)

conta_by_setor


In [None]:
dfc = df
# dfc = dfc.set_index('DT_REFER')
company = 'WEG SA'
quarter = '2020-12-31'
conta = '01.01.01'

In [None]:
mask = dfc['DENOM_CIA'] != 'nothing'
mask &= dfc['DT_REFER'] == quarter
mask &= dfc['DENOM_CIA'] == company
# mask &= dfc['PREGAO'] == ''
# mask &= dfc['TICK'] == ''
# mask &= dfc['BALANCE_SHEET'] == ''
mask &= dfc['CD_CONTA'] == conta
# mask &= dfc['DS_CONTA'] == ''

# dfc[mask][cols]
data = dfc[mask][['DENOM_CIA', 'DT_REFER', 'CD_CONTA', 'DS_CONTA', 'VL_CONTA']].set_index('DT_REFER')
sheet = df[(df['DENOM_CIA'] == company) & (df['DT_REFER'] == quarter)]
data

In [None]:
dfc = pd.concat([dfc, rows], ignore_index=True).ffill().drop_duplicates()
m = dfc['BALANCE_SHEET'].isin(sh)
dfc[m][cols]

#### Fund

In [None]:
fund = load_pkl(f'{b3.app_folder}fund')


In [None]:
df = pd.read_pickle('BENS INDUSTRIAIS_fund.pkl')

In [None]:
df.to_csv('BENS INDUSTRIAIS_fund.csv')

In [None]:
df.columns

In [None]:
df['TICKERS'].unique().tolist()

#### Macro Data

In [None]:
!pip install yfinance -q -U

In [None]:
import yfinance as yf

In [None]:
# Baixando Cotações do Índice Bovespa
ibov = yf.download('^BVSP')
df = yf.download(['WEGE3.SA','BBDC4.SA', 'PETR4.SA'], group_by='ticker')

In [None]:
print(type(df['WEGE3.SA']['Adj Close']))
tickers = df.columns.get_level_values(0).unique().tolist()
tickers

In [None]:
for tick in tickers:
    df[tick]['Adj Close'].plot()

In [None]:
!pip install -q alpha_vantage
# Importando a classe Timeseries de alpha_vantage.timeseries
from alpha_vantage.timeseries import TimeSeries

In [None]:
ALPHAVANTAGE_API_KEY = 'KR3OMFL1CLANZUXP'
# Criando o objeto ts
ts = TimeSeries(key=ALPHAVANTAGE_API_KEY, output_format='pandas')

In [None]:
dados, meta_dados = ts.get_symbol_search('alphabet')
dados

In [None]:
# Obtendo os dados semanais do IBOV usando get_weekly
dados, meta_dados = ts.get_daily(symbol='AAPL', )
dados['4. close']

In [None]:
meta_dados

In [None]:
! pip install quandl -q -U

In [None]:
import quandl
mydata = quandl.get("FRED/GDP")
api = 'LpAz8JCUosdwhHqnWnA4'

In [None]:
mydata = quandl.get_table('ZACKS/FC', ticker='AAPL',)
mydata

In [None]:
mydata.plot()

In [None]:
# pandas datareader
import os
import pandas_datareader as pdr


In [None]:
TIINGO_API_KEY = '591375a6e5852ca48f778902fec322581511c89a'
import tiingo

config = {}
config['session'] = True
config['api_key'] = TIINGO_API_KEY
client = tiingo.TiingoClient(config)



In [None]:
import requests

TIINGO_API_KEY = '591375a6e5852ca48f778902fec322581511c89a'
url = 'https://api.tiingo.com/tiingo/fundamentals/definitions'
url = 'https://api.tiingo.com/tiingo/daily/AAPL/prices?startDate=2012-1-1'
# url = 'https://api.tiingo.com/tiingo/daily/AAPL/prices'

headers = {
    'Content-Type': 'application/json',
    'Authorization': 'Token ' + TIINGO_API_KEY
}

response = requests.get(url, headers=headers)

data = response.json()
data = pd.DataFrame(data)


In [None]:
data['close'].plot()

In [None]:
df = pdr.DataReader('GE', 'yahoo')
df

#### Get Yahoo CSV

iterrow in fund and get same key from both dict to concat both and remove duplicates

save quotes

#### Integrate fund to quotes

Integrate funds to quotes, so each TICK contains quotes and also also all financial data

In [3]:
quotes = run.load_pkl(f'{b3.app_folder}quotes')
fund = run.load_pkl(f'{b3.app_folder}fund')


In [4]:
quotes.keys(), quotes['AERIS'].keys()

(dict_keys(['AERIS', 'ESTAPAR', 'ARMAC', 'ATMASA', 'AZUL', 'BARDELLA', 'CCR SA', 'ECORODOVIAS', 'ACO ALTONA', 'EMBPAR S/A', 'EMBRAER', 'ETERNIT', 'FRAS-LE', 'GPS', 'HAGA S/A', 'HIDROVIAS', 'ROMI', 'JSL', 'KEPLER WEBER', 'LOG-IN', 'MARCOPOLO', 'METALFRIO', 'RIOSULENSE', 'METISA', 'MILLS', 'MINASMAQUINA', 'NORDON MET', 'PORTOBELLO', 'PORTO VM', 'PRINER', 'RANDON PART', 'RECRUSUL', 'RUMO S.A.', 'SANTOS BRP', 'SCHULZ', 'SEQUOIA LOG', 'SONDOTECNICA', 'TAURUS ARMAS', 'TEGMA', 'TRIUNFO PART', 'TREVISA', 'VALID', 'WEG', 'WETZEL S/A', 'WILSON SONS', 'WLM IND COM', 'BRISANET', 'BRITANIA', 'DESKTOP', 'TELEBRAS', 'TELEF BRASIL', 'UNIFIQUE', 'ALLIED', 'ALPARGATAS', 'AMERICANAS', 'ANIMA', 'AREZZO CO', 'BAHEMA', 'BAHIAPCH', 'BIC MONARK', 'ZAMP S.A.', 'CEA MODAS', 'CEABS', 'CAMBUCI', 'CEDRO', 'COTEMINAS', 'SANTANENSE', 'COGNA ON', 'TENDA', 'TENDA ATACAD', 'FICA', 'CRUZEIRO EDU', 'CURY S/A', 'CYRELA REALT', 'DIRECIONAL', 'DOHLER', 'DOTZ SA', 'EVEN', 'EZTEC', 'GRENDENE', 'GRUPO SOMA', 'GRUPO SBF', 'GUAR

In [5]:
bigdata = []
for pregao, d in quotes.items():
    for ticker, df in d.items():
        try:
            df.insert(0, 'PREGAO', pregao)
        except Exception as e:
            df['PREGAO'] = pregao  # Update 'PREGAO' column
        
        try:
            df['TICKER'] = ticker  # Update 'TICKER' column
        except Exception as e:
            df.insert(1, 'TICKER', ticker)

        bigdata.append(df)
bigdata = pd.concat(bigdata, ignore_index=False)
bigdata


Unnamed: 0_level_0,PREGAO,Open,High,Low,Close,Adj Close,Volume,TICKER
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2020-11-12,AERIS,6.72,7.090000,6.050000,6.100000,6.078847,10719500.0,AERI3
2020-11-13,AERIS,6.09,6.480000,6.070000,6.420000,6.397738,2830900.0,AERI3
2020-11-16,AERIS,6.53,6.980000,6.530000,6.800000,6.77642,5568700.0,AERI3
2020-11-17,AERIS,6.90,7.050000,6.720000,6.730000,6.706663,3922900.0,AERI3
2020-11-18,AERIS,6.84,6.860000,6.540000,6.730000,6.706663,1352500.0,AERI3
...,...,...,...,...,...,...,...,...
2023-09-19,GER PARANAP,25.76,26.540001,25.370001,25.370001,25.370001,2500.0,GEPA4
2023-09-20,GER PARANAP,25.50,25.500000,25.370001,25.370001,25.370001,1100.0,GEPA4
2023-09-21,GER PARANAP,25.35,25.350000,25.010000,25.010000,25.01,600.0,GEPA4
2023-09-22,GER PARANAP,25.25,25.250000,25.250000,25.250000,25.25,100.0,GEPA4


In [6]:
fund.keys()


dict_keys(['BENS INDUSTRIAIS', 'COMUNICACOES', 'CONSUMO CICLICO', 'CONSUMO NAO CICLICO', 'FINANCEIRO', 'MATERIAIS BASICOS', 'NAO CLASSIFICADOS', 'Nenhum', 'OUTROS', 'PETROLEO GAS E BIOCOMBUSTIVEIS', 'SAUDE', 'TECNOLOGIA DA INFORMACAO', 'UTILIDADE PUBLICA'])

In [7]:
# Load data subset
df_fund = fund['BENS INDUSTRIAIS']

# Data preprocessing
# Convert specific columns to object type
df_fund[['VERSAO', 'CD_CVM']] = df_fund[['VERSAO', 'CD_CVM']].astype('object')

# Convert 'DT_REFER' to datetime format
df_fund['DT_REFER'] = pd.to_datetime(df_fund['DT_REFER'])

# Pivot for CD_CONTA
df_cd_conta = df_fund.pivot_table(index=['DT_REFER', 'PREGAO'], 
                                  columns=['CD_CONTA', 'DS_CONTA'], 
                                  values='VL_CONTA', 
                                  aggfunc='sum').reset_index()

# Flatten the multi-level columns after pivot
df_cd_conta.columns = [' - '.join(col).strip(' - ') for col in df_cd_conta.columns.values]

# Extract unique combinations of DT_REFER and PREGAO without the account details and get an unique mapping between the dates, PREGAO, and the pivoted account data.
df_unique = df_fund.reset_index(drop=True).drop_duplicates(subset=['DT_REFER', 'PREGAO']).drop(['CD_CONTA', 'DS_CONTA', 'VL_CONTA'], axis=1)
df_merged = pd.merge(df_unique, df_cd_conta, on=['DT_REFER', 'PREGAO'])

# Set index and handle missing values
df_merged = df_merged.set_index(['DT_REFER', 'PREGAO'], drop=True)

# Group by 'PREGAO' and apply resampling
df_resampled = (
    df_merged
    .reset_index()
    .groupby('PREGAO')
    .apply(lambda group: group.set_index('DT_REFER').resample('D').asfreq().ffill().bfill().fillna(0))
    .drop('PREGAO', axis=1)  # Drop the redundant 'PREGAO' column introduced by `groupby`
)

In [8]:
bigdata = bigdata.reset_index()
bigdata['Date'] = pd.to_datetime(bigdata['Date'])
df_resampled = df_resampled.reset_index()
df_resampled['DT_REFER'] = pd.to_datetime(df_resampled['DT_REFER'])


In [9]:
# Step 1: Get unique PREGAO values from df_resampled
companies = df_resampled['PREGAO'].unique()

# Step 2: Filter bigdata
filtered_bigdata = bigdata[bigdata['PREGAO'].isin(companies)]

df_merged = pd.merge(filtered_bigdata, df_resampled, left_on=['Date', 'PREGAO'], right_on=['DT_REFER', 'PREGAO'], how='outer')

# Sort the dataframe by 'PREGAO' and 'Date'
df_merged = df_merged.sort_values(by=['PREGAO', 'Date'])

# Group by 'PREGAO', then apply the fill methods within each group
df_merged = df_merged.groupby('PREGAO', group_keys=False).apply(lambda group: group.ffill().bfill()).fillna(0).reset_index(drop=True)

# Fill any remaining NaN values in the entire dataframe (outside of groups)
df_merged = df_merged.set_index('Date', drop=True)


In [10]:
def add_metrics(df):
    # Ensure no division by zero for all columns
    df.replace(0, np.nan, inplace=True)



    return df



In [11]:
df_merged = df_merged.groupby('PREGAO', group_keys=False).apply(add_metrics)


In [12]:
company = companies[0]
df = df_merged[df_merged['PREGAO'] == company]


In [137]:
def plot_tweak(df: pd.DataFrame, data: Dict[str, Any], options: Optional[Dict[str, Dict[str, str]]] = {}) -> Figure:
    """
    Generates a custom plot based on the provided data and visualization options.
    
    Parameters:
    ----------
    df : pd.DataFrame
        The main data source containing the columns to be plotted.
        
    data : dict
        Contains metadata and column names/series for plotting. The dictionary should have the keys:
        - 'title' : List containing the main title, left y-axis title, and right y-axis title.
        - 'left' : List containing columns or series to be plotted on the left y-axis.
        - 'right' : List containing columns or series to be plotted on the right y-axis.
        
    options : dict, optional
        Contains visualization options for left and right data. Each side (left/right) can have:
        - 'shape' : Shape of the plot, either 'line' or 'area'. Default is 'line'.
        - 'mode' : Data representation mode, either 'standalone' or 'cumulative'. Default is 'standalone'.
        - 'legendgroup' : Optional string to combine legend items into a group.
        - 'normalization' : Boolean indicating if the data should be normalized. Default is False.

    Returns:
    -------
    plotly.graph_objs.Figure
        The generated plotly figure.

    Example:
    -------
    data = {
        'title': ['Main Title', 'Left Y-axis Title', 'Right Y-axis Title'],
        'left': ['column1', 'column2'],
        'right': ['column3', 'column4']
    }
    options = {
        'left': {'shape': 'line', 'mode': 'cumulative', 'legendgroup': 'left'},
        'right': {'shape': 'area', 'mode': 'standalone'}
    }
    fig = plot_tweak(df, data, options)
    fig.show()
    """

    # Initialize the figure object
    fig = go.Figure()

    def normalize_data(columns):
        """
        Normalize the given columns of the dataframe based on row-wise sum to make it relative in percentage terms.
        """
        # Copy the required columns into a temporary dataframe
        temp_df = df[columns].copy()
        
        # Calculate the total for each row
        temp_df['total'] = temp_df.sum(axis=1)
        
        # Normalize each column to its percentage of the row-wise total
        for column in columns:
            temp_df[column] = temp_df.apply(
                lambda row: round(row[column] / row['total'] * 100, 2) if row['total'] != 0 else 0, 
                axis=1
            )
            
        # Remove the total column before returning
        temp_df.drop(columns=['total'], inplace=True)
        return temp_df

    def get_data_from_item(item, normalize=False, columns_for_normalization=None):
        """
        Retrieve data from either dataframe columns or directly from a pandas Series.
        """
        # Check if the item is a column name or a series object
        data_series = df[item] if isinstance(item, str) else item
        
        # If normalization is required, normalize the data using the provided columns
        if normalize and columns_for_normalization:
            data_series = normalize_data(columns_for_normalization)[item if isinstance(item, str) else item.name]
            
        return data_series

    def get_trace(item, group, shape, mode, normalization, columns_for_normalization=None):
        """
        Create a trace dictionary for the given item and visualization options.
        """
        column_data = get_data_from_item(item, normalization, columns_for_normalization)
        
        # Construct the trace dictionary
        trace = {
            'x': column_data.index,
            'y': column_data,
            'name': item.split(' - ')[1] if isinstance(item, str) else item.name,
            'fill': 'tonexty' if shape == 'area' and mode == 'cumulative' else 
                    'tozeroy' if shape == 'area' else 'none',
            'stackgroup': group if mode == 'cumulative' else None
        }
        return trace

    # Default settings for visualization
    default_settings = {
        'shape': 'line',
        'mode': 'standalone',
        'legendgroup': None,
        'normalization': False
    }

    # Merge default settings with provided options
    left_options = {**default_settings, **options.get('left', {})}
    right_options = {**default_settings, **options.get('right', {})}

    # Generate traces for left data
    for item in data.get('left', []):
        trace = get_trace(item, 'left', left_options['shape'], left_options['mode'], left_options['normalization'], data.get('left'))
        if left_options['legendgroup']:
            trace['legendgroup'] = left_options['legendgroup']
        fig.add_trace(go.Scatter(**trace))

    # Generate traces for right data
    for item in data.get('right', []):
        trace = get_trace(item, 'right', right_options['shape'], right_options['mode'], right_options['normalization'], data.get('right'))
        if right_options['legendgroup']:
            trace['legendgroup'] = right_options['legendgroup']
        trace['yaxis'] = 'y2'
        fig.add_trace(go.Scatter(**trace))

    # Figure Update Layout
    fig.update_layout(
        title_text=f'{company} - {data.get("title", ["", "", ""])[0]}',
        xaxis_title='Data',
        yaxis_title=data.get('title', ["", "", ""])[1],
        yaxis2={'title': data.get('title', ["", "", ""])[2], 'overlaying': 'y', 'side': 'right'}
    )

    return fig


In [63]:
def plot_dual_axis(df, data):
    '''
    data: Dicionário contendo chaves 'left' e 'right', com as colunas correspondentes.
               Exemplo: {'left': [col1, col2], 'right': [col3, col4]}
    df: DataFrame contendo os dados.
    '''
    fig = make_subplots(specs=[[{"secondary_y": True}]])

    # Determine y-axis ranges
    factor = 1.50
    left_min = df[data['left']].min().min() if df[data['left']].min().min() < 0 else df[data['left']].min().min() * -1
    left_min *= factor
    left_max_abs = max(abs(df[data['left']].min().min()), abs(df[data['left']].max().max())) * factor

    right_min = df[data['right']].min().min() if df[data['right']].min().min() < 0 else df[data['right']].min().min() * -1
    right_min *= factor
    right_max_abs = max(abs(df[data['right']].min().min()), abs(df[data['right']].max().max())) * factor

    # Find the zero alignment factor
    zero_factor = abs(left_min) / left_max_abs

    # Adjust the right y-axis ranges to align the zeros
    right_min_adj = -right_max_abs * zero_factor
    right_max_adj = right_max_abs * (1 - zero_factor)

    # Adicione os dados do eixo esquerdo
    for column in data['right']:
        fig.add_trace(
            go.Scatter(x=df.index, y=df[column], mode='lines', name=column.split(' - ')[1]),
            secondary_y=True
        )

    # Adicione os dados do eixo direito
    fill_mode = 'tozeroy'
    for column in data['left']:
        fig.add_trace(
            go.Scatter(x=df.index, y=df[column], fill=fill_mode, name=column.split(' - ')[1]),
            secondary_y=False
        )
        fill_mode = 'tonexty'

    fig.update_layout(
        title_text=f'{company} - {data["title"][0]}',
        xaxis_title='Data',
        yaxis_title=data['title'][1],
        yaxis2_title=data['title'][2],
        yaxis_range=[left_min, left_max_abs],
        yaxis2_range=[right_min_adj, right_max_adj]
    )

    return fig


In [64]:
def plot_stacked_area(df, data):
    '''
    df: DataFrame containing the data.
    data: Dictionary containing the columns to be plotted.
    '''
    fig = go.Figure()

    # Helper function to get data from column name or series
    def get_data(item):
        if isinstance(item, str):
            return df[item]
        return item

    # For 'left' data
    for item in data['left']:
        data_values = get_data(item)
        name = item.split(' - ')[1] if isinstance(item, str) else item.name
        fig.add_trace(
            go.Scatter(
                x=df.index,
                y=data_values,
                name=name,
                fill='tonexty', 
                stackgroup='left',
                # legendgroup='left',
                showlegend=True
            )
        )

    # For 'right' data
    for item in data['right']:
        data_values = get_data(item)
        name = item.split(' - ')[1] if isinstance(item, str) else item.name
        fig.add_trace(
            go.Scatter(
                x=df.index,
                y=data_values,
                name=name,
                fill='tonexty', 
                stackgroup='right',
                # legendgroup='right',
                showlegend=True,
                yaxis='y2'
            )
        )

    fig.update_layout(
        title_text=f'{company} - {data["title"][0]}',
        xaxis_title='Data',
        yaxis_title=data['title'][1],
        yaxis2=dict(title=data['title'][2], overlaying='y', side='right')
    )

    return fig


In [65]:
def plot_100_stacked_area(df, data):
    '''
    df: DataFrame containing the data.
    data: Dictionary containing the columns to be plotted.
    '''
    fig = go.Figure()

    # Helper function to get data from column name or series
    def get_data(item):
        if isinstance(item, str):
            return df[item]
        return item

    # Function to normalize data
    def normalize_data(columns):
        temp_df = df[columns].copy()
        temp_df['total'] = temp_df.sum(axis=1)
        for column in columns:
            temp_df[column] = temp_df.apply(lambda row: row[column] / row['total'] * 100 if row['total'] != 0 else 0, axis=1)
        return temp_df

    left_normalized = normalize_data(data['left'])
    right_normalized = normalize_data(data['right'])

    # Plot 'left' data
    for column in data['left']:
        fig.add_trace(
            go.Scatter(
                x=df.index,
                y=left_normalized[column],
                name=column.split(' - ')[1],
                fill='tonexty',
                stackgroup='left',
                legendgroup='left',
            )
        )

    # Plot 'right' data on secondary y-axis
    for column in data['right']:
        fig.add_trace(
            go.Scatter(
                x=df.index,
                y=right_normalized[column],
                name=column.split(' - ')[1],
                fill='tonexty',
                stackgroup='right',
                legendgroup='right',
                yaxis='y2'
            )
        )

    fig.update_layout(
        title_text=f'{company} - {data["title"][0]}',
        xaxis_title='Data',
        yaxis_title=data['title'][1],
        yaxis2=dict(title=data['title'][2], overlaying='y', side='right')
    )

    return fig


In [66]:
def plot_lines(df, data):
    '''
    data: Dicionário contendo chaves 'left' e 'title'.
               Exemplo: {'left': [col1, col2], 'title': 'Equity Multiplier'}
    df: DataFrame contendo os dados.
    '''
    fig = go.Figure()

    # Adicione os dados do eixo esquerdo
    for column in data['left']:
        fig.add_trace(
            go.Scatter(x=df.index, y=df[column], fill='none', name=column.split(' - ')[1])
        )

    fig.update_layout(
        title_text=f'{company} - {data["title"][0]}',
        xaxis_title='Data',
        yaxis_title=data['title'][1],
    )

    return fig

In [67]:
def plot_basics(df, col, window):
    figs = {}
    if df[col].sum() != 0:

        year_average = df[col].rolling(window=365).mean()

        # Calculate rolling mean and standard deviation
        rolling_mean = df[col].rolling(window=window).mean()
        rolling_std = df[col].rolling(window=window).std()

        # Create a single line plot
        title = f'A - Linha do Tempo'
        fig_line = px.line(df, x=df.index, y=col, title=f'{company} - {col} - {title}',
                            labels={'value': 'Valor (R$)', 'variable': f'{title}'})
        fig_line.add_scatter(x=df.index, y=year_average, mode='lines', line=dict(color='blue'), name='Média Anual')
        figs[title] = fig_line
        # fig_line.show()

        # Create a moving average plot with ±2 standard deviations
        title = f'B - Média Móvel e ±2 Desvios Padrão'
        fig_mma_std = px.area(df, x=df.index, y=col, title=f'{company} - {col} - {title}',
                            labels={'value': 'Valor (R$)', 'variable': f'{title}'})
        fig_mma_std.add_scatter(x=df.index, y=year_average, mode='lines', line=dict(color='blue'), name='Média Anual')
        fig_mma_std.add_scatter(x=df.index, y=rolling_mean, mode='lines', line=dict(color='green'), name='Média Móvel')
        fig_mma_std.add_scatter(x=df.index, y=rolling_mean + 2 * rolling_std, mode='lines', line=dict(color='green', dash='dash'), name='Média Móvel + 2 Desvios Padrão')
        fig_mma_std.add_scatter(x=df.index, y=rolling_mean - 2 * rolling_std, mode='lines', line=dict(color='green', dash='dash'), name='Média Móvel - 2 Desvios Padrão')
        figs[title] = fig_mma_std
        # fig_mma_std.show()

    sub_cols = [c for c in df.columns if c.startswith(col.split(' - ')[0] + '.') and c.count('.') == col.count('.') + 1]
    if sub_cols:
        # Create a multi line plot
        title =  f'C - Distribuição Individual'
        fig_multiline = px.line(df, x=df.index, y=sub_cols, title=f'{company} - {col} - {title}',
                            labels={'value': 'Valor (R$)', 'variable': f'{title}'})
        figs[title] = fig_multiline
        # fig_area.show()

        # Create a cumulative distribution plot
        title =  f'D - Distribuição Acumulada'
        fig_area = px.area(df, x=df.index, y=sub_cols, title=f'{company} - {col} - {title}',
                            labels={'value': 'Valor (R$)', 'variable': f'{title}'})
        figs[title] = fig_area
        # fig_area.show()

        # Create a proportional distribution plot
        title = f'E - Distribuição Proporcional'
        fig_area_100_stacked = px.area(df, x=df.index, y=sub_cols, title=f'{company} - {col} - {title}',
                            labels={'value': 'Porcentagem (%)', 'variable': f'{title}'},
                            groupnorm='percent')
        figs[title] = fig_area_100_stacked
        # fig_area_100_stacked.show()

    return figs


In [68]:
def save_figs(col_figs, col, company, base_dir='./company/'):
    """
    Save figures to the specified directory.

    Parameters:
    - col_figs: Dictionary of figures to save
    - col: Column for which figures were generated
    - company: Company for which figures were generated
    - base_dir: Base directory where the figures will be saved
    """
    path = os.path.join(base_dir, company)
        
    # Create company directory if it doesn't exist
    if not os.path.exists(path):
        os.makedirs(path)

    for title, fig in col_figs.items():
        try:
            file_name = f'{company} - {col} - {title}.png'
            file_path = os.path.join(path, file_name)
            fig.write_image(file_path)
            fig.show()
        except Exception as e:
            print(e)
    return col_figs


In [None]:
# generate all figs!!
companies = df_merged['PREGAO'].unique()
all_figs = {}

start_time_c = run.time.time()
for c, company in enumerate(companies):
    df = df_merged[df_merged['PREGAO'] == company]
    
    df_cols = df_merged.columns.tolist()
    # Display the structure of the balance sheet from the numbered columns
    structure = {
        "01": [col for col in df_cols if col.startswith('01')], 
        "02": [col for col in df_cols if col.startswith('02')], 
        "03": [col for col in df_cols if col.startswith('03')], 
        "04": [col for col in df_cols if col.startswith('04')], 
        "05": [col for col in df_cols if col.startswith('05')], 
        "06": [col for col in df_cols if col.startswith('06')], 
        "07": [col for col in df_cols if col.startswith('07')], 
        "Other": [col for col in df_cols if not col[0].isdigit()], 
        "OHLC": ['Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume', ], 
    }


    company_dir = f"./company/{company}"
    window = 365 * 5
    all_figs[company] = {}

    start_time = run.time.time()
    sheets = ['01', '02', '03', '04', '05', '06', '07']
    cols = [col for sheet in sheets for col in structure[sheet]]

    start_time_2 = run.time.time()
    for i, col in enumerate(cols):
        col_figs = plot_basics(df, col, window)
        figs = save_figs(col_figs, col, company)
        # all_figs[company][col] = figs
        print(company, col, run.remaining_time(start_time_2, len(cols), i))

    print(company, len(df), run.remaining_time(start_time_c, len(companies), c))
    break

In [69]:
data = {
    'title': ['', '', ''], 
    'left': [],
    'right': [], 
}

In [None]:
data = {
    'title': ['Equity Multiplier', 'Reais (R$)', 'Relação Unitária (un)', ], 
    'left': ['02.03 - Patrimônio Líquido', '01 - Ativo Total'], 
    'right': ['11.03.01 - Equity Multiplier (Ativos por Patrimônio Líquido)'],
}
options = {
    'left': {'shape': 'area', 'mode': 'cumulative', 'normalization': False, },
    'right': {'shape': 'line', 'mode': 'standalone', 'normalization': False, }, 
}

fig = plot_tweak(df, data, options)
fig.show()

In [None]:
data = {
    'title': ['Passivos por Ativos', 'Porcentagem (%)', '%', ], 
    'left': ['11.02.01 - Passivos Circulantes de Curto Prazo por Ativos', '11.02.02 - Passivos Não Circulantes de Longo Prazo por Ativos', '11.03 - Patrimônio Líquido por Ativos'], 
    'right': ['11.02.02 - Passivos Não Circulantes de Longo Prazo por Ativos', '11.03 - Patrimônio Líquido por Ativos'], 
}
options = {
    'left': {'shape': 'area', 'mode': 'cumulative', 'normalization': True, 'legendgroup': 'left'},
    'right': {'shape': 'area', 'mode': 'cumulative', 'normalization': True, 'legendgroup': 'right'}
}
fig = plot_tweak(df, data, options)
fig.show()


In [None]:
data = {
    'title': ['Passivos e Patrimônio Líquido', 'Relação Unitária (un)', ''], 
    'left': ['11.03.02.01 - Passivos Circulantes de Curto Prazo por Patrimônio Líquido', '11.03.02.02 - Passivos Não Circulantes de Longo Prazo por Patrimônio Líquido',],
    'right': [], 
}
options = {
    'left': {'shape': 'line', 'mode': 'standalone', 'normalization': False},
    'right': {'shape': 'area', 'mode': 'cumulative', 'normalization': True, 'legendgroup': 'right'}, 
}

fig = plot_tweak(df, data, options)
fig.show()

In [158]:
data = {
    'title': ['Liquidez e Solvência', 'Reais (R$)', 'Relação Unitária (un)', ], 
    'left': [ '01.01 - Ativo Circulante de Curto Prazo', '02.01 - Passivo Circulante de Curto Prazo',], 
    'right': [ '11.01.02 - Liquidez (Ativos Circulantes por Passivos Circulantes)',],
}

fig = plot_dual_axis(df, data)
fig.show()

In [None]:
data = {
    'title': ['Liquidez e Solvência', 'Reais (R$)', 'Relação Unitária (un)', ], 
    'left': [ '01.01 - Ativo Circulante de Curto Prazo', '02.01 - Passivo Circulante de Curto Prazo',], 
    'right': [ '11.01.02 - Liquidez (Ativos Circulantes por Passivos Circulantes)',],
}
options = {
    'left': {'shape': 'line', 'mode': 'standalone', 'normalization': False},
    'right': {'shape': 'area', 'mode': 'cumulative', 'normalization': True, 'legendgroup': 'right'}, 
}

fig = plot_tweak(df, data, options)
fig.show()

In [None]:
data = {
    'title': ['Prazo dos Ativos', 'Reais (R$)', 'Proporção Unitária (un)'], 
    'left': ['01.01 - Ativo Circulante de Curto Prazo', '01.02 - Ativo Não Circulante de Longo Prazo', ],
    'right': ['11.01.03 - Ativos Circulantes de Curto Prazo por Ativos', '11.01.04 - Ativos Não Circulantes de Longo Prazo por Ativos', ], 
}

fig = plot_dual_axis(df, data)
fig.show()

In [None]:
data = {
    'title': ['Prazo dos Passivos', 'Reais (R$)', 'Proporção Unitária (un)'], 
    'left': ['02.01 - Passivo Circulante de Curto Prazo', '02.02 - Passivo Não Circulante de Longo Prazo', ],
    'right': ['11.02.01 - Passivos Circulantes de Curto Prazo por Ativos', '11.02.02 - Passivos Não Circulantes de Longo Prazo por Ativos', ], 
}

fig = plot_dual_axis(df, data)
fig.show()

In [None]:
data = {
    'title': ['Capital de Giro Circulante', 'Reais (R$)', 'Relação Unitária (un)', ], 
    'left': [ '11.01.01 - Capital de Giro (Ativos Circulantes - Passivos Circulantes)',],
    'right': [ '11.01.02 - Liquidez (Ativos Circulantes por Passivos Circulantes)',], 
}
fig = plot_dual_axis(df, data)
fig.show()

In [None]:
data = {
    'title': ['Caixa Líquido', 'Reais (R$)', 'Reais (R$)'], 
    'left': ['01.01.01 - Caixa e Disponibilidades de Caixa', '01.01.02 - Aplicações Financeiras', ],
    'right': [(df['02.03.01 - Capital Social']/df['02.03 - Patrimônio Líquido'])], 
}

fig = plot_stacked_area(df, data)
fig.show()

In [136]:
data = {
    'title': ['Visualization Title', 'Left Y-axis Title', 'Right Y-axis Title'], 
    'left': ['01.01.01 - Caixa e Disponibilidades de Caixa', '01.01.02 - Aplicações Financeiras', ],
    'right': ['01.01.01 - Caixa e Disponibilidades de Caixa', '01.01.02 - Aplicações Financeiras', '02.03 - Patrimônio Líquido', ],
}

options = {
    'left': {
        'shape': 'area', 
        'mode': 'cumulative',
        'normalization': True,
        # 'legendgroup': 'left', 
    },
    'right': {
        'shape': 'area',
        'mode': 'cumulative',
        'normalization': True,
        'legendgroup': 'right', 
    }
}

fig = plot_tweak(df, data, options)
fig.show()
