# <font color='green'>Formulários de Referência das Companhias Abertas Listadas pela CVM</font>
# <font color='green'>Autor: Graciliano Márcio Santos Louredo</font>

## <font color='green'>Carregamento dos dados preparados</font>

In [1]:
# Carregamento dos pacotes necessários

# Manipulação de dados
import numpy as np
import pandas as pd
import sqlite3

# Ignorar avisos
import sys
import warnings
if not sys.warnoptions:
    warnings.simplefilter("ignore")

In [2]:
# Carga da tabela com as variáveis básicas, preservando a codificação original dos caracteres (ANSI Latin1)
df1 = pd.read_csv('dados_prep/dfbas_ciab.csv', encoding='iso_8859_1')

In [3]:
df1.shape

(3060, 9)

In [4]:
df1.head()

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,CATEG_DOC,ID_DOC,DT_RECEB,LINK_DOC
0,00.000.000/0001-91,2021-01-01,1,BCO BRASIL S.A.,1023,FRE NOVO,105112,2021-05-28,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...
1,00.000.000/0001-91,2021-01-01,2,BCO BRASIL S.A.,1023,FRE NOVO,105911,2021-06-11,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...
2,00.000.000/0001-91,2021-01-01,3,BCO BRASIL S.A.,1023,FRE NOVO,106093,2021-06-22,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...
3,00.000.000/0001-91,2021-01-01,4,BCO BRASIL S.A.,1023,FRE NOVO,106258,2021-07-01,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...
4,00.000.000/0001-91,2021-01-01,5,BCO BRASIL S.A.,1023,FRE NOVO,106422,2021-07-13,http://www.rad.cvm.gov.br/ENETCONSULTA/frmDown...


In [5]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   CNPJ_CIA   3060 non-null   object
 1   DT_REFER   3060 non-null   object
 2   VERSAO     3060 non-null   int64 
 3   DENOM_CIA  3060 non-null   object
 4   CD_CVM     3060 non-null   int64 
 5   CATEG_DOC  3060 non-null   object
 6   ID_DOC     3060 non-null   int64 
 7   DT_RECEB   3060 non-null   object
 8   LINK_DOC   3060 non-null   object
dtypes: int64(3), object(6)
memory usage: 215.3+ KB


In [6]:
# Verificação de registros duplicados nas variáveis básicas: não há
len(df1[df1.duplicated()])

0

In [10]:
# Variáveis básicas de interesse: CNPJ_CIA, DT_REFER e DENOM_CIA
dfbas = df1.groupby(['CNPJ_CIA','DT_REFER','DENOM_CIA'], as_index=False).all().iloc[:,[0,1,2]]
dfbas

Unnamed: 0,CNPJ_CIA,DT_REFER,DENOM_CIA
0,00.000.000/0001-91,2021-01-01,BCO BRASIL S.A.
1,00.000.208/0001-00,2021-01-01,BRB BCO DE BRASILIA S.A.
2,00.001.180/0001-26,2021-01-01,CENTRAIS ELET BRAS S.A. - ELETROBRAS
3,00.070.698/0001-11,2021-01-01,CIA ENERGETICA DE BRASILIA
4,00.080.671/0001-00,2021-01-01,CARAMURU ALIMENTOS S.A.
...,...,...,...
726,95.426.862/0001-97,2021-01-01,EXCELSIOR ALIMENTOS S.A.
727,96.298.013/0001-68,2021-01-01,PACAEMBU CONSTRUTORA S.A.
728,96.418.264/0218-02,2021-01-01,LOJAS QUERO QUERO S.A.
729,97.191.902/0001-94,2021-01-01,CONSERVAS ODERICH S.A.


In [12]:
#Carga da tabela com as variáveis da distribuição de capital
df2 = pd.read_csv('dados_prep/dfcap_ciab.csv', encoding='iso_8859_1')

In [13]:
df2.shape

(731, 14)

In [14]:
df2.head()

Unnamed: 0,CNPJ_Companhia,Data_Referencia,Versao,ID_Documento,Quantidade_Acionistas_PF,Quantidade_Acionistas_PJ,Quantidade_Acionistas_Investidores_Institucionais,Quantidade_Acoes_Ordinarias_Circulacao,Percentual_Acoes_Ordinarias_Circulacao,Quantidade_Acoes_Preferenciais_Circulacao,Percentual_Acoes_Preferenciais_Circulacao,Quantidade_Total_Acoes_Circulacao,Percentual_Total_Acoes_Circulacao,Data_Ultima_Assembleia
0,00.000.000/0001-91,2021-01-01,18,110982,828921,15206,1159,1420531000.0,49.575,0,0.0,1420531000.0,49.575,2021-04-28
1,00.000.208/0001-00,2021-01-01,9,111004,2646,34,0,39346570.0,14.05,2605590,3.15,41952160.0,11.56,2021-12-17
2,00.001.180/0001-26,2021-01-01,6,108270,122540,9677,953,358028900.0,27.779103,243134047,86.809,601163000.0,38.317,2021-04-27
3,00.070.698/0001-11,2021-01-01,5,109579,1023,73,11,2444275.0,6.804606,11864425,32.80998,14308700.0,19.85061,2021-10-25
4,00.080.671/0001-00,2021-01-01,3,109018,8,4,0,0.0,0.0,0,0.0,0.0,0.0,2021-05-03


In [15]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 731 entries, 0 to 730
Data columns (total 14 columns):
 #   Column                                             Non-Null Count  Dtype  
---  ------                                             --------------  -----  
 0   CNPJ_Companhia                                     731 non-null    object 
 1   Data_Referencia                                    731 non-null    object 
 2   Versao                                             731 non-null    int64  
 3   ID_Documento                                       731 non-null    int64  
 4   Quantidade_Acionistas_PF                           731 non-null    int64  
 5   Quantidade_Acionistas_PJ                           731 non-null    int64  
 6   Quantidade_Acionistas_Investidores_Institucionais  731 non-null    int64  
 7   Quantidade_Acoes_Ordinarias_Circulacao             731 non-null    float64
 8   Percentual_Acoes_Ordinarias_Circulacao             731 non-null    float64
 9   Quantidade

In [16]:
# Verificação de registros duplicados nas variáveis da distribuição de capital: não há
len(df2[df2.duplicated()])

0

In [23]:
# Identificação de chave primária na tabela 
[len(df2.ID_Documento.isnull())-sum(df2.ID_Documento.isnull()),len(df2.ID_Documento.unique())]

[731, 731]

In [25]:
# Variáveis de interesse sobre a distribuição de capital: CNPJ_Companhia -> CNPJ(0), Quantidade_Acionistas_* -> QteAci*(4:6),
#Quantidade_Acoes_* -> QteAco*(7;9), Quantidade_Total_Acoes_Circulacao -> QteTotAco(11), ID_Documento -> IDDoc(3) - PK 
dfcap = df2.iloc[:,[3,0,4,5,6,7,9,11]]
dfcap.rename(columns={'IDDoc': 'ID_Documento', 'CNPJ': 'CNPJ_Companhia', 'Quantidade_Acionistas_PF': 'QteAciPF', \
                      'Quantidade_Acionistas_PJ': 'QteAciPJ', 'Quantidade_Acionistas_Investidores_Institucionais': 'QteAciII', \
                      'Quantidade_Acoes_Ordinarias_Circulacao': 'QteAcoON', 'Quantidade_Acoes_Preferenciais_Circulacao': 'QteAcoPN', \
                      'Quantidade_Total_Acoes_Circulacao': 'QteTotAco'}, inplace = True)
dfcap

Unnamed: 0,ID_Documento,CNPJ_Companhia,QteAciPF,QteAciPJ,QteAciII,QteAcoON,QteAcoPN,QteTotAco
0,110982,00.000.000/0001-91,828921,15206,1159,1.420531e+09,0,1.420531e+09
1,111004,00.000.208/0001-00,2646,34,0,3.934657e+07,2605590,4.195216e+07
2,108270,00.001.180/0001-26,122540,9677,953,3.580289e+08,243134047,6.011630e+08
3,109579,00.070.698/0001-11,1023,73,11,2.444275e+06,11864425,1.430870e+07
4,109018,00.080.671/0001-00,8,4,0,0.000000e+00,0,0.000000e+00
...,...,...,...,...,...,...,...,...
726,105427,95.426.862/0001-97,297,4,4,2.223000e+03,1506413,1.508636e+06
727,111001,96.298.013/0001-68,42,0,0,2.710000e+04,0,2.710000e+04
728,110628,96.418.264/0218-02,27711,224,340,1.792114e+08,0,1.792114e+08
729,105276,97.191.902/0001-94,429,10,0,1.120640e+05,85888,1.979520e+05


In [26]:
df3 = pd.read_csv('dados_prep/dfrel_ciab.csv', encoding='iso_8859_1')

In [27]:
df3.shape

(8902, 16)

In [28]:
df3.head()

Unnamed: 0,CNPJ_Companhia,Data_Referencia,Versao,ID_Documento,Data_Inicio_Exercicio_Social,Data_Fim_Exercicio_Social,Nome_Administrador,CPF_Administrador,Cargo_Administrador,Nome_Pessoa_Relacionada,Tipo_Pessoa_Relacionada,Documento_Pessoa_Relacionada,Cargo_Pessoa_Relacionada,Categoria_Pessoa_Relacionada,Tipo_Relacao,Observacao
0,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,João Carlos de Nobrega Pecego,052.263.938-06,Vice-Presidente de Negócios de Atacado,Banco Patagonia S.A.,PJ,08.884.213/0001-35,Presidente,Controlada Direta,Controle,
1,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,Eduardo Cesar Pasa,541.035.920-87,Diretor de Contadoria,BB Tecnologia e Serviços (BBTS),PJ,42.318.949/0001-84,Membro Titular do Conselho Fiscal,Controlada Direta,Controle,
2,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,Gerson Eduardo de Oliveira,435.431.620-04,Diretor de Gestão de Riscos,BB Tecnologia e Serviços (BBTS),PJ,42.318.949/0001-84,Membro do Conselho de Administração,Controlada Direta,Controle,
3,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,Gerson Eduardo de Oliveira,435.431.620-04,Diretor de Gestão de Riscos,Besc Distribuidora de Títulos e Valores Mobili...,PJ,82.518.523/0001-99,: Membro do Conselho Fiscal,Controlada Direta,Controle,
4,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,João Vagnes de Moura Silva,584.043.411-68,Diretor de Controladoria,BB Tecnologia e Serviços (BBTS),PJ,42.318.949/0001-84,Presidente,Controlada Direta,Controle,


In [29]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8902 entries, 0 to 8901
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   CNPJ_Companhia                8902 non-null   object
 1   Data_Referencia               8902 non-null   object
 2   Versao                        8902 non-null   int64 
 3   ID_Documento                  8902 non-null   int64 
 4   Data_Inicio_Exercicio_Social  8902 non-null   object
 5   Data_Fim_Exercicio_Social     8902 non-null   object
 6   Nome_Administrador            8902 non-null   object
 7   CPF_Administrador             8779 non-null   object
 8   Cargo_Administrador           8882 non-null   object
 9   Nome_Pessoa_Relacionada       8892 non-null   object
 10  Tipo_Pessoa_Relacionada       8902 non-null   object
 11  Documento_Pessoa_Relacionada  8902 non-null   object
 12  Cargo_Pessoa_Relacionada      8889 non-null   object
 13  Categoria_Pessoa_R

In [30]:
# Verificação de registros duplicados nas variáveis de pessoas relacionadas
len(df3[df3.duplicated()])

60

In [31]:
# Remoção de registros duplicados nas variáveis de pessoas relacionadas: 60 de 8902 (aproximadamente 0.7%)
df3 = df3.drop_duplicates(keep='first')

In [32]:
# Detecção de novos valores ausentes a avaliar 
df3.isna().sum()

CNPJ_Companhia                     0
Data_Referencia                    0
Versao                             0
ID_Documento                       0
Data_Inicio_Exercicio_Social       0
Data_Fim_Exercicio_Social          0
Nome_Administrador                 0
CPF_Administrador                121
Cargo_Administrador               20
Nome_Pessoa_Relacionada           10
Tipo_Pessoa_Relacionada            0
Documento_Pessoa_Relacionada       0
Cargo_Pessoa_Relacionada          13
Categoria_Pessoa_Relacionada       0
Tipo_Relacao                       0
Observacao                      7792
dtype: int64

In [33]:
# Variáveis selecionadas para compor possível chave candidata: Data_Referencia, Nome_Administrador e Documento_Pessoa_Relacionada 
# Observação: não há chave primária explicitamente indicada nos metadados desta tabela
# Justificativa da escolha: variáveis sem valores ausentes mais representativas dos dados temporais e das partes envolvidas na relação  
[{col:len(df3[col].unique())} for col in df3.columns]

[{'CNPJ_Companhia': 287},
 {'Data_Referencia': 3},
 {'Versao': 18},
 {'ID_Documento': 288},
 {'Data_Inicio_Exercicio_Social': 13},
 {'Data_Fim_Exercicio_Social': 10},
 {'Nome_Administrador': 1234},
 {'CPF_Administrador': 1175},
 {'Cargo_Administrador': 613},
 {'Nome_Pessoa_Relacionada': 1869},
 {'Tipo_Pessoa_Relacionada': 2},
 {'Documento_Pessoa_Relacionada': 1835},
 {'Cargo_Pessoa_Relacionada': 895},
 {'Categoria_Pessoa_Relacionada': 8},
 {'Tipo_Relacao': 3},
 {'Observacao': 383}]

In [34]:
# Variáveis de interesse sobre relações empresariais: CNPJ_Companhia(0), Tipo_Pessoa_Relacionada(10), Tipo_Relacao(14),
# Cargo_Pessoa_Relacionada(12), Categoria_Pessoa_Relacionada(13); Data_Referencia(1), Nome_Administrador(6), Documento_Pessoa_Relacionada(11)- CK   
dfrel = df3.iloc[:,[0,1,6,11,10,12,13,14]]
dfrel.rename(columns={'CNPJ': 'CNPJ_Companhia', 'DataRef': 'Data_referencia', 'Nome_Administrador': 'NomeAdm', \
                      'Documento_Pessoa_Relacionada': 'DocPesRel', 'Tipo_Pessoa_Relacionada': 'TipoPesRel', 'Cargo_Pessoa_Relacionada': 'CargoPesRel', \
                      'Categoria_Pessoa_Relacionada': 'CategPesRel', 'Tipo_Relacao': 'TipoRel'}, inplace = True)
dfrel

Unnamed: 0,CNPJ_Companhia,Data_Referencia,NomeAdm,DocPesRel,TipoPesRel,CargoPesRel,CategPesRel,TipoRel
0,00.000.000/0001-91,2021-01-01,João Carlos de Nobrega Pecego,08.884.213/0001-35,PJ,Presidente,Controlada Direta,Controle
1,00.000.000/0001-91,2021-01-01,Eduardo Cesar Pasa,42.318.949/0001-84,PJ,Membro Titular do Conselho Fiscal,Controlada Direta,Controle
2,00.000.000/0001-91,2021-01-01,Gerson Eduardo de Oliveira,42.318.949/0001-84,PJ,Membro do Conselho de Administração,Controlada Direta,Controle
3,00.000.000/0001-91,2021-01-01,Gerson Eduardo de Oliveira,82.518.523/0001-99,PJ,: Membro do Conselho Fiscal,Controlada Direta,Controle
4,00.000.000/0001-91,2021-01-01,João Vagnes de Moura Silva,42.318.949/0001-84,PJ,Presidente,Controlada Direta,Controle
...,...,...,...,...,...,...,...,...
8897,96.298.013/0001-68,2021-01-01,Eduardo Robson Raineri de Almeida,18.185.542/0001-41,PJ,Controlador Indireto e administrador,Controlada Direta,Controle
8898,96.298.013/0001-68,2021-01-01,Victor Bassan de Almeida,30.608.333/0001-69,PJ,Administrador,Controlada Direta,Controle
8899,96.298.013/0001-68,2021-01-01,Victor Bassan de Almeida,37.265.348/0001-10,PJ,Administrador,Controlada Direta,Controle
8900,96.298.013/0001-68,2021-01-01,Victor Bassan de Almeida,31.627.793/0001-05,PJ,Administrador,Controlada Direta,Controle


In [35]:
df4 = pd.read_csv('dados_prep/dfrem_ciab.csv', encoding='iso_8859_1')

In [36]:
df4.shape

(6016, 26)

In [37]:
df4.head()

Unnamed: 0,CNPJ_Companhia,Data_Referencia,Versao,ID_Documento,Data_Inicio_Exercicio_Social,Data_Fim_Exercicio_Social,Total_Remuneracao,Orgao_Administracao,Numero_Membros,Total_Remuneracao_Orgao,...,Bonus,Participacao_Resultados,Participacao_Reunioes,Outros_Valores_Variaveis,Comissoes,Descricao_Outros_Remuneracoes_Variaveis,Pos_emprego,Cessacao_Cargo,Baseada_Acoes,Observacao
0,00.000.000/0001-91,2021-01-01,18,110982,2021-01-01,2021-05-28,66554887.78,Conselho de Administração,8.0,567824.64,...,0.0,0.0,0.0,0.0,0.0,Não Aplicável.,0.0,0.0,0.0,O número de membros remunerados de cada órgão ...
1,00.000.000/0001-91,2021-01-01,18,110982,2021-01-01,2021-05-28,66554887.78,Diretoria Estatutária,34.0,65632172.74,...,0.0,0.0,0.0,11138096.22,0.0,A contribuição previdenciária patronal e a con...,0.0,11138096.22,11138096.35,O número de membros remunerados de cada órgão ...
2,00.000.000/0001-91,2021-01-01,18,110982,2021-01-01,2021-05-28,66554887.78,Conselho Fiscal,5.0,354890.4,...,0.0,0.0,0.0,0.0,0.0,Não Aplicável.,0.0,0.0,0.0,O número de membros remunerados de cada órgão ...
3,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,49595534.0,Conselho de Administração,7.58,312355.78,...,0.0,0.0,0.0,0.0,0.0,Não Aplicável.,0.0,0.0,0.0,O número de membros remunerados de cada órgão ...
4,00.000.000/0001-91,2021-01-01,18,110982,2020-01-01,2020-12-31,49595534.0,Diretoria Estatutária,33.5,48951217.74,...,0.0,0.0,0.0,9163052.97,0.0,A contribuição previdenciária patronal e a con...,0.0,833824.37,10801462.74,O número de membros remunerados de cada órgão ...


In [38]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6016 entries, 0 to 6015
Data columns (total 26 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   CNPJ_Companhia                           6016 non-null   object 
 1   Data_Referencia                          6016 non-null   object 
 2   Versao                                   6016 non-null   int64  
 3   ID_Documento                             6016 non-null   int64  
 4   Data_Inicio_Exercicio_Social             6016 non-null   object 
 5   Data_Fim_Exercicio_Social                6016 non-null   object 
 6   Total_Remuneracao                        6016 non-null   float64
 7   Orgao_Administracao                      6016 non-null   object 
 8   Numero_Membros                           6016 non-null   float64
 9   Total_Remuneracao_Orgao                  6016 non-null   float64
 10  Numero_Membros_Remunerados               6016 no

In [39]:
# Verificação de registros duplicados nas variáveis de remuneração: 38 de 6016 (aproximadamente 0.6%)
len(df4[df4.duplicated()])

38

In [40]:
# Remoção dos registros duplicados nas variáveis de remuneração 
df4 = df4.drop_duplicates(keep='first')

In [41]:
# Verificação de novos valores ausentes: não detectados nas variáveis de interesse
df4.isna().sum()

CNPJ_Companhia                                0
Data_Referencia                               0
Versao                                        0
ID_Documento                                  0
Data_Inicio_Exercicio_Social                  0
Data_Fim_Exercicio_Social                     0
Total_Remuneracao                             0
Orgao_Administracao                           0
Numero_Membros                                0
Total_Remuneracao_Orgao                       0
Numero_Membros_Remunerados                    0
Salario                                       0
Beneficios_Diretos_Indiretos                  0
Participacoes_Comites                         0
Outros_Valores_Fixos                          0
Descricao_Outros_Remuneracoes_Fixas        3941
Bonus                                         0
Participacao_Resultados                       0
Participacao_Reunioes                         0
Outros_Valores_Variaveis                      0
Comissoes                               

In [42]:
# Variáveis selecionadas para compor possível chave candidata: Data_Referencia(1), ID_Documento(3) e Orgao_Administracao(7) 
# Observação: não há chave primária explicitamente indicada nos metadados para esta tabela
# Justificativa para escolha: variáveis não quantitativas que melhor representam o marco temporal e o agrupamento das remunerações  
[{col: len(df4[col].unique())} for col in df4.columns]

[{'CNPJ_Companhia': 651},
 {'Data_Referencia': 10},
 {'Versao': 19},
 {'ID_Documento': 659},
 {'Data_Inicio_Exercicio_Social': 43},
 {'Data_Fim_Exercicio_Social': 28},
 {'Total_Remuneracao': 2025},
 {'Orgao_Administracao': 3},
 {'Numero_Membros': 277},
 {'Total_Remuneracao_Orgao': 4041},
 {'Numero_Membros_Remunerados': 278},
 {'Salario': 3792},
 {'Beneficios_Diretos_Indiretos': 1906},
 {'Participacoes_Comites': 251},
 {'Outros_Valores_Fixos': 1739},
 {'Descricao_Outros_Remuneracoes_Fixas': 544},
 {'Bonus': 900},
 {'Participacao_Resultados': 746},
 {'Participacao_Reunioes': 56},
 {'Outros_Valores_Variaveis': 437},
 {'Comissoes': 18},
 {'Descricao_Outros_Remuneracoes_Variaveis': 324},
 {'Pos_emprego': 517},
 {'Cessacao_Cargo': 162},
 {'Baseada_Acoes': 747},
 {'Observacao': 1130}]

In [43]:
# Variáveis de interesse sobre remuneração dos dirigentes: CNPJ_Companhia(0), Total_Remuneracao(6), Orgao_Administracao(7),
# Numero_Membros(8), Total_Remuneracao_Orgao(9), Numero_Membros_Remunerados(10)
dfrem = df4.iloc[:,[0,1,3,6,7,8,9,10]]
dfrem.rename(columns={'CNPJ': 'CNPJ_Companhia', 'DataRef': 'Data_referencia', 'Total_Remuneracao': 'TotRem', 'Orgao_Administracao': 'OrgAdm', \
                      'Numero_Membros': 'NumMemb', 'Total_Remuneracao_Orgao': 'TotRemOrg', 'Numero_Membros_Remunerados': 'NumMembRem'}, \
            inplace = True)
dfrem

Unnamed: 0,CNPJ_Companhia,Data_Referencia,ID_Documento,TotRem,OrgAdm,NumMemb,TotRemOrg,NumMembRem
0,00.000.000/0001-91,2021-01-01,110982,66554887.78,Conselho de Administração,8.00,567824.64,8.00
1,00.000.000/0001-91,2021-01-01,110982,66554887.78,Diretoria Estatutária,34.00,65632172.74,34.00
2,00.000.000/0001-91,2021-01-01,110982,66554887.78,Conselho Fiscal,5.00,354890.40,5.00
3,00.000.000/0001-91,2021-01-01,110982,49595534.00,Conselho de Administração,7.58,312355.78,4.42
4,00.000.000/0001-91,2021-01-01,110982,49595534.00,Diretoria Estatutária,33.50,48951217.74,41.17
...,...,...,...,...,...,...,...,...
6011,97.837.181/0001-47,2021-01-01,110836,37466651.00,Diretoria Estatutária,9.17,30974539.00,9.17
6012,97.837.181/0001-47,2021-01-01,110836,37466651.00,Conselho Fiscal,1.00,130098.00,1.00
6013,97.837.181/0001-47,2021-01-01,110836,33963121.00,Conselho de Administração,13.00,6241794.00,13.00
6014,97.837.181/0001-47,2021-01-01,110836,33963121.00,Diretoria Estatutária,10.00,27471681.00,10.00


## <font color='green'>Consultas SQL para responder às perguntas de negócio</font>

In [44]:
# Cria conexão com banco de dados SQLite
con = sqlite3.connect('dados_prep/freciab.db')

In [45]:
# Cópias dos dataframes gerados para tabelas no banco de dados
dfbas.to_sql('tb_bas', con)
dfcap.to_sql('tb_cap', con)
dfrel.to_sql('tb_rel', con)
dfrem.to_sql('tb_rem', con)

In [47]:
# Para eliminar valores escritos em notação científica
pd.set_option('display.float_format', lambda x: '%.f' % x)

In [48]:
#Quais companhias abertas encaminharam os formulários para a CVM em mais de uma data de referência em 2021? 
query1 = con.execute("SELECT DENOM_CIA AS Empresa, CNPJ_CIA AS CNPJ, COUNT(DT_REFER) AS Contagem \
                        FROM tb_bas GROUP BY CNPJ_CIA HAVING Contagem>1")
# Resultado da consulta 1
result1 = pd.DataFrame.from_records(data = query1.fetchall(), columns = [col[0] for col in query1.description])
# Salva consulta 1 em CSV
result1.to_csv('resultados/resposta-1.csv', index = False)

In [50]:
#Dentre as 20 companhias com maior quantidade de ações, como é o quadro de composição acionária por tipo de investidor e tipo de ação?
query2 = con.execute("SELECT b.DENOM_CIA AS Empresa, c.CNPJ_Companhia AS CNPJ, c.QteAciPF, c.QteAciPJ, c.QteAciII, \
                        c.QteAcoON, c.QteAcoPN FROM tb_bas AS b JOIN \
                        tb_cap AS c ON b.CNPJ_CIA=c.CNPJ_Companhia ORDER BY c.QteTotAco DESC LIMIT 20")
# Resultado da consulta 2
result2 = pd.DataFrame.from_records(data = query2.fetchall(), columns = [col[0] for col in query2.description])
# Salva consulta 2 em CSV
result2.to_csv('resultados/resposta-2.csv', index = False)

In [52]:
#Nas mesmas 20 companhias anteriormente indicadas, como estão relacionadas as remunerações dos membros ocupantes dos cargos de governança?
query3 = con.execute("SELECT b.DENOM_CIA AS Empresa, s.CNPJ_Companhia AS CNPJ, \
                        SUM(CASE WHEN s.OrgAdm='Conselho de Administração' THEN s.NumMembRem ELSE 0 END) AS Remunerados_Adm, \
                        SUM(CASE WHEN s.OrgAdm='Conselho Fiscal' THEN s.NumMembRem ELSE 0 END) AS Remunerados_Fis, \
                        SUM(CASE WHEN s.OrgAdm='Diretoria Estatutária' THEN s.NumMembRem ELSE 0 END) AS Remunerados_Dir, \
                        SUM(CASE WHEN s.OrgAdm='Conselho de Administração' THEN s.TotRemOrg ELSE 0 END) AS Remuneracao_Adm, \
                        SUM(CASE WHEN s.OrgAdm='Conselho Fiscal' THEN s.TotRemOrg ELSE 0 END) AS Remuneracao_Fis, \
                        SUM(CASE WHEN s.OrgAdm='Diretoria Estatutária' THEN s.TotRemOrg ELSE 0 END) AS Remuneracao_Dir \
                        FROM tb_bas AS b JOIN tb_cap AS c ON b.CNPJ_CIA=c.CNPJ_Companhia JOIN tb_rem AS s ON s.CNPJ_Companhia=c.CNPJ_Companhia \
                        GROUP BY s.CNPJ_Companhia ORDER BY c.QteTotAco DESC LIMIT 20")
# Resultado da consulta 3
result3 = pd.DataFrame.from_records(data = query3.fetchall(), columns = [col[0] for col in query3.description])
# Salva consulta 3 em CSV
result3.to_csv('resultados/resposta-3.csv', index = False)

In [54]:
#Considerando as companhias com maior número de ações (no máximo 20), para cada tipo de relação existente, quantos foram os cargos diferentes ocupados pelas pessoas relacionadas?
query4 = con.execute("SELECT t.Empresa, t.CNPJ, \
                        SUM(CASE WHEN t.Relacao='Subordinação' THEN 1 ELSE 0 END) AS Cargos_Subordinacao, \
                        SUM(CASE WHEN t.Relacao='Controle' THEN 1 ELSE 0 END) AS Cargos_Controle, \
                        SUM(CASE WHEN t.Relacao='Prestação de serviço' THEN 1 ELSE 0 END) AS Cargos_Servicos \
                    FROM (SELECT b.DENOM_CIA AS Empresa, c.QteTotAco AS Acoes, r.CNPJ_Companhia AS CNPJ, \
                            r.TipoRel AS Relacao, r.CargoPesRel AS Cargo, COUNT(r.CargoPesRel) AS Ocupantes \
                        FROM tb_bas AS b JOIN tb_cap AS c ON b.CNPJ_CIA=c.CNPJ_Companhia JOIN tb_rel AS r ON r.CNPJ_Companhia=c.CNPJ_Companhia \
                        GROUP BY r.CNPJ_Companhia, r.TipoRel, r.CargoPesRel HAVING Ocupantes>0 ORDER BY c.QteTotAco DESC, Ocupantes DESC) AS t \
                     GROUP BY t.Empresa ORDER BY t.Acoes DESC LIMIT 20")
# Resultado da consulta 4
result4 = pd.DataFrame.from_records(data = query4.fetchall(), columns = [col[0] for col in query4.description])
# Salva consulta 4 em CSV
result4.to_csv('resultados/resposta-4.csv', index = False)

In [55]:
con.close()