![PPGI_UFRJ](https://github.com/zavaleta/Fundamentos_DS/blob/main/imagens/ppgi-ufrj.png?raw=1)
# **Fundamentos de Ciência de Dados**

> Trabalho Final - 2º Período de 2022

### **Disponibilizando Dados sobre Resultados Financeiros de Cias Abertas Enriquecidos com Proveniência para a [OBInvest](https://obinvest.org/)**

---

**Alunos:** Gilberto Gil | Saulo Andrade Almeida | Valquire Jesus



## **FAIRificação**

In [None]:
#checking version machine architecture, OS, python and all libs used in this notebook
import platform as platform
import numpy as np
import pandas as pd
import os
import conda
import pydot
import prov

def checkingEnvironmentVersions(details=False):

    #definnig version of python and all libs used
    HOST_MACHINE_ARCHTECTURE_EXPECTED = 'x86_64'
    HOST_MACHINE_OS_EXPECTED = 'Linux'
    HOST_MACHINE_PLATFORM = 'Linux-5.15.0-47-generic-x86_64-with-glibc2.31'
    CONDA_VERSION_EXPECTED = '4.14.0'
    CONDA_DEFAULT_ENV_EXPECTED = 'drecvmenv'
    PYTHON_VERSION_EXPECTED = '3.9.12'
    NUMPY_LIB_VERSION_EXPECTED = '1.21.5'
    PANDAS_LIB_VERSION_EXPECTED = '1.4.2'
    PYDOT_LIB_VERSION_EXPECTED = '1.4.2'
    PROV_LIB_VERSION_EXPECTED = '2.0.0'
    

    if details: 
        print('Host Machine Architecture:', platform.machine())
        print('Host Machine OS:', platform.system())
        print('Conda Version:', conda.__version__)
        print('Conda default env:', os.environ['CONDA_DEFAULT_ENV'])
        print('Python Version:', platform.python_version())
        print('NumPy Lib Version:', np.__version__)
        print('Pandas Lib Version:', pd.__version__)
        print('PyDot Lib Version:', pydot.__version__)
        print('Prov Lib Version:', prov.__version__)
        
    #checking versions
    try:
        #checking Machine Architecute expected
        assert platform.machine() == HOST_MACHINE_ARCHTECTURE_EXPECTED

        #checking OS expected
        assert platform.system() == HOST_MACHINE_OS_EXPECTED
        
        #checking conda version
        assert conda.__version__ == CONDA_VERSION_EXPECTED
        
        #checking conda default environment
        assert os.environ['CONDA_DEFAULT_ENV'] == CONDA_DEFAULT_ENV_EXPECTED    

        #checking python version
        assert platform.python_version() == PYTHON_VERSION_EXPECTED

        #checking numpy lib version
        assert np.__version__ == NUMPY_LIB_VERSION_EXPECTED  

        #checking Pandas lib version
        assert pd.__version__ == PANDAS_LIB_VERSION_EXPECTED
        
        #checking pydot version
        assert pydot.__version__ == PYDOT_LIB_VERSION_EXPECTED
        
        #checking prov version
        assert prov.__version__ == PROV_LIB_VERSION_EXPECTED
    except:
        #if any assert fail, or something else get wrong during verification
        if details: print('Something is wrong!')
        return False
    else:
        #if pass all asserts
        if details: print('All versions are correct!')
        return True

## **Pré-processamento de Dados**

In [None]:
#Utilizado ambiente python 3.9
import pandas as pd
import numpy as np
#from datetime import datetime
#dateparse = lambda x: datetime.strptime(x, '%Y-%m-%d')

def loadCsv(path, file):
  if path == 'data/cad-emp/':  # condição para fazer leitura do csv cadastro de companias
    return pd.read_csv(path+file, sep=';', header=0, encoding="ISO-8859-1")
  return pd.read_csv(path+file, sep=';', header=0, encoding="ISO-8859-1", parse_dates=['DT_REFER', 'DT_INI_EXERC', 'DT_FIM_EXERC'])

def loadCompanyInfo():
    return loadCsv("data/cad-emp/", "cad_cia_aberta.csv")

def allHistoricalYears():
    return [2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]

def loadDreItr(years):
    tempDF = pd.DataFrame() 
    for year in years:
        tempDF = pd.concat([tempDF, loadCsv("data/dre-itr/","itr_cia_aberta_DRE_con_{0}.csv".format(year))], ignore_index=True)
    return tempDF

def loadDreDfp(years):
    tempDF = pd.DataFrame() 
    for year in years:
        tempDF = pd.concat([tempDF, loadCsv("data/dre-dfp/",f'dfp_cia_aberta_DRE_con_{year}.csv')], ignore_index=True)
    return tempDF

def loadAllDreItr():
    return loadDreItr(allHistoricalYears())

def loadAllDreDfp():
    return loadDreDfp(allHistoricalYears())


def executeExperiment():
    companyInfoDF = loadCompanyInfo()
    dreItrDF = loadAllDreItr()
    dreDfpDF = loadAllDreDfp()
    print("Executando o experimento")
    print(f"Carregando Datasets. CadEmp:{companyInfoDF.shape}, DreItr:{dreItrDF.shape} e DrePfp:{dreDfpDF.shape} ")
    return companyInfoDF, dreItrDF, dreDfpDF
    
    

## **Proveniência de Dados**

In [None]:
import sys, subprocess, datetime
from prov.model import ProvDocument, Namespace
from prov.dot import prov_to_dot
from IPython.display import Image

def createProvenance(agent, entity, activity, graph):
    # Creating an empty provenance document
    docProv = ProvDocument()

    # Declaring namespaces for various prefixes used in the excution of Randon Walk Experiment
    docProv.add_namespace('foaf', 'http://xmlns.com/foaf/0.1/')
    docProv.add_namespace('prov', 'http://www.w3.org/ns/prov#')
    docProv.add_namespace('void', 'http://vocab.deri.ie/void#')
    docProv.add_namespace('cvm', 'https://www.gov.br/cvm/pt-br')
    docProv.add_namespace('cvm-cademp', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/CAD/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2011', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2012', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2013', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2014', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2015', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2016', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2017', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2018', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2019', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2020', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-itr-2021', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/ITR/DADOS/')
    docProv.add_namespace('cvm-dre-dfp-2010', 'https://dados.cvm.gov.br/dados/CIA_ABERTA/DOC/DFP/DADOS/')

    
    
    # Creating all entity
    entDsCadEmp = docProv.entity('cvm-cademp:cad_cia_aberta.csv', {'prov:label': 'Dataset com dados da empresas listadas na CVM', 'prov:type': 'void:Dataset'})
    
    entDreItr = docProv.entity('cvm:dre-trimestral', {'prov:label': 'Documrnto que representa o conceito de DREs do tipo Trimestral', 'prov:type': 'foaf:Document'})
    entDsDreItr2011 = docProv.entity("cvm-dre-itr-2011:itr_cia_aberta_2011.zip", {'prov:label': 'Dataset com DRE trimestrais, do ano de 2011', 'prov:type': 'void:Dataset'})
    docProv.wasDerivedFrom('cvm-dre-itr-2011:itr_cia_aberta_2011.zip', 'cvm:dre-trimestral')
    docProv.wasDerivedFrom('cvm-dre-itr-2011:itr_cia_aberta_DRE_con_2011.csv', 'cvm-dre-itr-2011:itr_cia_aberta_2011.zip')
    entDsDreItr2012 = docProv.entity("cvm-dre-itr-2012:itr_cia_aberta_2012.zip", {'prov:label': 'Dataset com DRE trimestrais, do ano de 2012', 'prov:type': 'void:Dataset'})
    docProv.wasDerivedFrom('cvm-dre-itr-2012:itr_cia_aberta_2012.zip', 'cvm:dre-trimestral')
    docProv.wasDerivedFrom('cvm-dre-itr-2012:itr_cia_aberta_DRE_con_2012.csv', 'cvm-dre-itr-2012:itr_cia_aberta_2012.zip')
    entDsDreItr2013 = docProv.entity("cvm-dre-itr-2013:itr_cia_aberta_2013.zip", {'prov:label': 'Dataset com DRE trimestrais, do ano de 2013', 'prov:type': 'void:Dataset'})
    docProv.wasDerivedFrom('cvm-dre-itr-2013:itr_cia_aberta_2013.zip', 'cvm:dre-trimestral')
    docProv.wasDerivedFrom('cvm-dre-itr-2013:itr_cia_aberta_DRE_con_2013.csv', 'cvm-dre-itr-2013:itr_cia_aberta_2013.zip')

    
    
    entDreDfp = docProv.entity('cvm:dre-anual', {'prov:label': 'Documento que representa o conceito de DREs do tipo Anual', 'prov:type': 'foaf:Document'})
    entDsDreDfp2010 = docProv.entity("cvm-dre-dfp-2010:dfp_cia_aberta_2010.zip", {'prov:label': 'Dataset com DRE anual, do ano de 2010', 'prov:type': 'void:Dataset'})
    docProv.wasDerivedFrom('cvm-dre-dfp-2010:dfp_cia_aberta_2010.zip', 'cvm:dre-anual')
    docProv.wasDerivedFrom('cvm-dre-dfp-2010:dfp_cia_aberta_DRE_con_2010.csv', 'cvm-dre-dfp-2010:dfp_cia_aberta_2010.zip')
    
    

    # Creating all Agents  
    agntCvm = docProv.agent("cvm:CVM", 
                            {"prov:type":"prov:Organization", "foaf:name":"Comissão de Valores Mobiliários"})
    
    # create activity of dataset creations
    actvCreateDs = docProv.activity("cvm:create-dataset")    
    
    # Generation
    docProv.wasGeneratedBy(entDsCadEmp, actvCreateDs)
    docProv.wasGeneratedBy(entDreItr, actvCreateDs)
    docProv.wasGeneratedBy(entDreDfp, actvCreateDs)
    
    docProv.wasAssociatedWith(actvCreateDs, agntCvm)

    ### END - Registering Retrospective Provenance 

    ### Optional outputs ####

    #Generating the outup - a  Provenance Graph
    dot = prov_to_dot(docProv)
    graph = graph+".png"
    dot.write_png(graph)

    #Generating the Serialization - Output XML
    docProv.serialize(entity + ".xml", format='xml') 

    #Generating the Serialization - Output Turtle
    docProv.serialize(entity + ".ttl", format='rdf', rdf_format='ttl')

## **Análise de Dados**

In [None]:
agent    = "Grupo02-Gil-Saulo-Valquire"                                         #PROV-Agent
entity   = "DREs-CVM"                                                           #PROV-Entity
activity = "TrabalhoFinalDisciplinaFundamentoDS-2022-2"                         #PROV-Activity
graph = entity                                                                  #PROV-Graph

def main():
    if(checkingEnvironmentVersions(True)):
        executeExperiment()
        createProvenance(agent, entity, activity, graph)
        
# main() # condição suspensa para poder rodar no notebook local

# Image(graph+\".png\") # condição suspensa para poder rodar no notebook local

In [None]:
df_cia, df_itr, df_dfp = executeExperiment()

Executando o experimento
Carregando Datasets. CadEmp:(2550, 47), DreItr:(1344665, 15) e DrePfp:(292511, 15) 


In [None]:
df_cia.info()
df_itr.info()
df_dfp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2550 entries, 0 to 2549
Data columns (total 47 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   CNPJ_CIA            2550 non-null   object 
 1   DENOM_SOCIAL        2550 non-null   object 
 2   DENOM_COMERC        2467 non-null   object 
 3   DT_REG              2550 non-null   object 
 4   DT_CONST            1621 non-null   object 
 5   DT_CANCEL           1769 non-null   object 
 6   MOTIVO_CANCEL       1767 non-null   object 
 7   SIT                 2550 non-null   object 
 8   DT_INI_SIT          2550 non-null   object 
 9   CD_CVM              2550 non-null   int64  
 10  SETOR_ATIV          2544 non-null   object 
 11  TP_MERC             668 non-null    object 
 12  CATEG_REG           1311 non-null   object 
 13  DT_INI_CATEG        1311 non-null   object 
 14  SIT_EMISSOR         1220 non-null   object 
 15  DT_INI_SIT_EMISSOR  1220 non-null   object 
 16  CONTRO

In [None]:
# filtrar as empresas com cadastro ativo
df_cia = df_cia[df_cia['SIT'] == 'ATIVO']

In [None]:
# deletar colunas para o merge
df_cia.drop(['DENOM_SOCIAL', 'DENOM_COMERC', 'DT_REG', 'DT_CONST', 'DT_CANCEL', 'MOTIVO_CANCEL', 'SIT', 
'DT_INI_SIT', 'TP_MERC', 'CATEG_REG', 'DT_INI_CATEG', 'SIT_EMISSOR', 'DT_INI_SIT_EMISSOR', 'CONTROLE_ACIONARIO', 
'TP_ENDER', 'LOGRADOURO', 'COMPL', 'BAIRRO', 'MUN', 'UF', 'PAIS', 'CEP', 'DDD_TEL', 'TEL', 'DDD_FAX', 'FAX', 
'EMAIL', 'TP_RESP', 'RESP', 'DT_INI_RESP', 'LOGRADOURO_RESP', 'COMPL_RESP', 'BAIRRO_RESP', 'MUN_RESP', 'UF_RESP', 
'PAIS_RESP', 'CEP_RESP', 'DDD_TEL_RESP', 'TEL_RESP', 'DDD_FAX_RESP', 'FAX_RESP', 'EMAIL_RESP', 'CNPJ_AUDITOR', 
'AUDITOR'], axis=1, inplace=True)

In [None]:
# deletar os registros duplicados, que possuem mesmos cnpj e códigos cvm
print('Antes: Linhas = {0} | Colunas = {1}'.format(df_cia.shape[0], df_cia.shape[1]))
df_cia.drop_duplicates(subset = ['CNPJ_CIA', 'CD_CVM'], keep = 'last', inplace=True)
print('Depois: Linhas = {0} | Colunas = {1}'.format(df_cia.shape[0], df_cia.shape[1]))

df_cia.head()

In [None]:
# filtrar últimos informes trimestrais
df_itr = df_itr[df_itr['ORDEM_EXERC'] == 'ÚLTIMO']

In [None]:
# fazer merge entre cadastro e informe itr, obtendo o df itr com setor
df_itr_setor = pd.merge(df_itr, df_cia, how = 'inner', on = ['CNPJ_CIA', 'CD_CVM']).reset_index(drop=True)

# comparar registros antes e depois
print('Antes: Linhas = {0} | Colunas = {1}'.format(df_itr.shape[0], df_itr.shape[1]))
print('Depois: Linhas = {0} | Colunas = {1}'.format(df_itr_setor.shape[0], df_itr_setor.shape[1]))
print('Diferença de Linhas =', len(df_itr) - len(df_itr_setor))

df_itr_setor.head()

Antes: Linhas = 672859 | Colunas = 15
Depois: Linhas = 553444 | Colunas = 16
Diferença de Linhas = 119415


Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.01,Receita de Venda de Bens e/ou Serviços,8551982.0,S,Energia Elétrica
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02,Custo dos Bens e/ou Serviços Vendidos,-1127021.0,S,Energia Elétrica
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.01,Encargos Setoriais,-398353.0,N,Energia Elétrica
3,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.02,ICMS,-252475.0,N,Energia Elétrica
4,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.03,PASEP/COFINS,-476193.0,N,Energia Elétrica


In [None]:
print('Total de Cias com informes no ITR:', len(df_itr_setor.CNPJ_CIA.value_counts()))

Total de Cias com informes no ITR: 445


In [None]:
# criar o df com informações dos trimestres 1 (1 a 3 mês), 2 (4 a 6 mês) e 3 (6 a 9 mês)
df_trim123 = df_itr_setor.loc[lambda df_itr_setor: (df_itr_setor.DT_REFER.dt.month == 3) | 
                            ((df_itr_setor.DT_REFER.dt.month == 6) & (df_itr_setor.DT_INI_EXERC.dt.month > 3)) | 
                            ((df_itr_setor.DT_REFER.dt.month == 9) & (df_itr_setor.DT_INI_EXERC.dt.month > 6))]
df_trim123.head()                                                                                                  

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.01,Receita de Venda de Bens e/ou Serviços,8551982.0,S,Energia Elétrica
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02,Custo dos Bens e/ou Serviços Vendidos,-1127021.0,S,Energia Elétrica
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.01,Encargos Setoriais,-398353.0,N,Energia Elétrica
3,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.02,ICMS,-252475.0,N,Energia Elétrica
4,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.03,PASEP/COFINS,-476193.0,N,Energia Elétrica


In [None]:
resposta=df_trim123.loc[df_trim123['CD_CVM']=='22586']
resposta

In [None]:
# criar o df com informações acumuladas até o trimestre 3, 01/07/ANO a 30/09/ANO
df_acm3 = df_itr_setor.loc[lambda df_itr_setor: ((df_itr_setor.DT_REFER.dt.month == 9) & (df_itr_setor.DT_INI_EXERC.dt.month <= 6))]
df_acm3.head()

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
126,00.001.180/0001-26,2011-09-30,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,3.01,Receita de Venda de Bens e/ou Serviços,20689462.0,S,Energia Elétrica
128,00.001.180/0001-26,2011-09-30,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,3.02,Custo dos Bens e/ou Serviços Vendidos,0.0,S,Energia Elétrica
130,00.001.180/0001-26,2011-09-30,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,3.03,Resultado Bruto,20689462.0,S,Energia Elétrica
132,00.001.180/0001-26,2011-09-30,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,3.04,Despesas/Receitas Operacionais,-16867579.0,S,Energia Elétrica
134,00.001.180/0001-26,2011-09-30,2,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-09-30,3.04.01,Despesas com Vendas,0.0,S,Energia Elétrica


In [None]:
print(df_acm3.DT_REFER.value_counts())
print(df_acm3.DT_INI_EXERC.value_counts())
#resposta=df_acm3.loc[df_acm3['DT_INI_EXERC']=='2011-03-10']
resposta=df_trim123.loc[df_trim123['CD_CVM']=='20036']
resposta

In [None]:
# filtrar últimos informes anuais
df_dfp = df_dfp[df_dfp['ORDEM_EXERC'] == 'ÚLTIMO']

In [None]:
# fazer merge entre cadastro e informe itr, obtendo o df dfp com setor
df_dfp_setor = pd.merge(df_dfp, df_cia, how = 'inner', on = ['CNPJ_CIA', 'CD_CVM']).reset_index(drop=True)

# comparar registros antes e depois
print('Antes: Linhas = {0} | Colunas = {1}'.format(df_dfp.shape[0], df_dfp.shape[1]))
print('Depois: Linhas = {0} | Colunas = {1}'.format(df_dfp_setor.shape[0], df_dfp_setor.shape[1]))
print('Diferença de Linhas =', len(df_dfp) - len(df_dfp_setor))

df_dfp_setor.head()

Antes: Linhas = 146468 | Colunas = 15
Depois: Linhas = 123100 | Colunas = 16
Diferença de Linhas = 23368


Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
0,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.01,Receitas da Intermediação Financeira,106919760.0,S,Bancos
1,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.01.01,Receita de Juros,106919760.0,S,Bancos
2,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02,Despesas da Intermediação Financeira,-69976075.0,S,Bancos
3,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02.01,Despesa de Juros,-61403710.0,S,Bancos
4,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02.02,Despesa com Provisão para Perdas em Empréstimos,-8572365.0,S,Bancos


In [None]:
print('Total de Cias com informes no DFP:', len(df_dfp_setor.CNPJ_CIA.value_counts()))

Total de Cias com informes no DFP: 465


In [None]:
print('Acumulado Trimestre 3:')
print(df_acm3.DT_REFER.value_counts())
print('\nDFP - DATA REFERÊNCIA:')
print(df_dfp_setor.DT_REFER.value_counts())
print('\nDFP  - DATA INÍCIO:')
print(df_dfp_setor.DT_INI_EXERC.value_counts())
print('\nDFP -  DATA FIM:')
print(df_dfp_setor.DT_FIM_EXERC.value_counts())

In [None]:
#resposta=df_dfp_setor.loc[df_dfp_setor['CD_CVM']==20036]
resposta=df_dfp_setor.loc[df_dfp_setor['DT_INI_EXERC']=='2011-03-10']
resposta

In [None]:
# filtrar os informes acumalados no trimestre 4, 01/10/ANO a 31/12/ANO
df_acm4 = df_dfp_setor.loc[lambda df_dfp_setor: (df_dfp_setor.DT_REFER.dt.month == 12)]
df_acm4.head()

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
0,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.01,Receitas da Intermediação Financeira,106919760.0,S,Bancos
1,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.01.01,Receita de Juros,106919760.0,S,Bancos
2,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02,Despesas da Intermediação Financeira,-69976075.0,S,Bancos
3,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02.01,Despesa de Juros,-61403710.0,S,Bancos
4,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-12-31,3.02.02,Despesa com Provisão para Perdas em Empréstimos,-8572365.0,S,Bancos


In [None]:
print('Total de Cias com informes no ACM4:', len(df_acm4.CNPJ_CIA.value_counts()))

Total de Cias com informes no ACM4: 454


In [None]:
print('Acumulado Trimestre 3:')
print(df_acm3.DT_REFER.value_counts())
print('Acumulado Trimestre 4:')
print(df_acm4.DT_REFER.value_counts())


In [None]:
# fazer o merge entre df acumlado 4 e df acumulado 3, mantendo o df acumulado 4
df_trim4 = pd.merge(df_acm4, df_acm3, how='left', on=['CD_CVM', 'CD_CONTA'], suffixes=['_acm4','_acm3'])
#df_trim4 = pd.merge(df_acm4, df_acm3, how='inner', on=['CD_CVM', 'CD_CONTA'])
df_trim4.head()

Unnamed: 0,CNPJ_CIA_acm4,DT_REFER_acm4,VERSAO_acm4,DENOM_CIA_acm4,CD_CVM,GRUPO_DFP_acm4,MOEDA_acm4,ESCALA_MOEDA_acm4,ORDEM_EXERC_acm4,DT_INI_EXERC_acm4,...,GRUPO_DFP_acm3,MOEDA_acm3,ESCALA_MOEDA_acm3,ORDEM_EXERC_acm3,DT_INI_EXERC_acm3,DT_FIM_EXERC_acm3,DS_CONTA_acm3,VL_CONTA_acm3,ST_CONTA_FIXA_acm3,SETOR_ATIV_acm3
0,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,,,
1,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,,,
2,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,,,
3,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,,,
4,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,,,


In [None]:
#df_trim4.style

In [None]:
print(df_trim4.shape)
print('Total de Cias com informes no TRIM4:', len(df_trim4.CNPJ_CIA_acm4.value_counts()))

(1034825, 30)
Total de Cias com informes no TRIM4: 454


In [None]:
# preencher valores VL_CONTA ausentes com 0, informes que não foram enviados por Cias até o trimestre 3
df_trim4.VL_CONTA_acm3.fillna(value=0, inplace=True)
print(df_trim4['VL_CONTA_acm3'].isnull().sum())
df_trim4.head()

0


Unnamed: 0,CNPJ_CIA_acm4,DT_REFER_acm4,VERSAO_acm4,DENOM_CIA_acm4,CD_CVM,GRUPO_DFP_acm4,MOEDA_acm4,ESCALA_MOEDA_acm4,ORDEM_EXERC_acm4,DT_INI_EXERC_acm4,...,GRUPO_DFP_acm3,MOEDA_acm3,ESCALA_MOEDA_acm3,ORDEM_EXERC_acm3,DT_INI_EXERC_acm3,DT_FIM_EXERC_acm3,DS_CONTA_acm3,VL_CONTA_acm3,ST_CONTA_FIXA_acm3,SETOR_ATIV_acm3
0,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,0.0,,
1,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,0.0,,
2,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,0.0,,
3,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,0.0,,
4,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,,NaT,NaT,,0.0,,


In [None]:
# calcular o valor do trimestre 4, fazendo a subtração entre acumulado anual e o acumulado do trimestre 3
df_trim4['RESULTADO'] = df_trim4['VL_CONTA_acm4'] - df_trim4['VL_CONTA_acm3']
df_trim4.head()

Unnamed: 0,CNPJ_CIA_acm4,DT_REFER_acm4,VERSAO_acm4,DENOM_CIA_acm4,CD_CVM,GRUPO_DFP_acm4,MOEDA_acm4,ESCALA_MOEDA_acm4,ORDEM_EXERC_acm4,DT_INI_EXERC_acm4,...,MOEDA_acm3,ESCALA_MOEDA_acm3,ORDEM_EXERC_acm3,DT_INI_EXERC_acm3,DT_FIM_EXERC_acm3,DS_CONTA_acm3,VL_CONTA_acm3,ST_CONTA_FIXA_acm3,SETOR_ATIV_acm3,RESULTADO
0,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,NaT,NaT,,0.0,,,106919760.0
1,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,NaT,NaT,,0.0,,,106919760.0
2,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,NaT,NaT,,0.0,,,-69976075.0
3,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,NaT,NaT,,0.0,,,-61403710.0
4,00.000.000/0001-91,2011-12-31,4,BCO BRASIL S.A.,1023,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,...,,,,NaT,NaT,,0.0,,,-8572365.0


In [None]:
# deletar colunas para o merge
df_trim4.drop(['VL_CONTA_acm4','CNPJ_CIA_acm3', 'DT_REFER_acm3', 'VERSAO_acm3', 'DENOM_CIA_acm3', 'GRUPO_DFP_acm3', 'MOEDA_acm3', 'ESCALA_MOEDA_acm3', 
               'ORDEM_EXERC_acm3', 'DT_INI_EXERC_acm3', 'DT_FIM_EXERC_acm3', 'DS_CONTA_acm3', 'VL_CONTA_acm3', 'ST_CONTA_FIXA_acm3', 
               'SETOR_ATIV_acm3'], axis=1, inplace=True)

# renomear as colunas para o merge
df_trim4.rename(columns = {'CNPJ_CIA_acm4':'CNPJ_CIA', 'DT_REFER_acm4':'DT_REFER', 'VERSAO_acm4':'VERSAO', 'DENOM_CIA_acm4':'DENOM_CIA', 
                           'GRUPO_DFP_acm4':'GRUPO_DFP', 'MOEDA_acm4':'MOEDA', 'ESCALA_MOEDA_acm4':'ESCALA_MOEDA', 
                           'ORDEM_EXERC_acm4':'ORDEM_EXERC', 'DT_INI_EXERC_acm4':'DT_INI_EXERC', 'DT_FIM_EXERC_acm4':'DT_FIM_EXERC', 
                           'DS_CONTA_acm4':'DS_CONTA', 'ST_CONTA_FIXA_acm4':'ST_CONTA_FIXA', 'SETOR_ATIV_acm4':'SETOR_ATIV', 
                           'RESULTADO':'VL_CONTA'}, inplace = True)
df_trim4.columns

Index(['CNPJ_CIA', 'DT_REFER', 'VERSAO', 'DENOM_CIA', 'CD_CVM', 'GRUPO_DFP',
       'MOEDA', 'ESCALA_MOEDA', 'ORDEM_EXERC', 'DT_INI_EXERC', 'DT_FIM_EXERC',
       'CD_CONTA', 'DS_CONTA', 'ST_CONTA_FIXA', 'SETOR_ATIV', 'VL_CONTA'],
      dtype='object')

In [None]:
print(df_trim4.shape)
print(df_trim4['DT_REFER'].isnull().sum())
print(df_trim4.DT_REFER.value_counts())
print('Total de Cias com informes no TRIM4:', len(df_trim4.CNPJ_CIA.value_counts()))

(1034825, 16)
0
2020-12-31    102086
2021-12-31    101716
2019-12-31    100326
2018-12-31     97161
2017-12-31     96529
2016-12-31     95440
2015-12-31     92534
2014-12-31     90722
2013-12-31     87726
2012-12-31     86940
2011-12-31     83645
Name: DT_REFER, dtype: int64
Total de Cias com informes no TRIM4: 454


In [None]:
# criar o df obinvest, concatenando os informes referentes aos 4 trimestres
df_obinvest = pd.concat([df_trim123, df_trim4])
df_obinvest.describe()

In [None]:
df_obinvest.head()

Unnamed: 0,CNPJ_CIA,DT_REFER,VERSAO,DENOM_CIA,CD_CVM,GRUPO_DFP,MOEDA,ESCALA_MOEDA,ORDEM_EXERC,DT_INI_EXERC,DT_FIM_EXERC,CD_CONTA,DS_CONTA,VL_CONTA,ST_CONTA_FIXA,SETOR_ATIV
0,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.01,Receita de Venda de Bens e/ou Serviços,8551982.0,S,Energia Elétrica
1,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02,Custo dos Bens e/ou Serviços Vendidos,-1127021.0,S,Energia Elétrica
2,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.01,Encargos Setoriais,-398353.0,N,Energia Elétrica
3,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.02,ICMS,-252475.0,N,Energia Elétrica
4,00.001.180/0001-26,2011-03-31,1,CENTRAIS ELET BRAS S.A. - ELETROBRAS,2437,DF Consolidado - Demonstração do Resultado,REAL,MIL,ÚLTIMO,2011-01-01,2011-03-31,3.02.03,PASEP/COFINS,-476193.0,N,Energia Elétrica


In [None]:
print(df_obinvest.MOEDA.value_counts())
print(df_obinvest.DT_REFER.value_counts())

In [None]:
df_obinvest.drop_duplicates(subset = ['CNPJ_CIA', 'CD_CVM', 'CD_CONTA', 'DT_INI_EXERC', 'DT_FIM_EXERC'], keep = 'last', inplace=True)

In [None]:
print(df_obinvest.MOEDA.value_counts())
print(df_obinvest.DT_REFER.value_counts())

In [None]:
#df_obinvest.style

In [None]:
print('Total de Cias com informes no ITR:', len(df_obinvest.CNPJ_CIA.value_counts()))

Total de Cias com informes no ITR: 468
