In [None]:
# ===== Cell 1: Imports e carregamento do arquivo Parquet final corrigido =====
from pathlib import Path # Adicionar import
import pandas as pd

# --- Definir caminhos relativos ---
# Assumindo que DataCheck.ipynb está na pasta 'Code/'
# e a pasta 'Output/' está um nível acima, dentro da raiz do projeto.
notebook_parent_dir = Path('..') # Vai de 'Code/' para 'b3-analise-bancos/'
output_dir = notebook_parent_dir / 'Output'

# Caminhos para os arquivos Parquet
parquet_path = output_dir / 'df_final_corrigido.parquet'
parquet_cosif_full_path = output_dir / 'df_cosif_full_corrigido.parquet' # Renomeei a variável para clareza

# Carrega o DataFrame
df = pd.read_parquet(parquet_path)


In [11]:
# ===== Cell 2: Checagem básica de dimensões e colunas =====
print("Shape do DataFrame:", df.shape)

print("\nColunas do DataFrame:")
for i, col in enumerate(df.columns, start=1):
    print(f"{i}. {col}")


Shape do DataFrame: (1255244, 19)

Colunas do DataFrame:
1. DATA
2. DOCUMENTO
3. CNPJ
4. AGENCIA
5. NOME_INSTITUICAO
6. TAXONOMIA
7. CONTA
8. NOME_CONTA
9. SALDO
10. COD_CONGL
11. NOME_CONGL
12. TipoInstituicao
13. NomeRelatorio
14. NumeroRelatorio
15. Grupo
16. Conta
17. NomeColuna
18. DescricaoColuna
19. Saldo


In [12]:
# ===== Cell 3: Informações gerais sobre tipos e valores nulos =====
df.info()

print("\nContagem de valores nulos por coluna:")
print(df.isnull().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1255244 entries, 0 to 1255243
Data columns (total 19 columns):
 #   Column            Non-Null Count    Dtype  
---  ------            --------------    -----  
 0   DATA              1255244 non-null  int64  
 1   DOCUMENTO         1255244 non-null  int64  
 2   CNPJ              1255244 non-null  object 
 3   AGENCIA           0 non-null        float64
 4   NOME_INSTITUICAO  1255244 non-null  object 
 5   TAXONOMIA         1255244 non-null  object 
 6   CONTA             1255244 non-null  int64  
 7   NOME_CONTA        1255244 non-null  object 
 8   SALDO             1255244 non-null  float64
 9   COD_CONGL         1255244 non-null  object 
 10  NOME_CONGL        1147156 non-null  object 
 11  TipoInstituicao   1078422 non-null  float64
 12  NomeRelatorio     1078422 non-null  object 
 13  NumeroRelatorio   1078422 non-null  float64
 14  Grupo             1078422 non-null  object 
 15  Conta             1078422 non-null  float64
 16  

In [13]:
# ===== Cell 4: Amostra inicial dos dados =====
display(df.head(10))


Unnamed: 0,DATA,DOCUMENTO,CNPJ,AGENCIA,NOME_INSTITUICAO,TAXONOMIA,CONTA,NOME_CONTA,SALDO,COD_CONGL,NOME_CONGL,TipoInstituicao,NomeRelatorio,NumeroRelatorio,Grupo,Conta,NomeColuna,DescricaoColuna,Saldo
0,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,10000007,ATIVO REALIZÁVEL,2122392000000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
1,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,11000006,DISPONIBILIDADES,16332500000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
2,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,11100009,Caixa,13054720000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
3,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,11500001,Disponibilidades em Moedas Estrangeiras,3277780000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
4,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,12000005,APLICAÇÕES INTERFINANCEIRAS DE LIQUIDEZ,509291800000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
5,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,12100008,Aplicações em Operações Compromissadas,443882500000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
6,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,12200001,Aplicações em Depósitos Interfinanceiros,9022786000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
7,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,12600003,Aplicações em Moedas Estrangeiras,56386510000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
8,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,13000004,TÍTULOS E VALORES MOBILIÁRIOS E INSTRUMENTOS F...,438008700000.0,C0080329,BB - PRUDENCIAL,,,,,,,,
9,202401,4010,0,,BCO DO BRASIL S.A.,BANCO DO BRASIL - BANCO MULTIPLO,13100007,Livres,202937000000.0,C0080329,BB - PRUDENCIAL,,,,,,,,


In [14]:
# ===== Cell 6: Estatísticas descritivas das colunas não numéricas =====
obj_cols = df.select_dtypes(include=['object', 'string']).columns

for col in obj_cols:
    n_unique = df[col].nunique(dropna=False)
    sample_vals = df[col].dropna().unique()[:10]
    print(f"Coluna: {col}")
    print(f"  - Tipo: {df[col].dtype}")
    print(f"  - Valores únicos (até 10 exemplares): {sample_vals.tolist()}")
    print(f"  - Contagem de valores únicos: {n_unique}\n")


Coluna: CNPJ
  - Tipo: object
  - Valores únicos (até 10 exemplares): ['0', '208', '360305', '416968', '517645', '556603', '795423', '997185', '1023570', '1181521']
  - Contagem de valores únicos: 175

Coluna: NOME_INSTITUICAO
  - Tipo: object
  - Valores únicos (até 10 exemplares): ['BCO DO BRASIL S.A.', 'BRB - BCO DE BRASILIA S.A.', 'CAIXA ECONOMICA FEDERAL', 'BANCO INTER', 'BCO RIBEIRAO PRETO S.A.', 'BANCO BARI S.A.', 'BANCO SEMEAR', 'BCO B3 S.A.', 'BCO RABOBANK INTL BRASIL S.A.', 'BCO COOPERATIVO SICREDI S.A.']
  - Contagem de valores únicos: 181

Coluna: TAXONOMIA
  - Tipo: object
  - Valores únicos (até 10 exemplares): ['BANCO DO BRASIL - BANCO MULTIPLO', 'BANCOS MULTIPLOS', 'CAIXA ECONOMICA FEDERAL', 'BANCOS COMERCIAIS', 'BANCOS MULTIPLOS COOPERATIVOS', 'BANCOS DE CÂMBIO', 'BANCOS DE INVESTIMENTO', 'BANCOS DE DESENVOLVIMENTO', 'BANCOS COMERCIAIS ESTRAGEIROS - FILIAL PAIS', 'BANCO NACIONAL DE DESENVOLVIMENTO ECONOMICO SOCIAL']
  - Contagem de valores únicos: 10

Coluna: NOME_CONT

In [15]:
# ===== Cell 7: Verificação de duplicatas e índice =====
n_duplicated = df.duplicated().sum()
print(f"Total de linhas duplicadas (identicamente iguais): {n_duplicated}")

print("\nÍndice do DataFrame:")
print(df.index)


Total de linhas duplicadas (identicamente iguais): 0

Índice do DataFrame:
RangeIndex(start=0, stop=1255244, step=1)


In [16]:
# ===== Cell 8: Amostragem aleatória de linhas =====
display(df.sample(n=5, random_state=42))


Unnamed: 0,DATA,DOCUMENTO,CNPJ,AGENCIA,NOME_INSTITUICAO,TAXONOMIA,CONTA,NOME_CONTA,SALDO,COD_CONGL,NOME_CONGL,TipoInstituicao,NomeRelatorio,NumeroRelatorio,Grupo,Conta,NomeColuna,DescricaoColuna,Saldo
42231,202403,4010,416968,,BANCO INTER,BANCOS MULTIPLOS,14200009,Créditos Vinculados,2925658000.0,C0080996,INTER - PRUDENCIAL,1.0,Informações de Capital,5.0,,79661.0,Conta_79661,Relação entre o Patrimônio de Referência de Ní...,0.117141
699407,202409,4010,10371492,,BCO YAMAHA MOTOR S.A.,BANCOS MULTIPLOS,31200006,Operações de Risco Nível A,17837510.0,C0080721,YAMAHA MOTOR - PRUDENCIAL,1.0,Informações de Capital,5.0,Ativos Ponderados pelo Risco (RWA),79656.0,ORWA,Parcela do RWA referente à exposição ao risco ...,157512300.0
7102,202401,4010,28195667,,BCO ABC BRASIL S.A.,BANCOS MULTIPLOS,21200009,Participações em Coligadas e Controladas no País,1143684000.0,C0080312,ABC-BRASIL - PRUDENCIAL,,,,,,,,
833981,202409,4010,68900810,,BCO RENDIMENTO S.A.,BANCOS COMERCIAIS,12100008,Aplicações em Operações Compromissadas,739986600.0,C0080659,RENDIMENTO - PRUDENCIAL,1.0,Informações de Capital,5.0,Ativos Ponderados pelo Risco (RWA) - RWA para ...,79655.0,Conta_79655,Parcela do RWA referente ao risco das operaçõe...,0.0
1165103,202412,4016,31597552,,BCO CLASSICO S.A.,BANCOS MULTIPLOS,18000009,OUTROS CRÉDITOS,225836600.0,C0081665,BCO CLASSICO S.A. - PRUDENCIAL,1.0,Informações de Capital,5.0,Ativos Ponderados pelo Risco (RWA) - RWA para ...,79652.0,Conta_79652,Parcela do RWA referente às exposições em ouro...,0.0


In [None]:
# ===== Cell 9: (Opcional) Carregar df_cosif_full_corrigido para comparações =====
df_cosif_full = pd.read_parquet(parquet_cosif_full_path)

print("Shape de df_cosif_full_corrigido:", df_cosif_full.shape)
print("\nColunas de df_cosif_full_corrigido:")
for i, col in enumerate(df_cosif_full.columns, start=1):
    print(f"{i}. {col}")


Shape de df_cosif_full_corrigido: (224756, 11)

Colunas de df_cosif_full_corrigido:
1. DATA
2. DOCUMENTO
3. CNPJ
4. AGENCIA
5. NOME_INSTITUICAO
6. TAXONOMIA
7. CONTA
8. NOME_CONTA
9. SALDO
10. COD_CONGL
11. NOME_CONGL


In [18]:
# ===== Cell 10: (Opcional) Amplitude temporal e quantidade de instituições =====
# Exibe os períodos cobertos e quantos CNPJs distintos existem no final
print("Períodos únicos em df_final_corrigido:", df['DATA'].nunique(), "valores")
print("Instituições únicas em df_final_corrigido:", df['CNPJ'].nunique(), "CNPJs")

# Para o df_cosif_full_corrigido
print("Períodos únicos em df_cosif_full_corrigido:", df_cosif_full['DATA'].nunique())
print("Instituições únicas em df_cosif_full_corrigido:", df_cosif_full['CNPJ'].nunique())


Períodos únicos em df_final_corrigido: 12 valores
Instituições únicas em df_final_corrigido: 175 CNPJs
Períodos únicos em df_cosif_full_corrigido: 12
Instituições únicas em df_cosif_full_corrigido: 175
