In [None]:
# ===== Cell 1: Imports e carregamento do arquivo Parquet final corrigido =====
from pathlib import Path
import pandas as pd

# --- Definir caminhos relativos ---
# Assumindo que DataCheck.ipynb está na pasta 'Code/'
# e a pasta 'Output/' está um nível acima, dentro da raiz do projeto.
notebook_parent_dir = Path('..')  # Vai de 'Code/' para 'b3-analise-bancos/'
output_dir = notebook_parent_dir / 'Output'

# Caminhos para os arquivos Parquet
parquet_path = output_dir / 'df_final_corrigido.parquet'
parquet_cosif_full_path = output_dir / 'df_cosif_full_corrigido.parquet'  # Renomeei a variável para clareza

# Carrega o DataFrame
df = pd.read_parquet(parquet_path)


In [None]:
# ===== Cell 2: Checagem básica de dimensões e colunas =====
print("Shape do DataFrame:", df.shape)

print("\nColunas do DataFrame:")
for i, col in enumerate(df.columns, start=1):
    print(f"{i}. {col}")


In [None]:
# ===== Cell 3: Informações gerais sobre tipos e valores nulos =====
df.info()

print("\nContagem de valores nulos por coluna:")
print(df.isnull().sum())


In [None]:
# ===== Cell 4: Amostra inicial dos dados =====
display(df.head(10))


In [None]:
# ===== Cell 6: Estatísticas descritivas das colunas não numéricas =====
obj_cols = df.select_dtypes(include=['object', 'string']).columns

for col in obj_cols:
    n_unique = df[col].nunique(dropna=False)
    sample_vals = df[col].dropna().unique()[:10]
    print(f"Coluna: {col}")
    print(f"  - Tipo: {df[col].dtype}")
    print(f"  - Valores únicos (até 10 exemplares): {sample_vals.tolist()}")
    print(f"  - Contagem de valores únicos: {n_unique}\n")


In [None]:
# ===== Cell 7: Verificação de duplicatas e índice =====
n_duplicated = df.duplicated().sum()
print(f"Total de linhas duplicadas (identicamente iguais): {n_duplicated}")

print("\nÍndice do DataFrame:")
print(df.index)


In [None]:
# ===== Cell 8: Amostragem aleatória de linhas =====
display(df.sample(n=5, random_state=42))


In [None]:
# ===== Cell 9: (Opcional) Carregar df_cosif_full_corrigido para comparações =====
df_cosif_full = pd.read_parquet(parquet_cosif_full_path)

print("Shape de df_cosif_full_corrigido:", df_cosif_full.shape)
print("\nColunas de df_cosif_full_corrigido:")
for i, col in enumerate(df_cosif_full.columns, start=1):
    print(f"{i}. {col}")


In [None]:
# ===== Cell 10: (Opcional) Amplitude temporal e quantidade de instituições =====
# Exibe os períodos cobertos e quantos CNPJs distintos existem no final
print("Períodos únicos em df_final_corrigido:", df['DATA'].nunique(), "valores")
print("Instituições únicas em df_final_corrigido:", df['CNPJ'].nunique(), "CNPJs")

# Para o df_cosif_full_corrigido
print("Períodos únicos em df_cosif_full_corrigido:", df_cosif_full['DATA'].nunique())
print("Instituições únicas em df_cosif_full_corrigido:", df_cosif_full['CNPJ'].nunique())
