Notebook de Limpeza, Manipulação e Visualização de dados - FIIs 2025

Este notebook realiza a leitura, limpeza e análise exploratória de uma base de dados pública de **Fundos de Investimento Imobiliário (FIIs)** obtida a partir de relatórios da CVM/B3.
O objetivo é preparar e visualizar informações relevantes para análise de conformidade e auditoria.

In [None]:
# Importando bibliotecas necessárias para analise de dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import date

sns.set(style="whitegrid", palette="muted", font_scale=1.1)


1 - Leitura dos dados.

In [None]:
file_path = "dfin_fii_2025.csv"
df = pd.read_csv(file_path, sep=';', encoding='latin1')


# Exibir as primeiras linhas do DataFrame
print("Dimensões do DataFrame:", df.shape)
print("Colunas:", df.columns.tolist())
print("\nPrimeiras linhas:")
print(df.head())

2 - Padronização de Nomes de Colunas

In [None]:
df.columns =(
    df.columns.str.strip()
    .str.lower()
    .str.replace(' ', '_', regex=True)
)

print("\nColunas padronizadas:", df.columns.tolist())

3 - Conversão de Datas e Tipos

In [21]:
for col in ["data_referencia","data_entrega"]:
    df[col]=pd.to_datetime(df[col],errors='coerce')

4 - Tratamento de Dados Faltantes


In [None]:
print("\nValores nulos por coluna antes da limpeza:")
print(df.isnull().sum())

# Preencher campos textuais vazios com “Não Informado”
for col in df.select_dtypes(include=["float64", "int64"]).columns:
    df[col] = df[col].fillna(df[col].median())

for col in df.select_dtypes(include=["object"]).columns:
    df[col] = df[col].fillna("Não Informado")



5 - Remoção de Duplicados

In [None]:
antes = df.shape[0]
df.drop_duplicates(inplace=True)
depois = df.shape[0]
print(f"\n Registros duplicados removidos: {antes - depois}")

6 - Estatísticas e Estrutura

In [None]:
print("\nResumo do dataset:")
print(df.info())


7 - Análises Exploratórias

In [None]:
# 7.1 Contagem por tipo de fundo
plt.figure(figsize=(10,5))
df["tipo_fundo_classe"].value_counts().plot(kind="bar", color="skyblue")
plt.title("Distribuição por Tipo de Fundo")
plt.xlabel("Tipo de Fundo")
plt.ylabel("Quantidade")
plt.show()

# 7.2 Quantidade de fundos por data de entrega
plt.figure(figsize=(12,6))
df["data_entrega"].value_counts().sort_index().plot(kind="bar")
plt.title("Quantidade de Fundos por Data de Entrega")
plt.xlabel("Data de Entrega")
plt.ylabel("Número de Fundos")
plt.xticks(rotation=45)
plt.show()

# 7.3 Frequência de parecer do auditor
if "parecer_auditor" in df.columns:
    plt.figure(figsize=(8,5))
    df["parecer_auditor"].value_counts().plot(kind="pie", autopct="%1.1f%%", colors=["#66b3ff","#99ff99","#ffcc99"])
    plt.title("Distribuição do Parecer do Auditor")
    plt.ylabel("")
    plt.show()


8 - Insights e Observações

In [None]:
print("\n Insights iniciais:")
print("- A base contém informações de diferentes classes de fundos imobiliários (FIIs).")
print("- As datas de referência e entrega ajudam a entender a atualização dos relatórios.")
print("- A presença ou ausência de parecer de auditor indica transparência e conformidade regulatória.")
print("- Os links de download permitem acessar os relatórios completos diretamente da CVM/B3.")

9 - Exportação do Dataset Limpo

In [None]:
output_path = "dfin_fii_2025_limpo.csv"
df.to_csv(output_path, index=False, encoding="utf-8-sig")
print(f"\n Arquivo limpo exportado com sucesso para: {output_path}")

10 - Identificação e Data

In [34]:
print(f"\nAnálise concluída em {date.today()} por Patrícia Lopes da Silva.")


Análise concluída em 2025-10-04 por Patrícia Lopes da Silva.
