#### Importar bibliotecas e funcionalidades

In [14]:
import pandas as pd
import os
from ydata_profiling import ProfileReport

#### Visualisando dados das planilhas com Ydata

In [None]:
# Obter o diretório atual e o diretório pai
current_dir = os.getcwd()
parent_dir = os.path.abspath(os.path.join(current_dir, os.pardir))

# Caminho para o diretório com os arquivos Excel
path = os.path.join(parent_dir, "data_excel")

print("Gerando perfis de dados interativos com ydata-profiling\n")

# Iterar sobre os arquivos no diretório especificado
for archive in os.listdir(path):
    if archive.startswith(("dim", "fat")):  # Verifica se o arquivo começa com 'dim' ou 'fat'
        full_path = os.path.join(path, archive)
        df = pd.read_excel(full_path)
        
        # Gerar o relatório de perfilamento do ydata-profiling
        print(f"--- Gerando relatório para a planilha: {archive} ---")
        profile = ProfileReport(df, title=f"Perfil de Dados para {archive}", explorative=True)
        
        # Exibir o relatório interativamente no Jupyter Notebook
        profile.to_notebook_iframe()
        print("-" * 50, "\n")


#### Organizando e limpando dados

In [17]:
# Criar o diretório para arquivos limpos se não existir
os.makedirs('../data_cleaned', exist_ok=True)

# Diretório onde os arquivos Excel estão localizados
path = os.path.join(parent_dir, "data_excel")

# Diretório para salvar os arquivos CSV limpos
clean_dir = '../data_cleaned'

print("Limpando dados")
for archive in os.listdir(path):
    if archive[:3] == "dim" or archive[:3] == "fat":
        # Corrigir a leitura de arquivos com múltiplas extensões
        file_path = os.path.join(path, archive)
        df = pd.read_excel(file_path)
        
        # Limpar os dados
        df_cleaned = df.drop_duplicates().fillna(0).applymap(lambda x: x.strip() if isinstance(x, str) else x)
        
        # Criar o nome do arquivo CSV limpo
        file_name, file_extension = os.path.splitext(archive)
        clean_file_name = f"clean_{file_name}.csv"
        clean_file_path = os.path.join(clean_dir, clean_file_name)
        
        # Salvar o DataFrame limpo como CSV
        df_cleaned.to_csv(clean_file_path, index=False)
        print(f"Arquivo limpo salvo em: {clean_file_path}")


Limpando dados
Arquivo limpo salvo em: ../data_cleaned\clean_dim_familia_produtos.csv


  df_cleaned = df.drop_duplicates().fillna(0).applymap(lambda x: x.strip() if isinstance(x, str) else x)
  df_cleaned = df.drop_duplicates().fillna(0).applymap(lambda x: x.strip() if isinstance(x, str) else x)
  df_cleaned = df.drop_duplicates().fillna(0).applymap(lambda x: x.strip() if isinstance(x, str) else x)


Arquivo limpo salvo em: ../data_cleaned\clean_dim_produtos.csv
Arquivo limpo salvo em: ../data_cleaned\clean_dim_vendedor.csv


  df_cleaned = df.drop_duplicates().fillna(0).applymap(lambda x: x.strip() if isinstance(x, str) else x)


Arquivo limpo salvo em: ../data_cleaned\clean_fato_vendas.csv
