#======Vizualização dos Dados======#

Nesta etapa, foi realizada a leitura de todos os arquivos CSV da base de dados do Olist, localizados na pasta data/raw/.
Utilizei um dicionário (file_map) para mapear nomes intuitivos aos nomes dos arquivos. Em seguida, carreguei os dados com pandas.read_csv() e armazenamos os DataFrames em um dicionário (dfs) para facilitar o acesso e manipulação. Por fim, foi exibida as primeiras linhas de cada tabela para verificar se os dados foram carregados corretamente.

In [None]:
import pandas as pd
import os

#===Definindo o caminho dos arquivos brutos===#
raw_path = '../data/raw/'

#===Mapeando os arquivos em um dicionário para facilitar o carregamento===#
file_map = {
    "orders": "olist_orders_dataset.csv",
    "customers": "olist_customers_dataset.csv",
    "products": "olist_products_dataset.csv",
    "sellers": "olist_sellers_dataset.csv",
    "order_items": "olist_order_items_dataset.csv",
    "order_reviews": "olist_order_reviews_dataset.csv",
    "order_payments": "olist_order_payments_dataset.csv",
    "geolocation": "olist_geolocation_dataset.csv",
    "product_translation": "product_category_name_translation.csv"
}

#===Carregando todos os arquivos em dataframes===#
dfs = {name: pd.read_csv(os.path.join(raw_path, filename)) for name, filename in file_map.items()}

#===Exibindo os primeiros registros de cada dataset===#
for name, df in dfs.items():
    print(f"\n{name.upper()}:\n")
    display(df.head())


#======Limpeza e Normalização dos Dados======#

Nesta etapa, apliquei duas funções auxiliares para padronizar e limpar todos os DataFrames carregados:

-normalize_columns(): transforma os nomes das colunas para minúsculo, substitui espaços e hífens por underscores (_), deixando o padrão mais limpo e consistente.

-clean_df(): remove linhas duplicadas, linhas e colunas totalmente vazias.

Após aplicar essas funções a todos os DataFrames, salvei os arquivos limpos na pasta data/processed/, organizando o fluxo de dados para etapas futuras da análise.

In [4]:
#===Função que normaliza nomes de colunas===#
def normalize_columns(df):
    return df.rename(columns=lambda x: x.strip().lower().replace(" ", "_").replace("-", "_"))

#===Função de limpeza básica
def clean_df(df):
    df = df.drop_duplicates()           #->Remove duplicatas
    df = df.dropna(how='all')           #->Remove linhas totalmente vazias
    df = df.dropna(axis=1, how='all')   #->Remove colunas totalmente vazias
    return df

#===Aplicando limpeza e normalização em todos os dataframes===#
for name in dfs:
    dfs[name] = normalize_columns(dfs[name])
    dfs[name] = clean_df(dfs[name])

#===Salvando os dados limpos em CSVs===#
processed_path = "../data/processed/"
os.makedirs(processed_path, exist_ok=True)

for name, df in dfs.items():
    df.to_csv(os.path.join(processed_path, f"{name}.csv"), index=False)
