In [None]:
# Importações
from pyspark.sql.functions import col, count, countDistinct, isnan

In [None]:
# Lista de Datasets

datasets = {
    "orders": "dbfs:/Workspace/dados_mpv/olist_orders_dataset.csv",
    "order_items": "dbfs:/Workspace/dados_mpv/olist_order_items_dataset.csv",
    "customers": "dbfs:/Workspace/dados_mpv/olist_customers_dataset.csv",
    "products": "dbfs:/Workspace/dados_mpv/olist_products_dataset.csv",
    "sellers": "dbfs:/Workspace/dados_mpv/olist_sellers_dataset.csv",
    "reviews": "dbfs:/Workspace/dados_mpv/olist_order_reviews_dataset.csv",
    "payments": "dbfs:/Workspace/dados_mpv/olist_order_payments_dataset.csv",
    "geolocation": "dbfs:/Workspace/dados_mpv/olist_geolocation_dataset.csv"
}

In [None]:
# Função para análise de qualifidade

def qualidade_colunas(df, nome_dataset):
    print(f"=== Dataset: {nome_dataset} ===")
    total = df.count()
    for col_name in df.columns:
        n_null = df.filter(col(col_name).isNull() | isnan(col(col_name))).count()
        n_distinct = df.select(col_name).distinct().count()
        print(f"Coluna: {col_name}")
        print(f" - Valores ausentes: {n_null} ({n_null/total*100:.2f}%)")
        print(f" - Valores distintos: {n_distinct}")
    print("\n")

In [None]:
#Leitura e Análise

for nome, path in datasets.items():
    df = spark.read.option("header","true").csv(path)
    qualidade_colunas(df, nome)

# Análise de Qualidade de Dados

## Orders
- Nenhum valor ausente nas colunas críticas (`order_id`, `customer_id`, `order_status`)
- Valores inconsistentes foram observados em `order_status` (ex: cancelados, devolvidos)
- Solução: Filtrar apenas pedidos entregues para análise de vendas

## Order Items
- Nenhum problema crítico
- Valores numéricos (`price`, `freight_value`) coerentes

## Customers
- Nenhum valor ausente
- Formatos de CEP consistentes
- Solução: nenhuma ação necessária

## Products
- Nenhum valor ausente nas colunas principais
- Largura, altura e peso de alguns produtos com zeros (corrigir ou ignorar na análise)

## Sellers
- Nenhum problema crítico

## Reviews
- Alguns pedidos sem review (normal)
- Nenhum valor crítico ausente

## Payments
- Nenhum problema crítico
- Valores coerentes

## Geolocation
- Alguns registros duplicados (mesma cidade, estado e coordenadas)
- Não afeta análise principal
