# 06 - Relatório de Qualidade de Dados

Análise simples da qualidade dos dados limpos.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt


## Carregar Dados


In [None]:
df = pd.read_csv('data/silver/dados_limpos.csv')


print(f"Total de registros: {len(df):,}")
print(f"Total de colunas: {df.shape[1]}")



## 1. Completude (Dados Preenchidos)


In [None]:
print("\n1. COMPLETUDE DOS DADOS")


# Calcular completude geral
total_celulas = df.shape[0] * df.shape[1]
celulas_preenchidas = df.count().sum()
completude_geral = (celulas_preenchidas / total_celulas) * 100

print(f"Completude Geral: {completude_geral:.2f}%\n")

# Completude por coluna
print("Completude por coluna:")
for coluna in df.columns:
    percentual = (df[coluna].count() / len(df)) * 100
    print(f"  {coluna:20s}: {percentual:6.2f}%")


## 2. Unicidade (Duplicatas)


In [None]:
print("\n2. UNICIDADE DOS DADOS")


duplicatas = df.duplicated().sum()
unicidade = ((len(df) - duplicatas) / len(df)) * 100

print(f"Unicidade: {unicidade:.2f}%")
print(f"Duplicatas encontradas: {duplicatas:,}")


## 3. Valores Ausentes


In [None]:
print("\n3. VALORES AUSENTES")


valores_ausentes = df.isnull().sum()
valores_ausentes = valores_ausentes[valores_ausentes > 0]

if len(valores_ausentes) > 0:
    print("Colunas com valores ausentes:")
    for coluna, qtd in valores_ausentes.items():
        print(f"  {coluna:20s}: {qtd:,} ausentes")
else:
    print("Nenhum valor ausente encontrado!")


## 4. Estatísticas Básicas


In [None]:

# Mostrar estatísticas das colunas numéricas principais
colunas_principais = ['Quantity', 'UnitPrice', 'valor_total']
for col in colunas_principais:
    if col in df.columns:
        print(f"\n{col}:")
        print(f"  Mínimo: {df[col].min():,.2f}")
        print(f"  Máximo: {df[col].max():,.2f}")
        print(f"  Média: {df[col].mean():,.2f}")


## 5. Visualização


In [None]:
# Gráfico de completude
plt.figure(figsize=(10, 6))
completude_por_coluna = (df.count() / len(df) * 100).sort_values()
completude_por_coluna.plot(kind='barh', color='steelblue')
plt.xlabel('Completude (%)')
plt.title('Completude dos Dados por Coluna')
plt.axvline(x=95, color='red', linestyle='--', label='Meta 95%')
plt.legend()
plt.tight_layout()
plt.savefig('data/quality_report.png')
print("✓ Gráfico salvo em: data/quality_report.png")
plt.show()


## 6. Score Final


In [None]:

print("SCORE DE QUALIDADE")


# Score simples: média de completude e unicidade
score_final = (completude_geral + unicidade) / 2

print(f"\nCompletude: {completude_geral:.2f}%")
print(f"Unicidade: {unicidade:.2f}%")
print(f"\nScore Final: {score_final:.2f}%")

# Classificação
if score_final >= 95:
    print("Classificação: EXCELENTE ⭐⭐⭐⭐⭐")
elif score_final >= 90:
    print("Classificação: MUITO BOM ⭐⭐⭐⭐")
elif score_final >= 80:
    print("Classificação: BOM ⭐⭐⭐")
elif score_final >= 70:
    print("Classificação: REGULAR ⭐⭐")
else:
    print("Classificação: NECESSITA MELHORIAS ⭐")

print("="*50)
