# Análise de Qualidade dos Dados

A análise de qualidade dos dados foi realizada sobre a camada gold por representar o conjunto final de dados utilizado nas análises e na resposta às perguntas de negócio deste MVP.

Inicialmente, foi realizada a verificação de volume, que indicou a presença de 463.152 registros na camada Gold. Esse valor é consistente com o volume observado nas camadas anteriores do pipeline (Bronze e Silver), evidenciando que não houve perda de registros durante os processos de transformação e modelagem dos dados.

Em seguida, foi conduzida a verificação de valores nulos nos principais atributos numéricos relacionados à gravidade dos acidentes, tais como número de mortos, feridos e veículos envolvidos. Os resultados mostraram ausência de valores nulos nesses campos, indicando que o tratamento aplicado na camada Silver foi eficaz e garantiu a completude dos dados para análise.

A análise de valores fora do domínio esperado também não identificou registros inválidos, como valores negativos para quantidades de mortos, feridos ou veículos. Esse resultado reforça a consistência lógica do conjunto de dados e sua adequação para análises quantitativas.

Por fim, foi realizada uma análise de distribuição básica (sanidade) dos indicadores de gravidade, considerando valores mínimos, máximos e médias. As estatísticas observadas apresentaram comportamento coerente com o fenômeno analisado, sem a presença de valores extremos inconsistentes ou incompatíveis com o contexto de acidentes de trânsito.

De forma geral, os resultados indicam que o conjunto de dados da camada Gold apresenta boa qualidade, consistência e integridade, estando apto para suportar as análises analíticas propostas e a resposta às perguntas de negócio definidas nos objetivos deste MVP.


### Verificação de volume

In [0]:
%sql
SELECT COUNT(*) AS total_registros
FROM delta.`/Volumes/workspace/default/gold_accident`;

### Verificação de valores nulos

In [0]:
%sql
SELECT
  SUM(CASE WHEN mortos IS NULL THEN 1 ELSE 0 END) AS mortos_nulos,
  SUM(CASE WHEN feridos IS NULL THEN 1 ELSE 0 END) AS feridos_nulos,
  SUM(CASE WHEN veiculos IS NULL THEN 1 ELSE 0 END) AS veiculos_nulos
FROM delta.`/Volumes/workspace/default/gold_accident`;

### Verificação de valores fora do domínio

In [0]:
%sql
SELECT
  COUNT(*) AS registros_invalidos
FROM delta.`/Volumes/workspace/default/gold_accident`
WHERE mortos < 0
   OR feridos < 0
   OR veiculos < 0;

### Distribuição básica (sanidade)

In [0]:
%sql
SELECT
  MIN(mortos) AS min_mortos,
  MAX(mortos) AS max_mortos,
  AVG(mortos) AS avg_mortos
FROM delta.`/Volumes/workspace/default/gold_accident`;