# Qualidade de Dados com PySpark
## MBA - Implementa√ß√£o Pr√°tica das Dimens√µes de DQ

Este notebook demonstra como implementar as 6 dimens√µes de qualidade de dados usando PySpark com dados de alunos universit√°rios.

In [14]:
# Configura√ß√£o inicial do Spark
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession.builder \
    .appName("QualidadeDados") \
    .config("spark.sql.adaptive.enabled", "true") \
    .getOrCreate()

print(f"Spark Version: {spark.version}")

Spark Version: 3.3.0


## 1. Carregando Dataset de Alunos

In [15]:
# Carregando dataset de alunos
df = spark.read.option("header", "true").option("inferSchema", "true").csv("/home/tavares/data/alunos.csv")

print(f"Total de registros: {df.count()}")
print(f"Colunas: {df.columns}")
df.show(5, truncate=False)

Total de registros: 51
Colunas: ['id_aluno', 'nome_completo', 'email', 'telefone', 'cpf', 'data_nascimento', 'curso', 'periodo', 'nota_final', 'data_matricula', 'status_aluno']
+--------+---------------+---------------------------+-----------+-----------+-------------------+-------------+----------+----------+-------------------+------------+
|id_aluno|nome_completo  |email                      |telefone   |cpf        |data_nascimento    |curso        |periodo   |nota_final|data_matricula     |status_aluno|
+--------+---------------+---------------------------+-----------+-----------+-------------------+-------------+----------+----------+-------------------+------------+
|1       |Jo√£o Silva     |joao@email.com             |11999887766|12345678901|1995-03-15 00:00:00|Engenharia   |Noturno   |8.5       |2020-01-15 00:00:00|Ativo       |
|2       |Maria Santos   |maria.santos@gmail.com     |21987654321|98765432100|1992-07-22 00:00:00|Administra√ß√£o|Matutino  |9.2       |2020-02-20 00:

## 2. Dimens√£o 1: COMPLETUDE
### Identificando campos obrigat√≥rios n√£o preenchidos

In [16]:
# An√°lise de completude
total_registros = df.count()
print("=== AN√ÅLISE DE COMPLETUDE ===")

for coluna in df.columns:
    nulos = df.filter(col(coluna).isNull()).count()
    vazios = df.filter(col(coluna) == "").count()
    preenchidos = total_registros - nulos - vazios
    percentual = (preenchidos / total_registros) * 100
    print(f"{coluna:20} | {preenchidos:2}/{total_registros} | {percentual:5.1f}%")

=== AN√ÅLISE DE COMPLETUDE ===
id_aluno             | 51/51 | 100.0%
nome_completo        | 51/51 | 100.0%
email                | 42/51 |  82.4%
telefone             | 51/51 | 100.0%
cpf                  | 51/51 | 100.0%
data_nascimento      | 51/51 | 100.0%
curso                | 51/51 | 100.0%
periodo              | 51/51 | 100.0%
nota_final           | 51/51 | 100.0%
data_matricula       | 51/51 | 100.0%
status_aluno         | 51/51 | 100.0%


## 3. Dimens√£o 2: VALIDADE
### Validando formatos de email, CPF e regras acad√™micas

In [17]:
# Valida√ß√µes de formato
print("=== AN√ÅLISE DE VALIDADE ===")

# Email v√°lido
emails_validos = df.filter(
    col("email").isNotNull() & 
    col("email").rlike(r"^[\w\.-]+@[\w\.-]+\.[a-zA-Z]{2,}$")
).count()
print(f"Emails v√°lidos: {emails_validos}/{total_registros} ({emails_validos/total_registros*100:.1f}%)")

# CPF v√°lido (11 d√≠gitos)
cpfs_validos = df.filter(
    col("cpf").isNotNull() & 
    col("cpf").rlike(r"^\d{11}$")
).count()
print(f"CPFs v√°lidos: {cpfs_validos}/{total_registros} ({cpfs_validos/total_registros*100:.1f}%)")

# Telefone v√°lido (10-11 d√≠gitos)
telefones_validos = df.filter(
    col("telefone").isNotNull() & 
    col("telefone").rlike(r"^\d{10,11}$")
).count()
print(f"Telefones v√°lidos: {telefones_validos}/{total_registros} ({telefones_validos/total_registros*100:.1f}%)")

# Notas v√°lidas (0-10)
notas_validas = df.filter(
    col("nota_final").isNotNull() & 
    (col("nota_final") >= 0) & 
    (col("nota_final") <= 10)
).count()
print(f"Notas v√°lidas: {notas_validas}/{total_registros} ({notas_validas/total_registros*100:.1f}%)")

=== AN√ÅLISE DE VALIDADE ===
Emails v√°lidos: 33/51 (64.7%)
CPFs v√°lidos: 48/51 (94.1%)
Telefones v√°lidos: 50/51 (98.0%)
Notas v√°lidas: 50/51 (98.0%)


## 4. Dimens√£o 3: UNICIDADE
### Detectando alunos duplicados

In [18]:
# An√°lise de duplicatas
print("=== AN√ÅLISE DE UNICIDADE ===")

# Duplicatas por ID
ids_duplicados = df.groupBy("id_aluno").count().filter(col("count") > 1).count()
print(f"IDs duplicados: {ids_duplicados}")

# Duplicatas por CPF
cpfs_duplicados = df.filter(col("cpf").isNotNull()).groupBy("cpf").count().filter(col("count") > 1).count()
print(f"CPFs duplicados: {cpfs_duplicados}")

# Duplicatas por email
emails_duplicados = df.filter(col("email").isNotNull()).groupBy("email").count().filter(col("count") > 1).count()
print(f"Emails duplicados: {emails_duplicados}")

# Taxa de duplica√ß√£o geral
registros_unicos = df.dropDuplicates(["id_aluno"]).count()
taxa_duplicacao = ((total_registros - registros_unicos) / total_registros) * 100
print(f"Taxa de duplica√ß√£o: {taxa_duplicacao:.1f}%")
print(f"Registros √∫nicos: {registros_unicos}/{total_registros}")

=== AN√ÅLISE DE UNICIDADE ===
IDs duplicados: 1
CPFs duplicados: 3
Emails duplicados: 1
Taxa de duplica√ß√£o: 2.0%
Registros √∫nicos: 50/51


## 5. Dimens√£o 4: CONSIST√äNCIA
### Verificando regras de neg√≥cio acad√™micas

In [19]:
# An√°lise de consist√™ncia
print("=== AN√ÅLISE DE CONSIST√äNCIA ===")

# Data matr√≠cula n√£o pode ser no futuro
matriculas_futuras = df.filter(
    to_date(col("data_matricula"), "yyyy-MM-dd") > current_date()
).count()
print(f"Matr√≠culas no futuro: {matriculas_futuras}")

# Status vs Nota (alunos inativos devem ter nota 0)
status_nota_ok = df.filter(
    ((col("status_aluno") == "Ativo") & (col("nota_final") > 0)) |
    ((col("status_aluno") == "Inativo") & (col("nota_final") == 0)) |
    (col("status_aluno") == "Pendente")
).count()
print(f"Status/Nota consistentes: {status_nota_ok}/{total_registros} ({status_nota_ok/total_registros*100:.1f}%)")

# Idade m√≠nima para matr√≠cula (16 anos)
idades_validas = df.filter(
    months_between(to_date(col("data_matricula"), "yyyy-MM-dd"), to_date(col("data_nascimento"), "yyyy-MM-dd")) >= 192
).count()
print(f"Idades v√°lidas na matr√≠cula: {idades_validas}/{total_registros} ({idades_validas/total_registros*100:.1f}%)")

=== AN√ÅLISE DE CONSIST√äNCIA ===
Matr√≠culas no futuro: 0
Status/Nota consistentes: 51/51 (100.0%)
Idades v√°lidas na matr√≠cula: 50/51 (98.0%)


## 6. Dimens√£o 5: ACUR√ÅCIA
### Detectando anomalias nos dados acad√™micos

In [20]:
# An√°lise de acur√°cia
print("=== AN√ÅLISE DE ACUR√ÅCIA ===")

# Nomes com espa√ßos extras ou caracteres especiais
nomes_problematicos = df.filter(
    col("nome_completo").rlike(r"^\s+|\s+$|\s{2,}|\d+")
).count()
print(f"Nomes problem√°ticos: {nomes_problematicos}")

# Nascimentos no futuro
nascimentos_futuros = df.filter(
    to_date(col("data_nascimento"), "yyyy-MM-dd") > current_date()
).count()
print(f"Nascimentos no futuro: {nascimentos_futuros}")

# Notas imposs√≠veis (negativas ou > 10)
notas_impossivel = df.filter(
    (col("nota_final") < 0) | (col("nota_final") > 10)
).count()
print(f"Notas imposs√≠veis: {notas_impossivel}")

# Idades imposs√≠veis (< 16 ou > 80 anos)
idades_impossivel = df.filter(
    (months_between(current_date(), to_date(col("data_nascimento"), "yyyy-MM-dd")) < 192) |
    (months_between(current_date(), to_date(col("data_nascimento"), "yyyy-MM-dd")) > 960)
).count()
print(f"Idades imposs√≠veis: {idades_impossivel}")

=== AN√ÅLISE DE ACUR√ÅCIA ===
Nomes problem√°ticos: 2
Nascimentos no futuro: 0
Notas imposs√≠veis: 1
Idades imposs√≠veis: 1


## 7. Dimens√£o 6: TEMPESTIVIDADE
### Analisando atualidade dos dados acad√™micos

In [21]:
# An√°lise de tempestividade
print("=== AN√ÅLISE DE TEMPESTIVIDADE ===")

# Matr√≠culas recentes (√∫ltimo ano)
data_limite_recente = date_sub(current_date(), 365)
matriculas_recentes = df.filter(
    to_date(col("data_matricula"), "yyyy-MM-dd") >= data_limite_recente
).count()
print(f"Matr√≠culas recentes (1 ano): {matriculas_recentes}/{total_registros} ({matriculas_recentes/total_registros*100:.1f}%)")

# Matr√≠culas antigas (mais de 5 anos)
data_limite_antiga = date_sub(current_date(), 1825)
matriculas_antigas = df.filter(
    to_date(col("data_matricula"), "yyyy-MM-dd") < data_limite_antiga
).count()
print(f"Matr√≠culas antigas (>5 anos): {matriculas_antigas}/{total_registros} ({matriculas_antigas/total_registros*100:.1f}%)")

# Dados atualizados (simulando √∫ltima atualiza√ß√£o)
dados_atualizados = df.filter(
    col("status_aluno").isin(["Ativo", "Pendente"])
).count()
print(f"Registros ativos/atualizados: {dados_atualizados}/{total_registros} ({dados_atualizados/total_registros*100:.1f}%)")

=== AN√ÅLISE DE TEMPESTIVIDADE ===
Matr√≠culas recentes (1 ano): 0/51 (0.0%)
Matr√≠culas antigas (>5 anos): 12/51 (23.5%)
Registros ativos/atualizados: 44/51 (86.3%)


## 8. DASHBOARD DE KQIs
### M√©tricas consolidadas de qualidade

In [22]:
# Calculando KQIs principais
print("\n" + "="*60)
print("           DASHBOARD DE QUALIDADE - DADOS ACAD√äMICOS")
print("="*60)

# Completude (campos obrigat√≥rios)
campos_obrigatorios = df.filter(
    col("nome_completo").isNotNull() & (col("nome_completo") != "") &
    col("email").isNotNull() & (col("email") != "") &
    col("cpf").isNotNull() & (col("cpf") != "") &
    col("curso").isNotNull() & (col("curso") != "")
).count()
completude = (campos_obrigatorios / total_registros) * 100

# Validade (formatos corretos)
registros_validos = df.filter(
    col("email").rlike(r"^[\w\.-]+@[\w\.-]+\.[a-zA-Z]{2,}$") &
    col("cpf").rlike(r"^\d{11}$") &
    (col("nota_final") >= 0) & (col("nota_final") <= 10)
).count()
validade = (registros_validos / total_registros) * 100

# Unicidade
unicidade = (registros_unicos / total_registros) * 100

# Consist√™ncia (regras de neg√≥cio)
consistencia = (status_nota_ok / total_registros) * 100

# Acur√°cia (dados corretos)
registros_acurados = total_registros - nomes_problematicos - nascimentos_futuros - notas_impossivel
acuracia = (registros_acurados / total_registros) * 100

# Tempestividade (dados atuais)
tempestividade = (dados_atualizados / total_registros) * 100

print(f"üìä Completude:     {completude:5.1f}% (Meta: >95%)")
print(f"‚úÖ Validade:       {validade:5.1f}% (Meta: >90%)")
print(f"üîÑ Unicidade:      {unicidade:5.1f}% (Meta: >99%)")
print(f"üîó Consist√™ncia:   {consistencia:5.1f}% (Meta: >95%)")
print(f"üéØ Acur√°cia:       {acuracia:5.1f}% (Meta: >95%)")
print(f"‚è∞ Tempestividade: {tempestividade:5.1f}% (Meta: >80%)")
print("="*60)

# Score geral
score_geral = (completude + validade + unicidade + consistencia + acuracia + tempestividade) / 6
if score_geral >= 95:
    status = "üü¢ EXCELENTE"
elif score_geral >= 80:
    status = "üü° BOM"
else:
    status = "üî¥ CR√çTICO"

print(f"Score Geral: {score_geral:.1f}% - {status}")


           DASHBOARD DE QUALIDADE - DADOS ACAD√äMICOS
üìä Completude:       0.0% (Meta: >95%)
‚úÖ Validade:        60.8% (Meta: >90%)
üîÑ Unicidade:       98.0% (Meta: >99%)
üîó Consist√™ncia:   100.0% (Meta: >95%)
üéØ Acur√°cia:        94.1% (Meta: >95%)
‚è∞ Tempestividade:  86.3% (Meta: >80%)
Score Geral: 73.2% - üî¥ CR√çTICO


## 9. DATA CLEANSING
### Aplicando corre√ß√µes nos dados acad√™micos

In [23]:
# Aplicando limpeza nos dados
print("=== LIMPEZA DE DADOS ACAD√äMICOS ===")

df_limpo = df \
    .filter(col("id_aluno").isNotNull()) \
    .dropDuplicates(["id_aluno"]) \
    .withColumn("nome_completo", trim(col("nome_completo"))) \
    .filter(col("nome_completo").isNotNull() & (col("nome_completo") != "")) \
    .filter(col("email").rlike(r"^[\w\.-]+@[\w\.-]+\.[a-zA-Z]{2,}$")) \
    .filter((col("nota_final") >= 0) & (col("nota_final") <= 10)) \
    .filter(to_date(col("data_nascimento"), "yyyy-MM-dd") <= current_date()) \
    .filter(to_date(col("data_matricula"), "yyyy-MM-dd") <= current_date())

registros_limpos = df_limpo.count()
registros_removidos = total_registros - registros_limpos

print(f"Registros originais: {total_registros}")
print(f"Registros limpos: {registros_limpos}")
print(f"Registros removidos: {registros_removidos} ({registros_removidos/total_registros*100:.1f}%)")

print("\nDistribui√ß√£o por curso (dados limpos):")
df_limpo.groupBy("curso").count().orderBy(desc("count")).show(10)

print("\nDistribui√ß√£o por status (dados limpos):")
df_limpo.groupBy("status_aluno").count().show()

=== LIMPEZA DE DADOS ACAD√äMICOS ===
Registros originais: 51
Registros limpos: 32
Registros removidos: 19 (37.3%)

Distribui√ß√£o por curso (dados limpos):
+-----------+-----+
|      curso|count|
+-----------+-----+
| Engenharia|    3|
|   Biologia|    1|
| Literatura|    1|
|Arquitetura|    1|
| Matem√°tica|    1|
|Odontologia|    1|
|     F√≠sica|    1|
|      Dan√ßa|    1|
|  Filosofia|    1|
| Computa√ß√£o|    1|
+-----------+-----+
only showing top 10 rows


Distribui√ß√£o por status (dados limpos):
+------------+-----+
|status_aluno|count|
+------------+-----+
|    Pendente|    2|
|     Inativo|    1|
|       Ativo|   29|
+------------+-----+



## 10. Relat√≥rio Executivo
### Insights e recomenda√ß√µes

In [24]:
# Relat√≥rio executivo
print("\n" + "="*70)
print("              RELAT√ìRIO EXECUTIVO - QUALIDADE DE DADOS")
print("="*70)
print(f"Dataset: Sistema Acad√™mico - Cadastro de Alunos")
print(f"Per√≠odo de an√°lise: {df.select(min('data_matricula')).collect()[0][0]} a {df.select(max('data_matricula')).collect()[0][0]}")
print(f"Total de registros analisados: {total_registros}")
print(f"Registros aprovados na limpeza: {registros_limpos} ({registros_limpos/total_registros*100:.1f}%)")

print("\nüìä PRINCIPAIS ACHADOS:")
print(f"‚Ä¢ Emails inv√°lidos: {total_registros - emails_validos} registros")
print(f"‚Ä¢ CPFs inv√°lidos: {total_registros - cpfs_validos} registros")
print(f"‚Ä¢ Registros duplicados: {total_registros - registros_unicos} registros")
print(f"‚Ä¢ Campos obrigat√≥rios vazios: {total_registros - campos_obrigatorios} registros")
print(f"‚Ä¢ Notas fora do padr√£o: {notas_impossivel} registros")

print("\nüéØ RECOMENDA√á√ïES PRIORIT√ÅRIAS:")
print("1. Implementar valida√ß√£o de email em tempo real no sistema")
print("2. Adicionar valida√ß√£o de CPF com d√≠gito verificador")
print("3. Criar processo autom√°tico de detec√ß√£o de duplicatas")
print("4. Estabelecer regras de consist√™ncia status vs nota")
print("5. Implementar auditoria de dados em tempo real")

print("\nüí° IMPACTO ESTIMADO:")
print(f"‚Ä¢ Melhoria na confiabilidade: +{(95 - score_geral):.1f} pontos percentuais")
print(f"‚Ä¢ Redu√ß√£o de retrabalho: ~{registros_removidos * 0.5:.0f} horas/m√™s")
print(f"‚Ä¢ Melhoria na experi√™ncia do usu√°rio: Significativa")

# Salvando dados limpos
df_limpo.coalesce(1).write.mode("overwrite").option("header", "true").csv("/tmp/alunos_limpos")
print("\n‚úÖ Dados limpos salvos em: /tmp/alunos_limpos")

# Finalizando
spark.stop()
print("\nüèÅ An√°lise conclu√≠da com sucesso!")


              RELAT√ìRIO EXECUTIVO - QUALIDADE DE DADOS
Dataset: Sistema Acad√™mico - Cadastro de Alunos
Per√≠odo de an√°lise: 2019-01-15 00:00:00 a 2023-12-15 00:00:00
Total de registros analisados: 51
Registros aprovados na limpeza: 32 (62.7%)

üìä PRINCIPAIS ACHADOS:
‚Ä¢ Emails inv√°lidos: 18 registros
‚Ä¢ CPFs inv√°lidos: 3 registros
‚Ä¢ Registros duplicados: 1 registros
‚Ä¢ Campos obrigat√≥rios vazios: 51 registros
‚Ä¢ Notas fora do padr√£o: 1 registros

üéØ RECOMENDA√á√ïES PRIORIT√ÅRIAS:
1. Implementar valida√ß√£o de email em tempo real no sistema
2. Adicionar valida√ß√£o de CPF com d√≠gito verificador
3. Criar processo autom√°tico de detec√ß√£o de duplicatas
4. Estabelecer regras de consist√™ncia status vs nota
5. Implementar auditoria de dados em tempo real

üí° IMPACTO ESTIMADO:
‚Ä¢ Melhoria na confiabilidade: +21.8 pontos percentuais
‚Ä¢ Redu√ß√£o de retrabalho: ~10 horas/m√™s
‚Ä¢ Melhoria na experi√™ncia do usu√°rio: Significativa

‚úÖ Dados limpos salvos em: /tmp/alunos