In [1]:
import os
import findspark
findspark.init(os.environ['SPARK_HOME'])

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, when

In [2]:
# Inicializando a sessão do Spark
spark = SparkSession.builder.appName("Exemplo").getOrCreate()

## Data Quality
---

- **Avaliação da Qualidade Inicial:** Avaliar o estado atual dos dados quanto a precisão, completude e consistência.

In [3]:
# Criando um DataFrame de exemplo com colunas obrigatórias
data = [("Cliente1", "São Paulo", 25),
        ("Cliente2", None, 30),
        (None, "Rio de Janeiro", 35)]

columns = ["Nome", "Cidade", "Idade"]

df = spark.createDataFrame(data, columns)
df.show()

+--------+--------------+-----+
|    Nome|        Cidade|Idade|
+--------+--------------+-----+
|Cliente1|     São Paulo|   25|
|Cliente2|          NULL|   30|
|    NULL|Rio de Janeiro|   35|
+--------+--------------+-----+



In [6]:
# Verificando se todas as colunas obrigatórias estão preenchidas
colunas_obrigatorias = ["Nome", "Cidade", "Idade"]

df_avaliado = df.withColumn("Qualidade",
                                      when((col("Nome").isNotNull()) & (col("Cidade").isNotNull()) & (col("Idade").isNotNull()), "Completo")
                                      .otherwise("Incompleto"))

# Mostrando o DataFrame resultante
df_avaliado.show()

+--------+--------------+-----+----------+
|    Nome|        Cidade|Idade| Qualidade|
+--------+--------------+-----+----------+
|Cliente1|     São Paulo|   25|  Completo|
|Cliente2|          NULL|   30|Incompleto|
|    NULL|Rio de Janeiro|   35|Incompleto|
+--------+--------------+-----+----------+



In [7]:
spark.stop()