In [1]:
import os
import findspark
findspark.init(os.environ['SPARK_HOME'])

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when

In [2]:
# Inicializando a sessão do Spark
spark = SparkSession.builder.appName("Exemplo").getOrCreate()

## Data Quality
---

- **Validação de Dados:** Assegurar que os dados estejam corretos e sigam regras de negócio.

In [9]:
# Criando um DataFrame de exemplo com datas de nascimento
data = [("Cliente1", "1990-01-15"),
        ("Cliente2", "2005-05-20"),
        ("Cliente3", "1980-03-10"),
        ("Cliente4", "1930-03-10"),
        ("Cliente5", "2024-03-10")]

columns = ["Cliente", "DataNascimento"]

df = spark.createDataFrame(data, columns)

df.show()

+--------+--------------+
| Cliente|DataNascimento|
+--------+--------------+
|Cliente1|    1990-01-15|
|Cliente2|    2005-05-20|
|Cliente3|    1980-03-10|
|Cliente4|    1930-03-10|
|Cliente5|    2024-03-10|
+--------+--------------+



In [4]:
# Definindo o intervalo válido para datas de nascimento
data_inicio_valida = "1950-01-01"
data_fim_valida = "2023-12-31"

In [10]:
# Validando se as datas de nascimento estão dentro do intervalo válido
df_validado = df.withColumn("ValidacaoDataNascimento",
                            when((col("DataNascimento") >= data_inicio_valida) & (col("DataNascimento") <= data_fim_valida), "Válida")
                            .otherwise("Inválida"))

# Mostrando o DataFrame resultante
df_validado.show()

+--------+--------------+-----------------------+
| Cliente|DataNascimento|ValidacaoDataNascimento|
+--------+--------------+-----------------------+
|Cliente1|    1990-01-15|                 Válida|
|Cliente2|    2005-05-20|                 Válida|
|Cliente3|    1980-03-10|                 Válida|
|Cliente4|    1930-03-10|               Inválida|
|Cliente5|    2024-03-10|               Inválida|
+--------+--------------+-----------------------+



In [11]:
spark.stop()