In [1]:
import unittest
import os
import csv
from pyspark.sql import SparkSession

In [2]:
class TestTransformations(unittest.TestCase):
    def setUp(self):
        self.spark = SparkSession.builder \
            .appName("Transformation Test") \
            .master("local[*]") \
            .config("spark.log.level", "OFF") \
            .getOrCreate()
        
        self.dir_destino = "file:///notebooks/csv/"
        self.nome_python = "movimento_flat_python.csv"
        self.nome_scala = "movimento_flat_scala.csv"
        self.caminho_final_python = os.path.join(self.dir_destino, self.nome_python)
        self.caminho_final_scala = os.path.join(self.dir_destino, self.nome_scala)

    def tearDown(self):
        if self.spark is not None:
            self.spark.stop()
            self.spark = None

    def test_python_colunas_esperadas(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_python)
        colunas_esperadas = [
            "nome_associado", "sobrenome_associado", "idade_associado",
            "vlr_transacao_movimento", "des_transacao_movimento", "data_movimento",
            "numero_cartao", "nome_impresso_cartao", "tipo_conta", "data_criacao_conta"
        ]
        self.assertEqual(sorted(df.columns), sorted(colunas_esperadas))

    def test_scala_colunas_esperadas(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_scala)
        colunas_esperadas = [
            "nome_associado", "sobrenome_associado", "idade_associado",
            "vlr_transacao_movimento", "des_transacao_movimento", "data_movimento",
            "numero_cartao", "nome_impresso_cartao", "tipo_conta", "data_criacao_conta"
        ]
        self.assertEqual(sorted(df.columns), sorted(colunas_esperadas))
# 
    def test_python_tipos_dados(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_python)
        for col_name, dtype in df.dtypes:
            self.assertEqual(dtype, "string")
# 
    def test_scala_tipos_dados(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_scala)
        for col_name, dtype in df.dtypes:
            self.assertEqual(dtype, "string")
# 
    def test_python_valores_nulos(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_python)
        colunas_criticas = ["nome_associado", "vlr_transacao_movimento", "numero_cartao"]
        for col in colunas_criticas:
            nulos = df.filter(df[col].isNull()).count()
            self.assertEqual(nulos, 0)
# 
    def test_scala_valores_nulos(self):
        df = self.spark.read.option("header", "true").csv(self.caminho_final_scala)
        colunas_criticas = ["nome_associado", "vlr_transacao_movimento", "numero_cartao"]
        for col in colunas_criticas:
            nulos = df.filter(df[col].isNull()).count()
            self.assertEqual(nulos, 0)
 
        


In [3]:
loader = unittest.TestLoader()
suite = loader.loadTestsFromTestCase(TestTransformations)
runner = unittest.TextTestRunner()
runner.run(suite)

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Setting Spark log level to "OFF".
.Setting Spark log level to "OFF".
.Setting Spark log level to "OFF".
.Setting Spark log level to "OFF".
.Setting Spark log level to "OFF".
.Setting Spark log level to "OFF".
.
----------------------------------------------------------------------
Ran 6 tests in 10.114s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>