In [7]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType

spark = SparkSession.builder.getOrCreate()

# Campo estruturado: Identificação da Carga
identificacao_carga_schema = StructType([
    StructField("id_lote", StringType(), True),
    StructField("tipo_carga", StringType(), True),
    StructField("usuario_carga", StringType(), True)
])

# Campo estruturado: Auditoria Técnica
auditoria_tecnica_schema = StructType([
    StructField("dt_carga", StringType(), True),
    StructField("hora_carga", StringType(), True),
    StructField("dt_particao", StringType(), True),
    StructField("ano", StringType(), True),
    StructField("mes", StringType(), True),
    StructField("dia", StringType(), True)
])

# Campo estruturado: Origem do Dado
origem_dado_schema = StructType([
    StructField("fonte_origem", StringType(), True),
    StructField("nome_arquivo", StringType(), True),
    StructField("ambiente_origem", StringType(), True),
    StructField("data_extracao_origem", StringType(), True)
])

# Campo estruturado: Schema e Compatibilidade, Validação, Identificação Técnica
tecnica_schema = StructType([
    StructField("versao_schema_origem", StringType(), True),
    StructField("valido", StringType(), True),
    StructField("motivo_invalidez", StringType(), True),
    StructField("hash_linha", StringType(), True),
    StructField("qtd_linhas_processadas", StringType(), True)
])

# Schema completo
schema = StructType([
    StructField("identificacao_carga", identificacao_carga_schema, True),
    StructField("auditoria_tecnica", auditoria_tecnica_schema, True),
    StructField("origem_dado", origem_dado_schema, True),
    StructField("tecnica", tecnica_schema, True)
])

# Dados de exemplo
data = [
    (
        {"id_lote": "123", "tipo_carga": "A", "usuario_carga": "user1"},
        {"dt_carga": "2024-05-01", "hora_carga": "10:00", "dt_particao": "2024-05-01", "ano": "2024", "mes": "05", "dia": "01"},
        {"fonte_origem": "sistema_x", "nome_arquivo": "dados.csv", "ambiente_origem": "prod", "data_extracao_origem": "2024-04-30"},
        {"versao_schema_origem": "v1", "valido": "true", "motivo_invalidez": "", "hash_linha": "abc123", "qtd_linhas_processadas": "100"}
    ),
    (
        {"id_lote": "456", "tipo_carga": "B", "usuario_carga": "user2"},
        {"dt_carga": "2024-05-02", "hora_carga": "11:00", "dt_particao": "2024-05-02", "ano": "2024", "mes": "05", "dia": "02"},
        {"fonte_origem": "sistema_y", "nome_arquivo": "dados2.csv", "ambiente_origem": "dev", "data_extracao_origem": "2024-05-01"},
        {"versao_schema_origem": "v2", "valido": "false", "motivo_invalidez": "erro formato", "hash_linha": "def456", "qtd_linhas_processadas": "80"}
    )
]

# Criando o DataFrame
df = spark.createDataFrame(data, schema=schema)
df.printSchema()
df.show(truncate=False)

root
 |-- identificacao_carga: struct (nullable = true)
 |    |-- id_lote: string (nullable = true)
 |    |-- tipo_carga: string (nullable = true)
 |    |-- usuario_carga: string (nullable = true)
 |-- auditoria_tecnica: struct (nullable = true)
 |    |-- dt_carga: string (nullable = true)
 |    |-- hora_carga: string (nullable = true)
 |    |-- dt_particao: string (nullable = true)
 |    |-- ano: string (nullable = true)
 |    |-- mes: string (nullable = true)
 |    |-- dia: string (nullable = true)
 |-- origem_dado: struct (nullable = true)
 |    |-- fonte_origem: string (nullable = true)
 |    |-- nome_arquivo: string (nullable = true)
 |    |-- ambiente_origem: string (nullable = true)
 |    |-- data_extracao_origem: string (nullable = true)
 |-- tecnica: struct (nullable = true)
 |    |-- versao_schema_origem: string (nullable = true)
 |    |-- valido: string (nullable = true)
 |    |-- motivo_invalidez: string (nullable = true)
 |    |-- hash_linha: string (nullable = true)
 |   

[Stage 8:>                                                          (0 + 7) / 7]

+-------------------+---------------------------------------------+----------------------------------------+-------------------------------------+
|identificacao_carga|auditoria_tecnica                            |origem_dado                             |tecnica                              |
+-------------------+---------------------------------------------+----------------------------------------+-------------------------------------+
|{123, A, user1}    |{2024-05-01, 10:00, 2024-05-01, 2024, 05, 01}|{sistema_x, dados.csv, prod, 2024-04-30}|{v1, true, , abc123, 100}            |
|{456, B, user2}    |{2024-05-02, 11:00, 2024-05-02, 2024, 05, 02}|{sistema_y, dados2.csv, dev, 2024-05-01}|{v2, false, erro formato, def456, 80}|
+-------------------+---------------------------------------------+----------------------------------------+-------------------------------------+



                                                                                