In [1]:
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.utils import getResolvedOptions
from awsglue.dynamicframe import DynamicFrame
from pyspark.sql.functions import col, udf, struct
from pyspark.sql.types import StringType
from awsglue.transforms import Map, DropFields, ApplyMapping
import psycopg2

sc = SparkContext()
context = GlueContext(sc)

In [2]:
path = "s3://network.cubo.datalake/airtable/raw/prod/"
path = path + "2025-03-17-18-05-57/data/"
path = path + "Calendário de Eventos Cubo/Events/Plataforma Cubo Network/"
print(path)
dataframeBaseEventos = context.create_dynamic_frame.from_options(
                connection_type='s3',
                connection_options={
                    'paths': [path],
                    'recurse': True
                },
                format='json'
            )
dataframeBaseEventos.count()

s3://network.cubo.datalake/airtable/raw/prod/2025-03-17-18-05-57/data/Calendário de Eventos Cubo/Events/Plataforma Cubo Network/


6

In [3]:
dataframeBaseEventos.printSchema()

root
|-- id: string
|-- createdTime: string
|-- fields: struct
|    |-- Título do evento: string
|    |-- Categoria de evento: string
|    |-- Data e Horário: string
|    |-- Tipo do evento: string
|    |-- Link de inscrição: string
|    |-- Formato: string
|    |-- Trimestre: string
|    |-- Semestre: string
|    |-- Publico: array
|    |    |-- element: string
|    |-- Hub: array
|    |    |-- element: string
|    |-- Imagem: array
|    |    |-- element: struct
|    |    |    |-- id: string
|    |    |    |-- width: int
|    |    |    |-- height: int
|    |    |    |-- url: string
|    |    |    |-- filename: string
|    |    |    |-- size: int
|    |    |    |-- type: string
|    |    |    |-- thumbnails: struct
|    |    |    |    |-- small: struct
|    |    |    |    |    |-- url: string
|    |    |    |    |    |-- width: int
|    |    |    |    |    |-- height: int
|    |    |    |    |-- large: struct
|    |    |    |    |    |-- url: string
|    |    |    |    |    |-- width: 

In [4]:
mapping = []
for item in dataframeBaseEventos.unnest().toDF().dtypes:
    if item[0].split('.')[0] == "fields":
        if len(item[0].split(".")) == 2:
            mapping.append((item[0], item[0].split('.')[1]))
    else:
        mapping.append((item[0], item[0].split('.')[0]))  

In [5]:
#Função para extrair a URL da imagem, lidando corretamente com Row objects
def extract_imagem_url(imagem):
    if isinstance(imagem, list) and len(imagem) > 0:
        first_image = imagem[0]  # Pegamos o primeiro elemento da lista

        #Verifica se o elemento é um dicionário ou um Row object
        if isinstance(first_image, dict):
            return first_image.get("url", None)
        elif hasattr(first_image, "asDict"):  # Caso seja um Row object
            return first_image.asDict().get("url", None)

    return None  # Retorna None se não houver imagem

#Criar a UDF para uso no DataFrame
extract_imagem_url_udf = udf(extract_imagem_url, StringType())

#Converter DynamicFrame para DataFrame do Spark
newDf = dataframeBaseEventos.toDF()

#Atualizar a coluna "fields" para incluir "ImagemURL"
newDf = newDf.withColumn(
    "fields",
    struct(
        col("fields.*"),  # 🔥 Mantém todas as colunas já existentes em "fields"
        extract_imagem_url_udf(col("fields.Imagem")).alias("ImagemURL")  # 🔥 Adiciona ImagemURL corretamente
    )
)

#Converter DataFrame do Spark de volta para DynamicFrame no Glue
newDf = DynamicFrame.fromDF(newDf, context, "newDf")

In [6]:
#Verificar schema atualizado
newDf.printSchema()

root
|-- id: string
|-- createdTime: string
|-- fields: struct
|    |-- Título do evento: string
|    |-- Categoria de evento: string
|    |-- Data e Horário: string
|    |-- Tipo do evento: string
|    |-- Link de inscrição: string
|    |-- Formato: string
|    |-- Trimestre: string
|    |-- Semestre: string
|    |-- Publico: array
|    |    |-- element: string
|    |-- Hub: array
|    |    |-- element: string
|    |-- Imagem: array
|    |    |-- element: struct
|    |    |    |-- id: string
|    |    |    |-- width: int
|    |    |    |-- height: int
|    |    |    |-- url: string
|    |    |    |-- filename: string
|    |    |    |-- size: int
|    |    |    |-- type: string
|    |    |    |-- thumbnails: struct
|    |    |    |    |-- small: struct
|    |    |    |    |    |-- url: string
|    |    |    |    |    |-- width: int
|    |    |    |    |    |-- height: int
|    |    |    |    |-- large: struct
|    |    |    |    |    |-- url: string
|    |    |    |    |    |-- width: 

In [7]:
#Aplicar apply_mapping() e resolver tipos
newDf = newDf.apply_mapping(mapping + [
    ("fields.ImagemURL", "string", "ImagemURL", "string")  #Adicionando ImagemURL ao mapeamento
]) \
    .resolveChoice([
        ("Evento Privado?", "cast:boolean"),
        ("ImagemURL", "cast:string")  #Garantindo que ImagemURL seja reconhecido
    ]) \
    .drop_fields([
        "id", "Tipo do evento", "createdTime", "Hub", "Publico", "Trimestre", "Semestre",
        "Categoria de evento", "Status do evento", "Created By", 
        "Nome do criador do evento", "Created",
        "Imagem"  #Removendo o campo original "Imagem"
    ])


In [8]:
#Verificar schema atualizado
newDf.printSchema()

root
|-- Título do evento: string
|-- Data e Horário: string
|-- Link de inscrição: string
|-- Formato: string
|-- Descrição: string
|-- Ativo: boolean
|-- Listar em Eventos Recomendados na Plataforma?: boolean
|-- Evento Privado?: boolean
|-- Publicado?: boolean
|-- Label: string
|-- Data e Horário de Término: string
|-- Local do Evento: string
|-- Evento Destaque(site): boolean
|-- Tipo de Ingresso(site): string
|-- Local(Sala/Andar)(site): string
|-- Tema(site): string
|-- Palestrantes(site): string
|-- Programação(site): string
|-- Resumo do tema(site): string
|-- ImagemURL: string



In [None]:
# #Converter DynamicFrame de volta para DataFrame do Spark
# newDf_final = newDf.toDF().toDF(
#     "Título do evento", "Data e Horário", "Link de inscrição", "Formato", 
#     "Descrição", "Ativo", "Listar em Eventos Recomendados na Plataforma?", 
#     "Evento Privado?", "Publicado?", "Label", "Data e Horário de Término", 
#     "Local do Evento", "Evento Destaque(site)", "Tipo de Ingresso(site)", 
#     "Local(Sala/Andar)(site)", "Tema(site)", "Resumo do tema(site)", 
#     "Programação(site)", "Palestrantes(site)", "ImagemURL"
# )

In [9]:
#Converter DynamicFrame de volta para DataFrame do Spark
newDf_final = newDf.toDF()

In [10]:
#Exibir o schema para confirmar que ImagemURL está presente
newDf_final.printSchema()

root
 |-- Título do evento: string (nullable = true)
 |-- Data e Horário: string (nullable = true)
 |-- Link de inscrição: string (nullable = true)
 |-- Formato: string (nullable = true)
 |-- Descrição: string (nullable = true)
 |-- Ativo: boolean (nullable = true)
 |-- Listar em Eventos Recomendados na Plataforma?: boolean (nullable = true)
 |-- Evento Privado?: boolean (nullable = true)
 |-- Publicado?: boolean (nullable = true)
 |-- Label: string (nullable = true)
 |-- Data e Horário de Término: string (nullable = true)
 |-- Local do Evento: string (nullable = true)
 |-- Evento Destaque(site): boolean (nullable = true)
 |-- Tipo de Ingresso(site): string (nullable = true)
 |-- Local(Sala/Andar)(site): string (nullable = true)
 |-- Tema(site): string (nullable = true)
 |-- Palestrantes(site): string (nullable = true)
 |-- Programação(site): string (nullable = true)
 |-- Resumo do tema(site): string (nullable = true)
 |-- ImagemURL: string (nullable = true)



In [11]:
newDf_final.select("ImagemURL").show(10, truncate=False)

+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|ImagemURL                                                                                                                                                                                                                                                                                                                                                                 |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [12]:
newDf_final.show(5)

+--------------------+--------------------+--------------------+----------+--------------------+-----+---------------------------------------------+---------------+----------+--------------------+-------------------------+---------------+---------------------+----------------------+-----------------------+----------+--------------------+--------------------+--------------------+--------------------+
|    Título do evento|      Data e Horário|   Link de inscrição|   Formato|           Descrição|Ativo|Listar em Eventos Recomendados na Plataforma?|Evento Privado?|Publicado?|               Label|Data e Horário de Término|Local do Evento|Evento Destaque(site)|Tipo de Ingresso(site)|Local(Sala/Andar)(site)|Tema(site)|  Palestrantes(site)|   Programação(site)|Resumo do tema(site)|           ImagemURL|
+--------------------+--------------------+--------------------+----------+--------------------+-----+---------------------------------------------+---------------+----------+-------------------

In [13]:
try:
    connection = psycopg2.connect(
        host="db-dev-poc-rds.c3dnragwy3og.us-east-1.rds.amazonaws.com",
        port="5432",
        database="db_dev_poc_rds",
        user="postgres",
        password="P06n9VDnXZ5CLlg9UNrgd6h53"
    )
    print("Conexão bem-sucedida!")
    connection.close()
except Exception as e:
    print(f"Erro ao conectar ao banco: {e}")

Conexão bem-sucedida!


In [14]:
jdbc_url = "jdbc:postgresql://db-dev-poc-rds.c3dnragwy3og.us-east-1.rds.amazonaws.com:5432/db_dev_poc_rds"
jdbc_properties = {
    "user": "postgres",
    "password": "P06n9VDnXZ5CLlg9UNrgd6h53",
    "driver": "org.postgresql.Driver",
    "stringtype": "unspecified"
}

In [15]:
from pyspark.sql.functions import col, to_timestamp

newDf_final = newDf_final.select(
    col("Título do evento").alias("name"),
    to_timestamp(col("Data e Horário")).alias("start_date"),  # Conversão correta de data
    col("Link de inscrição").alias("url"),
    col("Formato").alias("modality"),
    col("Descrição").alias("detail"),
    col("Ativo").cast("boolean").alias("active"),
    col("Listar em Eventos Recomendados na Plataforma?").cast("boolean").alias("is_main_event"),
    col("Evento Privado?").cast("boolean").alias("private_event"), 
    col("Publicado?").cast("boolean").alias("published"), 
    col("Label").alias("id"),
    to_timestamp(col("Data e Horário de Término")).alias("end_date"),  # Conversão correta de data
    col("Local do Evento").alias("address"), 
    col("Evento Destaque(site)").cast("boolean").alias("featured_events"), 
    col("Tipo de Ingresso(site)").alias("ticket_type"),
    col("Local(Sala/Andar)(site)").alias("room_and_floor"),
    col("Tema(site)").alias("theme"),
    col("Resumo do tema(site)").alias("theme_summary"), 
    col("Programação(site)").alias("schedule"),
    col("Palestrantes(site)").alias("speakers"),
    col("ImagemURL").alias("image")
)


In [16]:
newDf_final.select("image").show(10, truncate=False)

+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|image                                                                                                                                                                                                                                                                                                                                                                     |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [17]:
newDf_final.select("theme_summary").show(10, truncate=False)

+------------------------------------------------------------+
|theme_summary                                               |
+------------------------------------------------------------+
|Como as marcas podem impulsionar e escalar as vendas online.|
|null                                                        |
|null                                                        |
|Abertura Cubo Wellbeing                                     |
|Mulheres ao Cubo Day                                        |
|null                                                        |
+------------------------------------------------------------+



In [18]:
newDf_final.select("id").show(10, truncate=False)

+------------------------------------+
|id                                  |
+------------------------------------+
|71231a79-4f21-4f97-b482-ced2553f1f62|
|7d9a6c49-36cd-4716-a7f5-ff575b599097|
|c531334b-aa43-424b-8d68-5357707f2bdc|
|0b296303-a8aa-4099-9345-1452932d3513|
|af3623d4-6e3f-426c-b6d4-618430f8240b|
|798bf5a3-388d-468f-9146-92462a488fb3|
+------------------------------------+



In [19]:
newDf_final.show(truncate=False)

+----------------------------------------------------------------------------------+-------------------+-------------------------------------------------------------------------------------------------+----------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [20]:
newDf_final.printSchema()

root
 |-- name: string (nullable = true)
 |-- start_date: timestamp (nullable = true)
 |-- url: string (nullable = true)
 |-- modality: string (nullable = true)
 |-- detail: string (nullable = true)
 |-- active: boolean (nullable = true)
 |-- is_main_event: boolean (nullable = true)
 |-- private_event: boolean (nullable = true)
 |-- published: boolean (nullable = true)
 |-- id: string (nullable = true)
 |-- end_date: timestamp (nullable = true)
 |-- address: string (nullable = true)
 |-- featured_events: boolean (nullable = true)
 |-- ticket_type: string (nullable = true)
 |-- room_and_floor: string (nullable = true)
 |-- theme: string (nullable = true)
 |-- theme_summary: string (nullable = true)
 |-- schedule: string (nullable = true)
 |-- speakers: string (nullable = true)
 |-- image: string (nullable = true)



In [21]:
newDf_final.select("start_date", "end_date").show(truncate=False)

+-------------------+-------------------+
|start_date         |end_date           |
+-------------------+-------------------+
|2025-03-19 14:00:00|2025-03-19 18:00:00|
|2025-03-24 14:00:00|2025-03-24 18:00:00|
|2025-03-20 15:00:00|2025-03-20 18:30:00|
|2025-03-19 09:00:00|2025-03-19 11:30:00|
|2025-03-25 09:00:00|2025-03-25 18:00:00|
|2025-03-19 15:00:00|2025-03-19 18:00:00|
+-------------------+-------------------+



In [None]:
# newDf.limit(1).write.jdbc(
#     url=jdbc_url,
#     table="events_glue",
#     mode="append",
#     properties=jdbc_properties
# )

In [22]:
newDf_final.write.jdbc(
        url=jdbc_url,
        table="events",
        mode="append",  # Adiciona os registros sem sobrescrever
        properties=jdbc_properties
)