
####  Ingerindo o arquivo estadios ###

Objetivo: realizar um processo de ETL e disponibilizar os dados em uma camada apropriada

Ler -> Transformar -> Escrever (ETL)

1. Ler o arquivo csv do Data Lake
2. Renomear as colunas para português utilizando o snake case
3. Definir o esquema de dados correto
4. Precisa ter uma coluna com a data em que o arquivo foi consumido
5. Salvar os dados em formato parquet na camada silver




### Importando as bibliotecas necessárias

In [None]:
from pyspark.sql.functions import current_timestamp

### Lendo o arquivo csv

In [None]:
nome_arquivo = "estadios"
caminho_arquivo = f"/mnt/datalake/bronze/{nome_arquivo}.csv"

estadios_df = spark.read
.option("encondig", "UTF-16")
.option("header", "true")
.option("inferSchema", "true")
.csv(caminho arquivo)

display(estadios_df)

In [None]:
# Visualizar o schema do dataframe criado
estadios_df.printSchema()

In [None]:
# Renomear as colunas para português

estadios_df_renomeado = estadios_df \
    .withColumnRenamed("id", "id_estadio") \
    .withColumnRenamed("name", "nm_estadio") \
    .withColumnRenamed("address", "endereco") \
    .withColumnRenamed("city", "nm_cidade") \
    .withColumnRenamed("country", "nm_pais") \
    .withColumnRenamed("capacity", "vl_capacidade") \
    .withColumnRenamed("surface", "tp_grama") \
    .withColumnRenamed("image", "link_imagem")

display(estadios_df_renomeado)

In [None]:
# Incluir a coluna de data de execução do script

estadios_df_data = estadios_df_renomeado.withColumn("dt_ingestao", current_timestamp())
display(estadios_df_data)

In [None]:
# essa parte escreve o arquivo formato parquet na pasta silver
# Se o arquivo já existir, ele irá sobrescrever
estadios_df_data.write.mode("overwrite").parquet("/mnt/datalake/silver/estadios")