<a href="https://colab.research.google.com/github/luasampaio/data-engineering/blob/main/17_ntb_OBT_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

- OBT (Outras Bases de Tratamento) é normalmente uma tabela ou estrutura intermediária usada em pipelines de dados para processar e preparar informações antes de movê-las para uma camada analítica ou de consumo.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, current_timestamp, to_date

# Inicia a sessão do Spark
spark = SparkSession.builder \
    .appName("Criar OBT") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .getOrCreate()

# Leitura dos dados brutos de um data lake (exemplo)
input_path = "/mnt/raw/datalake/ia/data/Captacao/raw_data.csv"
df = spark.read.format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load(input_path)

# Transformações: Criação da OBT
df_obt = df \
    .filter(col("status") == "ativo") \  # Exemplo: Filtrar registros com status ativo
    .withColumn("datalog", to_date(current_timestamp())) \  # Adicionar coluna de data
    .withColumnRenamed("nome_cliente", "cliente") \  # Renomear coluna para consistência
    .select("cliente", "produto", "valor", "datalog")  # Selecionar colunas relevantes

# Escreve a OBT em formato Delta no Data Lake
output_path = "/mnt/trusted/datalake/ia/data/Captacao/gold/obt_consumo"
df_obt.write \
    .format("delta") \
    .mode("overwrite") \
    .option("mergeSchema", "true") \
    .save(output_path)

# Opcional: Registrar a OBT como uma tabela Delta no Metastore
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS ia.obt_consumo
    USING DELTA
    LOCATION '{output_path}'
""")

# Finaliza a sessão do Spark
spark.stop()


In [None]:
first_name = input("Hey, what's your first name? : ").strip()
last_name = input("And your last name? : ").strip()
print ("Well, pleased to meet you, " + first_name + " " + last_name + ".")

Hey, what's your first name? : Luciana
And your last name? : Sampaio
Well, pleased to meet you, Luciana Sampaio.


In [None]:
import sys
if len(sys.argv) != 2:
    print("none")
else:
    word = (sys.argv[1])
    for char in word:
        if char == 'z':
            print('z', end = "")
    print()

none


In [None]:
import sys

# Contar o número de argumentos passados
num_parametros = len(sys.argv) - 1

# Exibir o número de parâmetros
print(f"Number of parameters: {num_parametros}.")

Number of parameters: 2.


In [None]:
#Definir uma lista
lista = [2, 8, 9, 48, 8, 22, -12, 2]
print(lista)

[2, 8, 9, 48, 8, 22, -12, 2]
