In [4]:
from pyspark.sql import SparkSession

# Inicia uma sessão Spark. Se já existe uma sessão, irá reutilizá-la.
spark = SparkSession.builder \
    .appName("Minha Primeira Sessão Spark") \
    .getOrCreate()


In [None]:
# Exemplo: Calculando o total de vendas e salvando o resultado
total_vendas = vendas_df.groupBy("produto").sum("quantidade").cache()
total_vendas.show()  # Ação para exibir o resultado

total_vendas.write.csv("/caminho/para/salvar/total_vendas")  # Ação para salvar o resultado

In [None]:
# Sintaxe de uma função lambda em Python
lambda argumentos: expressão

In [6]:
from pyspark import RDD  # Importe a classe RDD do módulo pyspark
from pyspark.sql import SparkSession, DataFrame  # Importe a classe DataFrame do módulo pyspark.sql

# Inicia uma sessão Spark
spark = SparkSession.builder.appName("LambdaFunctions").getOrCreate()

# Atribui o SparkContext à variável 'sc'
sc = spark.sparkContext

# Aplicando uma função lambda para triplicar valores em um RDD
numeros_rdd = sc.parallelize([1, 2, 3, 4])
triplicado_rdd = numeros_rdd.map(lambda x: x * 3)

triplicado_rdd.collect()

[3, 6, 9, 12]

In [7]:
print(triplicado_rdd.take(5))

[3, 6, 9, 12]


In [9]:
# RDD com valores das parcelas
valores_parcelas_rdd = sc.parallelize([120.00, 150.00, 95.00, 200.00])

# Aplicando reajuste de 10% usando função lambda
reajuste_rdd = valores_parcelas_rdd.map(lambda valor: valor * 1.1)

reajuste_rdd.collect()

[132.0, 165.0, 104.50000000000001, 220.00000000000003]

## Exemplo do Uso de Cache

In [None]:
# Carregar os dados e criar um DataFrame
df = spark.read.csv("path_to_data.csv", header=True, inferSchema=True)

# Registrar o DataFrame como uma tabela temporária
df.createOrReplaceTempView("my_table")

# Cache a tabela após a primeira operação de transformação
spark.sql("SELECT * FROM my_table WHERE some_column > some_value").cache().createOrReplaceTempView("filtered_table")

# Executar várias operações de transformação em sequência no DataFrame cacheado
# Como o DataFrame está cacheado, estas operações subsequentes serão mais rápidas

# Por exemplo, contar os registros
spark.sql("SELECT COUNT(*) FROM filtered_table").show()

# Calcular a média de uma coluna
spark.sql("SELECT AVG(numeric_column) FROM filtered_table").show()

# Agrupar por uma coluna e contar os valores
spark.sql("SELECT category_column, COUNT(*) FROM filtered_table GROUP BY category_column").show()

# Após as operações, é bom liberar o cache para evitar o uso desnecessário de memória
spark.catalog.uncacheTable("filtered_table")
