In [2]:
import pandas as pd
import time
from pyspark.sql import SparkSession

# Criar uma SparkSession para iniciar o PySpark
spark = SparkSession.builder.appName("SomaTransacoes").getOrCreate()
sc = spark.sparkContext

# Simulação de dados: 10 milhões de valores representando transações financeiras
dados = list(range(10_000_000))

# --- Usando Pandas ---
inicio_pandas = time.time()

# Criar um DataFrame Pandas com os valores das transações
df_pandas = pd.Series(dados)

# Calcular a soma total das transações
soma_pandas = df_pandas.sum()

# Medir o tempo total de execução
tempo_pandas = time.time() - inicio_pandas

# --- utilziando PySpark ---
inicio_spark = time.time()

# Criar um RDD distribuído com os valores das transações
rdd = sc.parallelize(dados)

# Calcular a soma total das transações usando PySpark
soma_spark = rdd.sum()

# Medir o tempo total de execução
tempo_spark = time.time() - inicio_spark

# Exibir os resultados para comparação
print(f"Soma das transações com Pandas: {soma_pandas}, Tempo: {tempo_pandas} segundos")
print(f"Soma das transações com PySpark: {soma_spark}, Tempo: {tempo_spark} segundos")

# Fechar a SparkSession
spark.stop()


Soma das transações com Pandas: 49999995000000, Tempo: 4.561789274215698 segundos
Soma das transações com PySpark: 49999995000000, Tempo: 4.845813512802124 segundos
