In [None]:
import pandas as pd
import time
from pyspark.sql import SparkSession

# Criar a SparkSession para iniciar o PySpark
spark = SparkSession.builder.appName("FiltragemClientes").getOrCreate()
sc = spark.sparkContext

# Simulação de dados: 10 milhões de IDs de clientes
dados = list(range(10_000_000))

# --- Usando Pandas ---
inicio_pandas = time.time()

# Criar um DataFrame Pandas com os IDs dos clientes
df_pandas = pd.Series(dados)

# Filtrar os clientes que fizeram um número par de compras
clientes_pares_pandas = df_pandas[df_pandas % 2 == 0]

# Medir o tempo total de execução
tempo_pandas = time.time() - inicio_pandas

# --- Usando PySpark ---

# Criar uma função que verifica se um cliente fez um número par de compras
def eh_par(x):
    return x % 2 == 0

inicio_spark = time.time()

# Criar um RDD distribuído com os IDs dos clientes
rdd = sc.parallelize(dados)

# Aplicar a função de filtragem para selecionar apenas os clientes elegíveis
clientes_pares_rdd = rdd.filter(eh_par)

# Recolher os resultados após a filtragem
clientes_pares_spark = clientes_pares_rdd.collect()

# Medir o tempo total de execução
tempo_spark = time.time() - inicio_spark

# Exibir os resultados para comparação
print(f"Número de clientes selecionados com Pandas: {len(clientes_pares_pandas)}, Tempo: {tempo_pandas} segundos")
print(f"Número de clientes selecionados com PySpark: {len(clientes_pares_spark)}, Tempo: {tempo_spark} segundos")

# Fechar a SparkSession
spark.stop()
