In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
import random
from datetime import datetime, timedelta

# Criar uma sessão do Spark
spark = SparkSession.builder \
    .appName("Generate Sales Data") \
    .getOrCreate()

# Função para gerar uma lista de produtos
def generate_products(num_products):
    return [f"Product_{i}" for i in range(1, num_products + 1)]

# Função para gerar dados de vendas
def generate_sales_data(num_records):
    products = generate_products(100)  # 100 produtos
    sales_data = []
    
    for _ in range(num_records):
        product = random.choice(products)
        quantity = random.randint(1, 10)  # Quantidade vendida
        price = round(random.uniform(10.0, 100.0), 2)  # Preço entre 10 e 100
        date = datetime.now() - timedelta(days=random.randint(0, 30))  # Data de venda nos últimos 30 dias
        
        sales_data.append((product, quantity, price, date))

    return sales_data

# Gerar 2000 registros de vendas
sales_data = generate_sales_data(2000)

# Criar DataFrame a partir dos dados gerados
columns = ["product", "quantity", "price", "sale_date"]
sales_df = spark.createDataFrame(sales_data, schema=columns)

# Mostrar as primeiras linhas do DataFrame
sales_df.show(5)

# Definir o caminho para salvar no DBFS
output_path = "dbfs:/mnt/daily_data/sales_data3.json"

# Salvar o DataFrame como um arquivo JSON
sales_df.write.mode("overwrite").json(output_path)

print(f"Dados de vendas salvos em: {output_path}")


+----------+--------+-----+--------------------+
|   product|quantity|price|           sale_date|
+----------+--------+-----+--------------------+
|Product_98|       3|89.97|2024-09-30 20:51:...|
|Product_83|       5|88.01|2024-09-16 20:51:...|
|Product_80|      10|91.64|2024-10-05 20:51:...|
| Product_6|       9| 15.3|2024-10-01 20:51:...|
|Product_31|       1|90.57|2024-10-09 20:51:...|
+----------+--------+-----+--------------------+
only showing top 5 rows

Dados de vendas salvos em: dbfs:/mnt/daily_data/sales_data3.json
