Генерация синтетических данных с использованием Apache Spark

Цель задания: Использовать Apache Spark для создания синтетического набора данных, который имитирует информацию о покупках в интернет-магазине. Набор данных должен включать в себя информацию о заказах, включая дату заказа, идентификатор пользователя, название товара, количество и цену. Сгенерированные данные будут использованы для последующего анализа покупательской активности и понимания потребительских трендов.

Результат выполнения задания (код генерации синтетических данных и созданный файл *.csv) необходимо выложить в github/gitlab и указать ссылку на Ваш репозиторий (не забудьте: репозиторий должен быть публичным).

In [11]:
from datetime import datetime, timedelta
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, FloatType, DateType
import random as rnd

sp = SparkSession.builder.appName("homework").getOrCreate()

1. Генерация данных:
- Создать DataFrame с полями: Дата, UserID, Продукт, Количество, Цена.
- Данные для поля Продукт генерируются из списка возможных товаров ( не меньше 5 товаров )
- Количество и Цена должны генерироваться случайно в заданных пределах.
- Дата должна быть в пределах последнего года.
- UserID представляет собой случайное число, имитирующее идентификаторы пользователей.
- Обратите внимание, что должна быть возможности изменять количество сгенерированных строк. Минимальное количество - 1000 строк.

In [14]:
df_schema = StructType([StructField("date",     DateType(),    True),
                        StructField("user_id",  IntegerType(), True),
                        StructField("product",  StringType(),  True),
                        StructField("quantity", IntegerType(), True),
                        StructField("price",    FloatType(),   True)])
df_content:list = []
products = ['socks','boots','pants','shirt','hat']
row_counter = 1000

for rc in range(row_counter):
  df_content.append([(datetime.today()-timedelta(days=rnd.randint(0,364))),
                     rnd.randint(1,1000),rnd.choice(products),rnd.randint(1,10),round(rnd.uniform(1, 100), 2)])

df = sp.createDataFrame(df_content, df_schema)
print('1. Generated DataFrame:')
df.show()

[[datetime.datetime(2023, 12, 20, 3, 5, 24, 347622), 463, 'boots', 3, 6.28], [datetime.datetime(2024, 2, 21, 3, 5, 24, 347670), 359, 'boots', 1, 72.43], [datetime.datetime(2024, 11, 12, 3, 5, 24, 347680), 154, 'boots', 3, 50.05], [datetime.datetime(2024, 10, 23, 3, 5, 24, 347687), 176, 'socks', 7, 50.69], [datetime.datetime(2024, 9, 30, 3, 5, 24, 347695), 199, 'hat', 8, 64.8], [datetime.datetime(2024, 11, 8, 3, 5, 24, 347702), 631, 'shirt', 2, 27.75], [datetime.datetime(2024, 7, 30, 3, 5, 24, 347709), 206, 'hat', 5, 59.14], [datetime.datetime(2023, 12, 22, 3, 5, 24, 347716), 835, 'pants', 9, 83.22], [datetime.datetime(2024, 6, 2, 3, 5, 24, 347722), 11, 'socks', 3, 44.5], [datetime.datetime(2023, 12, 20, 3, 5, 24, 347729), 882, 'pants', 4, 49.85], [datetime.datetime(2024, 2, 19, 3, 5, 24, 347736), 913, 'boots', 6, 5.74], [datetime.datetime(2023, 11, 27, 3, 5, 24, 347743), 606, 'pants', 10, 97.02], [datetime.datetime(2024, 5, 15, 3, 5, 24, 347749), 463, 'boots', 4, 59.67], [datetime.date

2. Сохранение данных:
- Сохранить сгенерированный DataFrame в формате CSV для последующего анализа.

In [15]:
df.write.csv("./generated_data.csv")