Задание 2
Генерация синтетических данных с использованием Apache Spark
Цель задания: Использовать Apache Spark для создания синтетического набора данных, который имитирует информацию о покупках в интернет-магазине. Набор данных должен включать в себя информацию о заказах, включая дату заказа, идентификатор пользователя, название товара, количество и цену. Сгенерированные данные будут использованы для последующего анализа покупательской активности и понимания потребительских трендов.

Шаги выполнения:
Генерация данных:

Создать DataFrame с полями: Дата, UserID, Продукт, Количество, Цена.

Данные для поля Продукт генерируются из списка возможных товаров ( не меньше 5 товаров )

Количество и Цена должны генерироваться случайно в заданных пределах.

Дата должна быть в пределах последнего года.

UserID представляет собой случайное число, имитирующее идентификаторы пользователей.

Обратите внимание, что должна быть возможности изменять количество сгенерированных строк. Минимальное количество - 1000 строк.

Сохранение данных:

Сохранить сгенерированный DataFrame в формате CSV для последующего анализа.

Результат выполнения задания (код генерации синтетических данных и созданный файл *.csv) необходимо выложить в github/gitlab и указать ссылку на Ваш репозиторий (не забудьте: репозиторий должен быть публичным).

In [3]:
!pip install pyspark
!pip install install-jdk
!pip install findspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=fd087c0981a9ea21eed94b4e01bb188f495865b87ba46e380eb8a3aaed79c689
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1
Collecting install-jdk
  Downloading install_jdk-1.1.0-py3-none-any.whl (15 kB)
Installing collected packages: install-jdk
Successfully installed install-jdk-1.1.0
Collecting findspark
  Downloading findspark-2.0.1-py2.py3-none-any.whl (4.4 kB)
Installing collected packages:

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, expr, lit, rand, randn
import datetime
from google.colab import files

In [2]:
# Создаем сессию
spark = SparkSession.builder \
    .appName("GenerateSyntheticData_1") \
    .getOrCreate()

In [3]:
# Создаем список товаров
products = ['Kettle', 'Owen', 'Microwave', 'Blender', 'Mixer']

# Задаем количество строк для генерации
num_rows = 1000

# Создаем DataFrame со случайными данными
df = spark.range(0, num_rows).select(
    (expr("date_sub(current_date(), cast(rand() * 365 as int))")).alias("Date"),
    (expr("cast(rand() * 10000 as int) + 1")).alias("UserID"),
    (expr(f"element_at(array('{products[0]}', '{products[1]}', '{products[2]}', '{products[3]}', '{products[4]}'), cast(rand() * {len(products)} as int) + 1)")).alias("Product"),
    (expr("cast(rand() * 10 as int) + 1")).alias("Quantity"),
    (expr("round(rand() * 1000, 2)")).alias("Price")
)

print(df.count())
df.show(10)

1000
+----------+------+-------+--------+------+
|      Date|UserID|Product|Quantity| Price|
+----------+------+-------+--------+------+
|2024-04-21|  6815|  Mixer|       6|423.23|
|2024-06-07|  8676|  Mixer|       3|299.23|
|2023-11-28|  5830|  Mixer|       9| 11.69|
|2024-05-30|  1274|   Owen|       5|702.69|
|2023-07-19|  1455|  Mixer|       6|615.91|
|2024-05-22|  9580| Kettle|       9|568.66|
|2023-10-13|  8166|   Owen|       2|128.01|
|2024-03-18|  7778|   Owen|       5|639.39|
|2023-11-09|  5997|   Owen|       9|433.07|
|2023-12-03|  7134|Blender|       2|937.47|
+----------+------+-------+--------+------+
only showing top 10 rows



In [5]:
# Выгружаем csv
df.coalesce(1).write.csv("file.csv", header=True, mode="overwrite")
file_path = "/content/file.csv"
files.download(file_path)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>