Задание 2

Генерация синтетических данных с использованием Apache Spark
Цель задания: Использовать Apache Spark для создания синтетического набора данных, который имитирует информацию о покупках в интернет-магазине. Набор данных должен включать в себя информацию о заказах, включая дату заказа, идентификатор пользователя, название товара, количество и цену. Сгенерированные данные будут использованы для последующего анализа покупательской активности и понимания потребительских трендов.

Шаги выполнения:
Генерация данных:

Создать DataFrame с полями: Дата, UserID, Продукт, Количество, Цена.

Данные для поля Продукт генерируются из списка возможных товаров ( не меньше 5 товаров )

Количество и Цена должны генерироваться случайно в заданных пределах.

Дата должна быть в пределах последнего года.

UserID представляет собой случайное число, имитирующее идентификаторы пользователей.

Обратите внимание, что должна быть возможности изменять количество сгенерированных строк. Минимальное количество - 1000 строк.

Сохранение данных:

Сохранить сгенерированный DataFrame в формате CSV для последующего анализа.

Результат выполнения задания (код генерации синтетических данных и созданный файл *.csv) необходимо выложить в github/gitlab и указать ссылку на Ваш репозиторий (не забудьте: репозиторий должен быть публичным).

In [1]:
pip install pyspark



In [2]:
pip install install-jdk

Collecting install-jdk
  Downloading install_jdk-1.1.0-py3-none-any.whl.metadata (12 kB)
Downloading install_jdk-1.1.0-py3-none-any.whl (15 kB)
Installing collected packages: install-jdk
Successfully installed install-jdk-1.1.0


In [3]:
pip install findspark

Collecting findspark
  Downloading findspark-2.0.1-py2.py3-none-any.whl.metadata (352 bytes)
Downloading findspark-2.0.1-py2.py3-none-any.whl (4.4 kB)
Installing collected packages: findspark
Successfully installed findspark-2.0.1


In [5]:
import random
from datetime import datetime, timedelta
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import pandas as pd

# Инициализация SparkSession
spark = SparkSession.builder.master("local").appName("Purchase Data Generation").getOrCreate()

# Список возможных товаров
products = ["Laptop", "Smartphone", "Headphones", "Tablet", "Smartwatch"]

# Функция для генерации случайной даты в прошлом году
def generate_random_date():
    end_date = datetime.now()
    start_date = end_date - timedelta(days=365)
    random_date = start_date + (end_date - start_date) * random.random()
    return random_date.strftime("%Y-%m-%d")

# Генерация данных
data = []
num_records = 1000  # количество строк, можно изменить

for _ in range(num_records):
    date = generate_random_date()
    user_id = random.randint(1, 500)  # случайный UserID от 1 до 500
    product = random.choice(products)  # случайный товар
    quantity = random.randint(1, 10)  # количество от 1 до 10
    price = round(random.uniform(10, 1000), 2)  # цена от 10 до 1000
    data.append((date, user_id, product, quantity, price))

# Создание DataFrame с помощью PySpark
columns = ["Дата", "UserID", "Продукт", "Количество", "Цена"]
df = spark.createDataFrame(data, columns)

# Показать первые несколько строк данных
df.show(5)

# Преобразуем в Pandas DataFrame для удобства сохранения в CSV
pdf = df.toPandas()

# Сохранение в CSV
output_file = "output_data.csv"
pdf.to_csv(output_file, index=False)

print(f"Данные сохранены в файл {output_file}")


+----------+------+----------+----------+------+
|      Дата|UserID|   Продукт|Количество|  Цена|
+----------+------+----------+----------+------+
|2024-01-01|   488|Smartwatch|         3|305.14|
|2024-04-24|   106|    Tablet|         4|399.27|
|2024-11-03|   436|Smartwatch|         5|412.36|
|2024-07-03|   369|Smartwatch|         9| 791.2|
|2023-11-27|   188|Headphones|         3|243.16|
+----------+------+----------+----------+------+
only showing top 5 rows

Данные сохранены в файл output_data.csv
