Генерация синтетических данных с использованием Apache Spark.
Цель задания: Использовать Apache Spark для создания синтетического набора данных, который имитирует информацию о покупках в интернет-магазине. Набор данных должен включать в себя информацию о заказах, включая дату заказа, идентификатор пользователя, название товара, количество и цену. Сгенерированные данные будут использованы для последующего анализа покупательской активности и понимания потребительских трендов.

Шаги выполнения:
1. Генерация данных:
- Создать DataFrame с полями: Дата, UserID, Продукт, Количество, Цена.
- Данные для поля Продукт генерируются из списка возможных товаров ( не меньше 5 товаров )
- Количество и Цена должны генерироваться случайно в заданных пределах.
- Дата должна быть в пределах последнего года.
- UserID представляет собой случайное число, имитирующее идентификаторы пользователей.
- Обратите внимание, что должна быть возможности изменять количество сгенерированных строк. Минимальное количество - 1000 строк.

2. Сохранение данных:
Сохранить сгенерированный DataFrame в формате CSV для последующего анализа.

In [9]:
!pip install pyspark
!pip install findspark



In [10]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import pandas as pd
import random
import datetime

# Создание SparkSession
spark = SparkSession.builder.appName("SyntheticEcommerceData").getOrCreate()

In [11]:
# Список возможных товаров
products = ["Смартфон", "Ноутбук", "Телевизор", "Холодильник", "Стиральная машина"]

# Функция для генерации синтетических данных о покупках
def generate_purchase_data(num_rows):
    data = []
    for _ in range(num_rows):
        date = datetime.datetime.now() - datetime.timedelta(days=random.randint(0, 365))
        user_id = random.randint(1, 10000)
        product = random.choice(products)
        quantity = random.randint(1, 10)
        price = random.uniform(10, 1000)
        data.append((date, user_id, product, quantity, price))
    return data

# Создание DataFrame с синтетическими данными о покупках
num_rows = 1000
purchase_data = generate_purchase_data(num_rows)
purchase_df = spark.createDataFrame(purchase_data, ["date", "user_id", "product", "quantity", "price"])

In [13]:
# Отображение первых 5 строк DataFrame
purchase_df.show(5)

# Сохранение DataFrame в формате CSV
purchase_df.coalesce(1).write.csv("synthetic_ecommerce_data.csv")

+--------------------+-------+-----------------+--------+------------------+
|                date|user_id|          product|quantity|             price|
+--------------------+-------+-----------------+--------+------------------+
|2024-04-25 16:52:...|   8489|        Телевизор|      10| 768.8625781595927|
|2024-02-02 16:52:...|   7251|Стиральная машина|       4| 300.5285661888422|
|2024-02-16 16:52:...|   2764|          Ноутбук|       6|506.29909442427993|
|2023-12-27 16:52:...|   5349|          Ноутбук|       5| 281.1010211325334|
|2024-03-25 16:52:...|   7008|          Ноутбук|       8| 72.93180871927126|
+--------------------+-------+-----------------+--------+------------------+
only showing top 5 rows

