In [6]:
pip install pyspark



In [10]:
import random
import pandas as pd
from datetime import datetime, timedelta
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, FloatType
from google.colab import drive

# Инициализация SparkSession
spark = SparkSession.builder.appName("Data").getOrCreate()

# Конфигурация
# Для каждой единицы продуктов генерируем цену
product_prices = {
    'Meat': round(random.uniform(1.0, 20.0), 2),
    'Rice': round(random.uniform(1.0, 20.0), 2),
    'Fruits': round(random.uniform(1.0, 20.0), 2),
    'Ice-cream': round(random.uniform(1.0, 20.0), 2),
    'Bread': round(random.uniform(1.0, 20.0), 2)
}
num = 1000  # Минимальное количество записей
min_quantity = 1
max_quantity = 10

# Вспомогательная функция для генерации случайной даты
def generate_random_date():
    start_date = datetime.now() - timedelta(days=365)
    random_number_of_days = random.randrange(365)
    return start_date + timedelta(days=random_number_of_days)

# Генерация данных
data = []
for _ in range(num):
    order_date = generate_random_date().strftime('%Y-%m-%d')
    user_id = random.randint(1, 300)  # Генерация UserID в диапазоне 1-300
    product = random.choice(list(product_prices.keys()))
    quantity = random.randint(min_quantity, max_quantity)
    price_unit = product_prices[product]  # Цена за единицу продукта из словаря
    total_price = round(price_unit * quantity, 2)  # Общая стоимость продуктов с учетом их количества
    data.append((order_date, user_id, product, quantity, total_price))

# Определение схемы
schema = StructType([
    StructField("Date", StringType(), True),
    StructField("UserID", IntegerType(), True),
    StructField("Product", StringType(), True),
    StructField("Quantity", IntegerType(), True),
    StructField("Price", FloatType(), True)  # Переименованное поле для общей стоимости
])

# Создание DataFrame
df = spark.createDataFrame(data, schema)
df.show()

# Подключение Google Drive
drive.mount('/content/drive')

# Сохранение данных в формате CSV
df.write.csv("/content/drive/MyDrive/Colab Notebooks/syn_data.csv", header=True)

# Завершение работы SparkSession
spark.stop()


+----------+------+---------+--------+------+
|      Date|UserID|  Product|Quantity| Price|
+----------+------+---------+--------+------+
|2024-04-02|   190|   Fruits|       9|130.05|
|2024-02-15|   151|   Fruits|       2|  28.9|
|2024-05-12|    59|Ice-cream|      10| 164.9|
|2024-07-07|   130|     Meat|       9|  54.0|
|2024-03-09|   276|Ice-cream|       9|148.41|
|2024-07-04|    87|Ice-cream|       1| 16.49|
|2024-03-16|   186|    Bread|       6| 51.06|
|2024-01-10|   245|   Fruits|       1| 14.45|
|2023-12-15|    61|     Meat|       2|  12.0|
|2024-05-05|   135|Ice-cream|       5| 82.45|
|2024-07-10|   205|Ice-cream|       6| 98.94|
|2024-06-07|   294|     Meat|       8|  48.0|
|2023-09-20|    91|     Rice|       9| 45.27|
|2024-03-29|   242|Ice-cream|      10| 164.9|
|2023-08-06|   287|Ice-cream|       8|131.92|
|2024-05-29|   165|     Meat|       9|  54.0|
|2023-10-12|    62|     Rice|       3| 15.09|
|2024-02-24|    30|Ice-cream|       6| 98.94|
|2023-12-29|   177|     Meat|     