In [7]:
# Импорт необходимых библиотек Spark
from pyspark.sql import SparkSession

# Создание SparkSession
spark = SparkSession.builder.appName("OnlineSalesAnalysis").getOrCreate()

# Создание DataFrame с встроенными данными
data = spark.createDataFrame([
    (1, "2023-10-01 08:00:00", 101, "Телевизор", 2, 500.00, 1000.00, "Иван Иванов", "ул. Пушкина, 123"),
    (2, "2023-10-01 09:30:00", 102, "Холодильник", 1, 800.00, 800.00, "Мария Петрова", "ул. Лермонтова, 456"),
    (3, "2023-10-02 14:15:00", 103, "Стиральная машина", 1, 700.00, 700.00, "Петр Сидоров", "ул. Гоголя, 789"),
    (4, "2023-10-02 16:45:00", 101, "Телевизор", 1, 500.00, 500.00, "Екатерина Иванова", "ул. Чехова, 101"),
    (5, "2023-10-03 11:20:00", 104, "Микроволновка", 3, 100.00, 300.00, "Анна Смирнова", "ул. Достоевского, 246")
], ["OrderID", "OrderDate", "ProductID", "ProductName", "Quantity", "Price", "TotalCost", "CustomerName", "CustomerAddress"])

# Создание Hive таблицы для данных
data.createOrReplaceTempView("sales")

# Вывод общей выручки за каждый день
revenue_per_day = spark.sql("SELECT SUBSTRING(OrderDate, 1, 10) as OrderDate, SUM(TotalCost) as revenue FROM sales GROUP BY SUBSTRING(OrderDate, 1, 10) ORDER BY OrderDate")
revenue_per_day.show()

# Вывод самого продаваемого товара
best_selling_product = spark.sql("SELECT ProductName, SUM(Quantity) as total_sold FROM sales GROUP BY ProductName ORDER BY total_sold DESC LIMIT 1")
best_selling_product.show()

# Вывод общей выручки за весь период
total_revenue = spark.sql("SELECT SUM(TotalCost) as total_revenue FROM sales")
total_revenue.show()

# Закрытие SparkSession
spark.stop()


+----------+-------+
| OrderDate|revenue|
+----------+-------+
|2023-10-01| 1800.0|
|2023-10-02| 1200.0|
|2023-10-03|  300.0|
+----------+-------+

+-----------+----------+
|ProductName|total_sold|
+-----------+----------+
|  Телевизор|         3|
+-----------+----------+

+-------------+
|total_revenue|
+-------------+
|       3300.0|
+-------------+

