In [12]:
# Проверка и остановка существующего SparkContext
from pyspark import SparkContext
if SparkContext._active_spark_context:
    SparkContext._active_spark_context.stop()

# Затем создайте новый SparkContext
conf = SparkConf().setAppName("Book Sales Analysis").setMaster("local[*]")
sc = SparkContext(conf=conf)

# Создание данных для RDD
data = [
    ("1984", "George Orwell", "Science Fiction", 5000, 1949),
    ("The Lord of the Rings", "J.R.R. Tolkien", "Fantasy", 3000, 1954),
    ("To Kill a Mockingbird", "Harper Lee", "Southern Gothic", 4000, 1960),
    ("The Catcher in the Rye", "J.D. Salinger", "Novel", 2000, 1951),
    ("The Great Gatsby", "F. Scott Fitzgerald", "Novel", 4500, 1925)
]

# Создание RDD
rdd = sc.parallelize(data)

# Фильтрация книг с продажами более 3000 экземпляров
filtered_rdd = rdd.filter(lambda x: x[3] > 3000)

# Преобразование RDD для группировки по жанру (жанр, продажи)
genre_sales_rdd = filtered_rdd.map(lambda x: (x[2], x[3]))

# Суммирование продаж по жанрам
genre_totals = genre_sales_rdd.reduceByKey(lambda a, b: a + b)

# Сортировка по убыванию продаж
sorted_results = genre_totals.sortBy(lambda x: -x[1])

# Сбор и вывод результатов
results = sorted_results.collect()
print("Общий объем продаж по жанрам (для книг с продажами более 3000 экз.):")
for genre, sales in results:
    print(f"{genre}: {sales}")

# Остановка SparkContext
sc.stop()

Общий объем продаж по жанрам (для книг с продажами более 3000 экз.):
Science Fiction: 5000
Novel: 4500
Southern Gothic: 4000
