Условие: создайте csv файл с таким содержимым:

title,author,genre,sales,year

"1984", "George Orwell", "Science Fiction", 5000, 1949

"The Lord of the Rings", "J.R.R. Tolkien", "Fantasy", 3000, 1954

"To Kill a Mockingbird", "Harper Lee", "Southern Gothic", 4000, 1960

"The Catcher in the Rye", "J.D. Salinger", "Novel", 2000, 1951

"The Great Gatsby", "F. Scott Fitzgerald", "Novel", 4500, 1925

Задание:

— Используя Spark прочитайте данные из файла csv.
— Фильтруйте данные, чтобы оставить только книги, продажи которых превышают 3000 экземпляров.
— Сгруппируйте данные по жанру и вычислите общий объем продаж для каждого жанра.
— Отсортируйте данные по общему объему продаж в порядке убывания.
— Выведите результаты на экран.

In [10]:
!pip install pyspark



In [11]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [16]:
spark = SparkSession.builder \
.appName("BookAnalysis")\
.getOrCreate()

In [17]:
file_path = '/content/file.csv'

In [18]:
#чтение файла
df = spark.read.csv(file_path, header=True, inferSchema=True)

In [19]:
#фильтрация по продажам более 3000
filtered_df = df.filter(col('sales') > 3000)

In [26]:
filtered_df.show()

+--------------------+--------------------+--------------------+------+------+
|               title|              author|               genre| sales|  year|
+--------------------+--------------------+--------------------+------+------+
|           """1984""|   ""George Orwell""| ""Science Fiction""|5000.0| 1949"|
|"""To Kill a Mock...|      ""Harper Lee""| ""Southern Gothic""|4000.0| 1960"|
|"""The Great Gats...| ""F. Scott Fitzg...|           ""Novel""|4500.0| 1925"|
+--------------------+--------------------+--------------------+------+------+



In [23]:
#группировка по жанру и объёму продаж
sales_genre = filtered_df.groupBy('genre').agg({'sales': 'sum'}).withColumnRenamed('sum(sales)', 'total_sales')

In [27]:
sales_genre.show()

+--------------------+-----------+
|               genre|total_sales|
+--------------------+-----------+
| ""Southern Gothic""|     4000.0|
|           ""Novel""|     4500.0|
| ""Science Fiction""|     5000.0|
+--------------------+-----------+



In [24]:
#сортировка жанров по убыванию объёмов продаж
sort_sales = sales_genre.orderBy(col('total_sales').desc())

In [25]:
sort_sales.show()

+--------------------+-----------+
|               genre|total_sales|
+--------------------+-----------+
| ""Science Fiction""|     5000.0|
|           ""Novel""|     4500.0|
| ""Southern Gothic""|     4000.0|
+--------------------+-----------+

