In [0]:
schema_sales = "date STRING, region STRING, manager STRING, product STRING, amount INT"

In [0]:
data = spark.read.csv("/FileStore/tables/sales2.csv", schema = schema_sales, header = True, sep=";")

In [0]:
data.show()

In [0]:
data.printSchema()

In [0]:
from datetime import datetime
from pyspark.sql.functions import col, udf
from pyspark.sql.types import *
#Приводим столбец с датами к правильному формату
udf_date = udf(lambda x:datetime.strptime(x, "%d.%m.%Y"),DateType())
df = data.withColumn('date',udf_date(col('date')))

In [0]:
df.show(10)

In [0]:
df.printSchema()

In [0]:
df.columns

In [0]:
from pyspark.sql.functions import *
#Расчет количества уникальных менеджеров в датасете
df.select("manager").where(col("manager").isNotNull()).agg(countDistinct("manager").alias("DistintManager")).show()

In [0]:
#Вывод имен менеджеров
df.select("manager").where(col("manager").isNotNull()).distinct().show()

In [0]:
#Вывод всех записи, которые относятся к менеджеру с кодом m3
df.select(_).where(col("manager")=="m3").show()

In [0]:
#Расчет количества записей в датасете для каждого менеджера
df.select("manager").where(col("manager").isNotNull()).groupBy("manager").count().orderBy("count",ascending=False).show()

In [0]:
from pyspark.sql.functions import round
#Добавление нового расчетного столбца
df = df.withColumn('percentage',round(df.amount/100*2.5,1))

In [0]:
df.show(5)

In [0]:
#Фильтрация датасета
dfFilter = df.filter(df.percentage <=10)

In [0]:
dfFilter.show()

In [0]:
#Сборная статистика для числовых полей
df.select('amount').summary().show()

In [0]:
#Сортировка
df.sortWithinPartitions('region','manager','product',ascending=[True,True,True]).show()

In [0]:
from pyspark.sql.window import Window
from pyspark.sql.functions import col, row_number
#Применение оконной функции
win = Window.partitionBy(df['region']).orderBy(df['amount'].desc())
df_rank = df.withColumn('rank',row_number().over(win).alias('rank'))
df_rank.show()

In [0]:
#Создание нового датасета
directory_product = spark.createDataFrame([('pr1','product1'),('pr2','product2')],['id','name'])

In [0]:
#Объединение датасетов
df_new = df.join(directory_product,df.product==directory_product.id,how='left')

In [0]:
df_new.show(5)

In [0]:
#Отбор столбцов и их переименование
df_final = df_new['date','region','manager','name','amount','percentage']
df_final = df_final.withColumnRenamed('name','product')

In [0]:
df_final.show(5)

In [0]:
from pyspark.sql import functions as F
#Добавление расчетного столбца (столбец с условием)
df_final = df_final.withColumn('premium', F.when((df_final.percentage>=0)&(df_final.percentage<5),5).when((df_final.percentage>=5)&(df_final.percentage<10),10).otherwise(15))

In [0]:
df_final.show()

In [0]:
df_final.write.format("delta").save("/mnt/delta/sales3")

In [0]:
%sql
DROP TABLE IF EXISTS sales3;

CREATE TABLE sales3 USING DELTA LOCATION '/mnt/delta/sales3/'

In [0]:
%sql
select *
from sales3
limit 10

date,region,manager,product,amount,percentage,premium
2021-01-01,r1,m1,product1,400,10.0,15
2021-01-03,r3,m3,product1,500,12.5,15
2021-01-05,r5,m2,product1,200,5.0,10
2021-01-07,r2,m1,product1,100,2.5,5
2021-01-09,r4,m3,product1,100,2.5,5
2021-01-11,r1,m2,product1,500,12.5,15
2021-01-13,r3,m1,product1,400,10.0,15
2021-01-15,r5,m3,product1,200,5.0,10
2021-01-17,r2,m2,product1,300,7.5,10
2021-01-19,r4,m1,product1,500,12.5,15
