### Задание после лекции 2.

Сохранить один месяц данных из папки /datasets/marketplace в личную базу username.market_events, данные партиционировать по дате

Посчитать посуточные аггрегаты для этих данных по категориям в таблицу event_types_daily с колонками: event_date, category_id, event_type, event_count, distinct_customer_count. Счёт нужно производить отдельно по дням (в цикле по датам), целевую таблицу тоже разделить на партиции.


#### Инициализация

In [2]:
%spark.pyspark

# Создаем базу данных
spark.sql("create database if not exists user_id")
df = spark.sql("show databases")
df.show()

#spark.sql("CREATE TABLE user_id.event_types_daily (category_id int, event_type string, event_count int, distinct_customer_count int, event_date timestamp) USING parquet PARTITIONED BY (event_date)")

#### Вариант 1. Решение агрегацией 

In [4]:
%spark.pyspark

from pyspark.sql.functions import col, to_timestamp, to_date
from pyspark.sql.functions import count
from pyspark.sql.functions import countDistinct

spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic")

print("Start loading")

# Чтение данных из файла (hadcode)
marked_df = spark.read.csv("/datasets/marketplace/2019-Nov.csv.gz", header=True, inferSchema=True)

# Трансформация поля партиционирования
transformed_df = marked_df \
    .withColumn("event_time", to_timestamp(col("event_time"), "yyyy-MM-dd HH:mm:ss")) \
    .withColumn("event_date", to_date(col("event_time")))

# Формирование таблицы источника
transformed_df \
    .write \
    .partitionBy("event_date") \
    .mode("overwrite") \
    .saveAsTable("user_id.market_events")
    
# Получение целевых данных плюс агрегация
marked_df = spark.table("user_id.market_events")
aggregated_df = marked_df \
    .groupBy("event_date", "category_id", "event_type") \
    .agg(count("*").alias("event_count"), countDistinct("user_id").alias("distinct_customer_count"))    
    
# Запись целевых данных    
aggregated_df \
    .repartition("event_date") \ 
    .write \
    .partitionBy("event_date") \
    .mode("overwrite") \
    .saveAsTable("user_id.event_types_daily")    
    
print("Loading complite")    

#### Вариант 2. Итерация по дням


In [6]:
%spark.pyspark

from pyspark.sql.functions import col, date_format, count, countDistinct

print("Start loading")

# Получение даты событий из источника
market_events_df = spark.table("user_id.market_events")
market_events_dates = market_events_df \
    .select("event_date") \
    .distinct()

# Получение даты событий из целевой таблицы
event_types_daily_df = spark.table("user_id.event_types_daily")
event_types_daily_dates = event_types_daily_df \
    .select("event_date") \
    .distinct() 
    
# Формирование список дат для загрузки    
etl_dates = market_events_dates \
    .subtract(event_types_daily_dates) \
    .orderBy("event_date") \
    .withColumn("event_date", date_format("event_date", "yyyy-MM-dd")) \
    .rdd.map(lambda x: x[0]).collect()

# Итерация по дням загрузки
for current_date in etl_dates:
    
    # Получение агрегатов за 1 день
    marked_df = spark.table("user_id.market_events")
    aggregated_df = marked_df \
        .where(col("event_date") == current_date) \
        .groupBy("event_date", "category_id", "event_type") \
        .agg(count("*").alias("event_count"), countDistinct("user_id").alias("distinct_customer_count"))
        
    # Сохранение данных
    aggregated_df \
        .repartition("event_date") \
        .write \
        .partitionBy("event_date") \
        .mode("append") \
        .saveAsTable("user_id.event_types_daily")       
        #.mode("overwrite") \ - Предпочтительно, при корректно работающей опции spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic") 

    print(f"Load data for {current_date} complite")      

print("Loading complite")


In [7]:
%spark.pyspark

spark.stop()

#### Проверки

In [9]:
%spark.pyspark

from pyspark.sql.functions import col

spark.sql("ALTER TABLE user_id.event_types_daily DROP IF EXISTS PARTITION (event_date='2019-11-29')")

event_types_daily_df = spark.table("user_id.event_types_daily")
result_df = event_types_daily_df.orderBy(col('event_date').desc())

z.show(result_df)
