## Workshop
Вы - дата инженер, которому поручили проанализировать данные игр за последние несколько десятков лет. На входе у вас JSON файл. Изучите его и выполните задачи ниже.

In [1]:
# Этот код поможет вам понять, с какими данными вы имеете дело

from pyspark.sql.functions import *

data_file = 'hdfs:///data/spark_excercise/nbagames.json'
df = spark.read.json(data_file)

df.printSchema()

root
 |-- _id: struct (nullable = true)
 |    |-- $oid: string (nullable = true)
 |-- date: struct (nullable = true)
 |    |-- $date: string (nullable = true)
 |-- teams: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- abbreviation: string (nullable = true)
 |    |    |-- city: string (nullable = true)
 |    |    |-- home: boolean (nullable = true)
 |    |    |-- name: string (nullable = true)
 |    |    |-- players: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- ast: long (nullable = true)
 |    |    |    |    |-- blk: long (nullable = true)
 |    |    |    |    |-- drb: long (nullable = true)
 |    |    |    |    |-- fg: long (nullable = true)
 |    |    |    |    |-- fg3: long (nullable = true)
 |    |    |    |    |-- fg3_pct: string (nullable = true)
 |    |    |    |    |-- fg3a: long (nullable = true)
 |    |    |    |    |-- fg_pct: string (nullable = true)
 |    |    |    |    |-

In [2]:
# Explode - очень полезная функция. Она позволяет "взорвать" колонку с массивом данных, как бы развернув его
# на 90 градусов

clean = \
    df \
    .select(
        col("_id.$oid").alias("id"),
        col("date.$date").alias("date"),
        explode("teams").alias("team")
    )

clean.show(1)

+--------------------+--------------------+--------------------+
|                  id|                date|                team|
+--------------------+--------------------+--------------------+
|52f29f91ddbd75540...|1985-10-25T04:00:...|[WSB, Washington,...|
+--------------------+--------------------+--------------------+
only showing top 1 row



### 1. Убедитесь, что у разных игр нет одинаковых ID
**Подсказка**
+ для этого нам нужно обратно сгруппировать массив clean, либо можно использовать оригинальные данные
+ результатом этого куска кода должно быть True, если все ключи уникальные и False в противном случае
+ когда вы работаете со структурами, вы можете вызывать метод ```col()``` для выбора колонок внутри структур, например так: ```col("foo.bar")```

In [3]:
df.groupBy('_id').count().filter(col('count') > 1).count() == 0

True

### 2. А теперь давайте посмотрим, за какой период здесь представлены игры
**Подсказка**
+ вам необходимо получить DF, содержащий одну строку с двумя полями - минимальный год и максимальный год
+ для работы с датой следует использовать pyspark.sql.functions - там хватает функций для работы со временем :)
+ а вот для получения timestamp из строки, если это необходимо, можно воспользоваться приведением типов (функция cast)

In [9]:
import pyspark.sql.functions as f

In [20]:
df.select(f.year(col("date.$date")).alias("date"))\
  .select(f.max(col('date')).alias("max_date"), f.min(col('date')).alias("min_date"))\
  .show(1)

+--------+--------+
|max_date|min_date|
+--------+--------+
|    2013|    1985|
+--------+--------+



### 3. Отлично, с периодом разобрались - теперь постройте таблицу, в которой будет количество сыгранных игр за каждый год, отсортировав вывод по возрастанию года
**Подсказка**
+ Есть два варианта, чтобы добавить новую колонку к таблице:
  - ```df.withColumn("new_col", new_col)```
  - ```df.select(col("*"), new_col.alias("new_col")```
+ Но также вы можете добавлять новые колонки прямо в группировках: ```df.groupBy(new_col.alias("new_col"))```

In [26]:
df.select(col("*"), f.year(col("date.$date")).alias('year'))\
  .groupBy('year').count().sort('year').show(5)

+----+-----+
|year|count|
+----+-----+
|1985|  364|
|1986|  911|
|1987|  910|
|1988|  984|
|1989| 1059|
+----+-----+
only showing top 5 rows



### 4. Получилось? Супер! Теперь давайте найдем команду, которая в 2013 году выиграла большев всего игр
**Подсказка**
+ команды идентифицируются полем "abbreviation"
+ Результат игры хранится в поле "won"
+ внутри ```filter()``` тоже можно создавать колонки
+ ограничить вывод можно не только параметров функции ```show()```, но и применив метод ```limit()```

In [66]:
agg_cols = [f.sum('won').alias('sum_wins')]
selected_column = ['abbreviation']

clean.select(col('team'), f.year(col("date")).alias('year'))\
     .filter(col('year')=='2013')\
     .select(col('year'), col('team.abbreviation').alias('abbreviation'), col('team.won').alias('won'))\
     .groupBy(*selected_column)\
     .agg(*agg_cols)\
     .orderBy(col('sum_wins').desc())\
     .show(1)

+------------+--------+
|abbreviation|sum_wins|
+------------+--------+
|         MIA|      45|
+------------+--------+
only showing top 1 row



### 5. Ок, теперь немного хардкора :) Постройте ТОП 10 самых эффективных команд
**Подсказка**
+ Эффективность будем определять следующим образом:
  - Если команда забила гол у себя дома - это 1 очко эффективности
  - Если команда забила гол не у себя дома - это 2 очка эффективности
  - Если команде забили гол (вне зависимости от географии) - то это минус 0.5 очка эффективности
  - Если команда еще и выиграла - надо умножить очки эффективности на 1.5
  - Если команда проиграла - оставляем очки как есть
+ В данной задаче нас интересуют поля "abbreviation", "home", "score", "won" внутри структуры "teams"
+ Не забывайте про оконные функции - они вероятно понадобятся

In [4]:
from pyspark.sql import Window
import pyspark.sql.functions as f

window_id = Window.partitionBy('id').orderBy(col('id'), col('won'))
#window_fin_score = Window.partitionBy('id').orderBy(col('id'), col('won'))

In [7]:
clean.select(col('id'), col('team.abbreviation'), col('team.won'), col('team.score')).orderBy(col('id'), col('won')).show(10)

+--------------------+------------+---+-----+
|                  id|abbreviation|won|score|
+--------------------+------------+---+-----+
|52f29f91ddbd75540...|         ATL|  0|   91|
|52f29f91ddbd75540...|         WSB|  1|  100|
|52f29f92ddbd75540...|         CLE|  0|  115|
|52f29f92ddbd75540...|         CHI|  1|  116|
|52f29f93ddbd75540...|         MIL|  0|  116|
|52f29f93ddbd75540...|         DET|  1|  118|
|52f29f93ddbd75540...|         GSW|  0|  105|
|52f29f93ddbd75540...|         DEN|  1|  119|
|52f29f94ddbd75540...|         BOS|  0|  109|
|52f29f94ddbd75540...|         NJN|  1|  113|
+--------------------+------------+---+-----+
only showing top 10 rows



In [25]:
agg_cols = [f.sum('fin_score').alias('sum_fin_score')]
window_id = Window.partitionBy('id').orderBy(col('id'), col('won'))


clean.select(col('id'), col('team.*'))\
     .select(col('id'), col('abbreviation'), col('home'), when(col('home')==True, 1)\
                                                         .when(col('home')==False, 2)\
                                                         .alias('score_home'), \
             col('score'), col('won'), when(col('won')==0, 1).when(col('won')==1, 1.5).alias('score_won'))\
     .select(col('*'), 
             when(col('won')==0, f.lead('score').over(window_id).alias('next_line_score'))
            .otherwise(f.lag('score').over(window_id).alias('prev_line_score')).alias('opponent_score'))\
     .select(col('*'), ((col('score_home')*col('score')-0.5*col('opponent_score'))*col('score_won')).alias('fin_score'))\
     .groupBy('abbreviation').agg(*agg_cols)\
     .orderBy(col('sum_fin_score').desc())\
     .show(10)

+------------+-------------+
|abbreviation|sum_fin_score|
+------------+-------------+
|         LAL|     314617.0|
|         PHO|     307380.5|
|         SAS|     299636.0|
|         UTA|     295711.5|
|         POR|    292325.25|
|         HOU|    290862.25|
|         BOS|     290334.5|
|         DAL|     287633.5|
|         CHI|    286030.75|
|         IND|     282954.5|
+------------+-------------+
only showing top 10 rows

