<a target="_blank" href="../cluster" style="font-size:20px">All Applications (YARN)</a>

# Домашнее задание

_Это задание очень похоже на задание, которое вы уже делали на Hadoop, так и задумано, оцените, насколько проще оно решается на Spark._

Будем использовать логи прослушивания музыкальных исполнителей в сервисе Яндекс.Музыка.

Файл `events.csv` содержит записи вида `Пользователь,Исполнитель,Число прослушиваний,Число пропусков`:
```csv
userId,artistId,plays,skips
0,335,1,0
0,708,1,0
0,710,2,1
0,815,1,1
```

Вам необходимо проделать следующее:
1. **Оставьте в данных только тех пользователей, для которых сумма plays строго больше 2000. Сколько таких пользователей?**
2. **В отфильтрованных на первом шаге данных найдите 5 самых популярных по числу пользователей исполнителей (идентификаторы).**

Детали:
1. Давайте считать, что список прослушиваний одного пользователя всегда помещается в память.

Решение сохраните в файл `result.json`. Пример содержимого файла:

```json
{
    "q1": 123,
    "q2": [
        4,
        5,
        6,
        7,
        8
    ]
}```

In [1]:
# пример содержимого файла
! head -n 5 yandex_music/events.csv

userId,artistId,plays,skips
0,335,1,0
0,708,1,0
0,710,2,1
0,815,1,1


In [2]:
# копируем файлы в HDFS
! hadoop fs -copyFromLocal yandex_music /
! hadoop fs -ls -h /yandex_music

Found 3 items
-rw-r--r--   1 jovyan supergroup        254 2021-05-01 22:54 /yandex_music/README.txt
-rw-r--r--   1 jovyan supergroup      3.7 M 2021-05-01 22:54 /yandex_music/artists.jsonl
-rw-r--r--   1 jovyan supergroup     47.6 M 2021-05-01 22:54 /yandex_music/events.csv


In [3]:
# https://spark.apache.org/docs/latest/rdd-programming-guide.html
# http://spark.apache.org/docs/latest/sql-getting-started.html

import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName='jupyter')


from pyspark.sql import SparkSession, Row
se = SparkSession(sc)

In [4]:
# загружаем csv как Spark DataFrame
events = se.read.csv("hdfs:///yandex_music/events.csv", header=True)  # в первой строке у нас заголовок
events.registerTempTable("events")
events.limit(5).toPandas()

Unnamed: 0,userId,artistId,plays,skips
0,0,335,1,0
1,0,708,1,0
2,0,710,2,1
3,0,815,1,1
4,0,880,1,1


In [5]:
# можно сконвертировать этот DataFrame в RDD
events.rdd.take(5)

[Row(userId='0', artistId='335', plays='1', skips='0'),
 Row(userId='0', artistId='708', plays='1', skips='0'),
 Row(userId='0', artistId='710', plays='2', skips='1'),
 Row(userId='0', artistId='815', plays='1', skips='1'),
 Row(userId='0', artistId='880', plays='1', skips='1')]

In [23]:
se.sql('''
select count(*) as answer1 from
(
select userId, sum(plays) as plays_sum 
from events 
group by userId
) t
where t.plays_sum > 2000
''').show()

+-------+
|answer1|
+-------+
|   1705|
+-------+



In [56]:
se.sql('''
select t2.artistId, count(t2.userId) plays_count from
(
select userId from
(
select userId, sum(plays) as plays_sum 
from events
group by userId
) t
where t.plays_sum > 2000
) t1
join events t2
on t1.userId = t2.userId
group by artistId
order by plays_count desc
limit 5
''').show()

+--------+---------+
|artistId|plays_sum|
+--------+---------+
|   11368|     1421|
|    3629|     1274|
|     259|     1221|
|   44148|     1191|
|   23524|     1167|
+--------+---------+



In [57]:
%%file result.json
{
    "q1": 1705,
    "q2": [
        11368,
        3629,
        259,
        44148,
        23524
    ]
}

Overwriting result.json


In [8]:
# останавливаем Spark (и YARN приложение)
# sc.stop()