# Spark assignment

Taratukhin Oleg, C41323

Initial env setup:

In [91]:
import pyspark
from pyspark import SparkContext
from pyspark.sql import SparkSession
import pandas as pd
from pathlib import Path

spark = SparkSession.builder \
    .appName("itmo spark assignment") \
    .master("local[*]") \
    .getOrCreate()

spark

In [88]:
!cd data && ls
!rm -rf results/task1/

PATH_TO_DATA = Path("data/")
PATH_TO_RESULTS = Path("results/task1/")

[1m[36mfollowers.parquet[m[m              [1m[36mposts_api.json[m[m
[1m[36mfollowers_posts_api_final.json[m[m [1m[36mposts_likes.parquet[m[m
[1m[36mfollowers_posts_likes.parquet[m[m


Utilities:

In [92]:
def save_as_json(df: pyspark.sql.dataframe.DataFrame, name: str):
    df.write \
        .format("json") \
        .save(str(PATH_TO_RESULTS / name))

def get_top_col(df: pyspark.sql.dataframe.DataFrame, col: str, limit=20):
    return df \
        .orderBy(df[col].count.desc()) \
        .limit(limit)
        
def get_top_likes(df: pyspark.sql.dataframe.DataFrame, limit=20):
    return get_top_col(df, "likes", limit)
    
def get_top_likes(df: pyspark.sql.dataframe.DataFrame, limit=20):
    return get_top_col(df, "comments", limit)
    
def get_top_likes(df: pyspark.sql.dataframe.DataFrame, limit=20):
    return get_top_col(df, "reposts", limit)

## Task 1

Display the top 20 liked, commented, reposted posts by number (for all datasets with posts)

In [93]:
posts = spark \
    .read \
    .json(str(PATH_TO_DATA / "posts_api.json"))

posts \
    .limit(10) \
    .toPandas()

Unnamed: 0,attachments,comments,copy_history,copyright,date,from_id,geo,id,key,likes,marked_as_ads,owner_id,post_source,post_type,reposts,signer_id,text,unavailable,views
0,,"(1, 0, True)","[([Row(album=None, audio=None, doc=None, link=...",,1418838050,-94,,17274,-94_17274,"(1, 1, 12, 0)",0,-94,"(None, iphone, api)",post,"(5, 0)",,,,
1,"[(None, None, None, None, None, (791d86f8b302d...","(1, 0, True)",,,1418812223,-94,,17273,-94_17273,"(1, 1, 7, 0)",0,-94,"(None, None, vk)",post,"(3, 0)",,[Технологические брокеры объединят науку и биз...,,
2,,"(1, 0, True)","[([Row(album=None, audio=None, doc=None, link=...",,1418932825,-94,,17313,-94_17313,"(1, 1, 14, 0)",0,-94,"(None, None, vk)",post,"(4, 0)",,,,
3,"[(None, None, None, None, None, (912f07ffb75c8...","(1, 0, True)",,,1418929134,-94,,17301,-94_17301,"(1, 1, 30, 0)",0,-94,"(None, None, vk)",post,"(17, 0)",,"Дорогие друзья, мы открываем новую рубрику, в ...",,
4,"[(None, None, None, None, None, (48de0a7227ce0...","(1, 2, True)",,,1418922045,-94,,17295,-94_17295,"(1, 1, 10, 0)",0,-94,"(None, None, vk)",post,"(0, 0)",,[Первый выпуск Молодежного коворкинг-центра Ун...,,
5,"[(None, None, None, None, None, (01786517929f7...","(1, 3, True)",,,1418906160,-94,,17293,-94_17293,"(1, 1, 51, 0)",0,-94,"(None, None, vk)",post,"(9, 0)",,[Александр Ишевский о новых продуктах и востре...,,
6,"[(None, None, None, None, None, (108e8d387cd05...","(1, 27, True)",,,1418893664,-94,,17277,-94_17277,"(1, 1, 16, 0)",0,-94,"(None, None, vk)",post,"(0, 0)",,Для желающих увидеть большую пресс-конференцию...,,
7,"[(None, None, None, None, None, (c243da0b8a371...","(1, 0, True)",,,1418889630,-94,,17276,-94_17276,"(1, 1, 4, 0)",0,-94,"(None, None, vk)",post,"(0, 0)",,[Профессоры Пауль Урбах и Юрки Сааринен расска...,,
8,"[(None, None, None, None, None, (f5a6642309dea...","(1, 23, True)",,,1418997628,-94,,17326,-94_17326,"(1, 1, 68, 0)",0,-94,"(None, None, vk)",post,"(34, 0)",,"Подготовка к праздникам уже в самом разгаре, а...",,
9,"[(None, None, None, None, None, (b9c7483cdcc2b...","(1, 0, True)",,,1418993264,-94,,17323,-94_17323,"(1, 1, 1, 0)",0,-94,"(None, None, vk)",post,"(1, 0)",,[Татьяна Богомазова: какой должна быть информа...,,


In [94]:
followers_posts = spark \
    .read \
    .json(str(PATH_TO_DATA / "followers_posts_api_final.json"))

followers_posts \
    .limit(10) \
    .toPandas()

Unnamed: 0,attachments,comments,copy_history,copyright,date,final_post,from_id,geo,id,is_pinned,key,likes,owner_id,post_source,post_type,reposts,signer_id,text,unavailable,views
0,"[(None, None, None, None, None, None, None, No...","(0, 0, True)",,,1550165023,,87449,,3316,,87449_3316,"(1, 1, 6, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,"Я люблю Вас. Я вчера, даже, хотел Вам это сказ...",,"(428,)"
1,"[(None, None, None, None, None, None, (fe02668...","(0, 0, True)",,,1553774858,,87449,,3318,,87449_3318,"(1, 1, 11, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,call me by your name ♡,,"(477,)"
2,"[(None, None, None, None, None, None, (c25cda8...","(0, 0, True)",,,1555602008,,87449,,3320,,87449_3320,"(1, 1, 10, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,🦋,,"(419,)"
3,"[(None, None, None, None, None, None, None, No...","(0, 0, True)",,,1558105050,,87449,,3322,,87449_3322,"(1, 1, 8, 0)",87449,"(None, None, iphone, api, None)",post,"(1, 0)",,"Браво,Юра !",,"(442,)"
4,"[(None, None, None, None, None, None, (7758fb4...","(0, 0, True)",,,1559301729,,87449,,3324,,87449_3324,"(1, 1, 8, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,🕊,,"(425,)"
5,"[(None, None, None, None, None, None, (666dd69...","(0, 0, True)",,,1564088944,,87449,,3325,,87449_3325,"(1, 1, 10, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,Самый неприятный побочный эффект взросления дл...,,"(301,)"
6,"[(None, None, None, None, None, None, (06ab977...","(0, 0, True)",,,1565162341,,87449,,3326,,87449_3326,"(1, 1, 6, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,🔅,,"(309,)"
7,"[(None, None, None, None, None, None, (74fdfc9...","(0, 0, True)",,,1566293696,,87449,,3327,,87449_3327,"(1, 1, 9, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,Пекло.Пушка.Вышка.\nЧёртов гений Тарантино. Лю...,,"(366,)"
8,"[(None, None, None, None, None, None, (02804b0...","(0, 0, True)",,,1571221102,,87449,,3329,,87449_3329,"(1, 1, 0, 0)",87449,"(None, None, iphone, api, None)",post,"(0, 0)",,,,"(139,)"
9,"[(None, None, None, None, None, None, (a88e65c...","(1, 1, True)",,,1559647730,,94494,,11752,,94494_11752,"(1, 1, 17, 0)",94494,"(None, None, None, vk, None)",post,"(0, 0)",,"Тот неловкий момент, когда прилетел из унылого...",,"(594,)"


### Top likes

In [75]:
top_likes = get_top_likes(posts)

save_as_json(top_likes, "task1_posts_likes.json")

top_likes.toPandas()[["text"]]

Unnamed: 0,text
0,Стесняешься петь любимую песню в лаборатории? ...
1,У нас для вас две хорошие новости: \nПервая - ...
2,"Настали снежные холода, самое время согреться ..."
3,[Пригласи друзей на [club89993971|открытие Год...
4,"Ура! Нас 20 000! Спасибо, что вы с нами! А в б..."
5,"Добро пожаловать в КиберПитер 2019 — город, в ..."
6,[Университет ИТМО стал шестикратным чемпионом ...
7,Я ПОСТУПИЛ В УНИВЕРСИТЕТ ИТМО! \n\nМесяцы подг...
8,WE ARE THE CHAMPIONS! СЕДЬМАЯ ПОБЕДА УНИВЕРСИТ...
9,"Студенты, сегодня ваш день! И мы уже подготови..."


In [76]:
top_likes = get_top_likes(posts)

save_as_json(top_likes, "task1_followers_likes.json")

top_likes.toPandas()[["text"]]

Unnamed: 0,text
0,Стесняешься петь любимую песню в лаборатории? ...
1,У нас для вас две хорошие новости: \nПервая - ...
2,"Настали снежные холода, самое время согреться ..."
3,[Пригласи друзей на [club89993971|открытие Год...
4,"Ура! Нас 20 000! Спасибо, что вы с нами! А в б..."
5,"Добро пожаловать в КиберПитер 2019 — город, в ..."
6,[Университет ИТМО стал шестикратным чемпионом ...
7,Я ПОСТУПИЛ В УНИВЕРСИТЕТ ИТМО! \n\nМесяцы подг...
8,WE ARE THE CHAMPIONS! СЕДЬМАЯ ПОБЕДА УНИВЕРСИТ...
9,"Студенты, сегодня ваш день! И мы уже подготови..."


### Top comments

In [79]:
top_comments = get_top_comments(posts)

save_as_json(top_comments, "task1_posts_comments.json")

top_comments.toPandas()[["text"]]

Unnamed: 0,text
0,"Студенты, сегодня ваш день! И мы уже подготови..."
1,"Друзья, а давайте немного поиграем? \n\nМы при..."
2,"Upd: розыгрыш завершен, благодарим всех участн..."
3,"Все знают, что в этом году занятия начинаются ..."
4,18 мая состоится четвертая велопрогулка с рект...
5,15 российских вузов получат субсидии в размере...
6,Информация по аварийной ситуации в здании унив...
7,ОФИЦИАЛЬНО: СЕССИЯ УЖЕ В ИТМО! \n\nИ как всегд...
8,ДОБРО ПОЖАЛОВАТЬ В УНИВЕРСИТЕТ ИТМО! 💙🎉\n \nРа...
9,"Дорогие абитуриенты, присоединяйтесь к нашему ..."


In [81]:
top_comments = get_top_comments(followers_posts)

save_as_json(top_comments, "task1_followers_comments.json")

top_comments.toPandas()[["text"]]

Unnamed: 0,text
0,Гости у bera vine
1,Live
2,Погнали💥💥💥
3,Звоночки💥
4,"Ребят,как и говорили,мы все купили📚🧩🎲\nЕще раз..."
5,Всем приветик💋🖤
6,Погнали☄️
7,Сегодня будет мощно
8,В конце будут сигны🤪❤💪
9,Bera vine в сборе💥💥💥


### Top reposted

In [84]:
top_reposts = get_top_reposts(posts)

save_as_json(top_reposts, "task1_posts_reposts.json")

top_reposts.toPandas()[["text"]]

Unnamed: 0,text
0,"Настали снежные холода, самое время согреться ..."
1,"Ура! Нас 20 000! Спасибо, что вы с нами! А в б..."
2,Стесняешься петь любимую песню в лаборатории? ...
3,8 октября пропал без вести студент Вашего ВУЗа...
4,[Университет ИТМО стал шестикратным чемпионом ...
5,Команда студентов НИУ ИТМО снова завоевала зва...
6,#ExamsAreComing #университет #ИТМО #ITMO #univ...
7,У нас для вас две хорошие новости: \nПервая - ...
8,В преддверии выпускного ITMOLiVE [club94359346...
9,Подарок всем студентам в первый день весны! Во...


In [85]:
top_reposts = get_top_reposts(followers_posts)

save_as_json(top_reposts, "task1_followers_reposts.json")

top_reposts.toPandas()[["text"]]

Unnamed: 0,text
0,Нашли корги. Бегал по Октябрьской набережной п...
1,🔥 НОВИНКА / [club36856627|Skid] / IMISSYOU 🔥
2,Инновационная система \nПервая инновационная п...
3,УВЕДОМЛЕНИЕ в расчетный центр \n \n Довожу до ...
4,От 20$ в день из ВК!\nПредставляю вам полность...
5,"Ты знаешь чего я хочу?\n– Всего.\n– Ну, это во..."
6,"Зоя Звиняцковская ФБ\nпростите, но я должна за..."
7,"ОРЗЕГА! МАЙГУБА! СЕГЕЖА!\n""...Меньше трех неде..."
8,
9,
