In [None]:
!pip install pyspark findspark nltk

In [None]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
import re 
import string

In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SparkConf

conf = SparkConf().set('spark.ui.port', '4050').set('spark.serializer', 'org.apache.spark.serializer.KryoSerializer')\
                  .set('spark.dynamicAllocation.enabled', 'true')\
                  .set('spark.shuffle.service.enabled', 'true') #трекер, чтобы возвращать ресурсы
sc = SparkContext(conf=conf)
spark = SparkSession.builder.master('local[*]').getOrCreate()

Как проще всего создать RDD? Вызвать метод и передать ему нужный объект

In [None]:
first_rdd  = sc.parallelize(range(1000000))

In [None]:
first_rdd.getNumPartitions()

А можно ли менять количество партиций? Да, для этого есть два метода: repartition() и coalesce(). Первый используется для увеличения и уменьшения количества партиций, второй только для снижения, прчем coalesce будет работать эффективнее. Много партиций - дольше будет считаться, но если данных много, то обязательно нужно

repartition()` всегда приводит к равномерному перераспределению данных, что ведет к shuffle. Если Вы уменьшаете число партиций, то стоит использовать `coalesce()`, который может избежать shuffle

In [None]:
first_rdd = first_rdd.repartition(5)
print(first_rdd.getNumPartitions())

In [None]:
first_rdd = first_rdd.repartition(2)
print(first_rdd.getNumPartitions())

In [None]:
first_rdd = first_rdd.coalesce(1)
print(first_rdd.getNumPartitions())

In [None]:
a = %time first_rdd.sum()

Посмотрим на время выполнения для разного числа партиций

In [None]:
result = []
first_rdd  = sc.parallelize(range(500000))
for partition in range(1, 12):
    first_rdd = first_rdd.repartition(partition)
    time = %timeit -o  -n 1 -r 5 first_rdd.sum()
    time = time.best
    result.append((partition, time))

In [None]:
import matplotlib.pyplot as plt
import os
%matplotlib inline

In [None]:
plt.plot([res[1] for res in result])

А почему лучший результат при небольшом количестве партиций?

In [None]:
import multiprocessing

multiprocessing.cpu_count()

Из list также можно создавать RDD

In [None]:
bad_list = [1, 2, 3, 'a', 10, 'b']

In [None]:
bad_list_rdd = sc.parallelize(bad_list)

In [None]:
bad_list_rdd.collect()

Еще можно создать RDD через textFile и wholeTextFiles

In [None]:
text_rdd = sc.textFile('spark_text.txt')

In [None]:
text_rdd.take(1)

wholeTextFiles создает PairRDD в формате key-value, где ключ - имя файла, а значения - то, что находистя в файле. Имена файлов считываются из папки через wholeTextFiles

In [None]:
dirPath = 'files'
os.mkdir(dirPath)
with open(os.path.join(dirPath, "1.txt"), "w") as file1:
    _ = file1.write("[1 2 3]")
with open(os.path.join(dirPath, "2.txt"), "w") as file2:
    _ = file2.write("[4 5 6]")
textFiles = sc.wholeTextFiles(dirPath)

In [None]:
textFiles

In [None]:
textFiles.collect()

У RDD есть стандартно 2 типа методов - actions и transformations

**Actions**

Начнем с actions, то есть того, что заставит посчитать

In [None]:
first_rdd = first_rdd.coalesce(2)

In [None]:
first_rdd.sum()

In [None]:
first_rdd.min(), first_rdd.max()

In [None]:
first_rdd.first()

In [None]:
first_rdd.take(2)

In [None]:
first_rdd.count()

In [None]:
a = first_rdd.collect()

In [None]:
first_rdd.saveAsTextFile, first_rdd.saveAsPickleFile

In [None]:
first_rdd.reduce(lambda x, y: x + y)

Если нужно получить небольшое число записей на драйвер и, при этом, сохранить распределение, то лучше сделать выборку

In [None]:
first_rdd.takeSample(withReplacement=False, num=5, seed=5757)

**Transformations**

Это просто трансформации, которые не будут вычисляться до вызова actions

In [None]:
a = sc.parallelize([1, 2, 3])
b = sc.parallelize([2, 3, 4])

In [None]:
c = a + b

In [None]:
c.collect()

filter

In [None]:
text_rdd.count()

In [None]:
text_rdd.filter(lambda x: x != '').count()

In [None]:
text_rdd = text_rdd.filter(lambda x: x != '')

map

In [None]:
stop_words = stopwords.words("english")
stop_words = set(stop_words)

In [None]:
def mapper_text(text):
    clean_text = re.sub(rf"[{string.punctuation}]", "", text)
    words = nltk.word_tokenize(clean_text)
    words_with_value = [(word.lower(), 1) for word in words 
                        if word not in stop_words]
    return words_with_value

In [None]:
text_rdd.map(mapper_text).take(1)

flatMap

Попробуем применить map и flatMap

In [None]:
text_rdd.map(mapper_text).count()

In [None]:
text_rdd.flatMap(mapper_text).count()

Как так?

In [None]:
text_rdd.map(mapper_text).map(len).sum()

вроде понятно что случилось, но давайте на игрушечном примере

In [None]:
simple_example = sc.parallelize([[1, 2, 3], [2, 3, 4], [4, 5, 6]])

In [None]:
def pow_elements(elements):
    return [x**2 for x in elements]

In [None]:
simple_example.map(pow_elements).collect()

In [None]:
simple_example.flatMap(pow_elements).collect()

groupByKey

In [None]:
text_rdd = text_rdd.flatMap(mapper_text)

In [None]:
text_rdd.groupByKey().mapValues(len).collect()

sortByKey

In [None]:
text_rdd.groupByKey().mapValues(len).sortByKey().collect()

И так на самом деле много методов, но предалагаю написать подсчет частоты слов и сделаем это в стиле программ на java

In [None]:
text_rdd = sc.textFile('spark_text.txt')

In [None]:
result = text_rdd.filter(lambda x: x != '')\
                 .flatMap(mapper_text)\
                 .groupByKey()\
                 .mapValues(len)\
                 .sortBy(lambda x: x[1], ascending=False)\
                 .collect()

In [None]:
result[:10]

Забыли про reduceByKey

In [None]:
text_rdd.filter(lambda x: x != '')\
        .flatMap(mapper_text)\
        .reduceByKey(lambda x, y: x + y)\
        .sortBy(lambda x: x[1], ascending=False)\
        .collect()[:10]

Стоит заметить, что `groupByKey()` предполагает перемещение всех записей с одним ключом на один экзекьютор. В случае очень скошенных распределений это может привести к падению экзекьютора с OOM. Поэтому всегда при группировках стоит подумать об использовании `reduceByKey()`.

Так, на лекции было что-то про count, который не делает shuffle да и вообще можно проще написать?

In [None]:
def mapper_text_simple(text):
    clean_text = re.sub(rf"[{string.punctuation}]", "", text)
    words = nltk.word_tokenize(clean_text)
    words = [word.lower() for word in words 
                        if word not in stop_words]
    return words

In [None]:
result = text_rdd.filter(lambda x: x != '')\
                 .flatMap(mapper_text_simple)\
                 .countByValue()
result = sorted(result.items(), key=lambda x: x[1], reverse=True)
print(result[:10])

Замеры

In [None]:
%%timeit

text_rdd.filter(lambda x: x != '')\
        .flatMap(mapper_text)\
        .groupByKey()\
        .mapValues(len)\
        .sortBy(lambda x: x[1], ascending=False)\
        .collect()[:10]

In [None]:
%%timeit

text_rdd.filter(lambda x: x != '')\
        .flatMap(mapper_text)\
        .reduceByKey(lambda x, y: x + y)\
        .sortBy(lambda x: x[1], ascending=False)\
        .collect()[:10]

In [None]:
%%timeit

result = text_rdd.filter(lambda x: x != '')\
                 .flatMap(mapper_text_simple)\
                 .countByValue()
result = sorted(result.items(), key=lambda x: x[1], reverse=True)[:10]

**Join'ы**

Тут просто на игрушечном примере пощупаем данную операцию

In [None]:
rdd_a = sc.parallelize([
                        ('a', [1, 2]),
                        ('b', [2, 4])])

rdd_b = sc.parallelize([
                        ('a', [10]),
                        ('c', [11])])

In [None]:
rdd_a.join(rdd_b).collect()

In [None]:
rdd_a.leftOuterJoin(rdd_b).collect()

In [None]:
rdd_a.fullOuterJoin(rdd_b).collect()

**Домашнее задание 1**

**Срок выполнения 30.09.2024**

Посчитать количество рейтингов больше 4 для каждого фильма и вывести фильмы в порядке убывания количества этих оценок (можно вывести топ 10)

Файл можете взять из прошлого домашнего задания + сохраните результат на диск

**Домашнее задание 2**

В этом задании у вас есть файл с обученным word2vec на произведении Достоевского Преступление и наказание. Файл - list, каждый элемент которого слово и его вектор в формате ('word', [vector]). Необходимо для каждого слова собрать список его top 10 похожих слов по косинусной метрике
Результат также сохраните на диск и выведите синонимы для слова 'топор' и 'деньга'.
Файл в пикле, так что для считывания воспользуйтесь не spark, можете взять любимый pandas

Файл не очень уж и маленький, рекомендую сначала написать код на кошках/собачках, а потом уже на всем, так как ядра 2, считаться будет очень долго.
В качестве одного из вариантов можете рассмотреть метод cartesian