In [2]:
!pip install pyspark
#!pip install pyspark >> None

In [3]:
import pyspark
from pyspark import SparkContext
from pyspark.sql import SparkSession

### Задание 1: Найти среднее значение элементов в RDD

1. **Создание SparkContext**: Сначала создается объект `SparkContext` с параметрами `"local"` и `"Average RDD"`. `"local"` указывает, что Spark будет работать в локальном режиме, а `"Average RDD"` - это имя приложения. `SparkContext` является основным входным точкой для любого Spark-приложения и используется для создания RDD и выполнения операций на кластере.

2. **Создание RDD**: Затем используется метод `parallelize` объекта `SparkContext` для создания RDD (Resilient Distributed Dataset) из списка `[1, 2, 3, 4, 5]`. RDD - это основная абстракция в Spark, представляющая собой распределенную коллекцию элементов, которые могут быть обработаны параллельно. Метод `parallelize` копирует элементы коллекции для формирования распределенного набора данных, который может быть обработан параллельно.

3. **Вычисление среднего значения**: После создания RDD вызывается метод `mean()` для вычисления среднего значения элементов в RDD.

Важно отметить, что количество разделов (partitions) для RDD, созданного с помощью `parallelize`, по умолчанию определяется Spark на основе количества ядер в кластере. Однако, можно указать конкретное количество разделов вторым аргументом метода `parallelize`, если это необходимо для оптимизации производительности.

In [None]:
sc = SparkContext("local", "Average RDD")
rdd = sc.parallelize([1, 2, 3, 4, 5])
mean_value = rdd.mean()
print("Среднее значение элементов в RDD:", mean_value)

Среднее значение элементов в RDD: 3.0


In [None]:
active_session = SparkSession.active
print(active_session)

<bound method SparkSession.active of <class 'pyspark.sql.session.SparkSession'>>


In [None]:
sc.stop()

### Задание 2: найти наибольший элемент в RDD

1. Создает экземпляр `SparkContext` с именем приложения "Max RDD" и запускает его на локальном режиме. `SparkContext` является основным объектом в Spark, который позволяет создавать RDD (Resilient Distributed Datasets) и выполнять операции над ними.

2. Использует метод `parallelize` для создания RDD из списка чисел `[100, 25, 30, 40, 55, 70]`. Метод `parallelize` позволяет распределить локальную коллекцию данных по рабочим узлам в кластере, преобразуя её в распределённый набор данных (RDD), который может быть обработан параллельно.

3. Вызывает метод `max()` на созданном RDD, который возвращает максимальное значение из всех элементов RDD.

In [None]:
sc = SparkContext("local", "Max RDD")
rdd = sc.parallelize([100, 25, 30, 40, 55, 70])
max_value = rdd.max()
print("Наибольший элемент в RDD:", max_value)

Наибольший элемент в RDD: 100


In [None]:
sc.stop()

### Задание 3: подсчитать количество элементов, удовлетворяющих определенному условию

1. Создание экземпляра `SparkContext` с именем "Filter RDD" и запуском в локальном режиме. `SparkContext` является основным входным точкой для любого приложения Spark и обеспечивает доступ к функциональности Spark, таким как создание RDD (Resilient Distributed Datasets) и выполнение операций на данных.

2. Создание RDD из списка чисел от 1 до 10 с помощью метода `parallelize`. RDD представляет собой распределенную коллекцию элементов, которые могут быть обработаны параллельно. В данном случае, список `[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]` распределяется по кластеру Spark для параллельной обработки.

3. Применение фильтрации к RDD с помощью метода `filter`, который принимает функцию-предикат (в данном случае лямбда-функцию) и возвращает новый RDD, содержащий только те элементы, для которых предикат возвращает `True`. В данном случае, фильтрация выполняется для выбора элементов больше 5.

4. Подсчет количества элементов в отфильтрованном RDD с помощью метода `count`.

In [None]:
sc = SparkContext("local", "Filter RDD")

rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
filtered_rdd = rdd.filter(lambda x: x > 5)
count = filtered_rdd.count()
print("Количество элементов, больших 5:", count)

Количество элементов, больших 5: 5


In [None]:
sc.stop()

### 4. Задание на группировку по ключу:
   Дан набор данных с информацией о продажах товаров в магазине в следующем формате: (товар, магазин, количество). Необходимо сгруппировать данные по товару и найти суммарное количество проданных товаров по каждому товару.

1. **Инициализация SparkContext**:
   - `sc = SparkContext("local", "advanced")` создает экземпляр SparkContext, который является точкой входа для любого приложения Spark. В данном случае, SparkContext инициализируется для работы в локальном режиме (`"local"`) с именем приложения `"advanced"`.

2. **Создание списка данных**:
   - `data = [("apple", "store1", 10), ("apple", "store2", 15), ...]` определяет список кортежей, где каждый кортеж содержит информацию о фрукте, магазине и количестве.

3. **Параллелизация данных**:
   - `rdd = sc.parallelize(data)` преобразует список `data` в распределенный набор данных (RDD), который может быть обработан параллельно.

4. **Группировка и агрегация данных**:
   - `grouped_rdd = rdd.map(lambda x: (x[0], x[2])).reduceByKey(lambda a, b: a + b)` выполняет две операции:
     - `map(lambda x: (x[0], x[2]))` преобразует каждый кортеж в RDD, оставляя только первый элемент (название фрукта) и третий элемент (количество) в каждом кортеже.
     - `reduceByKey(lambda a, b: a + b)` агрегирует значения по ключу (в данном случае, названию фрукта), суммируя количество для каждого фрукта. Это достигается путем применения функции `lambda a, b: a + b` к значениям, ассоциированным с каждым ключом. Функция `reduceByKey` автоматически выполняет локальную агрегацию на каждом узле перед вычислением глобальных итогов для каждого ключа, что уменьшает объем сетевого трафика.

5. **Сбор результатов**:
   - `grouped_rdd.collect()` собирает результаты обработки RDD в драйвер программы. В данном случае, это будет список кортежей, где каждый кортеж содержит название фрукта и суммарное количество этого фрукта по всем магазинам.

В итоге, код группирует данные по названию фрукта и суммирует количество каждого фрукта по всем магазинам, используя возможности распределенной обработки данных Apache Spark.

In [None]:
sc = SparkContext("local", "advanced")
data = [("apple", "store1", 10), ("apple", "store2", 15),
        ("banana", "store1", 20), ("banana", "store2", 25),
        ("peach", "store1", 5), ("peach", "store2", 10),
        ("peach", "store3", 25),]

rdd = sc.parallelize(data)

grouped_rdd = rdd.map(lambda x: (x[0], x[2])).reduceByKey(lambda a, b: a + b)
grouped_rdd.collect()

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=Max RDD, master=local) created by __init__ at <ipython-input-65-bd938542dd78>:1 

In [None]:
sc.stop()

### 5. Задание на агрегацию по ключу:

   Дан набор данных с информацией о продажах товаров в магазине в следующем формате: (магазин, товар, количество, цена). Необходимо найти общую выручку от продаж каждого товара в каждом магазине.

1. **Инициализация SparkContext**:
   - `sc = SparkContext("local", "advanced")` создает экземпляр SparkContext, который является точкой входа для любого приложения Spark. В данном случае, SparkContext настроен для работы в локальном режиме (`"local"`), что означает, что все вычисления будут выполняться на одной машине. Второй аргумент, `"advanced"`, является именем приложения.

2. **Создание данных**:
   - `data` - это список кортежей, где каждый кортеж содержит информацию о продажах товаров в разных магазинах. Каждый кортеж содержит название магазина, название товара, количество проданных единиц товара и цену за единицу товара.

3. **Параллелизация данных**:
   - `rdd = sc.parallelize(data)` преобразует список `data` в распределенный набор данных (RDD), который может быть обработан параллельно. Это достигается путем копирования элементов списка в распределенный набор данных, который затем может быть обработан параллельно.

4. **Преобразование и агрегация данных**:
   - `revenue_rdd = rdd.map(lambda x: ((x[0], x[1]), x[2]*x[3])).reduceByKey(lambda a, b: a + b)` выполняет две операции:
     - `map` преобразует каждый элемент RDD, применяя к нему функцию, которая возвращает кортеж, состоящий из пары (магазин, товар) и произведения количества и цены за единицу товара. Это позволяет вычислить общую прибыль от продажи каждого товара в каждом магазине.
     - `reduceByKey` агрегирует значения по ключам (в данном случае, по паре (магазин, товар)), суммируя прибыль от продажи каждого товара в каждом магазине. Это делается путем применения функции, которая складывает значения для каждого ключа.

5. **Сбор результатов**:
   - `revenue_rdd.collect()` собирает результаты обработки данных в машину, на которой запущено приложение. В результате выполнения этого кода будет получен список кортежей, где каждый кортеж содержит пару (магазин, товар) и общую прибыль от продажи этого товара в этом магазине.

Важно отметить, что `reduceByKey` автоматически выполняет локальную агрегацию данных на каждом узле перед вычислением глобальных итогов для каждого ключа, что улучшает производительность и снижает объем сетевого трафика.

In [None]:
sc = SparkContext("local", "advanced")
data = [("store1", "apple", 10, 2), ("store2", "apple", 15, 2.5),
        ("store1", "banana", 20, 1.5), ("store2", "banana", 25, 1.8),
        ("store1", "watermelon", 3, 5), ("store2", "watermelon", 2, 4)]

rdd = sc.parallelize(data)
revenue_rdd = rdd.map(lambda x: ((x[0], x[1]), x[2]*x[3])).reduceByKey(lambda a, b: a + b)
revenue_rdd.collect()

[(('store1', 'apple'), 20),
 (('store2', 'apple'), 37.5),
 (('store1', 'banana'), 30.0),
 (('store2', 'banana'), 45.0),
 (('store1', 'watermelon'), 15),
 (('store2', 'watermelon'), 8)]

In [None]:
sc.stop()

### 6. Задание на джоин по ключу:

   Даны два набора данных: первый с информацией о продажах (товар, количество) и второй с информацией о цене товаров (товар, цена). Необходимо объединить данные и найти общую выручку от продаж каждого товара.

1. **Инициализация SparkContext**:
   - Создается экземпляр `SparkContext` с именем "advanced", который будет использоваться для выполнения операций в Spark. Параметр "local" указывает, что Spark будет работать в локальном режиме, используя все доступные ядра на компьютере.

2. **Создание RDD (Resilient Distributed Datasets)**:
   - Создаются два списка кортежей: `sales_data` и `price_data`, которые содержат информацию о продажах и ценах на фрукты соответственно.
   - Используя метод `parallelize` из `SparkContext`, эти списки преобразуются в RDD. RDD - это распределенный набор данных, который может быть обработан параллельно. Это позволяет Spark эффективно распределять данные по кластеру для параллельной обработки.

3. **Объединение RDD**:
   - Выполняется операция `join` между `sales_rdd` и `price_rdd`. Этот метод объединяет два RDD по ключам, в данном случае по названиям фруктов. Результатом будет новый RDD, где каждый элемент содержит пару (ключ, (значение из `sales_rdd`, значение из `price_rdd`)).

4. **Преобразование данных**:
   - Применяется функция `map` к объединенному RDD для вычисления дохода от продаж каждого фрукта. Функция принимает кортеж, где первый элемент - это ключ (название фрукта), а второй элемент - кортеж из двух значений: количество проданных фруктов и цена за единицу. Результатом будет новый RDD, где каждый элемент содержит пару (ключ, доход от продаж).

5. **Сбор результатов**:
   - Вызывается метод `collect` для получения результатов из RDD в виде списка. Этот метод собирает все элементы RDD в драйвер-программу, что позволяет просмотреть результаты вычислений.

В итоге, код вычисляет доходы от продаж для каждого фрукта, используя данные о продажах и ценах, и выводит результаты в виде списка кортежей, где каждый кортеж содержит название фрукта и соответствующий доход.

In [None]:
sc = SparkContext("local", "advanced")
sales_data = [("apple", 10), ("banana", 20), ("apple", 15), ("banana", 25), ("peach", 15), ("peach", 25), ("watermelon", 5), ("watermelon", 10)]
price_data = [("apple", 2), ("banana", 1.5), ("peach", 2.5), ("watermelon", 3.5)]
sales_rdd = sc.parallelize(sales_data)
price_rdd = sc.parallelize(price_data)
joined_rdd = sales_rdd.join(price_rdd)
revenue_rdd = joined_rdd.map(lambda x: (x[0], x[1][0] * x[1][1]))
revenue_rdd.collect()

[('banana', 30.0),
 ('banana', 37.5),
 ('peach', 37.5),
 ('peach', 62.5),
 ('watermelon', 17.5),
 ('watermelon', 35.0),
 ('apple', 20),
 ('apple', 30)]

In [None]:
sc.stop()

### 7. Поиск самого длинного слова в RDD

Данный код выполняет следующие действия:

1. Создает экземпляр `SparkContext` с именем "RDD tasks", который используется для выполнения операций с RDD (Resilient Distributed Datasets) в локальном режиме. Этот контекст необходим для работы с Spark и создания RDD из коллекций данных.

2. Определяет список строк `data`, содержащий слова на русском языке.

3. Использует метод `parallelize` из `SparkContext` для преобразования локальной коллекции `data` в RDD. Это позволяет распределить данные по кластеру для параллельной обработки. В данном случае, поскольку используется локальный режим, данные будут распределены только внутри одного узла.

4. Выполняет операцию `max` на RDD, чтобы найти самое длинное слово из списка. Для этого используется лямбда-функция `lambda x: len(x)`, которая возвращает длину каждого слова. Операция `max` сравнивает длины слов и возвращает самое длинное.

В итоге, код позволяет определить самое длинное слово из списка, используя возможности распределенной обработки данных, предоставляемые Spark.

In [None]:
sc = SparkContext("local", "RDD tasks")
data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]
rdd = sc.parallelize(data)
longest_word = rdd.max(key=lambda x: len(x))
print("Самое длинное слово: ", longest_word)

Самое длинное слово:  Путеводитель


In [None]:
sc.stop()

### 8. Фильтрация слов по длине в RDD

Данный код выполняет следующие действия в контексте Apache Spark с использованием Python API (PySpark):

1. **Создание SparkContext**:
   - `sc = SparkContext("local", "RDD tasks")`
   - Создает экземпляр `SparkContext`, который является основным точкой входа для работы с Spark. В данном случае, контекст настроен для работы в локальном режиме (`"local"`), что означает, что все вычисления будут выполняться на одной машине. Второй аргумент, `"RDD tasks"`, задает имя приложения, которое будет отображаться в интерфейсе Spark Web UI.

2. **Создание списка данных**:
   - `data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]`
   - Создает список строк, который будет использоваться для создания RDD (Resilient Distributed Datasets).

3. **Преобразование списка в RDD**:
   - `rdd = sc.parallelize(data)`
   - Использует метод `parallelize` из `SparkContext` для преобразования локального списка `data` в RDD. RDD - это распределенная коллекция объектов, которая может быть разделена на несколько партиций для параллельной обработки. В данном случае, `parallelize` автоматически разделяет данные на партиции, распределяя их по узлам в кластере Spark.

4. **Фильтрация RDD**:
   - `filtered_rdd = rdd.filter(lambda x: len(x) > 6)`
   - Применяет функцию фильтрации к RDD, используя лямбда-функцию, которая возвращает `True` для строк длиной более 6 символов. Это приводит к созданию нового RDD, содержащего только те элементы исходного RDD, которые удовлетворяют условию фильтрации.

5. **Вывод результатов**:
   - `print("Слова длиной более 6 символов: ", filtered_rdd.collect())`
   - Выводит на экран список слов, длина которых превышает 6 символов. Метод `collect` собирает все элементы RDD обратно в драйвер-программу, что позволяет их вывести на экран.

В итоге, код создает RDD из списка слов, фильтрует его, оставляя только слова длиной более 6 символов, и выводит результат на экран.

In [None]:
sc = SparkContext("local", "RDD tasks")
data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]
rdd = sc.parallelize(data)
filtered_rdd = rdd.filter(lambda x: len(x) > 6)
print("Слова длиной более 6 символов: ", filtered_rdd.collect())

Слова длиной более 6 символов:  ['Приложение', 'Путеводитель', 'Метрополитен']


In [None]:
sc.stop()

### 9. Подсчет количества уникальных слов в RDD

Данный код выполняет следующие действия в контексте Apache Spark с использованием Python API (PySpark):

1. **Создание SparkContext**:
   - `sc = SparkContext("local", "RDD tasks")`
   - Создает экземпляр `SparkContext`, который является основным точкой входа для работы с Spark. В данном случае, контекст настроен для работы в локальном режиме (`"local"`), что означает, что все вычисления будут выполняться на одной машине. Второй аргумент, `"RDD tasks"`, задает имя приложения, которое будет отображаться в интерфейсе Spark Web UI.

2. **Создание списка данных**:
   - `data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]`
   - Создает список строк, который будет использоваться для создания RDD (Resilient Distributed Datasets).

3. **Преобразование списка в RDD**:
   - `rdd = sc.parallelize(data)`
   - Использует метод `parallelize` из `SparkContext` для преобразования локального списка `data` в RDD. RDD - это распределенная коллекция объектов, которая может быть разделена на несколько партиций для параллельной обработки. В данном случае, `parallelize` автоматически разделяет данные на партиции, распределяя их по узлам в кластере Spark [0][3].

4. **Фильтрация RDD**:
   - `filtered_rdd = rdd.filter(lambda x: len(x) > 6)`
   - Применяет функцию фильтрации к RDD, используя лямбда-функцию, которая возвращает `True` для строк длиной более 6 символов. Это приводит к созданию нового RDD, содержащего только те элементы исходного RDD, которые удовлетворяют условию фильтрации.

5. **Вывод результатов**:
   - `print("Слова длиной более 6 символов: ", filtered_rdd.collect())`
   - Выводит на экран список слов, длина которых превышает 6 символов. Метод `collect` собирает все элементы RDD обратно в драйвер-программу, что позволяет их вывести на экран.

В итоге, код создает RDD из списка слов, фильтрует его, оставляя только слова длиной более 6 символов, и выводит результат на экран.

In [None]:
sc = SparkContext("local", "RDD tasks")
data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен",
        "Анализ", "Солнце", "Питон", "Снег", "Рынок", "Яблоко", "Путеводитель", "Анализ"]
rdd = sc.parallelize(data)
unique_words_count = rdd.distinct().count()
print("Количество уникальных слов ", unique_words_count)

Количество уникальных слов  10


In [None]:
sc.stop()

### 10. Преобразование всех слов в RDD в верхний регистр

Данный код выполняет следующие действия в контексте Apache Spark с использованием PySpark:

1. **Инициализация SparkContext**:
   - `sc = SparkContext("local", "RDD tasks")` создает экземпляр SparkContext, который является основным входным точкой для любого приложения Spark. В данном случае, SparkContext инициализируется для работы в локальном режиме (`"local"`), что означает, что все вычисления будут выполняться на одной машине. Второй аргумент, `"RDD tasks"`, задает имя приложения, которое будет отображаться в интерфейсе Spark Web UI.

2. **Создание списка данных**:
   - `data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]` определяет список строк, который будет использоваться в качестве исходных данных.

3. **Параллелизация данных**:
   - `rdd = sc.parallelize(data)` преобразует список `data` в RDD (Resilient Distributed Dataset), что позволяет Spark распределить данные по нескольким узлам для параллельной обработки. RDD представляет собой неизменяемую, распределенную коллекцию элементов, которые могут быть обработаны параллельно [2].

4. **Преобразование данных**:
   - `upper_rdd = rdd.map(lambda x: x.upper())` применяет функцию `map` к RDD, которая преобразует каждый элемент списка в верхний регистр. Функция `map` применяется к каждому элементу RDD и возвращает новый RDD, содержащий результаты преобразования. В данном случае, используется лямбда-функция, которая принимает один аргумент `x` и возвращает `x.upper()`, преобразуя каждую строку в верхний регистр [4].

5. **Сбор результатов**:
   - `print("Слова в верхнем регистре ", upper_rdd.collect())` собирает результаты обработки из RDD `upper_rdd` и выводит их. Метод `collect` собирает все элементы RDD обратно на драйвер-узел в виде списка. Это полезно для отладки или когда необходимо получить результаты обработки на драйвер-узеле [0][2].

В целом, код демонстрирует базовые операции с RDD в Spark: инициализацию SparkContext, создание RDD из локальной коллекции, применение трансформации к RDD и сбор результатов обработки.

In [None]:
sc = SparkContext("local", "RDD tasks")
data = ["Приложение", "Яблоко", "Спарк", "Путеводитель", "Метрополитен", "Анализ", "Солнце", "Питон", "Снег", "Рынок"]
rdd = sc.parallelize(data)
upper_rdd = rdd.map(lambda x: x.upper())
print("Слова в верхнем регистре ", upper_rdd.collect())

Слова в верхнем регистре  ['ПРИЛОЖЕНИЕ', 'ЯБЛОКО', 'СПАРК', 'ПУТЕВОДИТЕЛЬ', 'МЕТРОПОЛИТЕН', 'АНАЛИЗ', 'СОЛНЦЕ', 'ПИТОН', 'СНЕГ', 'РЫНОК']


In [None]:
sc.stop()

### 11. Найти средний возраст пользователей по их покупкам и вывести топ-5 самых молодых пользователей.

Данный код выполняет следующие действия в контексте Apache Spark для обработки данных о возрасте пользователей и их покупках:

1. **Инициализация SparkContext**:
   ```python
   sc = SparkContext("local", "UserAge")
   ```
   Создается экземпляр `SparkContext`, который является точкой входа для любого приложения Spark. В данном случае, приложение запускается локально, и ему присваивается имя "UserAge".

2. **Создание RDD**:
   ```python
   user_purchase_rdd = sc.parallelize([(1, 25), (2, 30), (3, 20), (4, 35), (5, 28), (6, 22)])
   ```
   Создается RDD (Resilient Distributed Dataset) с именем `user_purchase_rdd`, содержащий пары (user_id, age), где `user_id` - идентификатор пользователя, а `age` - его возраст. Метод `parallelize` используется для создания RDD из списка пар.

3. **Преобразование и агрегация данных**:
   ```python
   user_age_total = user_purchase_rdd.mapValues(lambda age: (age, 1)).reduceByKey(lambda a, b: (a[0] + b[0], a[1] + b[1])).mapValues(lambda v: v[0] / v[1])
   ```
   - `mapValues(lambda age: (age, 1))` преобразует каждую пару (user_id, age) в пару (user_id, (age, 1)), где второй элемент является кортежем, содержащим возраст и счетчик единиц.
   - `reduceByKey(lambda a, b: (a[0] + b[0], a[1] + b[1]))` агрегирует значения по ключам (user_id), суммируя возраст и счетчик единиц для каждого пользователя.
   - `mapValues(lambda v: v[0] / v[1])` вычисляет средний возраст для каждого пользователя, разделив сумму возрастов на количество записей.

4. **Сортировка и выборка**:
   ```python
   youngest_users = user_age_total.sortBy(lambda x: x[1]).take(5)
   ```
   - `sortBy(lambda x: x[1])` сортирует пары (user_id, avg_age) по возрастанию среднего возраста.
   - `take(5)` выбирает первые 5 пользователей по возрастанию среднего возраста.

5. **Вывод результатов**:
   ```python
   for user_id, avg_age in youngest_users:
       print(user_id, avg_age)
   ```
   Выводит идентификаторы и средние возрасты пяти самых молодых пользователей.

В целом, код выполняет агрегацию данных о возрасте пользователей, вычисляет средний возраст для каждого пользователя и выводит идентификаторы и средние возрасты пяти самых молодых пользователей.

In [None]:
sc = SparkContext("local", "UserAge")
user_purchase_rdd = sc.parallelize([(1, 25), (2, 30), (3, 20), (4, 35), (5, 28), (6, 22)])
user_age_total = user_purchase_rdd.mapValues(lambda age: (age, 1)).reduceByKey(lambda a, b: (a[0] + b[0], a[1] + b[1])).mapValues(lambda v: v[0] / v[1])
youngest_users = user_age_total.sortBy(lambda x: x[1]).take(5)
for user_id, avg_age in youngest_users:
	print(user_id, avg_age)

3 20.0
6 22.0
1 25.0
5 28.0
2 30.0


In [None]:
sc.stop()

### 12. Найти среднюю цену товара в каждой категории и вывести результат в формате "Категория: Средняя цена".

Данный код выполняет следующие действия:

1. Создает экземпляр `SparkContext` с именем "ProductPrice", который используется для взаимодействия с кластером Spark. Параметр "local" указывает, что Spark будет работать в локальном режиме, а не на кластере.

2. Создает RDD (Resilient Distributed Dataset) с именем `product_rdd`, используя метод `parallelize`. Этот RDD содержит кортежи, где каждый кортеж представляет собой тройку: идентификатор продукта, категорию продукта и цену продукта.

3. Применяет функцию `map` к `product_rdd`, чтобы преобразовать каждый кортеж в пару ключ-значение, где ключом является категория продукта, а значением — кортеж, содержащий цену и количество единиц продукта (в данном случае всегда 1).

4. Использует `reduceByKey` для агрегации значений по ключу (категории продукта). Функция `reduceByKey` принимает функцию, которая определяет, как агрегировать значения. В данном случае, функция суммирует цены и количество единиц продукта для каждой категории.

5. После агрегации, `mapValues` преобразует значения в RDD, вычисляя среднюю цену для каждой категории, разделив общую сумму цен на количество единиц продукта.

6. Наконец, `collect` собирает результаты в драйвер программы, и цикл `for` выводит каждую категорию и ее среднюю цену.

В итоге, код вычисляет среднюю цену продуктов по категориям, используя функции `map`, `reduceByKey`, и `mapValues` для обработки и агрегации данных в RDD.

In [None]:
sc = SparkContext("local", "ProductPrice")
product_rdd = sc.parallelize([(1, "A", 100), (2, "B", 150), (3, "A", 120), (4, "C", 200), (5, "B", 130), (6, "C", 140)])
category_total_price = product_rdd.map(lambda x: (x[1], (x[2], 1))).reduceByKey(lambda a, b: (a[0] + b[0], a[1] + b[1])).mapValues(lambda v: v[0] / v[1])
for category, avg_price in category_total_price.collect():
	  print(category, avg_price)

A 110.0
B 140.0
C 170.0


In [None]:
sc.stop()

### 13. Найти все пары чисел из RDD, сумма которых превышает 100, и вывести их.

Данный код выполняет следующие действия в контексте Apache Spark:

1. **Инициализация SparkContext**: Сначала создается экземпляр `SparkContext` с именем "NumberPairs", который будет использоваться для выполнения операций в Spark. Параметр "local" указывает, что Spark будет работать в локальном режиме, а не на кластере [4].

2. **Создание RDD**: Затем создается RDD (Resilient Distributed Dataset) с именем `number_rdd`, используя метод `parallelize` на `SparkContext`. Этот метод преобразует обычный список чисел в распределенный набор данных, который может быть обработан параллельно. В данном случае, список содержит числа от 30 до 140 [0].

3. **Операция Cartesian Product**: Далее, на `number_rdd` применяется операция `cartesian`, которая создает декартово произведение RDD с самим собой. Это означает, что для каждого элемента в `number_rdd` будет создана пара, где первый элемент пары - это исходный элемент, а второй - любой другой элемент из `number_rdd`. В результате получается RDD, содержащий все возможные пары чисел из исходного списка [2].

4. **Фильтрация пар**: После создания декартового произведения, к RDD применяется фильтрация с помощью метода `filter`. Фильтр сохраняет только те пары чисел, сумма которых больше 100. Это достигается с помощью лямбда-функции, которая принимает пару чисел и возвращает `True`, если сумма чисел в паре больше 100, и `False` в противном случае [2].

5. **Сборка результатов**: Наконец, метод `collect` используется для сбора всех оставшихся после фильтрации пар чисел в массив на драйвере. Этот массив затем перебирается в цикле `for`, и каждая пара чисел выводится на экран [0].

В итоге, код генерирует и выводит все пары чисел из исходного списка, сумма которых больше 100, используя возможности распределенных вычислений Apache Spark.

In [None]:
sc = SparkContext("local", "NumberPairs")
number_rdd = sc.parallelize([30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140])
number_pairs = number_rdd.cartesian(number_rdd).filter(lambda x: x[0] + x[1] > 100).collect()
for pair in number_pairs:
    print(pair)

(30, 80)
(30, 90)
(30, 100)
(30, 110)
(30, 120)
(30, 130)
(30, 140)
(40, 70)
(40, 80)
(40, 90)
(40, 100)
(40, 110)
(40, 120)
(40, 130)
(40, 140)
(50, 60)
(50, 70)
(50, 80)
(50, 90)
(50, 100)
(50, 110)
(50, 120)
(50, 130)
(50, 140)
(60, 50)
(60, 60)
(60, 70)
(60, 80)
(60, 90)
(60, 100)
(60, 110)
(60, 120)
(60, 130)
(60, 140)
(70, 40)
(70, 50)
(70, 60)
(70, 70)
(70, 80)
(70, 90)
(70, 100)
(70, 110)
(70, 120)
(70, 130)
(70, 140)
(80, 30)
(80, 40)
(80, 50)
(80, 60)
(80, 70)
(80, 80)
(80, 90)
(80, 100)
(80, 110)
(80, 120)
(80, 130)
(80, 140)
(90, 30)
(90, 40)
(90, 50)
(90, 60)
(90, 70)
(90, 80)
(90, 90)
(90, 100)
(90, 110)
(90, 120)
(90, 130)
(90, 140)
(100, 30)
(100, 40)
(100, 50)
(100, 60)
(100, 70)
(100, 80)
(100, 90)
(100, 100)
(100, 110)
(100, 120)
(100, 130)
(100, 140)
(110, 30)
(110, 40)
(110, 50)
(110, 60)
(110, 70)
(110, 80)
(110, 90)
(110, 100)
(110, 110)
(110, 120)
(110, 130)
(110, 140)
(120, 30)
(120, 40)
(120, 50)
(120, 60)
(120, 70)
(120, 80)
(120, 90)
(120, 100)
(120, 110)
(1

In [None]:
sc.stop()

Домашнее задание:
Условие: Найти самую длинную последовательность упорядоченных чисел в RDD и вывести её