<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/NV/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0%20PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Библиотека PySpark

## Введение в PySpark

### Что такое PySpark?

**PySpark** — это интерфейс Python для Apache Spark, мощного инструмента для обработки больших данных. Apache Spark является распределённой вычислительной системой, которая обеспечивает быстрое выполнение обработки данных благодаря своей архитектуре, основанной на памяти. PySpark позволяет использовать все возможности Spark с помощью языка Python, что делает его доступным для широкого круга специалистов, включая аналитиков данных, разработчиков и ученых.

### Зачем использовать PySpark?

1. **Обработка больших данных**: PySpark позволяет работать с данными, которые не помещаются в память одного компьютера. Вы можете обрабатывать терабайты данных, используя кластер, состоящий из нескольких узлов.
  
2. **Быстрота обработки**: Spark использует вычисления в памяти, что делает его быстрее, чем традиционные системы обработки данных, такие как Hadoop MapReduce.

3. **Универсальность**: PySpark поддерживает различные источники данных (например, HDFS, S3, JDBC) и позволяет интегрироваться с инструментами для машинного обучения, такими как MLlib.

4. **Легкость в использовании**: Поскольку PySpark использует Python, разработчики могут легко писать и поддерживать код, используя знакомый язык.

## Установка PySpark

Перед тем как мы начнём изучение возможностей PySpark, необходимо установить его. Для установки PySpark вы можете использовать `pip`. В командной строке выполните следующую команду:

In [1]:
pip install pyspark



После установки PySpark вы можете запустить его в интерактивной среде, такой как Jupyter Notebook или в вашем IDE.

## Основные концепции PySpark

### 1. RDD (Resilient Distributed Dataset)

RDD — это основной абстрактный тип данных в Spark, представляющий собой распределённый набор данных. RDD может быть создан из различных источников, таких как текстовые файлы, HDFS, локальные файловые системы и даже существующие коллекции в памяти.

#### Пример создания RDD

Давайте создадим простой RDD из списка.

In [2]:
from pyspark import SparkContext

# Создаем объект SparkContext
sc = SparkContext("local", "MyApp")

# Создаем RDD из списка
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)

# Печатаем элементы RDD
print(rdd.collect())

[1, 2, 3, 4, 5]


**Объяснение кода**:
- Сначала мы импортируем `SparkContext` из модуля `pyspark`.
- Создаем объект `SparkContext`, который позволяет взаимодействовать с кластером.
- Затем мы используем метод `parallelize`, чтобы создать RDD из списка `data`.
- Метод `collect` возвращает все элементы RDD в виде списка, который мы выводим на экран.

### 2. Операции над RDD

С RDD можно выполнять две основные категории операций: **преобразования** и **действия**.

- **Преобразования**: создают новый RDD из существующего (например, `map`, `filter`, `flatMap`).
- **Действия**: выполняют вычисления и возвращают результат (например, `collect`, `count`, `reduce`).

#### Пример использования преобразований и действий

В следующем примере мы применим преобразование `map` и действие `reduce`.

In [3]:
# Преобразование: увеличиваем каждое число в RDD на 1
incremented_rdd = rdd.map(lambda x: x + 1)

# Действие: суммируем все числа в RDD
result = incremented_rdd.reduce(lambda x, y: x + y)

print(result)  # Ожидаем 21

20


**Объяснение кода**:
- Мы используем `map`, чтобы увеличить каждое значение RDD на 1, создавая новый RDD `incremented_rdd`.
- Затем с помощью `reduce` мы суммируем все элементы нового RDD и выводим результат.

### 3. DataFrame

DataFrame — это распределённый набор данных, организованный в виде таблицы, где каждая колонка имеет имя и тип данных. DataFrame поддерживает SQL-подобные операции и предоставляет более высокоуровневый интерфейс, чем RDD.

#### Пример создания DataFrame

Для создания DataFrame необходимо сначала импортировать нужные модули и создать `SparkSession`.

In [4]:
from pyspark.sql import SparkSession

# Создаем SparkSession
spark = SparkSession.builder.appName("MyApp").getOrCreate()

# Создаем DataFrame из списка
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
columns = ["Name", "Value"]

df = spark.createDataFrame(data, columns)

# Печатаем содержимое DataFrame
df.show()

+-----+-----+
| Name|Value|
+-----+-----+
|Alice|    1|
|  Bob|    2|
|Cathy|    3|
+-----+-----+



**Объяснение кода**:
- Мы создаем `SparkSession`, который является основной точкой входа для работы с DataFrame.
- Затем создаем DataFrame `df` из списка кортежей `data` и указываем названия колонок.
- Метод `show` выводит содержимое DataFrame.

### 4. Операции над DataFrame

Как и RDD, с DataFrame можно выполнять различные операции, включая фильтрацию, группировку и агрегирование.

#### Пример фильтрации и группировки

In [5]:
# Фильтрация: выбираем только тех, у кого Value больше 1
filtered_df = df.filter(df.Value > 1)

# Группировка: считаем количество записей для каждого имени
grouped_df = filtered_df.groupBy("Name").count()

# Печатаем результаты
grouped_df.show()

+-----+-----+
| Name|count|
+-----+-----+
|  Bob|    1|
|Cathy|    1|
+-----+-----+



**Объяснение кода**:
- С помощью метода `filter` мы оставляем только те строки, где значение `Value` больше 1.
- Затем с помощью `groupBy` и `count` мы считаем количество записей для каждого имени в отфильтрованном DataFrame.
- Результат выводится на экран.

### 5. Чтение и запись данных

PySpark предоставляет множество способов для чтения и записи данных из различных форматов, таких как CSV, JSON и Parquet.

#### Пример чтения CSV-файла

In [6]:
# Чтение CSV-файла в DataFrame
df_csv = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)

# Печатаем содержимое DataFrame
df_csv.show()

**Объяснение кода**:
- Метод `read.csv` позволяет прочитать CSV-файл. Параметры `header=True` указывают, что первая строка файла содержит имена колонок, а `inferSchema=True` позволяет автоматически определить типы данных.
- Метод `show` выводит содержимое считанного DataFrame.

#### Пример записи DataFrame в Parquet

In [None]:
# Запись DataFrame в Parquet-файл
df.write.parquet("path/to/output.parquet")

**Объяснение кода**:
- Метод `write.parquet` записывает DataFrame в формате Parquet, который является эффективным форматом для хранения больших данных.

### 6. Машинное обучение с PySpark

PySpark также предоставляет библиотеку MLlib для выполнения задач машинного обучения. MLlib поддерживает алгоритмы классификации, регрессии, кластеризации и многое другое.

#### Пример простого линейного регрессора

In [8]:
from pyspark.ml.linalg import Vectors
from pyspark.ml.regression import LinearRegression
from pyspark.sql import Row

# Создаем DataFrame для обучения
training_data = [
    Row(label=1.0, features=Vectors.dense([1.0])),
    Row(label=2.0, features=Vectors.dense([2.0])),
    Row(label=3.0, features=Vectors.dense([3.0])),
]

train_df = spark.createDataFrame(training_data)

# Создаем линейный регрессор
lr = LinearRegression()

# Обучаем модель
model = lr.fit(train_df)

# Печатаем коэффициенты
print("Coefficients: " + str(model.coefficients))
print("Intercept: " + str(model.intercept))

Coefficients: [1.000000000000001]
Intercept: -2.5381812502863063e-15


**Объяснение кода**:
- Мы создаем DataFrame `train_df`, где каждая строка содержит метку и вектор признаков.
- Создаем объект `LinearRegression` и обучаем модель с помощью метода `fit`.
- После обучения мы выводим коэффициенты и свободный член модели.


# Дополнительные аспекты библиотеки PySpark

## 1. Расширенные операции с DataFrame

### Операции над строками

В рамках обработки данных с использованием PySpark, операции над строками представляют собой важный аспект, особенно при работе с неструктурированными и полуструктурированными данными. Библиотека предоставляет ряд встроенных функций, которые позволяют эффективно манипулировать строковыми значениями в DataFrame. Применение этих функций может значительно упростить процесс предобработки данных.

#### Пример: Конкатенация строк

Конкатенация строк является распространенной задачей в анализе данных. Она позволяет объединять различные текстовые поля в одно, что может быть полезно, например, при формировании полного имени из имени и фамилии.

In [9]:
from pyspark.sql import functions as F

# Создаем DataFrame с именами и фамилиями
data = [("Alice", "Smith"), ("Bob", "Johnson"), ("Cathy", "Williams")]
columns = ["FirstName", "LastName"]

df_names = spark.createDataFrame(data, columns)

# Конкатенация строк с использованием функции concat
df_full_names = df_names.withColumn("FullName", F.concat(F.col("FirstName"), F.lit(" "), F.col("LastName")))

# Выводим результат
df_full_names.show()

+---------+--------+--------------+
|FirstName|LastName|      FullName|
+---------+--------+--------------+
|    Alice|   Smith|   Alice Smith|
|      Bob| Johnson|   Bob Johnson|
|    Cathy|Williams|Cathy Williams|
+---------+--------+--------------+



**Объяснение кода**:
- На первом этапе создается DataFrame, содержащий имена и фамилии.
- Затем, с помощью функции `concat`, создается новый столбец `FullName`, в который объединяются значения из столбцов `FirstName` и `LastName` с пробелом между ними. Данная операция позволяет формировать более удобочитаемое представление данных.
- Наконец, метод `show` используется для визуализации результата.

#### Пример: Работа с временными данными

Работа с временными данными также является критически важной в аналитике, особенно в контексте временных рядов. PySpark предоставляет функции для преобразования строковых представлений дат и времени в тип данных `DateType`, что позволяет выполнять дополнительные операции, такие как вычисление временных интервалов.

In [10]:
# Создаем DataFrame с временными данными
data = [("2024-09-26",), ("2024-09-27",)]
columns = ["Date"]

df_dates = spark.createDataFrame(data, columns)

# Преобразуем строки в тип Date
df_dates = df_dates.withColumn("Date", F.to_date(F.col("Date")))

# Добавляем новый столбец с текущей датой
df_dates = df_dates.withColumn("CurrentDate", F.current_date())

# Выводим результат
df_dates.show()

+----------+-----------+
|      Date|CurrentDate|
+----------+-----------+
|2024-09-26| 2025-02-01|
|2024-09-27| 2025-02-01|
+----------+-----------+



**Объяснение кода**:
- В этом примере мы создаем DataFrame, содержащий даты в строковом формате.
- С помощью функции `to_date` строки преобразуются в формат даты, что позволяет использовать возможности для работы с временными данными.
- Затем мы добавляем новый столбец `CurrentDate`, который заполняется текущей датой с помощью функции `current_date`.

## 2. Оптимизация производительности

### Кэширование

Кэширование данных — это важный механизм в PySpark, который позволяет значительно увеличить производительность при выполнении повторяющихся операций. Используя кэширование, разработчики могут сохранять промежуточные результаты в памяти, что снижает время доступа к данным и уменьшает нагрузку на вычислительные ресурсы.

#### Пример кэширования RDD

Кэширование RDD может быть выполнено с помощью метода `cache()`, который сохраняет данные в памяти для последующего использования.

In [11]:
# Создаем RDD из списка
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)

# Кэшируем RDD для увеличения производительности
rdd.cache()

# Выполняем несколько действий
print("Сумма:", rdd.sum())
print("Максимум:", rdd.max())

Сумма: 15
Максимум: 5


**Объяснение кода**:
- В этом примере мы создаем RDD из простого списка целых чисел.
- Метод `cache()` используется для сохранения RDD в памяти. Это позволяет избежать повторного вычисления значений, что особенно важно, если RDD будет использоваться многократно.
- Затем мы выполняем две операции: `sum()` и `max()`, которые используют кэшированные данные, что приводит к увеличению скорости выполнения.

### Оптимизация запросов

PySpark позволяет анализировать планы выполнения запросов, что является важной частью оптимизации производительности. Использование метода `explain()` дает возможность увидеть, как Spark будет обрабатывать запрос, что позволяет выявить узкие места и улучшить производительность.

#### Пример анализа запроса

In [12]:
# Пример DataFrame
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
df = spark.createDataFrame(data, ["Name", "Value"])

# Применяем фильтрацию и анализируем план выполнения
filtered_df = df.filter(df.Value > 1)

# Выводим план выполнения
filtered_df.explain()

== Physical Plan ==
*(1) Filter (isnotnull(Value#138L) AND (Value#138L > 1))
+- *(1) Scan ExistingRDD[Name#137,Value#138L]




**Объяснение кода**:
- Мы создаем DataFrame с именами и значениями, а затем применяем фильтрацию для отбора записей, где значение больше 1.
- Метод `explain()` выводит информацию о плане выполнения, включая используемые алгоритмы и методы доступа, что позволяет оптимизировать запросы и улучшить производительность.

## 3. Управление данными

### Чтение и запись в разных форматах

PySpark поддерживает множество форматов данных, таких как JSON, Parquet и CSV, что позволяет разработчикам выбирать наиболее подходящие форматы в зависимости от их требований к производительности и размера данных. Формат Parquet, в частности, часто используется для хранения больших объемов данных благодаря своей эффективности.

#### Пример чтения JSON-файла

Чтение данных из файлов в формате JSON может быть выполнено с использованием метода `read.json`, который автоматически определяет схему данных.

In [13]:
# Чтение JSON-файла
df_json = spark.read.json("path/to/file.json")

# Печатаем содержимое DataFrame
df_json.show()

**Объяснение кода**:
- Метод `read.json()` загружает данные из указанного JSON-файла и автоматически создает DataFrame с соответствующей схемой, что упрощает процесс загрузки данных.

#### Пример записи DataFrame в Parquet

Запись данных в формате Parquet может быть выполнена с использованием метода `write.parquet`, который сохраняет данные в столбцовом формате, обеспечивая высокую производительность.

In [None]:
# Запись DataFrame в Parquet
df_json.write.parquet("path/to/output.parquet")

**Объяснение кода**:
- Использование метода `write.parquet()` позволяет эффективно сохранить данные в формате Parquet, который обеспечивает высокую скорость чтения и записи благодаря использованию сжатия и оптимизации для анализа данных.

## 4. Применение в реальных проектах

### ETL-процессы

ETL (Extract, Transform, Load) — это процесс извлечения, трансформации и загрузки данных, который широко используется в системах бизнес-аналитики и хранения данных. PySpark позволяет эффективно реализовать ETL-процессы, используя его мощные инструменты для обработки больших объемов данных.

#### Пример ETL-процесса

In [None]:
# Этап 1: Извлечение данных
df_source = spark.read.csv("path/to/source.csv", header=True)

# Этап 2: Трансформация данных
df_transformed = df_source.filter(df_source["Value"] > 100)

# Этап 3: Загрузка данных
df_transformed.write.parquet("path/to/target.parquet")

**Объяснение кода**:
- На первом этапе происходит извлечение данных из CSV-файла с заголовком.
- Второй этап включает трансформацию данных, где выбираются только те записи, где значение больше 100. Этот процесс может включать различные операции, такие как фильтрация, агрегация и объединение данных.
- На третьем этапе отфильтрованные данные записываются в файл формата Parquet, что обеспечивает удобный и эффективный доступ к данным в будущем.

## 5. Машинное обучение и потоковая обработка

### Расширенные методы машинного обучения

PySpark предоставляет библиотеку MLlib для выполнения различных задач машинного обучения. Эта библиотека включает в себя алгоритмы для классификации, регрессии, кластеризации и рекомендательных систем, что делает её мощным инструментом для анализа данных.

#### Пример: Логистическая регрессия

Логистическая регрессия является популярным методом классификации, который используется для предсказания вероятностей бинарных исходов.

In [14]:
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.linalg import Vectors
from pyspark.sql import Row

# Создаем DataFrame для обучения модели
training_data = [
    Row(label=0.0, features=Vectors.dense([0.0])),
    Row(label=1.0, features=Vectors.dense([1.0])),
]

train_df = spark.createDataFrame(training_data)

# Создаем экземпляр логистического регрессора
lr = LogisticRegression()

# Обучаем модель
model = lr.fit(train_df)

# Печатаем коэффициенты и смещение

# Модели
print("Coefficients: " + str(model.coefficients))
print("Intercept: " + str(model.intercept))

Coefficients: [36.292997853428766]
Intercept: -18.146498928277396


**Объяснение кода**:
- В этом примере создается DataFrame, содержащий признаки и метки, которые используются для обучения модели логистической регрессии.
- Модель обучается с помощью метода `fit`, после чего выводятся коэффициенты и смещение, которые определяют форму функции предсказания.

### Потоковая обработка с Structured Streaming

Structured Streaming — это высокоуровневая API PySpark для обработки потоков данных в режиме реального времени. Она предоставляет удобный интерфейс для обработки данных из различных источников, таких как Kafka и файловые системы.

#### Пример потоковой обработки

In [None]:
# Чтение потоковых данных из Kafka
df_stream = spark.readStream.format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "topic_name").load()

# Обработка данных: преобразуем значения в строки
df_processed = df_stream.selectExpr("CAST(value AS STRING)")

# Запись результатов в консоль
query = df_processed.writeStream.outputMode("append").format("console").start()
query.awaitTermination()

**Объяснение кода**:
- Мы подключаемся к Kafka для чтения потоковых данных с помощью `readStream`, после чего преобразуем бинарные значения в строки с помощью `selectExpr`.
- Данные в реальном времени выводятся в консоль с использованием метода `writeStream` в режиме `append`, что позволяет обновлять консоль по мере поступления новых данных.


Таким образом, PySpark — это мощный инструмент для обработки и анализа больших данных, который сочетает в себе простоту использования Python и возможности распределённой вычислительной системы Apache Spark. С помощью PySpark можно легко создавать и обрабатывать RDD и DataFrame, а также выполнять сложные операции, включая машинное обучение.

## Вопросы для самопроверки


1. Установите PySpark на своем компьютере и запустите интерактивную среду (например, Jupyter Notebook).
2. Объясните, что такое PySpark и его основные преимущества по сравнению с традиционными системами обработки данных.
3. Создайте RDD из списка чисел от 1 до 10 и выведите его элементы.
4. Примените операцию `map` к RDD, чтобы увеличить каждое число на 2, и выведите результат.
5. Используйте операцию `filter`, чтобы оставить только четные числа из RDD.
6. Создайте новый RDD, который содержит сумму всех элементов оригинального RDD.
7. Создайте DataFrame из списка кортежей, содержащих имена и возраст людей.
8. Выведите первые 5 строк созданного DataFrame.
9. Примените фильтрацию к DataFrame, чтобы выбрать только тех, кто старше 30 лет.
10. Используйте метод `groupBy`, чтобы посчитать количество людей по возрастным группам.
11. Скачайте CSV-файл с данными и загрузите его в DataFrame.
12. Выведите схему загруженного DataFrame.
13. Сохраните DataFrame в формате Parquet.
14. Прочитайте данные из Parquet-файла и выведите их на экран.
15. Создайте DataFrame для обучения модели линейной регрессии.
16. Обучите модель линейной регрессии на созданном DataFrame и выведите коэффициенты.
17. Создайте DataFrame для логистической регрессии и обучите модель.
18. Оцените качество модели, используя метрики, такие как AUC.
19. Создайте DataFrame с именами и фамилиями, затем объедините их в один столбец с полными именами.
20. Преобразуйте строковые даты в тип `DateType` и добавьте столбец с текущей датой.
21. Используйте функцию `withColumn`, чтобы добавить новый столбец с возрастом на основе даты рождения.
22. Кэшируйте RDD и выполните несколько операций, чтобы сравнить время выполнения.
23. Используйте метод `explain()` для анализа плана выполнения запроса на DataFrame.
24. Реализуйте простой ETL-процесс: извлеките данные из CSV, трансформируйте их и загрузите в Parquet.
25. Напишите скрипт для извлечения данных из JSON-файла и их обработки.
26. Настройте потоковую обработку данных из Kafka и выведите их в консоль.
27. Создайте DataFrame, который будет обрабатывать потоковые данные и фильтровать их по определенному критерию.
28. Напишите отчет о том, как PySpark может помочь в анализе больших данных.
29. Создайте визуализацию данных, используя matplotlib или seaborn, на основе данных из DataFrame.
30. Исследуйте и опишите, как PySpark может быть использован в реальных проектах, таких как анализ данных или машинное обучение.

## Задачи для самостоятельной работы


1. Что такое RDD и какова его основная роль в PySpark?
2. Как можно создать RDD из существующего списка в Python?
3. Объясните разницу между операциями `map` и `flatMap`.
4. Как использовать `reduce` для нахождения суммы элементов RDD?
5. Что такое DataFrame и чем он отличается от RDD?
6. Как загрузить данные в DataFrame из CSV-файла?
7. Что такое схематизация DataFrame и как ее можно изменить?
8. Как применить SQL-запросы к DataFrame в PySpark?
9. Как использовать метод `join` для объединения двух DataFrame?
10. Что такое SparkSession и как его создать?
11. Как настроить кэширование RDD и какие преимущества это дает?
12. Как можно использовать функции агрегации в DataFrame?
13. Что такое потоковая обработка в PySpark и как она работает?
14. Как можно управлять параллелизмом в PySpark?
15. Что такое метрики производительности в Spark и как их можно отслеживать?
16. Как использовать библиотеку MLlib для машинного обучения в PySpark?
17. Как можно сохранить DataFrame в формате JSON?
18. Как обрабатывать отсутствующие значения в DataFrame?
19. Что такое UDF и как его зарегистрировать в PySpark?
20. Как использовать графики и визуализации для анализа данных в PySpark?

**Задача:** создайте RDD из списка чисел от 1 до 10 и выведите его элементы.

In [None]:
# Импортирование библиотек
from pyspark import SparkContext
import random

# Создание объект SparkContext
sc = SparkContext.getOrCreate()

# Создание RDD из списка
data = [random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10)]
rdd = sc.parallelize(data)

# Вывод элементо RDD
print(rdd.collect())

**Задача:** примените операцию map к RDD, чтобы увеличить каждое число на 2, и выведите результат.

In [None]:
# Импортирование библиотек
from pyspark import SparkContext
import random

# Создание объект SparkContext
sc = SparkContext.getOrCreate()

# Создание RDD из списка
data = [random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10)]
rdd = sc.parallelize(data)

# Вывод изначального RDD
print("Вывод изначального RDD: ", rdd.collect())

# Преобразование: увеличение каждого числа в RDD на 2
rdd_new = rdd.map(lambda x: x + 2)

# Вывод нового RDD
print("Вывод нового RDD: ", rdd_new.collect())

**Задача:** используйте операцию filter, чтобы оставить только четные числа из RDD.

In [None]:
# Импортирование библиотек
from pyspark import SparkContext
import random

# Создание объект SparkContext
sc = SparkContext.getOrCreate()

# Создание RDD из списка
data = [random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10)]
rdd = sc.parallelize(data)

# Вывод изначального RDD
print("Вывод изначального RDD: ", rdd.collect())

# Выбор чётных значений
rdd_new = rdd.filter(lambda x: x % 2 == 0)

# Вывод нового RDD
print("Вывод нового RDD: ", rdd_new.collect())

**Задача:** создайте новый RDD, который содержит сумму всех элементов оригинального RDD.

In [None]:
# Импортирование библиотек
from pyspark import SparkContext
import random

# Создание объект SparkContext
sc = SparkContext.getOrCreate()

# Создание RDD из списка
data = [random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10),
        random.randint(1, 10)]
rdd = sc.parallelize(data)

# Вывод изначального RDD
print("Вывод изначального RDD: ", rdd.collect())

# Сумма элементов
sum = [rdd.sum()]
rdd_sum = sc.parallelize(sum)

# Вывод нового RDD
print("Вывод нового RDD: ", rdd_sum.collect())

**Задача:** создайте DataFrame из списка кортежей, содержащих имена и возраст людей.

In [None]:
# Импортирование библиотеки
from pyspark.sql import SparkSession

# Создание SparkSession
spark = SparkSession.builder.appName("MyApp").getOrCreate()

# Создание DataFrame из списка
data = [("Иван", 20), ("Сергей", 25), ("Александр", 30)]
columns = ["Имя", "Возраст"]

df = spark.createDataFrame(data, columns)

# Вывод DataFrame
df.show()

**Домашнее задание**

**Задание 1**. Конкатенация строк: использовать DataFrame. Вывести результат в консоль.

**Задание 2**. Преобразовать RDD (целочисленный набор данных) с помощью map: возвести во вторую степень и прибавить единицу. Вывести результата в консоль.