In [5]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit

print("Запускаем PySpark...")

# Инициализация сессии Spark
spark = SparkSession.builder \
    .appName("SimplePySparkTest") \
    .master("local[*]") \
    .config("spark.ui.port", "4040") \
    .getOrCreate()

Запускаем PySpark...


In [6]:
print("Версия Spark:", spark.version)

Версия Spark: 3.3.2


In [7]:
data = [
    (1, "Иван", 30),
    (2, "Мария", 25),
    (3, "Петр", 40),
    (4, "Анна", 35),
    (5, "Сергей", 45)
]

# Создание DataFrame
columns = ["id", "name", "age"]
df = spark.createDataFrame(data, columns)

In [9]:
df.show()

+---+------+---+
| id|  name|age|
+---+------+---+
|  1|  Иван| 30|
|  2| Мария| 25|
|  3|  Петр| 40|
|  4|  Анна| 35|
|  5|Сергей| 45|
+---+------+---+



In [10]:
print("Схема DataFrame:")
df.printSchema()

print("\nПримеры данных DataFrame:")
df.show()

# Простая трансформация: фильтрация и добавление колонки
result_df = df.filter(col("age") > 30) \
    .withColumn("status", lit("Active"))

print("\nОтфильтрованный DataFrame с новой колонкой:")
result_df.show()

# Простая агрегация
print("\nСредний возраст по статусу:")
result_df.groupBy("status").avg("age").show()

# Информация о Spark сессии
print("\nИнформация о приложении Spark:")
print(f"Имя приложения: {spark.conf.get('spark.app.name')}")
print(f"URL веб-интерфейса: http://localhost:{spark.conf.get('spark.ui.port')}")

print("\nТест PySpark успешно завершен!")

# Ждем небольшое время для проверки UI
import time
print("\nОжидаем 10 секунд для проверки UI...")
time.sleep(10)

# Остановка сессии Spark
spark.stop()
print("Сессия Spark остановлена.") 

Схема DataFrame:
root
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)
 |-- age: long (nullable = true)


Примеры данных DataFrame:
+---+------+---+
| id|  name|age|
+---+------+---+
|  1|  Иван| 30|
|  2| Мария| 25|
|  3|  Петр| 40|
|  4|  Анна| 35|
|  5|Сергей| 45|
+---+------+---+


Отфильтрованный DataFrame с новой колонкой:
+---+------+---+------+
| id|  name|age|status|
+---+------+---+------+
|  3|  Петр| 40|Active|
|  4|  Анна| 35|Active|
|  5|Сергей| 45|Active|
+---+------+---+------+


Средний возраст по статусу:
+------+--------+
|status|avg(age)|
+------+--------+
|Active|    40.0|
+------+--------+


Информация о приложении Spark:
Имя приложения: SimplePySparkTest
URL веб-интерфейса: http://localhost:4040

Тест PySpark успешно завершен!

Ожидаем 10 секунд для проверки UI...
Сессия Spark остановлена.
