In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder \
    .appName("Cache Example") \
    .getOrCreate()

data = [(i, f"Name_{i % 5}") for i in range(1000)]
df = spark.createDataFrame(data, ["id", "name"])

# Применяем фильтр и кэшируем результат
filtered_df = df.filter(col("id") % 2 == 0).cache()

# Первое действие (action) вызывает выполнение и кэширование
filtered_df.count()  # Это действие выполнит фильтрацию и закэширует результат

# Повторное использование закэшированных данных
filtered_df.show()  # Это действие извлечет данные из кэша и отобразит их

spark.stop()

+---+------+
| id|  name|
+---+------+
|  0|Name_0|
|  2|Name_2|
|  4|Name_4|
|  6|Name_1|
|  8|Name_3|
| 10|Name_0|
| 12|Name_2|
| 14|Name_4|
| 16|Name_1|
| 18|Name_3|
| 20|Name_0|
| 22|Name_2|
| 24|Name_4|
| 26|Name_1|
| 28|Name_3|
| 30|Name_0|
| 32|Name_2|
| 34|Name_4|
| 36|Name_1|
| 38|Name_3|
+---+------+
only showing top 20 rows



In [2]:
from pyspark import StorageLevel
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder \
    .appName("Persist Example") \
    .getOrCreate()

data = [(i, f"Name_{i % 5}") for i in range(1000)]
df = spark.createDataFrame(data, ["id", "name"])

# Применяем фильтр и сохраняем результат с уровнем хранения MEMORY_AND_DISK
filtered_df = df.filter(col("id") % 2 == 0).persist(StorageLevel.MEMORY_AND_DISK)

# Первое действие вызывает выполнение и кэширование
filtered_df.count()  # Это действие выполнит фильтрацию и закэширует результат в памяти и на диске

# Повторное использование закэшированных данных
filtered_df.show()  # Это действие извлечет данные из кэша и отобразит их

spark.stop()

+---+------+
| id|  name|
+---+------+
|  0|Name_0|
|  2|Name_2|
|  4|Name_4|
|  6|Name_1|
|  8|Name_3|
| 10|Name_0|
| 12|Name_2|
| 14|Name_4|
| 16|Name_1|
| 18|Name_3|
| 20|Name_0|
| 22|Name_2|
| 24|Name_4|
| 26|Name_1|
| 28|Name_3|
| 30|Name_0|
| 32|Name_2|
| 34|Name_4|
| 36|Name_1|
| 38|Name_3|
+---+------+
only showing top 20 rows

