# Пример работы с продуктами и категориями в PySpark

In [None]:
import os

# Указываем путь к установленной Java (замени на свой путь, если он другой)
os.environ["JAVA_HOME"] = "C:/Program Files/Java/jdk-17"
os.environ["PATH"] = os.environ["JAVA_HOME"] + "/bin;" + os.environ["PATH"]

# Импортируем PySpark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Создаём Spark-сессию
spark = SparkSession.builder \
    .appName("TestTask") \
    .getOrCreate()

# Данные продуктов
products_data = [
    (1, "Молоко"),
    (2, "Сыр"),
    (3, "Хлеб"),
    (4, "Яйца")
]

# Данные категорий
categories_data = [
    (1, "Молочные"),
    (2, "Выпечка"),
    (3, "Яйца")
]

# Соответствие продуктов и категорий
product_categories_data = [
    (1, 1),  # Молоко -> Молочные
    (3, 2),  # Хлеб -> Выпечка
    (4, 3)   # Яйца -> Яйца
]

# Создаём датафреймы PySpark
products = spark.createDataFrame(products_data, ["product_id", "product_name"])
categories = spark.createDataFrame(categories_data, ["category_id", "category_name"])
product_categories = spark.createDataFrame(product_categories_data, ["product_id", "category_id"])

# Выполняем join с правильным переносом строк
df = (
    products.join(product_categories, on="product_id", how="left")
            .join(categories, on="category_id", how="left")
            .select("product_name", "category_name")
)

# Показываем результат
df.show()