In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

def get_product_category_pairs(products_df, categories_df, relations_df):
    """
    Возвращает датафрейм с парами "Имя продукта - Имя категории" и продуктами без категорий
    
    
    products_df - дф продуктов с колонками: product_id, product_name
    categories_df - дф категорий с колонками: category_id, category_name
    relations_df - дф связей с колонками: product_id, category_id
    
    аутпут:
    DataFrame с колонками: product_name, category_name
    """
    # создание Spark сессию
    spark = SparkSession.builder.getOrCreate()
    
    # получение пар (продукт - категория)
    product_category_pairs = relations_df.join(
        products_df, "product_id", "inner"
    ).join(
        categories_df, "category_id", "inner"
    ).select(
        "product_name", 
        "category_name"
    )
    
    # 2. поиск прод без кат
    products_without_categories = products_df.join(
        relations_df, "product_id", "left_anti"
    ).select(
        col("product_name"), 
        col("category_name").alias("category_name").cast("string")
    ).withColumn(
        "category_name", 
        col("category_name")  # колонка с NULL для кат
    )
    
    # 3. мерджим результаты
    result = product_category_pairs.union(products_without_categories)
    
    return result