<h2>Импорт библиотек</h2>
<p>Импорт необходимых библиотек и инициализация <code>findspark</code> для работы со Spark в Python.
Подключаются модули <code>pyspark.sql</code> и функции для дальнейшей обработки данных.</p>
<hr>

In [None]:
import glob
import findspark
findspark.init("/opt/spark")
from pyspark.sql import SparkSession

<h2>Создание SparkSession</h2>
<p>Создание объекта <code>SparkSession</code> с заданными параметрами памяти для драйвера и исполнителей.
Также включается опция игнорирования повреждённых файлов при чтении.</p>
<hr>

In [None]:
spark = SparkSession.builder \
    .appName("OzonApparelAnalysis") \
    .config("spark.driver.memory", "8g") \
    .config("spark.executor.memory", "8g") \
    .getOrCreate()
spark.conf.set("spark.sql.files.ignoreCorruptFiles", "true")

<h2>Загрузка parquet-файлов</h2>
<p>Формирование списков путей к parquet-файлам с данными: заказы, взаимодействия пользователей,
описания товаров, дерево категорий и тестовая выборка.</p>
<hr>

In [None]:
items_files = glob.glob('/srv/data/ml_ozon_recsys_train_final_apparel_items_data/*.parquet')
categories_tree = glob.glob('/srv/data/ml_ozon_recsys_train_final_categories_tree/*.parquet')
participants_files = glob.glob('/srv/data/ml_ozon_recsys_test_for_participants/*.parquet')
orders_files = glob.glob('/srv/data/preprocessed/orders_preprocessed/*.parquet')
tracker_files = glob.glob('/srv/data/preprocessed/tracker_preprocessed/*.parquet')
test_files = glob.glob('/srv/data/ml_ozon_recsys_test/*.parquet')

<h2>Чтение parquet-файлов</h2>
<p>Загрузка parquet-файлов в Spark DataFrame: <code>orders</code>, <code>tracker</code>,
<code>items</code>, <code>categories</code> и <code>test</code>.
Каждый датафрейм представляет свой источник данных.</p>
<hr>

In [None]:
orders = spark.read.parquet(*orders_files)
tracker = spark.read.parquet(*tracker_files)
items = spark.read.parquet(*items_files)
categories = spark.read.parquet(*categories_tree)
test = spark.read.parquet(*test_files)

<h2>Анализ таблицы orders</h2>
<p>Просмотр структуры и примеров данных из таблицы <code>orders</code>.
Отображается схема, первые строки и базовые статистики.</p>
<hr>

In [None]:
print("\n=== Orders ===")
orders.printSchema()
orders.limit(5).show(truncate=False)
orders.describe().show()

<h2>Анализ таблицы tracker</h2>
<p>Просмотр структуры и примеров данных из таблицы <code>tracker</code>.
Аналогично выводятся схема, несколько строк и статистика.</p>
<hr>

In [None]:
print("\n=== Tracker ===")
tracker.printSchema()
tracker.limit(5).show(truncate=False)
tracker.describe().show()

<h2>Анализ таблицы items</h2>
<p>Просмотр структуры и примеров данных из таблицы <code>items</code>.
Вывод схемы, примеров строк и статистик для числовых признаков.</p>
<hr>

In [None]:
print("\n=== Items ===")
items.printSchema()
items.limit(5).show(truncate=False)
items.describe().show()

<h2>Анализ таблицы categories</h2>
<p>Просмотр структуры и примеров данных из таблицы <code>categories</code> (дерево категорий).
Отображение схемы, первых строк и статистики.</p>
<hr>

In [None]:
print("\n=== Categories Tree ===")
categories.printSchema()
categories.limit(5).show(truncate=False)
categories.describe().show()

<h2>Анализ таблицы test</h2>
<p>Просмотр структуры и примеров данных из тестовой выборки <code>test</code>.
Вывод схемы, примеров строк и базовых статистик.</p>
<hr>

In [None]:
print("\n=== Test ===")
test.printSchema()
test.limit(5).show(truncate=False)
test.describe().show()