## Конвертация XLSX в Parquet

### Версия Python

In [1]:
!python -V

Python 3.12.7


### Импорт необходимых библиотек

In [2]:
# Подавление предупреждений
import warnings
for warn in [UserWarning, FutureWarning]: warnings.filterwarnings("ignore", category = warn)

import os
import time
import polars as pl
import fastexcel
import multiprocessing
import tqdm as tq
import jupyterlab as jlab
import ipywidgets

from pathlib import Path
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor

### Версии необходимых библиотек

In [3]:
packages = [
    "Polars", "Fastexcel", "Ipywidgets", "Tqdm", "JupyterLab"
]

package_objects = [
    pl, fastexcel, ipywidgets, tq, jlab
]

versions = list(map(lambda obj: obj.__version__, package_objects))

columns_order = ["№", "Библиотека", "Версия"]
df_pkgs = (
    pl.DataFrame({
        columns_order[1]: packages,
        columns_order[2]: versions
    })
    .with_columns(pl.arange(1, pl.lit(len(packages)) + 1).alias(columns_order[0]))
    .select(columns_order)
)

display(df_pkgs)

path2reqs = "."
reqs_name = "requirements.txt"

def get_packages_and_versions():
    """Генерация строк с библиотеками и их версиями в формате: библиотека==версия"""
    
    for package, version in zip(packages, versions):
        yield f"{package.lower()}=={version}\n"

with open(os.path.join(path2reqs, reqs_name), "w", encoding = "utf-8") as f:
    f.writelines(get_packages_and_versions())

№,Библиотека,Версия
i64,str,str
1,"""Polars""","""1.12.0"""
2,"""Fastexcel""","""0.12.0"""
3,"""Ipywidgets""","""8.1.5"""
4,"""Tqdm""","""4.66.5"""
5,"""JupyterLab""","""4.2.5"""


### Чтение всех `xlsx` файлов

In [4]:
start_time = time.time()

# Получение количества ядер процессора
num_cores_cpu = multiprocessing.cpu_count()

# Определение пути к папке с xlsx файлами
# path2files = Path("/Users/dl/GitHub/RecSysApp/data/ПУДы")
# path2files = Path("/Users/dl/GitHub/RecSysApp/data/ПУДы_навыки")
path2files = Path("/Users/dl/GitHub/RecSysApp/data/Оценки")

# Получение списка всех xlsx файлов
xlsx_files = list(path2files.rglob("*.xlsx"))

def load_xlsx(file_path):
    """Чтение xlsx файла"""
    
    return pl.read_excel(source = file_path)

# Ограничение количества потоков
max_workers = min(num_cores_cpu, len(xlsx_files))

# Чтение файлов параллельно с использованием ThreadPoolExecutor
with ThreadPoolExecutor(max_workers = max_workers) as executor:
    dfs = list(tqdm(executor.map(load_xlsx, xlsx_files), desc = "Обработка xlsx файлов", total = len(xlsx_files), unit = "файл"))

# Объединение всех файлов в один DataFrame
df = pl.concat(dfs)

print(f"Количество строк: {df.shape[0]}")

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Время выполнения: {elapsed_time:.6f} секунд")

Обработка xlsx файлов: 100%|████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.37файл/s]

Количество строк: 38978
Время выполнения: 0.788958 секунд





#### ПУДы

In [5]:
df[0]["Русскоязычное название дисциплины"][0]

'Сравнительный федерализм'

#### Навыки из ПУДов

In [6]:
df[0]["LLM_Skills"][0]

'        Анализ политических систем; Разграничение полномочий; Бюджетный федерализм; Конституционное право; Федеративное устройство; Международное право; Этнополитика; Теория федерализма; Политическая экономия;  Социология;  История федеральных систем;  Правовое регулирование.  \n\n\n'

#### Оценки

In [8]:
df[0]

ID дисциплины БУП ППК (АСАВ),Средняя оценка,Статистическая погрешность средней оценки,Медианная оценка,Статистическая погрешность медианной оценки,Индекс сложности освоения курса №1 (метрика Вассерштейна),Статистическая погрешности индекса №1,Индекс сложности освоения курса №2 (по средней оценке),Статистическая погрешности индекса №2,Индекс сложности освоения курса №3 (по медианной оценке),Статистическая погрешности индекса №3
i64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
2054237458,3.0,,3.0,,,,,,,


In [9]:
# Путь для сохранения
save_path = Path("/Users/dl/GitHub/RecSysApp/data")

def prepare_save_path(save_path, rmtree = False):
    """Создание/очистка целевой папки"""
    
    if save_path.exists() and rmtree:
        shutil.rmtree(save_path)
    save_path.mkdir(parents = True, exist_ok = True)

prepare_save_path(save_path)

def save2parquet(df, file_path, columns = None):
    """Cохранения DataFrame в Parquet"""

    if columns:
        df = df.select(columns)
    
    df.write_parquet(file_path)

# Сохранение выборок
save2parquet(
    # df, save_path / "ПУДы_навыки.parquet",
    df, save_path / "Оценки.parquet",
    # ["ID дисциплины БУП ППК (АСАВ)", "LLM_Skills"]
)

### Тестирование Parquet файла

In [10]:
start_time = time.time()

# Получение количества ядер процессора
num_cores_cpu = multiprocessing.cpu_count()

# Определение пути к папке с Parquet файлами
path2files = Path("/Users/dl/GitHub/RecSysApp/data")

# Получение списка всех Parquet файлов
# parquet_files = list(path2files.rglob("*ПУДы*.parquet"))
# parquet_files = list(path2files.rglob("*ПУДы_навыки*.parquet"))
parquet_files = list(path2files.rglob("*Оценки*.parquet"))

def load_parquet(file_path):
    """Чтение Parquet файла"""
    
    return pl.read_parquet(file_path)

# Ограничение количества потоков
max_workers = min(num_cores_cpu, len(parquet_files))

# Чтение Parquet файлов
with ThreadPoolExecutor(max_workers = max_workers) as executor:
    dfs = list(tqdm(executor.map(
        load_parquet, parquet_files), desc = "Чтение Parquet файлов", total = len(parquet_files), unit = "файл")
    )

# Объединение всех файлов в один DataFrame
df = pl.concat(dfs)

print(f"Количество строк: {df.shape[0]}")

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Время выполнения: {elapsed_time:.6f} секунд")

Чтение Parquet файлов: 100%|███████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 123.90файл/s]

Количество строк: 38978
Время выполнения: 0.018287 секунд





#### ПУДы

In [82]:
df[0]["Русскоязычное название дисциплины"][0]

'Выставочная деятельность в сфере искусства и культуры'

#### Навыки из ПУДов

In [16]:
df[0]["LLM_Skills"][0]

'        Анализ политических систем; Разграничение полномочий; Бюджетный федерализм; Конституционное право; Федеративное устройство; Международное право; Этнополитика; Теория федерализма; Политическая экономия;  Социология;  История федеральных систем;  Правовое регулирование.  \n\n\n'

In [22]:
df2 = df.filter(
    pl.col("ID дисциплины БУП ППК (АСАВ)") == 16281497017
)[0]["LLM_Skills"][0]
df2

'        Анализ политических систем; Разграничение полномочий; Бюджетный федерализм; Конституционное право; Федеративное устройство; Международное право; Этнополитика; Теория федерализма; Политическая экономия;  Социология;  История федеральных систем;  Правовое регулирование.  \n\n\n'

#### Оценки

In [11]:
df[0]

ID дисциплины БУП ППК (АСАВ),Средняя оценка,Статистическая погрешность средней оценки,Медианная оценка,Статистическая погрешность медианной оценки,Индекс сложности освоения курса №1 (метрика Вассерштейна),Статистическая погрешности индекса №1,Индекс сложности освоения курса №2 (по средней оценке),Статистическая погрешности индекса №2,Индекс сложности освоения курса №3 (по медианной оценке),Статистическая погрешности индекса №3
i64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64
2054237458,3.0,,3.0,,,,,,,


In [12]:
df.filter(
    pl.col("ID дисциплины БУП ППК (АСАВ)") == 2054237458
)[0]["Средняя оценка"][0]

3.0