In [11]:
import json
from rich import print
from rich.tree import Tree

def build_tree(data, parent_tree):
    """
    Рекурсивно строит дерево для отображения структуры данных.
    Если значение является dict или list – создаёт подветку,
    иначе выводит пару ключ: значение.
    """
    if isinstance(data, dict):
        for key, value in data.items():
            if isinstance(value, (dict, list)):
                # Для сложных структур создаём отдельную ветку с названием ключа
                branch = parent_tree.add(f"[green]{key}[/green]")
                build_tree(value, branch)
            else:
                # Для простых типов выводим сразу ключ и значение
                parent_tree.add(f"[green]{key}[/green]: [pink]{value}[/pink]")
    elif isinstance(data, list):
        for i, item in enumerate(data):
            if isinstance(item, (dict, list)):
                branch = parent_tree.add(f"[violet][{i}][/violet]")
                build_tree(item, branch)
            else:
                parent_tree.add(f"[violet][{i}][/violet]: [pink]{item}[/pink]")
    else:
        # Если data не dict и не list – просто добавляем значение
        parent_tree.add(f"[pink]{data}[/pink]")


In [14]:
with open('src/configs/LORA_sequential_configs/config_t5base_SVD_LORA_seq_math.json', "r", encoding="utf-8") as f:
    config = json.load(f)
    
# Создаём корневое дерево с заголовком
tree = Tree("[tan]Config[/tan]")
build_tree(config, tree)

# Выводим дерево в консоль
print(tree)

In [8]:
import os
from datasets import load_dataset

def save_dataset_in_format(dataset, output_dir, split, input_field, target_field, max_samples=None):
    """
    Сохраняет датасет в структуру, которую ожидает OriginalDataset.
    
    Папка output_dir будет содержать хотя бы одну подпапку (например, "sub0"),
    внутри которой создаётся файл {split}.txt с данными.
    
    Каждая строка файла имеет вид: <input_text>  \t  <target_text>
    Если одно из полей отсутствует, строка пропускается.
    """
    # Создаём базовую директорию, если её нет
    os.makedirs(output_dir, exist_ok=True)
    
    # Создаём подпапку "sub0"
    sub_dir = os.path.join(output_dir, "sub0")
    os.makedirs(sub_dir, exist_ok=True)
    
    file_path = os.path.join(sub_dir, f"{split}.txt")
    count = 0
    with open(file_path, "w", encoding="utf-8") as f:
        for example in dataset:
            # Получаем поля, заменяя переносы строк пробелами и обрезая лишние пробелы
            inp = example.get(input_field, "").replace("\n", " ").strip()
            tgt = example.get(target_field, "").replace("\n", " ").strip()
            # Пропускаем пример, если хотя бы одно поле пустое
            if not inp or not tgt:
                continue
            # Пишем строку с разделителем табуляции
            f.write(f"{inp}\t{tgt}\n")
            count += 1
            if max_samples is not None and count >= max_samples:
                break
    print(f"Датасет сохранён по пути: {file_path} с {count} примерами")

def main():
    base_dir = "./summarization-data"
    
    print("Обработка cnn_dailymail...")
    ds_train = load_dataset("cnn_dailymail", "3.0.0", split="train")
    save_dataset_in_format(ds_train, os.path.join(base_dir, "cnndm"), "train", "article", "highlights")
    ds_valid = load_dataset("cnn_dailymail", "3.0.0", split="validation")
    save_dataset_in_format(ds_valid, os.path.join(base_dir, "cnndm"), "valid", "article", "highlights")
    
    # WikiHow: датасет имеет только split "train", поэтому вручную разбиваем его на train и valid
    print("Обработка wikihow...")
    ds_all = load_dataset("sentence-transformers/wikihow", split="train")
    split_dataset = ds_all.train_test_split(test_size=0.1, seed=42)
    ds_train = split_dataset["train"]
    ds_valid = split_dataset["test"]
    save_dataset_in_format(ds_train, os.path.join(base_dir, "wikihow"), "train", "text", "summary")
    save_dataset_in_format(ds_valid, os.path.join(base_dir, "wikihow"), "valid", "text", "summary")
    
    print("Обработка xsum...")
    ds_train = load_dataset("xsum", split="train")
    save_dataset_in_format(ds_train, os.path.join(base_dir, "xsum"), "train", "document", "summary")
    ds_valid = load_dataset("xsum", split="validation")
    save_dataset_in_format(ds_valid, os.path.join(base_dir, "xsum"), "valid", "document", "summary")


main()


Обработка cnn_dailymail...
Датасет сохранён по пути: ./summarization-data/cnndm/sub0/train.txt с 287113 примерами
Датасет сохранён по пути: ./summarization-data/cnndm/sub0/valid.txt с 13368 примерами
Обработка wikihow...
Датасет сохранён по пути: ./summarization-data/wikihow/sub0/train.txt с 115684 примерами
Датасет сохранён по пути: ./summarization-data/wikihow/sub0/valid.txt с 12855 примерами
Обработка xsum...


You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.


Датасет сохранён по пути: ./summarization-data/xsum/sub0/train.txt с 204017 примерами
Датасет сохранён по пути: ./summarization-data/xsum/sub0/valid.txt с 11327 примерами


In [10]:
import os

def check_file(file_path, max_examples=5):
    """
    Проверяет файл на наличие строк, в которых после split('\t')
    получается не ровно 2 элемента. Возвращает список первых некорректных строк.
    """
    errors = []
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if not line:
                continue
            parts = line.split('\t')
            if len(parts) != 2:
                errors.append(line)
                if len(errors) >= max_examples:
                    break
    return errors

def remove_invalid_lines(file_path):
    """
    Читает файл, оставляя только строки, где после split('\t') получаются ровно два элемента.
    Перезаписывает файл корректными строками.
    
    Возвращает общее количество строк и число удалённых строк.
    """
    valid_lines = []
    total = 0
    removed = 0
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            total += 1
            stripped_line = line.strip()
            # Если строка пустая, считаем её удалённой
            if not stripped_line:
                removed += 1
                continue
            parts = stripped_line.split('\t')
            if len(parts) == 2:
                valid_lines.append(stripped_line)
            else:
                removed += 1
    # Перезаписываем файл только корректными строками
    with open(file_path, "w", encoding="utf-8") as f:
        for line in valid_lines:
            f.write(line + "\n")
    return total, removed

def main():
    base_dir = "./summarization-data"
    datasets = ["cnndm", "wikihow", "xsum"]
    splits = ["train", "valid"]
    
    for ds in datasets:
        for split in splits:
            # Формируем путь вида: summarization-data/{ds}/sub0/{split}.txt
            file_path = os.path.join(base_dir, ds, "sub0", f"{split}.txt")
            if not os.path.isfile(file_path):
                print(f"Файл не найден: {file_path}")
                continue

            errors = check_file(file_path)
            if errors:
                print(f"В файле {file_path} обнаружены некорректные строки (пример):")
                for err in errors:
                    print(f"  {err}")
                total, removed = remove_invalid_lines(file_path)
                print(f"Обработан файл {file_path}: всего строк: {total}, удалено строк: {removed}")
            else:
                print(f"В файле {file_path} ошибок не обнаружено.")
            print("-" * 40)

main()


В файле ./summarization-data/cnndm/sub0/train.txt обнаружены некорректные строки (пример):
  (CNN) -- I have so few images of myself as a baby that 30 years ago, when I first picked up a camera, I never could have imagined that my imagery of other babies would resonate around the world. Since then, I've been fortunate to photograph thousands of children, and within these images I've always tried to convey the purity, beauty and innocence of the newborn. I truly feel that they represent the very essence of our existence and when they are with me in my studio they always bring joy to my heart. The vulnerability of the newborn -- without care, nourishment, love and attention they cannot survive -- is a fact of life. Every mother reading this will remember the moment when she first gazed into the eyes of her baby. Out of that fog which can constitute childbirth, we are not only automatically transported into our new lives as mothers, but that essential nurturing instinct instantly becomes 

In [None]:
with open('src/configs/config_t5LORA_c4.json', "r", encoding="utf-8") as f:
    config = json.load(f)
    
# Создаём корневое дерево с заголовком
tree = Tree("[tan]Config[/tan]")
build_tree(config, tree)

# Выводим дерево в консоль
print(tree)

In [None]:
from rich.console import Console
from rich.table import Table

console = Console()

# Список стандартных CSS-цветов (это не полный список, а наиболее часто используемые)
css_colors = [
    "aliceblue", "antiquewhite", "aqua", "aquamarine", "azure", "beige", "bisque", "black",
    "blanchedalmond", "blue", "blueviolet", "brown", "burlywood", "cadetblue", "chartreuse",
    "chocolate", "coral", "cornflowerblue", "cornsilk", "crimson", "cyan", "darkblue",
    "darkcyan", "darkgoldenrod", "darkgray", "darkgreen", "darkgrey", "darkkhaki", "darkmagenta",
    "darkolivegreen", "darkorange", "darkorchid", "darkred", "darksalmon", "darkseagreen",
    "darkslateblue", "darkslategray", "darkslategrey", "darkturquoise", "darkviolet", "deeppink",
    "deepskyblue", "dimgray", "dimgrey", "dodgerblue", "firebrick", "floralwhite", "forestgreen",
    "fuchsia", "gainsboro", "ghostwhite", "gold", "goldenrod", "gray", "green", "greenyellow",
    "grey", "honeydew", "hotpink", "indianred", "indigo", "ivory", "khaki", "lavender",
    "lavenderblush", "lawngreen", "lemonchiffon", "lightblue", "lightcoral", "lightcyan",
    "lightgoldenrodyellow", "lightgray", "lightgreen", "lightgrey", "lightpink", "lightsalmon",
    "lightseagreen", "lightskyblue", "lightslategray", "lightslategrey", "lightsteelblue",
    "lightyellow", "lime", "limegreen", "linen", "magenta", "maroon", "mediumaquamarine",
    "mediumblue", "mediumorchid", "mediumpurple", "mediumseagreen", "mediumslateblue",
    "mediumspringgreen", "mediumturquoise", "mediumvioletred", "midnightblue", "mintcream",
    "mistyrose", "moccasin", "navajowhite", "navy", "oldlace", "olive", "olivedrab", "orange",
    "orangered", "orchid", "palegoldenrod", "palegreen", "paleturquoise", "palevioletred",
    "papayawhip", "peachpuff", "peru", "pink", "plum", "powderblue", "purple", "rebeccapurple",
    "red", "rosybrown", "royalblue", "saddlebrown", "salmon", "sandybrown", "seagreen", "seashell",
    "sienna", "silver", "skyblue", "slateblue", "slategray", "slategrey", "snow", "springgreen",
    "steelblue", "tan", "teal", "thistle", "tomato", "turquoise", "violet", "wheat", "white",
    "whitesmoke", "yellow", "yellowgreen"
]

# Создаем таблицу для отображения цветов
table = Table(title="Примеры CSS-цветов в rich")

table.add_column("Имя цвета", style="bold")
table.add_column("Пример")

for color in css_colors:
    # В столбце "Пример" выводим текст, окрашенный в соответствующий цвет
    table.add_row(color, f"[{color}]{color}[/]")

console.print(table)
