In [1]:
# gcs_test.py (финальная версия, все 4 режима)
import german_compound_splitter.comp_split as comp_split
import os

# --- НАСТРОЙКИ ---
DICTIONARY_PATH = "U:/voothi/20241223170748-token-extraction/20250826000433-test/german.dic"

WORDS_TO_TEST = [
    "www.rheinwerk-verlag.de/6064.",
    "Ausbildungserfahrung",
    "DSL-Dienste",
    "Informationstechnik",
    "Arbeitspapiere",
    "Unternehmenssoftware"
]

# --- СКРИПТ ---

def run_single_test(word, ahocs, only_nouns_val, make_singular_val):
    """Выполняет один тест с заданными параметрами и печатает результат."""
    try:
        # 1. Получаем сырой результат разделения
        dissection = comp_split.dissect(word, ahocs, make_singular=make_singular_val, only_nouns=only_nouns_val)
        print(f"    -> Сырой результат (dissect): {dissection}")

        # 2. Получаем обработанный результат после слияния
        merged_result = comp_split.merge_fractions(dissection)
        print(f"    -> Результат (merge_fractions): {merged_result}")
        return merged_result

    except IndexError:
        print("    -> !! Поймали баг в GCS (IndexError), результат пустой.")
        return []

def run_all_tests():
    """Запускает изолированный тест GCS для всех слов и всех 4 режимов."""
    if not os.path.exists(DICTIONARY_PATH):
        print(f"ОШИБКА: Файл словаря не найден по пути: {DICTIONARY_PATH}")
        return

    print("Загрузка словаря GCS...")
    ahocs = comp_split.read_dictionary_from_file(DICTIONARY_PATH)
    print("Словарь загружен.\n")

    for word in WORDS_TO_TEST:
        print(f"--- Анализ слова: '{word}' ---")
        
        # --- Тест 1: Стандартный режим ---
        print("\n  РЕЖИМ 1: only_nouns=True, make_singular=True (Стандартный/Безопасный)")
        run_single_test(word, ahocs, only_nouns_val=True, make_singular_val=True)

        # --- Тест 2: Безопасный, но без приведения к ед. числу ---
        print("\n  РЕЖИМ 2: only_nouns=True, make_singular=False (Безопасный, без приведения к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=True, make_singular_val=False)

        # --- Тест 3: Агрессивный режим с приведением к ед. числу ---
        print("\n  РЕЖИМ 3: only_nouns=False, make_singular=True (Агрессивный, с приведением к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=False, make_singular_val=True)

        # --- Тест 4: Максимально агрессивный режим ---
        print("\n  РЕЖИМ 4: only_nouns=False, make_singular=False (Максимально агрессивный, без приведения к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=False, make_singular_val=False)
        
        print("\n" + "=" * (len(word) + 20))


if __name__ == "__main__":
    run_all_tests()

Загрузка словаря GCS...
Loading data file - U:/voothi/20241223170748-token-extraction/20250826000433-test/german.dic
Словарь загружен.

--- Анализ слова: 'www.rheinwerk-verlag.de/6064.' ---

  РЕЖИМ 1: only_nouns=True, make_singular=True (Стандартный/Безопасный)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['Www.rhein', 'Werk']
    -> Результат (merge_fractions): ['Www.rhein', 'Werk']

  РЕЖИМ 2: only_nouns=True, make_singular=False (Безопасный, без приведения к ед. числу)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['Www.rhein', 'Werk']
    -> Результат (merge_fractions): ['Www.rhein', 'Werk']

  РЕЖИМ 3: only_nouns=False, make_singular=True (Агрессивный, с приведением к ед. числу)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['www', '.rhe', 'in', 'Werk', '-ver', 'lag']
    -> Результат (merge_fractions): ['www', '.rhe', 'in', 'Werk', '-ver', 'lag']

  РЕЖИМ 4: only_nouns

In [2]:
# gcs_test.py (финальная версия, все 4 режима)
import german_compound_splitter.comp_split as comp_split
import os

# --- НАСТРОЙКИ ---
DICTIONARY_PATH = "U:/voothi/20241223170748-token-extraction/20250826000433-test/german.dic"

WORDS_TO_TEST = [
    "www.rheinwerk-verlag.de/6064.",
    "Sachverhalte",
    "Ausbildungserfahrung",
    "DSL-Dienste",
    "Informationstechnik",
    "Arbeitspapiere",
    "Unternehmenssoftware"
]

# --- СКРИПТ ---

def run_single_test(word, ahocs, only_nouns_val, make_singular_val):
    """Выполняет один тест с заданными параметрами и печатает результат."""
    try:
        # 1. Получаем сырой результат разделения
        dissection = comp_split.dissect(word, ahocs, make_singular=make_singular_val, only_nouns=only_nouns_val)
        print(f"    -> Сырой результат (dissect): {dissection}")

        # 2. Получаем обработанный результат после слияния
        merged_result = comp_split.merge_fractions(dissection)
        print(f"    -> Результат (merge_fractions): {merged_result}")
        return merged_result

    except IndexError:
        print("    -> !! Поймали баг в GCS (IndexError), результат пустой.")
        return []

def run_all_tests():
    """Запускает изолированный тест GCS для всех слов и всех 4 режимов."""
    if not os.path.exists(DICTIONARY_PATH):
        print(f"ОШИБКА: Файл словаря не найден по пути: {DICTIONARY_PATH}")
        return

    print("Загрузка словаря GCS...")
    ahocs = comp_split.read_dictionary_from_file(DICTIONARY_PATH)
    print("Словарь загружен.\n")

    for word in WORDS_TO_TEST:
        print(f"--- Анализ слова: '{word}' ---")
        
        # --- Тест 1: Стандартный режим ---
        print("\n  РЕЖИМ 1: only_nouns=True, make_singular=True (Стандартный/Безопасный)")
        run_single_test(word, ahocs, only_nouns_val=True, make_singular_val=True)

        # --- Тест 2: Безопасный, но без приведения к ед. числу ---
        print("\n  РЕЖИМ 2: only_nouns=True, make_singular=False (Безопасный, без приведения к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=True, make_singular_val=False)

        # --- Тест 3: Агрессивный режим с приведением к ед. числу ---
        print("\n  РЕЖИМ 3: only_nouns=False, make_singular=True (Агрессивный, с приведением к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=False, make_singular_val=True)

        # --- Тест 4: Максимально агрессивный режим ---
        print("\n  РЕЖИМ 4: only_nouns=False, make_singular=False (Максимально агрессивный, без приведения к ед. числу)")
        run_single_test(word, ahocs, only_nouns_val=False, make_singular_val=False)
        
        print("\n" + "=" * (len(word) + 20))


if __name__ == "__main__":
    run_all_tests()

Загрузка словаря GCS...
Loading data file - U:/voothi/20241223170748-token-extraction/20250826000433-test/german.dic
Словарь загружен.

--- Анализ слова: 'www.rheinwerk-verlag.de/6064.' ---

  РЕЖИМ 1: only_nouns=True, make_singular=True (Стандартный/Безопасный)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['Www.rhein', 'Werk']
    -> Результат (merge_fractions): ['Www.rhein', 'Werk']

  РЕЖИМ 2: only_nouns=True, make_singular=False (Безопасный, без приведения к ед. числу)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['Www.rhein', 'Werk']
    -> Результат (merge_fractions): ['Www.rhein', 'Werk']

  РЕЖИМ 3: only_nouns=False, make_singular=True (Агрессивный, с приведением к ед. числу)
Dissect compound:  www.rheinwerk-verlag.de/6064.
    -> Сырой результат (dissect): ['www', '.rhe', 'in', 'Werk', '-ver', 'lag']
    -> Результат (merge_fractions): ['www', '.rhe', 'in', 'Werk', '-ver', 'lag']

  РЕЖИМ 4: only_nouns