In [None]:
# --- Финальный код, основанный на официальной документации ---

# 1. Импортируем нужные функции из установленной библиотеки
from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# 2. Указываем имя файла словаря
#    (предполагается, что он лежит в той же папке, что и этот скрипт)
dictionary_file = 'german.dic'

# 3. Проверяем, существует ли файл словаря
if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
    print("Пожалуйста, скачайте его и поместите в ту же папку, что и этот ноутбук.")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    # Загружаем словарь в специальную структуру данных (автомат Ахо-Корасик)
    # Это нужно сделать только один раз.
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        # 4. Наше слово для разбора
        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"

        # 5. Вызываем функцию dissect для разбора слова
        #    Используем `make_singular=True`, чтобы привести части к единственному числу
        dissection = comp_split.dissect(compound_word, ahocs, make_singular=True)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        # Результат - это кортеж из двух списков. Нас интересует второй.
        # merge_fractions объединяет мелкие части для лучшего результата.
        final_components = comp_split.merge_fractions(dissection)
        
        print("✅✅✅ ПОБЕДА! Слово успешно разделено на компоненты:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка при чтении словаря: {e}")
        print("Возможно, файл имеет неверную кодировку. Он должен быть в UTF-8.")

In [15]:
# --- Финальный код, основанный на официальной документации ---

# 1. Импортируем нужные функции из установленной библиотеки
from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# 2. Указываем имя файла словаря
#    (предполагается, что он лежит в той же папке, что и этот скрипт)
dictionary_file = 'german.dic'

# 3. Проверяем, существует ли файл словаря
if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
    print("Пожалуйста, скачайте его и поместите в ту же папку, что и этот ноутбук.")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    # Загружаем словарь в специальную структуру данных (автомат Ахо-Корасик)
    # Это нужно сделать только один раз.
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        # 4. Наше слово для разбора
        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"

        # 5. Вызываем функцию dissect для разбора слова
        #    Используем `make_singular=True`, чтобы привести части к единственному числу
        dissection = comp_split.dissect(compound_word, ahocs, make_singular=False)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        # Результат - это кортеж из двух списков. Нас интересует второй.
        # merge_fractions объединяет мелкие части для лучшего результата.
        final_components = comp_split.merge_fractions(dissection)
        
        print("✅✅✅ ПОБЕДА! Слово успешно разделено на компоненты:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка при чтении словаря: {e}")
        print("Возможно, файл имеет неверную кодировку. Он должен быть в UTF-8.")

Библиотека 'german-compound-splitter' успешно импортирована.

Найден файл словаря: 'german.dic'. Загружаем...
Loading data file - german.dic
Словарь успешно загружен.
Dissect compound:  Donaudampfschifffahrtsgesellschaftskapitän

Анализируем слово: 'Donaudampfschifffahrtsgesellschaftskapitän'
✅✅✅ ПОБЕДА! Слово успешно разделено на компоненты:
  1. Donau
  2. Dampf
  3. Schifffahrt
  4. Gesellschafts
  5. Kapitän


In [None]:
# --- Финальный код с рекурсивной функцией для максимального разбора ---

from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# --- НАЧАЛО НОВОГО КОДА: РЕКУРСИВНАЯ ФУНКЦИЯ ---

def razobrat_rekursivno(slovo, ahocs):
    """
    Разбирает слово и рекурсивно пытается разобрать каждую его часть.
    """
    # 1. Выполняем стандартный разбор слова
    dissection = comp_split.dissect(slovo, ahocs, make_singular=True)
    chasti = comp_split.merge_fractions(dissection)

    # 2. БАЗОВЫЙ СЛУЧАЙ РЕКУРСИИ:
    # Если слово не удалось разбить (результат - это само слово),
    # то возвращаем его как есть в виде списка.
    if len(chasti) <= 1 and chasti[0].lower() == slovo.lower():
        return chasti

    # 3. РЕКУРСИВНЫЙ ШАГ:
    # Если слово было разбито на части, то для каждой части
    # снова вызываем эту же функцию.
    else:
        itogovyy_razbor = []
        for chast in chasti:
            # Вызываем функцию для каждой полученной части
            pod_chasti = razobrat_rekursivno(chast, ahocs)
            # Добавляем результат (который является списком) в наш итоговый список
            itogovyy_razbor.extend(pod_chasti)
        return itogovyy_razbor

# --- КОНЕЦ НОВОГО КОДА ---


# --- ОСНОВНАЯ ЧАСТЬ (остается почти без изменений) ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        # --- ИЗМЕНЕНИЕ: ВЫЗЫВАЕМ НАШУ НОВУЮ РЕКУРСИВНУЮ ФУНКЦИЮ ---
        final_components = razobrat_rekursivno(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ ПОБЕДА! Максимально детальный (рекурсивный) разбор:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка: {e}")

In [None]:
# --- Финальный код с ИСПРАВЛЕННОЙ рекурсивной функцией ---

from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# --- НАЧАЛО ИСПРАВЛЕННОГО КОДА ---

def razobrat_rekursivno(slovo, ahocs, level=0):
    """
    Разбирает слово и рекурсивно пытается разобрать каждую его часть.
    Level - для красивого отступа в отладочных сообщениях.
    """
    indent = "  " * level
    print(f"{indent}--> Анализирую: '{slovo}'")

    # 1. Выполняем стандартный разбор слова
    dissection = comp_split.dissect(slovo, ahocs, make_singular=True)
    chasti = comp_split.merge_fractions(dissection)
    
    print(f"{indent}----> Результат dissect: {chasti}")

    # 2. НОВЫЙ БАЗОВЫЙ СЛУЧАЙ РЕКУРСИИ:
    # Рекурсия останавливается ТОЛЬКО, если слово состоит из ОДНОЙ части
    # И при этом эта часть КОРОЧЕ 4 символов (чтобы не делить 'Kap' на 'K' и 'ap').
    # Это предотвращает бесконечные циклы и бессмысленный разбор.
    if len(chasti) == 1 and len(chasti[0]) < 5:
         print(f"{indent}------> Базовый случай: слово короткое, не делим.")
         return chasti

    # 3. ИСПРАВЛЕННЫЙ РЕКУРСИВНЫЙ ШАГ:
    # Если dissect вернул само слово (т.е. поленился), мы должны попробовать
    # разбить его вручную.
    if len(chasti) == 1 and chasti[0].lower() == slovo.lower():
        print(f"{indent}------> Dissect 'схалтурил'. Пробуем найти первую часть вручную...")
        # Ищем первую же часть слова, которая есть в словаре
        pervaya_chast = comp_split.find_first_part(slovo, ahocs)
        if pervaya_chast and pervaya_chast != slovo:
            ostatok = slovo[len(pervaya_chast):]
            print(f"{indent}------> Вручную нашли: '{pervaya_chast}' + '{ostatok}'. Уходим в рекурсию для них.")
            # Если нашли, создаем список из двух частей и обрабатываем их рекурсивно
            chasti = [pervaya_chast, ostatok]
        else:
            # Если даже вручную не нашли, то это точно базовый случай
            return [slovo]

    itogovyy_razbor = []
    for chast in chasti:
        # Проверяем, чтобы не уйти в бесконечную рекурсию, если часть равна исходному слову
        if chast.lower() == slovo.lower():
            itogovyy_razbor.append(chast)
        else:
            pod_chasti = razobrat_rekursivno(chast, ahocs, level + 1)
            itogovyy_razbor.extend(pod_chasti)
    
    return itogovyy_razbor

# --- КОНЕЦ ИСПРАВЛЕННОГО КОДА ---


# --- ОСНОВНАЯ ЧАСТЬ (без изменений) ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        final_components = razobrat_rekursivno(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ ПОБЕДА! Максимально детальный (рекурсивный) разбор:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка: {e}")

In [None]:
# --- Final, professional version with English identifiers and comments ---

from german_compound_splitter import comp_split
import os

print("Library 'german-compound-splitter' imported successfully.")

# --- START: HELPER FUNCTIONS ---

def manual_split(word, ahocs):
    """
    Manually tries to find the first possible split combination for a word.
    It searches for the longest possible first part that exists in the dictionary,
    for which the remainder also exists in the dictionary.
    """
    # Iterate from the longest possible first part to the shortest
    for i in range(len(word) - 1, 1, -1):
        first_part = word[:i]
        remainder = word[i:]
        
        # Check if BOTH parts exist in our dictionary automaton
        if ahocs.exists(first_part) and ahocs.exists(remainder):
            # If a valid combination is found, return it and exit
            return [first_part, remainder]
            
    # If no valid two-part split is found, return the original word
    return [word]

def recursive_split(word, ahocs, level=0):
    """
    Dissects a word and recursively tries to dissect each of its parts.
    'level' is used for pretty-printing the debug trace.
    """
    indent = "  " * level
    print(f"{indent}--> Analyzing: '{word}'")
    
    # 1. Perform the standard dissection
    dissection = comp_split.dissect(word, ahocs, make_singular=True)
    parts = comp_split.merge_fractions(dissection)
    print(f"{indent}----> Result from dissect: {parts}")

    # 2. Check if the 'dissect' function was "lazy" (returned the word itself)
    if len(parts) == 1 and parts[0].lower() == word.lower():
        print(f"{indent}------> 'dissect' returned the whole word. Calling manual split...")
        # If so, call our own, more persistent split function
        parts = manual_split(word, ahocs)
        print(f"{indent}------> Result from manual split: {parts}")

    # 3. Base Case: If the word still couldn't be split, stop the recursion for this branch
    if len(parts) == 1 and parts[0].lower() == word.lower():
        return parts

    # 4. Recursive Step: For each of the new parts, call this function again
    final_split_parts = []
    for part in parts:
        sub_parts = recursive_split(part, ahocs, level + 1)
        final_split_parts.extend(sub_parts)
    
    return final_split_parts

# --- END: HELPER FUNCTIONS ---


# --- MAIN EXECUTION BLOCK ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nERROR: Dictionary file '{dictionary_file}' not found!")
    print("Please download it and place it in the same folder as this notebook.")
else:
    print(f"\nDictionary file found: '{dictionary_file}'. Loading...")
    try:
        # Load the dictionary into the Aho-Corasick automaton structure
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Dictionary loaded successfully.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        # Call our main recursive function to get the most detailed split
        final_components = recursive_split(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Analyzing word: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ SUCCESS! Deep (recursive) split results:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nAn error occurred: {e}")

In [None]:
# --- Final, corrected version with the case-sensitivity fix in manual_split ---

from german_compound_splitter import comp_split
import os

print("Library 'german-compound-splitter' imported successfully.")

# --- START: CORRECTED HELPER FUNCTIONS ---

def manual_split(word, ahocs):
    """
    Manually tries to find the first possible split combination for a word.
    It searches for the longest possible first part that exists in the dictionary,
    for which the remainder also exists in the dictionary.
    THIS VERSION FIXES THE CASE-SENSITIVITY BUG.
    """
    for i in range(len(word) - 1, 1, -1):
        first_part = word[:i]
        remainder = word[i:]
        
        # THE FIX IS HERE: We must check for the capitalized version of the parts,
        # because the dictionary contains capitalized nouns.
        if ahocs.exists(first_part.capitalize()) and ahocs.exists(remainder.capitalize()):
            # Return the original parts to preserve their case.
            return [first_part, remainder]
            
    return [word]

def recursive_split(word, ahocs, level=0):
    """
    Dissects a word and recursively tries to dissect each of its parts.
    """
    indent = "  " * level
    print(f"{indent}--> Analyzing: '{word}'")
    
    dissection = comp_split.dissect(word, ahocs, make_singular=True)
    parts = comp_split.merge_fractions(dissection)
    print(f"{indent}----> Result from dissect: {parts}")

    if len(parts) == 1 and parts[0].lower() == word.lower():
        print(f"{indent}------> 'dissect' returned the whole word. Calling manual split...")
        parts = manual_split(word, ahocs)
        print(f"{indent}------> Result from manual split: {parts}")

    if len(parts) == 1 and parts[0].lower() == word.lower():
        return parts

    final_split_parts = []
    for part in parts:
        sub_parts = recursive_split(part, ahocs, level + 1)
        final_split_parts.extend(sub_parts)
    
    return final_split_parts

# --- END: CORRECTED HELPER FUNCTIONS ---


# --- MAIN EXECUTION BLOCK ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nERROR: Dictionary file '{dictionary_file}' not found!")
else:
    print(f"\nDictionary file found: '{dictionary_file}'. Loading...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Dictionary loaded successfully.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        final_components = recursive_split(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Analyzing word: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ SUCCESS! Deep (recursive) split results:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nAn error occurred: {e}")

In [None]:
# --- Кардинально переделанный код с новым, надежным алгоритмом ---

from german_compound_splitter import comp_split
import os

print("Library 'german-compound-splitter' imported successfully.")

# --- НОВАЯ, ПРОСТАЯ И НАДЕЖНАЯ ФУНКЦИЯ ---
def deep_split(compound_word, ahocs):
    """
    Выполняет глубокий, итеративный разбор слова до тех пор,
    пока все части не станут атомарными.
    """
    # Создаем "очередь" слов, которые нужно проверить. Начинаем с одного слова.
    words_to_process = [compound_word]
    
    # Здесь будут храниться финальные, самые мелкие части.
    final_parts = []
    
    # Цикл будет работать, пока в очереди есть слова для обработки.
    while words_to_process:
        # Берем первое слово из очереди.
        current_word = words_to_process.pop(0)
        
        # Пытаемся разбить его с помощью библиотеки.
        # Это наш основной и единственный инструмент.
        parts = comp_split.merge_fractions(
            comp_split.dissect(current_word, ahocs, make_singular=True)
        )
        
        # ПРОВЕРКА: Удалось ли разбить слово?
        # Если результат - это НЕ одно слово, равное исходному, значит, разбор удался.
        if len(parts) > 1 or (len(parts) == 1 and parts[0].lower() != current_word.lower()):
            # Если разбор удался, мы добавляем новые, более мелкие части
            # В НАЧАЛО очереди, чтобы обработать их следующими.
            print(f"  -> '{current_word}' ==> {parts}. Adding to queue.")
            words_to_process = parts + words_to_process
        else:
            # Если разбор НЕ удался (слово атомарно),
            # мы добавляем его в наш финальный результат.
            print(f"  -> '{current_word}' is atomic. Adding to final list.")
            final_parts.append(current_word)
            
    return final_parts

# --- ОСНОВНАЯ ЧАСТЬ ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nERROR: Dictionary file '{dictionary_file}' not found!")
else:
    print(f"\nDictionary file found: '{dictionary_file}'. Loading...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Dictionary loaded successfully.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        print("\nStarting deep split process...")
        final_components = deep_split(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Analyzing word: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ SUCCESS! Deep (iterative) split results:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nAn error occurred: {e}")

In [None]:
# --- Кардинально переделанный код с новым, надежным алгоритмом ---

from german_compound_splitter import comp_split
import os

print("Library 'german-compound-splitter' imported successfully.")

# --- НОВАЯ, НАДЕЖНАЯ ФУНКЦИЯ РУЧНОГО РАЗБОРА ---
def brute_force_split(word, ahocs):
    """
    Пытается "взломать" слово, которое сама библиотека считает атомарным.
    Ищет первую же комбинацию из двух частей, которые есть в словаре.
    """
    # Минимальная длина части слова, чтобы избежать мусора вроде "s", "en"
    MIN_PART_LENGTH = 3
    
    # Идем от самой длинной возможной первой части к самой короткой
    for i in range(len(word) - MIN_PART_LENGTH, MIN_PART_LENGTH - 1, -1):
        part1 = word[:i]
        part2 = word[i:]
        
        # Проверяем, есть ли обе части в словаре.
        # ВАЖНО: Проверяем и с большой, и с маленькой буквы, так как
        # части слова могут быть как существительными, так и нет.
        if ahocs.exists(part1) and (ahocs.exists(part2) or ahocs.exists(part2.capitalize())):
            # Если нашли удачную комбинацию, немедленно возвращаем ее
            # и рекурсивно вызываем эту же функцию для КАЖДОЙ из новых частей.
            print(f"  -> '{word}' ==> manually split into: ['{part1}', '{part2}']")
            return brute_force_split(part1, ahocs) + brute_force_split(part2, ahocs)
            
    # Если после всех попыток слово так и не удалось разбить,
    # значит, оно действительно атомарно. Возвращаем его как есть.
    print(f"  -> '{word}' is confirmed atomic.")
    return [word]

# --- ОСНОВНАЯ ЧАСТЬ ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nERROR: Dictionary file '{dictionary_file}' not found!")
else:
    print(f"\nDictionary file found: '{dictionary_file}'. Loading...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Dictionary loaded successfully.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        # 1. Делаем ПЕРВЫЙ, грубый разбор с помощью библиотеки.
        print("\nStep 1: Initial rough split using the library...")
        initial_parts = comp_split.merge_fractions(
            comp_split.dissect(compound_word, ahocs, make_singular=True)
        )
        print(f"Initial parts: {initial_parts}")
        
        # 2. Теперь для КАЖДОЙ части из этого списка вызываем нашу "упрямую" функцию.
        print("\nStep 2: Deep splitting each part...")
        final_components = []
        for part in initial_parts:
            # .extend добавляет все элементы из возвращенного списка
            final_components.extend(brute_force_split(part, ahocs))

        print("\n" + "="*65)
        print(f"Analyzing word: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ SUCCESS! Final deep split results:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nAn error occurred: {e}")

In [None]:
# --- Кардинально переделанный код с новым, надежным алгоритмом ---

from german_compound_splitter import comp_split
import os

print("Library 'german-compound-splitter' imported successfully.")

# --- НОВАЯ, ПРОСТАЯ И НАДЕЖНАЯ ФУНКЦИЯ ---
def deep_split(compound_word, ahocs):
    """
    Выполняет глубокий, итеративный разбор слова до тех пор,
    пока все части не станут атомарными.
    """
    # Создаем "очередь" слов, которые нужно проверить. Начинаем с одного слова.
    words_to_process = [compound_word]
    
    # Здесь будут храниться финальные, самые мелкие части.
    final_parts = []
    
    # Цикл будет работать, пока в очереди есть слова для обработки.
    while words_to_process:
        # Берем первое слово из очереди.
        current_word = words_to_process.pop(0)
        
        # Пытаемся разбить его с помощью библиотеки.
        # Это наш основной и единственный инструмент.
        parts = comp_split.merge_fractions(
            comp_split.dissect(current_word, ahocs, make_singular=True)
        )
        
        # ПРОВЕРКА: Удалось ли разбить слово?
        # Если результат - это НЕ одно слово, равное исходному, значит, разбор удался.
        if len(parts) > 1 or (len(parts) == 1 and parts[0].lower() != current_word.lower()):
            # Если разбор удался, мы добавляем новые, более мелкие части
            # В НАЧАЛО очереди, чтобы обработать их следующими.
            print(f"  -> '{current_word}' ==> {parts}. Adding to queue.")
            words_to_process = parts + words_to_process
        else:
            # Если разбор НЕ удался (слово атомарно),
            # мы добавляем его в наш финальный результат.
            print(f"  -> '{current_word}' is atomic. Adding to final list.")
            final_parts.append(current_word)
            
    return final_parts

# --- ОСНОВНАЯ ЧАСТЬ ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nERROR: Dictionary file '{dictionary_file}' not found!")
else:
    print(f"\nDictionary file found: '{dictionary_file}'. Loading...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Dictionary loaded successfully.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        print("\nStarting deep split process...")
        final_components = deep_split(compound_word, ahocs)

        print("\n" + "="*65)
        print(f"Analyzing word: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ SUCCESS! Deep (iterative) split results:")
        for i, part in enumerate(final_components, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nAn error occurred: {e}")

In [None]:
# --- Кардинально переделанный код с новым, надежным и простым алгоритмом ---

from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# --- НОВАЯ, НАДЕЖНАЯ ФУНКЦИЯ РУЧНОГО РАЗБОРА ---
def razdelit_slovo(slovo, ahocs):
    """
    "Взломывает" слово, проверяя все возможные точки разрыва.
    Находит самую длинную первую часть, которая есть в словаре,
    и для которой остаток также есть в словаре.
    """
    # Минимальная длина части, чтобы избежать мусора
    MIN_DLINA_CHASTI = 3
    
    # Идем от самой длинной возможной первой части к самой короткой
    for i in range(len(slovo) - MIN_DLINA_CHASTI, MIN_DLINA_CHASTI - 1, -1):
        chast1 = slovo[:i]
        chast2 = slovo[i:]
        
        # Проверяем, есть ли обе части в словаре.
        # ВАЖНО: Проверяем и с большой, и с маленькой буквы, так как
        # части могут быть и существительными, и другими частями речи.
        chast1_sushchestvuet = ahocs.exists(chast1) or ahocs.exists(chast1.capitalize())
        chast2_sushchestvuet = ahocs.exists(chast2) or ahocs.exists(chast2.capitalize())
        
        if chast1_sushchestvuet and chast2_sushchestvuet:
            # Если нашли удачную комбинацию, немедленно возвращаем ее
            return [chast1, chast2]
            
    # Если после всех попыток слово так и не удалось разбить,
    # значит, оно действительно атомарно. Возвращаем его как есть.
    return [slovo]

# --- ОСНОВНАЯ ЧАСТЬ ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        # Создаем "очередь" слов для обработки. Начинаем с одного.
        ochered_slov = [compound_word]
        finalnye_chasti = []
        
        print("\nНачинаем процесс глубокого разбора...")
        
        # Цикл работает, пока в очереди есть слова.
        while ochered_slov:
            tekushchee_slovo = ochered_slov.pop(0)
            
            # Вызываем НАШУ СОБСТВЕННУЮ функцию разбора.
            chasti = razdelit_slovo(tekushchee_slovo, ahocs)
            
            # Если слово было успешно разделено на несколько частей...
            if len(chasti) > 1:
                print(f"  -> '{tekushchee_slovo}' ==> {chasti}. Добавляем в очередь.")
                # ...добавляем эти новые части в начало очереди для дальнейшей проверки.
                ochered_slov = chasti + ochered_slov
            else:
                # Если слово не разделилось (оно атомарно)...
                print(f"  -> '{tekushchee_slovo}' атомарно. Добавляем в финальный список.")
                # ...добавляем его в итоговый список.
                finalnye_chasti.append(tekushchee_slovo)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ ПОБЕДА! Финальный глубокий разбор:")
        for i, part in enumerate(finalnye_chasti, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка: {e}")

In [None]:
# --- Финальный, рабочий код, основанный на новой, правильной логике ---

from german_compound_splitter import comp_split
import os

print("Библиотека 'german-compound-splitter' успешно импортирована.")

# --- НОВАЯ ФУНКЦИЯ-"МОЛОТОК" ---
def razbit_slovarnoe_slovo(slovo, ahocs):
    """
    "Взламывает" слово, которое библиотека считает цельным (например, Schifffahrt).
    Находит первую же комбинацию из двух частей, которые есть в словаре.
    """
    MIN_DLINA_CHASTI = 3
    for i in range(len(slovo) - MIN_DLINA_CHASTI, MIN_DLINA_CHASTI - 1, -1):
        chast1 = slovo[:i]
        chast2 = slovo[i:]
        
        # Проверяем, есть ли обе части в словаре.
        if ahocs.exists(chast1.capitalize()) and ahocs.exists(chast2.capitalize()):
            return [chast1, chast2] # Нашли! Возвращаем результат.
            
    return [slovo] # Не нашли, слово действительно атомарно.

# --- ОСНОВНАЯ ЧАСТЬ ---

dictionary_file = 'german.dic'

if not os.path.exists(dictionary_file):
    print(f"\nОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    print(f"\nНайден файл словаря: '{dictionary_file}'. Загружаем...")
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print("Словарь успешно загружен.")

        compound_word = "Donaudampfschifffahrtsgesellschaftskapitän"
        
        # 1. Используем "скальпель" для грубого разбора.
        print("\nШаг 1: Первичный разбор с помощью библиотеки...")
        ochered_slov = comp_split.merge_fractions(
            comp_split.dissect(compound_word, ahocs, make_singular=True)
        )
        print(f"  -> Первичные части: {ochered_slov}")
        
        finalnye_chasti = []
        
        # Цикл работает, пока в очереди есть что-то для обработки.
        while ochered_slov:
            tekushchee_slovo = ochered_slov.pop(0)
            
            # 2. Используем "молоток", чтобы разбить каждую часть дальше.
            chasti = razbit_slovarnoe_slovo(tekushchee_slovo, ahocs)
            
            if len(chasti) > 1:
                # Если "молоток" разбил слово, добавляем новые части в начало очереди.
                print(f"  -> '{tekushchee_slovo}' ==> разбит на {chasti}. Возвращаем в очередь.")
                ochered_slov = chasti + ochered_slov
            else:
                # Если даже "молоток" не смог разбить слово, оно точно атомарно.
                print(f"  -> '{tekushchee_slovo}' подтвержден как атомарный. В результат.")
                finalnye_chasti.append(tekushchee_slovo)

        print("\n" + "="*65)
        print(f"Анализируем слово: '{compound_word}'")
        print("="*65)
        
        print("✅✅✅ ПОБЕДА! Финальный глубокий разбор:")
        for i, part in enumerate(finalnye_chasti, 1):
            print(f"  {i}. {part}")
            
    except Exception as e:
        print(f"\nПроизошла ошибка: {e}")

In [1]:
# 20250826181301
# --- Изолированный тест для "Ananaserdbeeren" ---

# 1. Импорты
import spacy
from german_compound_splitter import comp_split
import os

print("--- ШАГ 1: Загрузка моделей и словарей ---")

# 2. Загружаем большую модель SpaCy для немецкого
try:
    nlp = spacy.load("de_core_news_lg")
    print("✅ Модель SpaCy 'de_core_news_lg' успешно загружена.")
except OSError:
    print("❌ ОШИБКА: Модель 'de_core_news_lg' не найдена.")
    print("   Пожалуйста, установите ее, выполнив в терминале: python -m spacy download de_core_news_lg")
    nlp = None

# 3. Загружаем словарь для german-compound-splitter
dictionary_file = 'german.dic'
ahocs = None
if not os.path.exists(dictionary_file):
    print(f"❌ ОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print(f"✅ Словарь '{dictionary_file}' успешно загружен.")
    except Exception as e:
        print(f"❌ ОШИБКА при загрузке словаря: {e}")

# 4. Определяем наше проблемное слово
problem_word = "Ananaserdbeeren"

# 5. Проводим тесты, если все загрузилось
if nlp and ahocs:
    print("\n" + "="*50)
    print("--- ШАГ 2: Тестирование лемматизации в SpaCy ---")
    print("="*50)
    
    doc = nlp(problem_word)
    token = doc[0]
    
    print(f"Исходное слово: '{token.text}'")
    print(f"Лемма по версии SpaCy: '{token.lemma_}'")
    if token.text == token.lemma_:
        print("❗️ РЕЗУЛЬТАТ: SpaCy НЕ СМОГ найти лемму и вернул исходное слово.")
    else:
        print("✅ РЕЗУЛЬТАТ: SpaCy нашел лемму.")

    print("\n" + "="*50)
    print("--- ШАГ 3: Тестирование сингуляризации в GCS ---")
    print("="*50)

    # Это та логика, которую я пытался использовать для исправления
    dissection = comp_split.dissect(problem_word, ahocs, make_singular=True)
    
    # Попробуем собрать слово обратно из частей, чтобы увидеть результат сингуляризации
    reconstructed_singular = "".join([d.word for d in dissection])

    print(f"Исходное слово: '{problem_word}'")
    print(f"Результат сингуляризации через GCS: '{reconstructed_singular}'")
    
    if problem_word == reconstructed_singular:
        print("❗️ РЕЗУЛЬТАТ: GCS (с опцией make_singular) ТАКЖЕ НЕ СМОГ найти форму ед.ч.")
    else:
        print("✅ РЕЗУЛЬТАТ: GCS нашел форму ед.ч.")

--- ШАГ 1: Загрузка моделей и словарей ---
✅ Модель SpaCy 'de_core_news_lg' успешно загружена.
Loading data file - german.dic
✅ Словарь 'german.dic' успешно загружен.

--- ШАГ 2: Тестирование лемматизации в SpaCy ---
Исходное слово: 'Ananaserdbeeren'
Лемма по версии SpaCy: 'Ananaserdbeeren'
❗️ РЕЗУЛЬТАТ: SpaCy НЕ СМОГ найти лемму и вернул исходное слово.

--- ШАГ 3: Тестирование сингуляризации в GCS ---
Dissect compound:  Ananaserdbeeren


AttributeError: 'str' object has no attribute 'word'

In [2]:
# --- Изолированный тест для "Ananaserdbeeren" (Исправленная версия) ---

# 1. Импорты
import spacy
from german_compound_splitter import comp_split
import os

print("--- ШАГ 1: Загрузка моделей и словарей ---")

# 2. Загружаем большую модель SpaCy для немецкого
try:
    nlp = spacy.load("de_core_news_lg")
    print("✅ Модель SpaCy 'de_core_news_lg' успешно загружена.")
except OSError:
    print("❌ ОШИБКА: Модель 'de_core_news_lg' не найдена.")
    print("   Пожалуйста, установите ее, выполнив в терминале: python -m spacy download de_core_news_lg")
    nlp = None

# 3. Загружаем словарь для german-compound-splitter
dictionary_file = 'german.dic'
ahocs = None
if not os.path.exists(dictionary_file):
    print(f"❌ ОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    try:
        ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print(f"✅ Словарь '{dictionary_file}' успешно загружен.")
    except Exception as e:
        print(f"❌ ОШИБКА при загрузке словаря: {e}")

# 4. Определяем наше проблемное слово
problem_word = "Ananaserdbeeren"

# 5. Проводим тесты, если все загрузилось
if nlp and ahocs:
    print("\n" + "="*50)
    print("--- ШАГ 2: Тестирование лемматизации в SpaCy ---")
    print("="*50)
    
    doc = nlp(problem_word)
    token = doc[0]
    
    print(f"Исходное слово: '{token.text}'")
    print(f"Лемма по версии SpaCy: '{token.lemma_}'")
    if token.text == token.lemma_:
        print("❗️ РЕЗУЛЬТАТ: SpaCy НЕ СМОГ найти лемму и вернул исходное слово.")
    else:
        print("✅ РЕЗУЛЬТАТ: SpaCy нашел лемму.")

    print("\n" + "="*50)
    print("--- ШАГ 3: Тестирование сингуляризации в GCS ---")
    print("="*50)

    # *** ИСПРАВЛЕННАЯ СТРОКА ЗДЕСЬ ***
    # comp_split.dissect возвращает кортеж из двух списков строк.
    # Нас интересует второй список, который содержит компоненты.
    # merge_fractions объединяет их в финальный список строк.
    dissection_result = comp_split.dissect(problem_word, ahocs, make_singular=True)
    final_components = comp_split.merge_fractions(dissection_result)
    
    # Собираем слово обратно из компонентов, чтобы увидеть результат
    reconstructed_singular = "".join(final_components)

    print(f"Исходное слово: '{problem_word}'")
    print(f"Компоненты от GCS: {final_components}")
    print(f"Собранное обратно слово: '{reconstructed_singular}'")
    
    if problem_word == reconstructed_singular:
        print("❗️ РЕЗУЛЬТАТ: GCS (с опцией make_singular) ТАКЖЕ НЕ СМОГ найти форму ед.ч.")
    else:
        print("✅ РЕЗУЛЬТАТ: GCS нашел форму ед.ч.")

--- ШАГ 1: Загрузка моделей и словарей ---
✅ Модель SpaCy 'de_core_news_lg' успешно загружена.
Loading data file - german.dic
✅ Словарь 'german.dic' успешно загружен.

--- ШАГ 2: Тестирование лемматизации в SpaCy ---
Исходное слово: 'Ananaserdbeeren'
Лемма по версии SpaCy: 'Ananaserdbeeren'
❗️ РЕЗУЛЬТАТ: SpaCy НЕ СМОГ найти лемму и вернул исходное слово.

--- ШАГ 3: Тестирование сингуляризации в GCS ---
Dissect compound:  Ananaserdbeeren
Исходное слово: 'Ananaserdbeeren'
Компоненты от GCS: ['Ananas', 'Erdbeere']
Собранное обратно слово: 'AnanasErdbeere'
✅ РЕЗУЛЬТАТ: GCS нашел форму ед.ч.


In [7]:
# 20250826183344
# --- Изолированный тест для "Donaudampfschifffahrtsgesellschaftskapitäne" ---

# 1. Импорты
from german_compound_splitter import comp_split
import os

print("--- ШАГ 1: Загрузка словаря ---")

# 2. Загружаем словарь
dictionary_file = 'german.dic'
ahocs = None
if not os.path.exists(dictionary_file):
    print(f"❌ ОШИБКА: Файл словаря '{dictionary_file}' не найден!")
else:
    try:
        # Подавляем стандартный вывод "Loading data file..."
        # чтобы не мешать нашему выводу
        from contextlib import redirect_stdout
        import io
        with redirect_stdout(io.StringIO()):
            ahocs = comp_split.read_dictionary_from_file(dictionary_file)
        print(f"✅ Словарь '{dictionary_file}' успешно загружен.")
    except Exception as e:
        print(f"❌ ОШИБКА при загрузке словаря: {e}")

# 3. Слова для тестирования
long_word_plural = "Donaudampfschifffahrtsgesellschaftskapitäne"
short_word_plural = "Kapitäne"

# 4. Проводим тесты, если словарь загрузился
if ahocs:
    print("\n" + "="*60)
    print("--- ТЕСТ 1: Длинное слово во множественном числе ---")
    print("="*60)
    
    print(f"Исходное слово: '{long_word_plural}'")
    
    # Вызываем GCS с флагом make_singular=True
    dissection_result = comp_split.dissect(long_word_plural, ahocs, make_singular=True)
    final_components = comp_split.merge_fractions(dissection_result)
    
    print(f"Компоненты от GCS: {final_components}")
    
    last_component = final_components[-1] if final_components else ""
    print(f"Последний компонент: '{last_component}'")
    
    if "ä" in last_component:
        print("✅ РЕЗУЛЬТАТ: Умляут (ä) сохранен.")
    else:
        print("❗️ РЕЗУЛЬТАТ: Умляут (ä) был потерян и заменен на 'a'.")

    print("\n" + "="*60)
    print("--- ТЕСТ 2: Короткое слово 'Kapitäne' (контрольный тест) ---")
    print("="*60)
    
    print(f"Исходное слово: '{short_word_plural}'")
    
    # Вызываем GCS с флагом make_singular=True
    dissection_result_short = comp_split.dissect(short_word_plural, ahocs, make_singular=True)
    final_components_short = comp_split.merge_fractions(dissection_result_short)
    
    reconstructed_singular = "".join(final_components_short)
    
    print(f"Компоненты от GCS: {final_components_short}")
    print(f"Результат сингуляризации: '{reconstructed_singular}'")

    if reconstructed_singular == "Kapitän":
        print("✅ РЕЗУЛЬТАТ: 'Kapitäne' -> 'Kapitän'. Корректно.")
    elif reconstructed_singular == "Kapitan":
        print("❗️ РЕЗУЛЬТАТ: 'Kapitäne' -> 'Kapitan'. Умляут потерян.")
    else:
        print(f"❓ РЕЗУЛЬТАТ: Неожиданный результат - '{reconstructed_singular}'.")

--- ШАГ 1: Загрузка словаря ---
✅ Словарь 'german.dic' успешно загружен.

--- ТЕСТ 1: Длинное слово во множественном числе ---
Исходное слово: 'Donaudampfschifffahrtsgesellschaftskapitäne'
Dissect compound:  Donaudampfschifffahrtsgesellschaftskapitäne
Компоненты от GCS: ['Donau', 'Dampf', 'Schifffahrt', 'Gesellschaft', 'Kapitän']
Последний компонент: 'Kapitän'
✅ РЕЗУЛЬТАТ: Умляут (ä) сохранен.

--- ТЕСТ 2: Короткое слово 'Kapitäne' (контрольный тест) ---
Исходное слово: 'Kapitäne'
Dissect compound:  Kapitäne
Компоненты от GCS: ['Kapitän']
Результат сингуляризации: 'Kapitän'
✅ РЕЗУЛЬТАТ: 'Kapitäne' -> 'Kapitän'. Корректно.


In [2]:
# --- Изолированный тест для проверки лемматизации SpaCy ---

# 1. Импортируем библиотеку
import spacy

print("--- ШАГ 1: Загрузка языковой модели SpaCy ---")

# 2. Загружаем большую модель для немецкого языка.
#    Она дает самые точные результаты.
try:
    nlp = spacy.load("de_core_news_lg")
    print("✅ Модель 'de_core_news_lg' успешно загружена.")
except OSError:
    print("❌ ОШИбка: Модель 'de_core_news_lg' не найдена.")
    print("   Пожалуйста, установите ее, выполнив в терминале (или в ячейке ноутбука с '!'):")
    print("   !python -m spacy download de_core_news_lg")
    # Если модель не установлена, дальнейшее выполнение бессмысленно
    nlp = None

# 3. Проводим тест, только если модель загрузилась
if nlp:
    print("\n--- ШАГ 2: Анализ слова ---")
    
    # Наше слово для проверки
    word_to_test = "Donaudampfschifffahrtsgesellschaftskapitäne"
    
    # Обрабатываем текст с помощью SpaCy
    doc = nlp(word_to_test)
    
    # Так как у нас всего одно слово, получаем первый (и единственный) токен
    token = doc[0]
    
    # Получаем лемму этого токена
    lemma = token.lemma_
    
    print(f"\nИсходное слово: '{token.text}'")
    print(f"Лемма от SpaCy:  '{lemma}'")
    
    print("\n--- ШАГ 3: ВЫВОДЫ ---")
    
    correct_lemma = "Donaudampfschifffahrtsgesellschaftskapitän"
    incorrect_lemma = "Donaudampfschifffahrtsgesellschaftskapitan"
    
    if lemma == correct_lemma:
        print("✅ ВЕРДИКТ: SpaCy отработал корректно и СОХРАНИЛ умляут.")
    elif lemma == incorrect_lemma:
        print("❗️ ВЕРДИКТ: SpaCy ошибся и ПОТЕРЯЛ умляут. Проблема подтверждена.")
    else:
        print(f"❓ ВЕРДИКТ: SpaCy вернул неожиданный результат, который не совпадает ни с одним из ожидаемых.")

--- ШАГ 1: Загрузка языковой модели SpaCy ---
✅ Модель 'de_core_news_lg' успешно загружена.

--- ШАГ 2: Анализ слова ---

Исходное слово: 'Donaudampfschifffahrtsgesellschaftskapitäne'
Лемма от SpaCy:  'Donaudampfschifffahrtsgesellschaftskapitan'

--- ШАГ 3: ВЫВОДЫ ---
❗️ ВЕРДИКТ: SpaCy ошибся и ПОТЕРЯЛ умляут. Проблема подтверждена.


In [9]:
# --- Изолированный тест для проверки лемматизации SpaCy (форма Genitiv) ---

# 1. Импортируем библиотеку
import spacy

print("--- ШАГ 1: Загрузка языковой модели SpaCy ---")

# 2. Загружаем большую модель для немецкого языка.
try:
    nlp = spacy.load("de_core_news_lg")
    print("✅ Модель 'de_core_news_lg' успешно загружена.")
except OSError:
    print("❌ ОШИБКА: Модель 'de_core_news_lg' не найдена.")
    print("   Пожалуйста, установите ее, выполнив в терминале (или в ячейке ноутбука с '!'):")
    print("   !python -m spacy download de_core_news_lg")
    nlp = None

# 3. Проводим тест, только если модель загрузилась
if nlp:
    print("\n--- ШАГ 2: Анализ слова ---")
    
    # Новое слово для проверки (генитив, единственное число)
    word_to_test = "Donaudampfschifffahrtsgesellschaftskapitäns"
    
    # Обрабатываем текст с помощью SpaCy
    doc = nlp(word_to_test)
    token = doc[0]
    
    # Получаем лемму этого токена
    lemma = token.lemma_
    
    print(f"\nИсходное слово: '{token.text}'")
    print(f"Лемма от SpaCy:  '{lemma}'")
    
    print("\n--- ШАГ 3: ВЫВОДЫ ---")
    
    # Ожидаемая правильная лемма (номинатив, единственное число)
    correct_lemma = "Kapitän"
    
    if lemma == correct_lemma:
        print("✅ ВЕРДИКТ: SpaCy отработал корректно и нашел правильную базовую лемму (удалил окончание генитива '-s').")
    elif lemma == word_to_test:
        print("❗️ ВЕРДИКТ: SpaCy не смог найти лемму и вернул исходное слово. Проблема подтверждена.")
    else:
        print(f"❓ ВЕРДИКТ: SpaCy вернул неожиданный результат ('{lemma}'), который не является ни исходным словом, ни правильной леммой.")

--- ШАГ 1: Загрузка языковой модели SpaCy ---
✅ Модель 'de_core_news_lg' успешно загружена.

--- ШАГ 2: Анализ слова ---

Исходное слово: 'Donaudampfschifffahrtsgesellschaftskapitäns'
Лемма от SpaCy:  'Donaudampfschifffahrtsgesellschaftskapitäns'

--- ШАГ 3: ВЫВОДЫ ---
❗️ ВЕРДИКТ: SpaCy не смог найти лемму и вернул исходное слово. Проблема подтверждена.


In [8]:
# --- Изолированный тест для проверки лемматизации SpaCy (форма Genitiv) ---

# 1. Импортируем библиотеку
import spacy

print("--- ШАГ 1: Загрузка языковой модели SpaCy ---")

# 2. Загружаем большую модель для немецкого языка.
try:
    nlp = spacy.load("de_core_news_lg")
    print("✅ Модель 'de_core_news_lg' успешно загружена.")
except OSError:
    print("❌ ОШИБКА: Модель 'de_core_news_lg' не найдена.")
    print("   Пожалуйста, установите ее, выполнив в терминале (или в ячейке ноутбука с '!'):")
    print("   !python -m spacy download de_core_news_lg")
    nlp = None

# 3. Проводим тест, только если модель загрузилась
if nlp:
    print("\n--- ШАГ 2: Анализ слова ---")
    
    # Новое слово для проверки (генитив, единственное число)
    word_to_test = "Kapitäns"
    
    # Обрабатываем текст с помощью SpaCy
    doc = nlp(word_to_test)
    token = doc[0]
    
    # Получаем лемму этого токена
    lemma = token.lemma_
    
    print(f"\nИсходное слово: '{token.text}'")
    print(f"Лемма от SpaCy:  '{lemma}'")
    
    print("\n--- ШАГ 3: ВЫВОДЫ ---")
    
    # Ожидаемая правильная лемма (номинатив, единственное число)
    correct_lemma = "Kapitän"
    
    if lemma == correct_lemma:
        print("✅ ВЕРДИКТ: SpaCy отработал корректно и нашел правильную базовую лемму (удалил окончание генитива '-s').")
    elif lemma == word_to_test:
        print("❗️ ВЕРДИКТ: SpaCy не смог найти лемму и вернул исходное слово. Проблема подтверждена.")
    else:
        print(f"❓ ВЕРДИКТ: SpaCy вернул неожиданный результат ('{lemma}'), который не является ни исходным словом, ни правильной леммой.")

--- ШАГ 1: Загрузка языковой модели SpaCy ---
✅ Модель 'de_core_news_lg' успешно загружена.

--- ШАГ 2: Анализ слова ---

Исходное слово: 'Kapitäns'
Лемма от SpaCy:  'Kapitän'

--- ШАГ 3: ВЫВОДЫ ---
✅ ВЕРДИКТ: SpaCy отработал корректно и нашел правильную базовую лемму (удалил окончание генитива '-s').
