# Поиск минимальной длины префикса для уникальности строк:


### Даны $(n)$ строк $ (S_1, S_2, ..., S_n)$. Требуется найти минимальное значение $(k)$, такое что префиксы длины $(k)$ этих строк являются попарно различными. Если такого $(k)$ не существует, необходимо вернуть $(-1)$.

# Описание алгоритма

Чтобы найти минимальное значение $k$, удовлетворяющее условию задачи, используем бинарный поиск по возможным значениям $k$:

1. **Диапазон значений для $k$:** от 1 до максимальной длины слова в списке

2. **Бинарный поиск:**

   - Инициализируем левую границу `left = 1` и правую границу `right = максимальная длина строки`.
   - Пока `left <= right`, выполняем:
     - Вычисляем среднее значение `mid = (left + right) // 2`.
     - Проверяем, являются ли префиксы длины `mid` в функции `all_prefixes_unique(mid)`.
     - Если префиксы уникальны:
       - Обновляем ответ `output = mid`.
       - Сдвигаем правую границу `right = mid - 1`, чтобы поискать меньшее значение $k$.
     - Иначе:
       - Сдвигаем левую границу `left = mid + 1`, чтобы поискать большее значение $k$.

3. **Проверка уникальности префиксов:**

   - Функция `all_prefixes_unique(k)` проверяет, являются ли префиксы длины $k$ всех строк попарно различными.
   - Для этого:
     - Создаем пустое *множество* `seen`.
     - Проходим по каждой строке в списке:
       - Извлекаем префикс длины $k$.
       - Если префикс уже есть в множестве `seen`, возвращаем `False`.
       - Иначе добавляем префикс в *множество* `seen`.
     - Если после проверки всех строк повторений не найдено, возвращаем `True`.


# Доказательство 

**`all_prefixes_unique(k)`:** функция проверяет каждую пару строк на совпадение их префиксов длины $k$. Поскольку `seen` это сет, то мы можем гарантировать, что каждый добавленный префикс уникален. Если при добавлении префикса обнаруживается его присутствие в `seen`, значит, есть повторение, и функция возвращает `False`.

**Корректность бинарного поиска:** бинарный поиск эффективно находит минимальное значение $k$, при котором префиксы уникальны $\implies$ для всех больших значений $k$ префиксы также будут уникальны или останутся неизменными (если $k$ превышает длину всех строк). Но если для некоторого значения $k$ префиксы не уникальны, то для всех меньших значений $k$ префиксы также не будут уникальными $\implies$ мы гарантированно находим минимальное подходящее значение $k$ или определяем, что его не существует.

# Оценка асимптотической сложности
Пусть:
- $n$ — количество строк.
- $L$ — максимальная длина строки (суммарная длина всех строк не превышает 200, поэтому $L \leq 200$).

**`all_prefixes_unique(k)`:** проходит по всем $n$ строкам $\implies$ для каждой строки достает префикс длины $k$ — операция $O(k)$ $\implies$ проверка и добавление в множество `seen` — $O(1)$ в среднем, так как множества в Python реализованы на основе хеш-таблиц. **Итого: $O(n \cdot k)$.**

**Бинарный поиск:** число итераций бинарного поиска — $O(\log L)$ $\implies$ на каждой итерации вызывается функция `all_prefixes_unique(k)`

**Общая сложность алгоритма =** $O(n \cdot k \cdot \log L)$.



$k \leq L$ $\implies$ $O(n \cdot L \cdot \log L)$.


In [28]:
def min_prefix_length(strings):
    def all_prefixes_unique(k):
        '''
        Функция уникальности префикса длины k. 
        Мы проходимся по префиксам длины k для каждого слова из инпута и кладем их в сет, если это уникальное значение.
        Таким образом, если хотя бы два префикса повторяются -- значит, эта длины префикса нам не подходит
        '''
        seen = set() #dict
        for s in strings:
            prefix = s[:k]  
            if prefix in seen:  # здесь можно сделать отдельное хэширование строки, чтобы хэш любого префикса получать за O(1), но для наших лимитов это кажется overkill?
                return False
            seen.add(prefix)
        return True
    output = -1
    if strings:
        left, right = 1, max(len(s) for s in strings)      # границы бинпоиска
        
        while left <= right:
            mid = (left + right) // 2
            if all_prefixes_unique(mid):
                output = mid  
                right = mid - 1  
            else:
                left = mid + 1  

    return output

# Tests

In [None]:
test_cases = [
(['apple', 'banana', 'cherry'], 1),
(['test', 'test', 'test'], -1),
(['abc', 'abcd', 'abcde'], 5),
(['abc', 'abcd', 'ab'], 4),
(['a' * 200] + ['b' * 200], 1),
(['a1b2', 'a1b3', 'a1b4'], 4),
(['a', 'b', 'c'], 1),
(['aaaa', 'aaab', 'aaac'], 4),
([], -1),
(['aaa', 'aaa', 'aaa'], -1),
(['abc', 'def', 'ghi'], 1),
(['abab', 'ababab', 'abababab'], 7),
(['abXde', 'abYde', 'abZde'], 3),
(['aXc', 'aYc', 'aZc'], 2),
(['abcd', 'abc', 'ab'], 4),
([f'a{chr(i)}' for i in range(97, 97 + 26)], 2),
(['aaaa', 'aaaaa', 'aaaaaa'], 6),
(['123', '124', '125'], 3),
(['prefix_suffix1', 'prefix_suffix2', 'prefix_suffix3'], 14),
(['abcde1', 'abcde2', 'abcde3'], 6),
(['short', 'shorter', 'shortest'], 7),
(['aaaaa', 'aaaaab', 'aaaaac'], 6),
(['a1', 'a2', 'b1', 'b2'], 2),
([('a' * 100) + '1', ('a' * 100) + '2'], 101),
]




In [39]:
def run_tests():
    for i, (strings, expected) in enumerate(test_cases):
        result = min_prefix_length(strings)
        assert result == expected, f"Тест {i+1} не пройден: ожидалось {expected}, получено {result}"
        print(f"Тест {i+1} пройден.")

run_tests()


Тест 1 пройден.
Тест 2 пройден.
Тест 3 пройден.
Тест 4 пройден.
Тест 5 пройден.
Тест 6 пройден.
Тест 7 пройден.
Тест 8 пройден.
Тест 9 пройден.
Тест 10 пройден.
Тест 11 пройден.
Тест 12 пройден.
Тест 13 пройден.
Тест 14 пройден.
Тест 15 пройден.
Тест 16 пройден.
Тест 17 пройден.
Тест 18 пройден.
Тест 19 пройден.
Тест 20 пройден.
Тест 21 пройден.
Тест 22 пройден.
Тест 23 пройден.
Тест 24 пройден.
Тест 25 пройден.
