## 1. Ошибки токенизации
Найдите 1 любой способ сломать токенизацию на предложения функцией sentenize из библиотеки razdel. Придумайте (или найдите на каком-то корпусе) такое предложение (или несколько предложений), которое будет некорректно разобрано sentenize, но при этом будет грамматически верным.

Правила в Razdel оптимизированы для аккуратно написанных текстов с правильной пунктуацией. Решение хорошо работает с новостными статьями, художественными текстами. На постах из социальных сетей, расшифровках телефонных разговоров качество ниже.

In [8]:
from razdel import sentenize

# Примеры текстов, которые могут вызвать проблемы с токенизацией
texts = [
    "как ты там?? всё ок, надеюсь...погода супер, кстати!",
    "знаешь, это было вроде в 7 вечера? типа того. ну или в 8, не помню точно...",
    "так что, пойдем завтра? а то вдруг опять что изменится, м?",
    "все говорят, что нужно быть сильным, а я что - не знаю! эмоции важны. точка.",
    "слушай, это было просто невероятно: он пришел и сказал - я ухожу. и всё. никаких объяснений."
]

# Использование sentenize для разделения текстов на предложения
for text in texts:
    sentences = list(sentenize(text))
    print("Текст:", text)
    print("Разделён на предложения:")
    for sentence in sentences:
        print(f" - {sentence.text}")
    print("\n")

Текст: как ты там?? всё ок, надеюсь...погода супер, кстати!
Разделён на предложения:
 - как ты там?? всё ок, надеюсь...погода супер, кстати!


Текст: знаешь, это было вроде в 7 вечера? типа того. ну или в 8, не помню точно...
Разделён на предложения:
 - знаешь, это было вроде в 7 вечера? типа того. ну или в 8, не помню точно...


Текст: так что, пойдем завтра? А то вдруг опять что изменится, м?
Разделён на предложения:
 - так что, пойдем завтра?
 - А то вдруг опять что изменится, м?


Текст: все говорят, что нужно быть сильным, а я что - не знаю! эмоции важны. точка.
Разделён на предложения:
 - все говорят, что нужно быть сильным, а я что - не знаю! эмоции важны. точка.


Текст: слушай, это было просто невероятно: он пришел и сказал - я ухожу. и всё. никаких объяснений.
Разделён на предложения:
 - слушай, это было просто невероятно: он пришел и сказал - я ухожу. и всё. никаких объяснений.




## 2. Токенизация Mystem vs razdel.tokenize
Токенизируйте текст (не менее 10 предложений, можно взять любую статью Вики) с помощью razdel и с помощью Mystem. Найдите различия в токенизациях. Что, по вашему мнению, работает лучше на этом тексте?

In [9]:
from pymystem3 import Mystem
from razdel import tokenize
from pymorphy2 import tokenizers



# Текст для анализа
text = """
Искусственный интеллект (ИИ) — широкая область компьютерных наук, направленная на создание технологий, способных выполнять задачи, требующие человеческого интеллекта. 
Примеры включают распознавание речи, обучение, планирование и решение проблем. 
С момента зарождения термина в 1956 году, ИИ претерпел множество изменений. Некоторые из них привели к революционным открытиям, в то время как другие были переоценены и вызвали "зимы ИИ". 
Сегодня ИИ является неотъемлемой частью многих технологических процессов и продуктов. 
Например, ИИ используется в системах машинного зрения, которые применяются в автомобильной промышленности и видеонаблюдении. 
Также ИИ помогает в анализе больших данных и управлении данными в бизнесе. Исследования в области ИИ продолжаются, и каждый год ученые делают новые открытия. 
ИИ также вносит вклад в развитие медицины, помогая в диагностике и планировании лечения. Ожидается, что в ближайшие годы ИИ будет играть еще более значимую роль в нашей жизни.
"""

# Инициализация Mystem
mystem = Mystem()

mystemResult = mystem.lemmatize(text)
razdelResult = tokenize(text)

print(mystemResult)
print(list(map(lambda it : it.text, list(razdelResult))))

['\n', 'искусственный', ' ', 'интеллект', ' (', 'ия', ') — ', 'широкий', ' ', 'область', ' ', 'компьютерный', ' ', 'наука', ', ', 'направлять', ' ', 'на', ' ', 'создание', ' ', 'технология', ', ', 'способный', ' ', 'выполнять', ' ', 'задача', ', ', 'требовать', ' ', 'человеческий', ' ', 'интеллект', '.', ' \n', 'пример', ' ', 'включать', ' ', 'распознавание', ' ', 'речь', ', ', 'обучение', ', ', 'планирование', ' ', 'и', ' ', 'решение', ' ', 'проблема', '.', ' \n', 'с', ' ', 'момент', ' ', 'зарождение', ' ', 'термин', ' ', 'в', ' ', '1956', ' ', 'год', ', ', 'ия', ' ', 'претерпевать', ' ', 'множество', ' ', 'изменение', '. ', 'некоторые', ' ', 'из', ' ', 'они', ' ', 'приводить', ' ', 'к', ' ', 'революционный', ' ', 'открытие', ', ', 'в', ' ', 'тот', ' ', 'время', ' ', 'как', ' ', 'другой', ' ', 'быть', ' ', 'переоценивать', ' ', 'и', ' ', 'вызывать', ' "', 'зима', ' ', 'ия', '"', '.', ' \n', 'сегодня', ' ', 'ия', ' ', 'являться', ' ', 'неотъемлемый', ' ', 'часть', ' ', 'многий', ' ', '

Если нужна точная токенизация без изменения формы слов, то Razdel будет предпочтительнее.
Если задача стоит в обработке текста на уровне семантики, где важна лемматизация, то Mystem окажется более подходящим выбором.