Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Выделяемые из текста цепочки слов #142

Open
KotIva opened this issue Jun 10, 2021 · 6 comments
Open

Выделяемые из текста цепочки слов #142

KotIva opened this issue Jun 10, 2021 · 6 comments

Comments

@KotIva
Copy link

KotIva commented Jun 10, 2021

Здравствуйте. Столкнулся с необходимостью рассмотреть 2 предложения разделенные знаком переноса строки как одну. Подскажите пожалуйста, есть ли способ это сделать? Пытался добавить в строку подобную конструкцию : (EOSent), но это не сработало. И если кто знает - можете поподробнее рассказать про этот терминал EOSent, принцип работы и использования?

@victorbocharov
Copy link
Contributor

EOSent нужен для того, чтобы правило срабатывало на конце предложения. Подразумевается, что после EOSent уже ничего не сработает, т.к. дальше токенов в предложении нет.

Приведите пример двух предложений, которые не склеились.

@KotIva
Copy link
Author

KotIva commented Jun 11, 2021

Пример исходного текста
Тот же текст, только уже разобранный в файле PrettyOutput

@victorbocharov
Copy link
Contributor

Конец предложения после аббревиатур - это частотная проблема. Она решается добавлением словаря аббревиатур. См. #46

Двойной перенос строки считается концом предложения. Так было задумано. Если это неудобно, то лучше сделать препроцессинг и убрать двойной перенос строки или даже лишние точки. Длинные предложения, которые получатся после удаления точек, на некоторых грамматиках могут увеличить время работы парсера.

@KotIva
Copy link
Author

KotIva commented Jun 18, 2021

Спасибо за ответ. А есть где-либо расширенная документация по Томите ну или не подскажите где можно найти более тонкие аспекты Томиты, чем те, которые описаны в официальной документации ?

@victorbocharov
Copy link
Contributor

Нет, тайной внутренней документации нет. Большинство типовых вопросов есть в тикетах. Остальное - в коде. Если не находите ответа на свой вопрос, то открывайте новый тикет.

@KotIva
Copy link
Author

KotIva commented Jun 18, 2021

Понял. Спасибо.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants