Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Из больших текстов извлекаются не все факты #141

Open
SmirAlex opened this issue May 15, 2021 · 1 comment

Comments

@SmirAlex
Copy link

SmirAlex commented May 15, 2021

Заметил одну очень неприятную особенность. Если одни и те же данные (100%) в одном случае записать в один файл, а в другом случае в несколько файлов, то во втором случае извлекается большее количество фактов, причем значительно. Как будто бы из большого файла просто отсекается кусок определенного размера, а остальное игнорируется. Как подтверждение данной гипотезы, могу сказать, что и время обработки одного большого файла значительно меньше, чем обработка нескольких файлов. Использую параметр Dir="dir_name" в config.proto. Никаких ошибок не выводится. Есть этому какое-то разумное объяснение?

P.S. Я знаю о параметре File="file_name", но у меня ситуация такая, что таких файлов может быть какое-угодно количество, соответственно использую параметр Dir.

@victorbocharov
Copy link
Contributor

Попробуйте изменить параметры конфига MaxFactsCountPerSentence и MaxNamesCount.
Если это не изменит результата, то напишите как воспроизвести проблему.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants