-
Notifications
You must be signed in to change notification settings - Fork 64
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
При запуске не подгружаются словари в бинарном виде #4
Comments
Добрый день, Сергей,
с этими файлами я пока не придумал, как быть. Они большие, превышают лимит
на размер файлов для репозитория github. Выкладывать из где-нибудь на
гуглодрайве выглядит как-то некрасиво и неудобно, кмк.
Чтобы их сгенерировать, нужен достаточно большой корпус русскоязычных
текстов. У меня это около 10 Гб в utf-8. Для создания я использую gensim -
см. https://gist.github.com/Koziev/e39689adec30ae5bf6afaa1ca47c08e5
…On Thu, Sep 27, 2018 at 10:07 PM Sergey ***@***.***> wrote:
Добрый вечер.
В скриптах имеются активные ссылки на папки с данными, которых нет в
скачиваемом с github архиве. Например,
/home/eek/polygon/w2v/w2v.CBOW=0_WIN=5_DIM=32.txt.
При загрузке возникает также возникает ошибка при поиске двоичных файлов
w2v.CBOW=0_WIN=5_DIM=32.bin.
Из-за этого выполнение программы прерывается и на экран диалога не выходит.
Как можно получить недостающие данные: (а) от Вас? (б) создавая модели
тренировкой? (с) по другому?
С уважением
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#4>, or mute the thread
<https://github.com/notifications/unsubscribe-auth/AFPpVlgvhs7J5DTZmcjRuiR8bBGQvfZRks5ufRP4gaJpZM4W9L0z>
.
|
@Koziev здравствуйте, Большие бинарные файлы лучше не хранить в git-репозитории. Вы можете размещать их в releases. Ограничение только на размер одного файла 2 Гб, но количество файлов и релизов неограниченно: https://help.github.com/en/articles/distributing-large-binaries Это очень удобно для хранения больших бинарных файлов, которые требуются программе, и которые не нуждаются в версионировании. Подробнее можно почитать в документации гитхаба: https://help.github.com/en/articles/creating-releases |
@Koziev а скажите, может быть подойдут готовые уже w2v модели с сайта https://rusvectores.org/ru/models/ ? |
Нет, потому что все языковые модели в чатботе обучены на векторах из файла https://github.com/Koziev/chatbot/blob/master/tmp/w2v.CBOW%3D1_WIN%3D5_DIM%3D64.bin Если использовать другую w2v модель, то чатбот будет просто мусор выдавать в большинстве случаев. |
Добрый вечер.
В скриптах имеются активные ссылки на папки с данными, которых нет в скачиваемом с github архиве. Например, /home/eek/polygon/w2v/w2v.CBOW=0_WIN=5_DIM=32.txt.
При загрузке возникает также возникает ошибка при поиске двоичных файлов w2v.CBOW=0_WIN=5_DIM=32.bin.
Из-за этого выполнение программы прерывается и на экран диалога не выходит.
Как можно получить недостающие данные: (а) от Вас? (б) создавая модели тренировкой? (с) по другому?
С уважением
The text was updated successfully, but these errors were encountered: