Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Нулевые файлы в краулере #28

Closed
Rexarrior opened this issue Oct 8, 2018 · 1 comment
Closed

Нулевые файлы в краулере #28

Rexarrior opened this issue Oct 8, 2018 · 1 comment
Labels
type/bug Something isn't working

Comments

@Rexarrior
Copy link
Collaborator

Rexarrior commented Oct 8, 2018

По результатам анализа всей базы:
Три txt-файла из 30 тыс. оказались нулевой длины. Проверено вручную, текст выдрался нормально. Кроме того, оказалось, что некоторые pdf файлы не были загружены вообще.

Итого:
добавить в web_crawler.load_resolution_texts() проверки:

  1. скачался ли pdf
  2. если нет, доступен ли сайт ksrf
  3. если скачался, то выдрался ли из него текст в txt
@Rexarrior Rexarrior added type/bug Something isn't working type/task Formalizing definition of something that should be realized labels Oct 8, 2018
@Rexarrior Rexarrior added this to To do in Анализ текстов via automation Oct 8, 2018
@Rexarrior Rexarrior removed the type/task Formalizing definition of something that should be realized label Oct 8, 2018
@navolotsky
Copy link
Member

Закрыто в связи с переносом компоненты web_crawler в другой репозиторий. Ссылка на issue

Анализ текстов automation moved this from To do to Done Oct 22, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
type/bug Something isn't working
Development

No branches or pull requests

2 participants