You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
По результатам анализа всей базы:
Три txt-файла из 30 тыс. оказались нулевой длины. Проверено вручную, текст выдрался нормально. Кроме того, оказалось, что некоторые pdf файлы не были загружены вообще.
Итого:
добавить в web_crawler.load_resolution_texts() проверки:
скачался ли pdf
если нет, доступен ли сайт ksrf
если скачался, то выдрался ли из него текст в txt
The text was updated successfully, but these errors were encountered:
По результатам анализа всей базы:
Три txt-файла из 30 тыс. оказались нулевой длины. Проверено вручную, текст выдрался нормально. Кроме того, оказалось, что некоторые pdf файлы не были загружены вообще.
Итого:
добавить в web_crawler.load_resolution_texts() проверки:
The text was updated successfully, but these errors were encountered: