Rss loader for GoodNews service
Набор утилит для сбора и обогащения данных для сервиса новостей:
- rss_loader.py - производит сбор новостей с rss лент, указанных в файле "settings/sources.list"
- enricher.py - производит обогащение новостей в базе различными данными
Для запуска тестов в PyCharm необходимо создать конфигурацию запуска. Для этого:
- В верхнем правом углу нажать кнопку с выбором конфигурации, далее "Edit Configurations..."
- В появившемся окне нажать плюсик в верхнем левом углу и выбрать
pytest
- В появившемся окне заполнить поле "Target" указав путь к тесту; а также в случае необходимости определить переменные среды в поле "Environment Variables"
Перед запуском каждого модуля необходимо проверить:
- в папке
settings
расположены файлыsources.list
иurls_filter.list
источник лент rss и перечень источников для которых производить анализ на перепечатку - в папке
tokens
расположен файлmongodb.token
содержащий строку подключения к базе видаmongodb://пользователь:пароль@адрес:порт
- в папке
tokens
расположен файлtextru.tokenn
содержащий строку API-key для сервиса Text.ru - заданы переменные среды:
TEXTRU_USERKEY
- userkey для сервиса text.ru, в противном случае данные буду приняты из файла "tokens/textru.token"
Подразумевается, что сервисы будут запускаться планово с помощью Cron, для чего необходимо добавить в поанировщик следующие записи:
*/30 * * * * bash /*путь к файлу сценария запуска*
В настоящий момент опрос текущих rss леньт занимает от 2 до 4 минут, учитывая частоту обновления лент, разумным интервалом считается опрос раз в 30 минут.