Skip to content

igorbggg/SourcingBot

Repository files navigation

rss_to_mongodb_service

Rss loader for GoodNews service

Описание

Набор утилит для сбора и обогащения данных для сервиса новостей:

  • rss_loader.py - производит сбор новостей с rss лент, указанных в файле "settings/sources.list"
  • enricher.py - производит обогащение новостей в базе различными данными

Тестирование

Для запуска тестов в PyCharm необходимо создать конфигурацию запуска. Для этого:

  1. В верхнем правом углу нажать кнопку с выбором конфигурации, далее "Edit Configurations..."
  2. В появившемся окне нажать плюсик в верхнем левом углу и выбрать pytest
  3. В появившемся окне заполнить поле "Target" указав путь к тесту; а также в случае необходимости определить переменные среды в поле "Environment Variables"

Запуск

Перед запуском каждого модуля необходимо проверить:

  • в папке settings расположены файлы sources.list и urls_filter.list источник лент rss и перечень источников для которых производить анализ на перепечатку
  • в папке tokens расположен файл mongodb.token содержащий строку подключения к базе вида mongodb://пользователь:пароль@адрес:порт
  • в папке tokens расположен файл textru.tokenn содержащий строку API-key для сервиса Text.ru
  • заданы переменные среды:
    TEXTRU_USERKEY - userkey для сервиса text.ru, в противном случае данные буду приняты из файла "tokens/textru.token"

Подразумевается, что сервисы будут запускаться планово с помощью Cron, для чего необходимо добавить в поанировщик следующие записи:

*/30 * * * * bash /*путь к файлу сценария запуска*

В настоящий момент опрос текущих rss леньт занимает от 2 до 4 минут, учитывая частоту обновления лент, разумным интервалом считается опрос раз в 30 минут.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published