Full text RSS feeds proxy
PHP
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
libs
screenshot
.gitignore
LICENSE
README.md
config.php
favicon.ico
fullrss-mysql.sql
fullrss-sqlite.sql
index.php

README.md

Full text RSS feeds proxy

Универсальный персональный сервис получения полнотекстовых RSS лент.

Админка доступна по скрытой ссылке http://URL/?admin - пароль по умолчанию 666666.

Добавление ленты

Используемые метода получения полного текста статьи:

  • Readability - работает на 98% сайтов автоматически извлекая текст, но обычно оставляет после себя кучу мусора в коде. Установлен по умолчанию, никаких настроек не требует.
  • Simple HTML DOM Parser - для настройки поиска используется синтаксис его метода find(). К сожалению падает на парсинге некоторых страниц...
  • Ganon - DOM парсер аналогичный предыдущему, более толерантный к html коду, но менее гибкий поиск.
  • DomXPath - Встроенный в PHP DOM класс, любит валидный html код, для поиска используется XPath запрос query.
  • RegEx - простой поиск по регулярному выражению. Используется PHP функция mb_ereg_search_regs(), синтаксис регулярного выражения аналогичный описанию этой функции, разделители ставить не надо. Возвращаются все найденные значения.

Фильтры используются для чистки полученого текста. Может быть указана просто подстрока которую надо удалить или же (при наличии разделителей /.../) - регулярное выражение. Фильтры указываются построчно и могут комбинироватся в любом порядке. Особенно полезны для чистки кода после Readability.

В случаи если в извлеченном коде ссылки на картинки относительные, можно указать строку с хостом, которая будет использована как префикс для всех найденных img src.

Для библиотек Simple HTML DOM Parser и Ganon необходимо отключить mbstring.func_overload в php.ini