Простая библиотека для получения HTML по URL и извлечения базовой информации.
Если используешь как отдельный пакет:
composer require tokimikichika/html-parser
Если используешь в монорепозитории как path-репозиторий, добавь в composer.json:
{
"repositories": [
{ "type": "path", "url": "../../html-parser" }
],
"require": {
"tokimikichika/html-parser": "*"
}
}
Затем:
composer update
use Tokimikichika\HtmlParser\HtmlParser;
$parser = new HtmlParser();
$html = $parser->fetch('https://example.com');
$title = $parser->getTitle($html);
$links = $parser->getLinks($html);
use Tokimikichika\HtmlParser\HtmlParser;
use RuntimeException;
$parser = new HtmlParser();
try {
$html = $parser->fetch('https://invalid-host');
} catch (RuntimeException $e) {
}
HtmlParser
— основной класс:fetch(string $url)
— получает HTML по URL с таймаутом и валидациейgetTitle(string $html)
— извлекает<title>
getLinks(string $html)
— извлекает значенияhref
из ссылок
- Получение HTML с кастомным User-Agent и таймаутом
- Извлечение заголовка страницы
- Извлечение ссылок (
href
) из документа - Минимальные зависимости
composer install
composer test
MIT