Skip to content

Простая библиотека для получения HTML по URL и извлечения базовой информации

Notifications You must be signed in to change notification settings

Tokimikichika/html-parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tokimikichika Html Parser

Простая библиотека для получения HTML по URL и извлечения базовой информации.

Установка

Если используешь как отдельный пакет:

composer require tokimikichika/html-parser

Если используешь в монорепозитории как path-репозиторий, добавь в composer.json:

{
  "repositories": [
    { "type": "path", "url": "../../html-parser" }
  ],
  "require": {
    "tokimikichika/html-parser": "*"
  }
}

Затем:

composer update

Использование

Простое использование

use Tokimikichika\HtmlParser\HtmlParser;

$parser = new HtmlParser();
$html = $parser->fetch('https://example.com');
$title = $parser->getTitle($html);
$links = $parser->getLinks($html);

Обработка ошибок сети

use Tokimikichika\HtmlParser\HtmlParser;
use RuntimeException;

$parser = new HtmlParser();

try {
    $html = $parser->fetch('https://invalid-host');
} catch (RuntimeException $e) {
}

Архитектура

  • HtmlParser — основной класс:
    • fetch(string $url) — получает HTML по URL с таймаутом и валидацией
    • getTitle(string $html) — извлекает <title>
    • getLinks(string $html) — извлекает значения href из ссылок

Возможности

  • Получение HTML с кастомным User-Agent и таймаутом
  • Извлечение заголовка страницы
  • Извлечение ссылок (href) из документа
  • Минимальные зависимости

Тестирование

composer install
composer test

Лицензия

MIT

About

Простая библиотека для получения HTML по URL и извлечения базовой информации

Resources

Stars

Watchers

Forks

Packages

No packages published

Languages