PHP Web Crawler

This library is a php web crawler which takes collection of URLs and DOM selects to crawl through the webpages and executing customized analyzers on each page.

Installation

Install this library using composer :

composer require mehrabx/web-crawler

Usage

In current version use xpath expressions to select element

//set list of URLs and selects DOM elements of each URL page
$urls = [
    'https://test.exp/?page=1' => ["//img[@class='type1']","//a[@class='type1']"],
    'https://test.exp/?page=2' => ["//img[@class='type2'"],
    'https://test.exp/?page=3' => "//img[@class='type3']",
];

//return array of results
return \Crawler\Facades\CrawlFacade::make($urls)->start() ;

options

sleep

To avoid being blocked by the target url you can set sleep time between crawling each url :

$urls = [
    'https://test.exp/?page=1' => ["//img[@class='type1']","//a[@class='type1']"],
    'https://test.exp/?page=2' => ["//img[@class='type2'"],
];

//set 5 seconds sleep time 
return \Crawler\Facades\CrawlFacade::make($urls)->sleep(10)->start() ;

defualt select

You can set default select. URLs that have no selects can use it :

$urls = [
    'https://test.exp/?page=1', //this url has not select
    'https://test.exp/?page=2' => ["//img[@class='type2'"],
];

return \Crawler\Facades\CrawlFacade::make($urls)
                                    ->defaultSelect("//img[@class='type1']")
                                    ->start() ;

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
resources/imgs		resources/imgs
src		src
tests		tests
.gitignore		.gitignore
.gitkeep		.gitkeep
.phpunit.result.cache		.phpunit.result.cache
README.md		README.md
composer.json		composer.json
composer.lock		composer.lock
phpunit.xml		phpunit.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

resources/imgs

resources/imgs

src

src

tests

tests

.gitignore

.gitignore

.gitkeep

.gitkeep

.phpunit.result.cache

.phpunit.result.cache

README.md

README.md

composer.json

composer.json

composer.lock

composer.lock

phpunit.xml

phpunit.xml

Repository files navigation

PHP Web Crawler

Installation

Usage

options

sleep

defualt select

About

Releases

Packages

Languages

mehrabx/php-crawler

Folders and files

Latest commit

History

Repository files navigation

PHP Web Crawler

Installation

Usage

options

sleep

defualt select

About

Resources

Stars

Watchers

Forks

Languages