- PHP Simple HTML DOM Parser vs FriendsOfPHP Goutte
- What Is Goutte?
- PHP Scraping Tutorial - Scrape Reddit With Goutte
- WEB SCRAPING 101 WITH PHP AND GOUTTE
- Scrape the web with Goutte
- [server]:
- [gateway]:(10203) --> 接受外部socket请求
- [task]:(9721) --> 执行任务,内部(gateway、http)调用
- [http]:(9720) --> 接受外部http请求
- [data]:(10200) --> 不同进程(甚至服务器)间的数据共享
- [register]:(10201) --> 执行[gateway]分配的任务,与[gateway]通信
- [client]:
- [http] 接受页面http请求
- [sockio] 接受页面WebSocket(socketio封装过的)请求
- [server]的socket服务模式:
- [client]--(crawl-params)-->[server.gateway]
- [server.gateway]-->[server.register.(
\Spider\Server\Events
)]-->(onMessage)-->(socket_send_task)-->[task] - [task-->onMessage]->[
\Spider\Crawler\Core
]-->(execute)-->[task->onMessage]-->(send_task-->onMessage)-->[server.gateway]-->[client]- (execute-->get_plugin) 加载插件,用于爬取完成之后解析数据
- (execute-->get_page) 爬取网页,完成之后使用加载了的插件解析数据并返回
- [client]->(onMessage)->(save-data-to-db)
- [server]的http服务模式:
- [client]--(crawl-params)-->[server.http]
- [server.http]-->(http_send_task)-->[task]
- [task-->onMessage]->[
\Spider\Crawler\Core
]-->(execute)-->[task->onMessage]-->(http-callback)-->[server.gateway]-->[client]->(save-data-to-db)