- 爬取小说,练练手
- mysql采用pdo类库,来自第三方.https://github.com/indieteq/indieteq-php-my-sql-pdo-database-class
- workerman框架,来自第三方. https://github.com/walkor/Workerman
- DOM解析,来自第三方.http://doc.querylist.cc/
- 对于上方所说的pdo类,在使用过程中,踩了个坑.
- 在用它进行中文的insert的时候,到了数据库中,乱码了.
- 乱码的第一反应是,先用其他的方法替代,就不用它的方法.
- 用其他的方法测试成功之后,我再来找乱码的原因,发现是因为在
Db.class.php
这个而文件中,有一个bind方法,使用了utf8_encode方法,将抓取到的数据,进行了编码导致,这对于英文来讲没什么关系,但对于中文却是致命的.. - 最后,将bind稍加修改,又能再次使用上方所说的pdo类.
- 将第三方pdo的类做小小调整:将
/vendor/indieteq/indieteq-php-my-sql-pdo-database-class/easyCRUD/easyCRUD.class.php
下的私有属性改为protected.(private $db;->protected $db;) - 截止20181102,目前已经将数据的orm改为
laravel
的Illuminate database
,详细使用可以参考官方库的文档示例
- 更新workerman的软件包
composer update workerman/workerman
- 一个单独的进程,会有定时器,定时循环所有小说看他们是否产生最新连载。 20170422
- 一旦有发现一个,则将其尚未爬取的章节加入到“爬取详情页”的任务队列
- 新建一张表,防止每部小说的列表信息,一部小说只有一条 novel_main
- 更换出具库的查询工具 20181102
- 建立好测试目录,引入phpunit 20170423
- 编写测试代码.已成功在本地运行一个测试代码