Skip to content

zhangyuqiang/NovelSpider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

88 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NovelSpider

  • 爬取小说,练练手

类库

  • 对于上方所说的pdo类,在使用过程中,踩了个坑.
  • 在用它进行中文的insert的时候,到了数据库中,乱码了.
  • 乱码的第一反应是,先用其他的方法替代,就不用它的方法.
  • 用其他的方法测试成功之后,我再来找乱码的原因,发现是因为在Db.class.php这个而文件中,有一个bind方法,使用了utf8_encode方法,将抓取到的数据,进行了编码导致,这对于英文来讲没什么关系,但对于中文却是致命的..
  • 最后,将bind稍加修改,又能再次使用上方所说的pdo类.

安装(install)

  • 将第三方pdo的类做小小调整:将 /vendor/indieteq/indieteq-php-my-sql-pdo-database-class/easyCRUD/easyCRUD.class.php下的私有属性改为protected.(private $db;->protected $db;)
  • 截止20181102,目前已经将数据的orm改为 laravelIlluminate database,详细使用可以参考官方库的文档示例

一些注意事项

  • 更新workerman的软件包 composer update workerman/workerman

关于爬取小说的一些思路

列表爬虫思路:

  • 一个单独的进程,会有定时器,定时循环所有小说看他们是否产生最新连载。 20170422
  • 一旦有发现一个,则将其尚未爬取的章节加入到“爬取详情页”的任务队列

小说主表

  • 新建一张表,防止每部小说的列表信息,一部小说只有一条 novel_main

测试代码

  • 更换出具库的查询工具 20181102
  • 建立好测试目录,引入phpunit 20170423
  • 编写测试代码.已成功在本地运行一个测试代码

About

抓取自己喜欢的网络小说

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • PHP 100.0%