Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

bug? #3

Open
riddle911 opened this issue Mar 12, 2018 · 17 comments
Open

bug? #3

riddle911 opened this issue Mar 12, 2018 · 17 comments

Comments

@riddle911
Copy link

老哥我最近可能集中用你的产品....提issue较多,勿怪哈。
这里专门提bug类的吧....

1、以下这个网站貌似会访问空白,
http://www.fjym.gov.cn/xxgk/ywjs/

@speed
Copy link
Owner

speed commented Mar 12, 2018

@riddle911
当页面无法选择到元素时都可以去掉 CSS式样试试,还不行就得加载javascript。
像上面你提的网址去掉css就可以了

@riddle911
Copy link
Author

嗯...成功了
刚又发现,删除feeds貌似不起作用?

@speed
Copy link
Owner

speed commented Mar 12, 2018

@riddle911 嗯,无法删除是bug,马上更新一个版本,上午提的那两点也改好了

@riddle911
Copy link
Author

好好 谢谢老哥 我多给圈子里站长安利~

@speed
Copy link
Owner

speed commented Mar 13, 2018

@riddle911 感谢啊!
这两天解决了一些bug ,发布了新版本也迁移了服务器,现在可以使用中国的爬虫了,
你可以在 爬虫集群选china vps 试试,国内网站用china vps 应该会好很多

@riddle911
Copy link
Author

嗯...还有点没好意思跟你提哈。
刚刚又看到,所有的feed的item全显示为0了,然后点预览进去也都是空白。我重新config里一遍,貌似有的起作用有的没起作用...不知道是哪里的锅。

@speed
Copy link
Owner

speed commented Mar 13, 2018

迁移服务器旧数据没迁,以为�rss 阅读取会存储,旧数据又太大就没管了,怪我太懒了

@riddle911
Copy link
Author

我又来了 老哥。
你这次更新是不是对title进行调整了,我这里都不到title字段。具体是这样:

{
        "entry": {
            "title": "ERROR: title is missing",
            "link": {
                "href": "",
                "rel": "alternate"
            },
            "id": "ERROR: id is missing",
            "summary": {
                "type": "html",

@speed
Copy link
Owner

speed commented Mar 14, 2018

嗯,发现了这个问题在修复中,迁移后问题 确实比较多

@riddle911
Copy link
Author

emmm 好像不是全部出错,部分能读title 部分返回null

@speed
Copy link
Owner

speed commented Mar 14, 2018

是的,会尽快修复的,有问题尽管提啊!这个项目我会努力做完善的

@riddle911
Copy link
Author

riddle911 commented Mar 15, 2018

疑似bug,我这看到,某些网址昨天5下午五点抓了一次内容,然后半夜2点又重复抓了一次。
意思是,同一条内容重复了。不过影响不大,手动删了2、3条。

@speed
Copy link
Owner

speed commented Mar 15, 2018

在重新抓取所有FEED ,顺便做压测,数据过滤可能没做好

@speed
Copy link
Owner

speed commented Mar 15, 2018

方便把有重复数据的FEED发我看看吗?

@riddle911
Copy link
Author

http://www.feeddiy.com/rss/V7zYjm
好像是这条,你看看。应该没啥问题了,过今天了再看看有没有重复拉取的~

@riddle911
Copy link
Author

嗯 继续提下 2条
1、Fetch URL 'http://www.hnslym.com.cn/viewCmsCac.do?cacId=4aef1404247a5d6f01247b19286a0009' exception, log:java.lang.reflect.UndeclaredThrowableException 抛这个错误,这几天用的时候出现过几次,偶尔,不知道是不是和我网络有关。
2、feeddiy.com你的主域名会跳到建站首页OneinStack ...要不加个跳转,或者弄个静态页展示产品?

@speed
Copy link
Owner

speed commented Mar 16, 2018

国外的爬虫访问不了这个网站,所以需要你切换spider集群 到china vps,这个网站还需要javascript 支持

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants