-
Notifications
You must be signed in to change notification settings - Fork 1.3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
应用场景征集【免费提供优化方案】 #200
Comments
比如我要监听某个网站,但是该网站是需要登录且需要会员身份的,wiseflow 是否可满足需求 |
可以自定义 crawl4ai 的 run config,给 user data |
能登录管理登录账号么,比如我想爬X上一些主题的信息,后续还想自动发帖啥的 |
什么叫管理账号? 理论上,你有权限的操作都可以通过 ai 实现 |
能否限定只爬取当前分类的文章?比如,我给定的网址是: abc.com/game/,该页面主体有10个文章,而侧边栏有其他全站各个分类下的热门文章,现在他都会进行爬取。。甚至跳转到 cde.com网站下爬取。。 |
你用的是 Secondary model是什么? 理论上如果侧边栏跟你的关注点关系不大,它会跳过。如果过滤效果不好,可以尝试将 secondary model换参数量更大的。或者尝试将兴趣点描述的更加具体些,或者增加兴趣点下面的 explanation。 当然,如果你一定希望从代码层面规避此问题,可以自定义 crawl4ai 针对这个站点的 run config, |
这里的兴趣点可以写的很长么?下面的描述是要按照提示词的写法写的很详细么?我的兴趣点以为就简单一个词语,比如 人工智能,然后描述里,写的 关注OpenAI,Gemini等大模型厂商和AI领域的最新资讯。。。 |
兴趣点写关键词也不是不可以,但关键词肯定是比较宽泛的。最好写清楚是什么方面的人工智能,explanation 写限制和进一步描述, 可以参考 readme 中 部署和使用的第五步。 |
我只想搜集某网站最近一周更新的信息、发表的文章新闻等,但是现在好像wiseflow连很久之前的信息也会采集 |
可以在 explanation 中写明,最近一周的信息。 如果效果仍不理想,可以把你的信源站点和关注点发出来,我来看一下 |
Is it possible to automatically browse the blogger’s email address on INSTAGRAM? |
我想采网站上的图片自动标注,这个可以实现吗? |
possible but not planned yet.... |
没什么是不可能的,my child |
能不能做成对话式的,比如说,我现在输入一些提示词,输入完,llm给我一些消息来源,我看看如果不符合自己口味,再次调整需求,输入提示词,直到最终llm输出的信息符合我的期望,从而推理出我到底喜欢什么样的信息 |
另外目前支持推送youtube视频来源吗?支持youtube视频,是不是你们需要借助llm去解析视频的script,然后判断是否符合用户的意图,我觉得如果支持,那就太棒了。 |
根据另一名用户的反馈,我会尝试在用户的关注点填写界面增加一个功能:用户填写好 focus point后,会马上给出对应的几条信息,以便用户评估自己填写的是否是自己真的想要的。 不知道你觉得这个方案如何? |
目前还不支持,youtube 页面需要写专门的解析器 |
readme中的"如何在您自己的程序中使用 wiseflow 抓取出的数据" |
数据都在 pocketbase 里面了,你直接使用 pocketbase 的 api 去拿就好了啊 |
建议添加数据分析&推荐功能 |
@sinianyutian 感谢反馈,你能具体解释下想要的数据分析和推荐功能吗? |
推特、facebook、油管、电报这类的社交平台的内容可以支持抓取吗,即我只提供这些平台的入口地址和关注点,系统自动抓取相关的内容? |
这是0.4.x 规划的功能,但还是需要你输入账号密码的 |
1.监控100个我们竞争对手的网站,搜集新闻、产品,需要把图片视频一起搞下来 |
1~3 已列入规划 对了,你们做什么的,能有100个竞争对手……这生意很艰难吧 |
小红书、抖音、快手、B站...等国内社媒,比如关注某个赛道的信息,这个赛道的最新、最热门话题、产品和博主内容这些的监控 |
4.x版本会提供,但是目前设计的方案是你需要指定要关注的账号,而不是全站爬取的模式 |
感谢大家对 wiseflow 的关注!
wiseflow 目前已经发布 V0.3.7版本,该版本在0.3.5、0.3.6基础上进一步改进提取策略,尤其优化了数据前处理流程,目前在中文页面的通用任务上已经可以实现不错的效果。
现向大家征集实际业务场景,如果您在实际应用中遇到提取效果不佳等问题,欢迎跟帖,我们会给出针对性优化建议(关注点设定方案、prompt 改进方案等),并在后续版本迭代中优先考虑场景的需求!
跟帖格式:
The text was updated successfully, but these errors were encountered: