Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

应用场景征集【免费提供优化方案】 #200

Open
bigbrother666sh opened this issue Jan 18, 2025 · 28 comments
Open

应用场景征集【免费提供优化方案】 #200

bigbrother666sh opened this issue Jan 18, 2025 · 28 comments

Comments

@bigbrother666sh
Copy link
Member

感谢大家对 wiseflow 的关注!

wiseflow 目前已经发布 V0.3.7版本,该版本在0.3.5、0.3.6基础上进一步改进提取策略,尤其优化了数据前处理流程,目前在中文页面的通用任务上已经可以实现不错的效果。

现向大家征集实际业务场景,如果您在实际应用中遇到提取效果不佳等问题,欢迎跟帖,我们会给出针对性优化建议(关注点设定方案、prompt 改进方案等),并在后续版本迭代中优先考虑场景的需求!

跟帖格式:

信源站点:(网址或者微信公众号名称),如果您需要从社交平台获取信息,请提供社交平台名称和关注的账号举例(比如微博上的张皓涵官微)
关注点:(请详细描述您关注什么方面的信息,包括相关的限定,比如 xxx 日之前的信息,或者 xxx 金额以上的招标等)
@bigbrother666sh bigbrother666sh pinned this issue Jan 18, 2025
@TeamWiseFlow TeamWiseFlow deleted a comment from guozanhua Jan 20, 2025
@grassmu
Copy link

grassmu commented Jan 23, 2025

比如我要监听某个网站,但是该网站是需要登录且需要会员身份的,wiseflow 是否可满足需求

@bigbrother666sh
Copy link
Member Author

比如我要监听某个网站,但是该网站是需要登录且需要会员身份的,wiseflow 是否可满足需求

可以自定义 crawl4ai 的 run config,给 user data

@leo03qq
Copy link

leo03qq commented Jan 24, 2025

能登录管理登录账号么,比如我想爬X上一些主题的信息,后续还想自动发帖啥的

@bigbrother666sh
Copy link
Member Author

能登录管理登录账号么,比如我想爬X上一些主题的信息,后续还想自动发帖啥的

什么叫管理账号?

理论上,你有权限的操作都可以通过 ai 实现

@imfeisir
Copy link

能否限定只爬取当前分类的文章?比如,我给定的网址是: abc.com/game/,该页面主体有10个文章,而侧边栏有其他全站各个分类下的热门文章,现在他都会进行爬取。。甚至跳转到 cde.com网站下爬取。。
能否设置只爬取下一级URL的内容?这个问题导致我消耗了大量Token~

@bigbrother666sh
Copy link
Member Author

你用的是 Secondary model是什么? 理论上如果侧边栏跟你的关注点关系不大,它会跳过。如果过滤效果不好,可以尝试将 secondary model换参数量更大的。或者尝试将兴趣点描述的更加具体些,或者增加兴趣点下面的 explanation。

当然,如果你一定希望从代码层面规避此问题,可以自定义 crawl4ai 针对这个站点的 run config,

@imfeisir
Copy link

你用的是 Secondary model是什么? 理论上如果侧边栏跟你的关注点关系不大,它会跳过。如果过滤效果不好,可以尝试将 secondary model换参数量更大的。或者尝试将兴趣点描述的更加具体些,或者增加兴趣点下面的 explanation。

当然,如果你一定希望从代码层面规避此问题,可以自定义 crawl4ai 针对这个站点的 run config,

这里的兴趣点可以写的很长么?下面的描述是要按照提示词的写法写的很详细么?我的兴趣点以为就简单一个词语,比如 人工智能,然后描述里,写的 关注OpenAI,Gemini等大模型厂商和AI领域的最新资讯。。。

@bigbrother666sh
Copy link
Member Author

兴趣点写关键词也不是不可以,但关键词肯定是比较宽泛的。最好写清楚是什么方面的人工智能,explanation 写限制和进一步描述,

可以参考 readme 中 部署和使用的第五步。

@tonyzhu2021
Copy link

我只想搜集某网站最近一周更新的信息、发表的文章新闻等,但是现在好像wiseflow连很久之前的信息也会采集

@bigbrother666sh
Copy link
Member Author

我只想搜集某网站最近一周更新的信息、发表的文章新闻等,但是现在好像wiseflow连很久之前的信息也会采集

可以在 explanation 中写明,最近一周的信息。

如果效果仍不理想,可以把你的信源站点和关注点发出来,我来看一下

@wave5fight
Copy link

Is it possible to automatically browse the blogger’s email address on INSTAGRAM?

@tonyzhu2021
Copy link

我想采网站上的图片自动标注,这个可以实现吗?

@bigbrother666sh
Copy link
Member Author

Is it possible to automatically browse the blogger’s email address on INSTAGRAM?

possible but not planned yet....
is it a very common need?

@bigbrother666sh
Copy link
Member Author

我想采网站上的图片自动标注,这个可以实现吗?

没什么是不可能的,my child
tell more about your situation pls

@qtencent7
Copy link

能不能做成对话式的,比如说,我现在输入一些提示词,输入完,llm给我一些消息来源,我看看如果不符合自己口味,再次调整需求,输入提示词,直到最终llm输出的信息符合我的期望,从而推理出我到底喜欢什么样的信息

@qtencent7
Copy link

另外目前支持推送youtube视频来源吗?支持youtube视频,是不是你们需要借助llm去解析视频的script,然后判断是否符合用户的意图,我觉得如果支持,那就太棒了。

@bigbrother666sh
Copy link
Member Author

能不能做成对话式的,比如说,我现在输入一些提示词,输入完,llm给我一些消息来源,我看看如果不符合自己口味,再次调整需求,输入提示词,直到最终llm输出的信息符合我的期望,从而推理出我到底喜欢什么样的信息

根据另一名用户的反馈,我会尝试在用户的关注点填写界面增加一个功能:用户填写好 focus point后,会马上给出对应的几条信息,以便用户评估自己填写的是否是自己真的想要的。

不知道你觉得这个方案如何?

@bigbrother666sh
Copy link
Member Author

另外目前支持推送youtube视频来源吗?支持youtube视频,是不是你们需要借助llm去解析视频的script,然后判断是否符合用户的意图,我觉得如果支持,那就太棒了。

目前还不支持,youtube 页面需要写专门的解析器

@dassdwfqwr
Copy link

readme中的"如何在您自己的程序中使用 wiseflow 抓取出的数据"
我花了一天去尝试,但是无法得到抓取的数据。在pocketbase里面可以看到数据。
在B站看别人的上传教程,是在docker里面部署的0.301以前的老版本。我现在不知道如何进行下去。
你能给我一些指导吗?
谢谢

@bigbrother666sh
Copy link
Member Author

数据都在 pocketbase 里面了,你直接使用 pocketbase 的 api 去拿就好了啊
可以查阅下 pocketbase 的 docs

@sinianyutian
Copy link

建议添加数据分析&推荐功能

@bigbrother666sh
Copy link
Member Author

@sinianyutian 感谢反馈,你能具体解释下想要的数据分析和推荐功能吗?
这将对我们很有启发

@qingyun1949
Copy link

推特、facebook、油管、电报这类的社交平台的内容可以支持抓取吗,即我只提供这些平台的入口地址和关注点,系统自动抓取相关的内容?

@bigbrother666sh
Copy link
Member Author

推特、facebook、油管、电报这类的社交平台的内容可以支持抓取吗,即我只提供这些平台的入口地址和关注点,系统自动抓取相关的内容?

这是0.4.x 规划的功能,但还是需要你输入账号密码的

@yinzhaotun
Copy link

yinzhaotun commented Mar 17, 2025

1.监控100个我们竞争对手的网站,搜集新闻、产品,需要把图片视频一起搞下来
2.取回的数据需要Markdown格式存储,对接我们的RAG智能体。
3.监控我们竞争对手的公众号,海外的YouTube账号,Twitter账号,把和竞争对手互动的用户昵称和有效内容下载(废话和表情不要)。
4.如果有可能,在对手的社交账号,帮我们赞美对手的产品,同事提及一下我们的一个产品型号也不错哦。

@bigbrother666sh
Copy link
Member Author

1~3 已列入规划

对了,你们做什么的,能有100个竞争对手……这生意很艰难吧

@leeandrew-cell
Copy link

小红书、抖音、快手、B站...等国内社媒,比如关注某个赛道的信息,这个赛道的最新、最热门话题、产品和博主内容这些的监控

@bigbrother666sh
Copy link
Member Author

小红书、抖音、快手、B站...等国内社媒,比如关注某个赛道的信息,这个赛道的最新、最热门话题、产品和博主内容这些的监控

4.x版本会提供,但是目前设计的方案是你需要指定要关注的账号,而不是全站爬取的模式

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests