-
Notifications
You must be signed in to change notification settings - Fork 272
Description
2024 年是 AI 编程工具大爆发的一年,有不少同学都 借助 AI 迈入了编程的大门。不过对于目前最主流的三款 AI 代码编辑器(Cursor、Windsurf 和 GitHub Copilot),不少朋友还在观望,不知道该选哪个。
今天魔法哥就来做一个实战测评,看看它们各自表现如何。(事先说明,每个人对于工具的需求和体感都是不一样的,这三款工具也还在持续更新,因此本文旨在展示测试方法和思路,供大家参考。)
功能概述
这三款 AI 代码编辑器经过不断迭代,功能、界面和使用方法已经逐渐趋同。说是殊途同归也好,说是相互借鉴也罢,总之它们似乎同时摸索到了 “AI 编程” 场景的最佳交互方式。
除了常规的代码补全和智能对话功能以外,它们还提供了 多文件编辑能力。(三者的操作界面对比如下,是不是有异曲同工之妙?)
多文件编辑能力对于编程初学者来说可谓 “神器”。因此在本次实战测试中,我们主要考察的也是这一能力。
实际案例
本文采用魔法哥开源的这款极简的网页版聊天机器人( github.com/cssmagic/simple-chat )作为测试案例。
我们期望为它的配置界面增加一个 “温度 (Temperature)” 参数,以便更精细地调试 LLM 的对话效果。要完整实现这个功能,至少需要考虑到 以下三个层面的修改:
- 界面:增加一个输入框,用于输入参数值。
- 存储:将参数值保存到本地存储。
- 应用:在调用 LLM 时附加这个参数。
接下来,我们将分别尝试这三款 AI 代码编辑器的多文件编辑能力来实现这个需求,观察它们的表现。
第一位选手:Cursor
Cursor 是 2024 年最受关注的 AI 代码编辑器,在这个领域一直是功能创新的先行者,多文件编辑能力也是它的首创。它的多文件编辑能力称作 “Composer”,我们在侧边栏切换到 Composer 标签,通过自然语言对话就可以对当前项目进行修改或添加新功能。
值得一提的是,Cursor 提供了多款模型可供选择。我们在本次测试中选用最强编程模型 claude-3.5-sonnet-20241022
。
为了尽可能模拟编程初学者的使用场景,魔法哥在这里特意使用了 较为含糊的提示词:“在配置弹框里增加一个字段,temperature,取值是数字 0~1”。
同时,我们在对话中 没有指定具体的上下文信息(这里的 “上下文” 是指需要参考和修改的具体文件),完全由 Cursor 自行查找合适的文件。
我们可以看到,Cursor 在第一轮对话中就能够准确地理解需求,并且完成了上述三个层面的修改。满分通过。
第二位选手:Windsurf
Windsurf 是由老牌厂商 Codeium 在 2024 年推出的 AI 代码编辑器,主打 AI Agent 与用户之间的流畅协作体验。它的多文件编辑功能叫做 “Cascade (Write Mode)”。
Windsurf 同样支持多款模型,我们选择 Claude 3.5 Sonnet
进行测试。测试所用的提示词也是相同的,且同样未指定具体上下文。
可以看到,Windsurf 在第一轮对话中修改了弹框组件,完成了 界面 层面的修改。这个结果不能算错,但也不能算完成任务。于是我们追加一轮提示词:“继续实现其它受影响的地方”。
经过这一轮提示,Windsurf 也完成了 存储 和 应用 层面的修改。对于有经验的程序员来说,这样的表现可以接受;而对于原本不会编程的用户来说,则不够完美。
第三位选手:GitHub Copilot
GitHub Copilot 是 AI 编程领域的开创者。虽然受到了 Cursor 等后起之秀的有力挑战,但它仍然是全球最受欢迎的 AI 编程工具之一。它的多文件编辑功能叫做 “Copilot Edit”。
不得不说,GitHub Copilot 的测试过程比较坎坷。在第一次尝试时,直接输入提示词并没有完成任务,它似乎没有获取完整的上下文。于是魔法哥在提示词中加上 #codebase
指令,激活它的上下文自动搜索能力。
第二次尝试仍然没有成功,魔法哥推测是其默认的 GPT-4o 模型在编程场景并不出色,因此切换成与前两位选手相同的 Claude 3.5 Sonnet
,再次尝试。(是的,你没有看错,GitHub Copilot 也支持 OpenAI 之外的模型!)
第三次尝试终于顺利进行,在第一轮对话中完成了 界面 层面的修改,这个表现与 Windsurf 相当。接下来,我们同样追加一轮提示词:
可以看到,GitHub Copilot 在第二轮对话中也补齐了 存储 和 应用 层面的修改,与 Windsurf 打了个平手。
彩蛋:“复活赛”
考虑到大模型的响应存在不确定性,魔法哥决定把代码复原,分别再给 Windsurf 和 GitHub Copilot 一次重新测试的机会,看看它们是否会有改观。
Windsurf 的重测表现:
GitHub Copilot 的重测表现:
可以看到,Windsurf 的表现有所提升,在第一轮对话中完成了 界面 和 存储 层面的修改,并在第二轮对话中完成了 应用 层面的修改。
而 GitHub Copilot 在重测中的表现令人惊喜,一轮对话就完成了所有三个层面的修改。原以为廉颇老矣,没想到它竟能在 “复活赛” 打出一流表现!
小结
在本次实战测评中,Windsurf 和 GitHub Copilot 都能在两轮对话之内完成测试任务,表现尚可。而 Cursor 只需一轮对话就能完美通关,拔得头筹,不愧是 2024 年最火爆的 AI 代码编辑器!
经此一战,Cursor 或许已经俘获了你的芳心,但你同时可能也会顾虑它的丰富功能难以上手。别担心,魔法哥为你挑选了一套零基础 Cursor 视频教程,手把手指导,值得推荐:
扫描海报二维码,还可享受专属折上折。新的一年,轻松点亮编程技能!
📣 AI 魔法群开放啦!
扫码加群,领取魔法哥整理的常用 AI 工具包:
🔥 往期推荐
AI 编程:
AI 应用开发指南:
- LLM 应用开发技巧:如何选择模型? | 如何打磨系统提示词? | 探究 LLM API 的输入和输出
- 扒一扒 OpenAI o1 系列模型:为什么这么强? | 对开发者有何影响?
- 我竟然找到了白嫖 GPT-4o API 的方法!亲测可用,不看血亏!
- Kimi API 还没用起来?请看这篇无门槛快速入门指南
AI 技巧与资讯:
- 买了 ChatGPT 会员却没用过 “代码解释器”?亏了,快看这三个案例
- ChatGPT 定制化进阶:四步成为 AI 对话高手
- 答应我!这个周末啃下微软认证 AI 证书,亮瞎众人
- 慢着,你用 AI 生成的作品,版权归你吗?
© Creative Commons BY-NC-ND 4.0