GitHub - limafang/agent-arxiv-daily: 🎓Automatically Update agent Papers Daily using Github Actions (Update Every 12th hours)

Updated on 2024.10.05

Usage instructions: here

Table of Contents

agent
llm

agent

Publish Date	Title	Authors	PDF	Code	abstract
2024-10-03	Grounding Large Language Models In Embodied Environment With Imperfect World Models	Haolan Liu et.al.	2410.02742	null	尽管大型语言模型（LLM）在各种应用中取得了广泛的成功，但在处理基本物理推理或执行机器人任务时，它们往往会出现问题，这主要是因为它们缺乏对现实世界物理细节的直接经验。为了应对这些问题，我们提出了一种名为Grounding Large language model with Imperfect world MOdel (GLIMO)的方法，该方法利用代理世界模型（如模拟器）来收集和合成训练数据。GLIMO结合了基于代理模型的LLM数据生成器，用于自动创建高质量且多样化的指令数据集。生成器包括一个用于时间一致性体验采样的迭代自我精炼模块、一系列多样的问题解答指令种子以及一个反思前经验的检索增强生成模块。全面的实验表明，我们的方法能够显著提升强大的开源LLM，如LLaMA-3，在三个不同基准测试中的性能分别提高了2.04倍、1.54倍和1.82倍。这种性能提升使其能够与或超越其更大的同辈，如GPT-4。
2024-10-03	Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents	Hanrong Zhang et.al.	2410.02644	link	为了填补现有文献在全面评估基于大型语言模型（LLM）的代理攻击与防御策略方面的空白，我们引入了“代理安全框架”（Agent Security Benchmark, ASB）。这是一个综合性的框架，旨在正式化、基准化并评价LLM代理的安全性。ASB覆盖了10种场景（如电子商务、自动驾驶、金融）、10个针对这些场景的代理、400多种工具、23种不同的攻击与防御方法，以及8种评估指标。基于ASB，我们对10种注入式攻击（如命令注入、SQL注入等）、一个内存污染攻击、一种新颖的思维路径后门攻击、一个混合攻击以及相应的10种防御措施进行了基准测试，涉及13个LLM架构，总共进行了近9万次测试案例。我们的基准结果显示，代理操作的不同阶段存在关键漏洞，包括系统提示、用户提示处理、工具使用和记忆检索，最高平均攻击成功率达到了84.30%，但当前的防御手段有效性有限，揭示了社区在代理安全领域有待进行的重要工作。我们已将代码开源在GitHub上：https://github.com/agiresearch/ASB。
2024-10-03	ColaCare: Enhancing Electronic Health Record Modeling through Large Language Model-Driven Multi-Agent Collaboration	Zixiang Wang et.al.	2410.02551	null	我们引入了ColaCare框架，它通过大型语言模型（LLM）驱动的多代理协作，提升了电子健康记录（EHR）建模。我们的方法巧妙地整合了领域特定的专业模型与LLM，以弥合结构化EHR数据与文本推理之间的鸿沟。受临床咨询启发，ColaCare采用了两种类型的代理：DoctorAgent和MetaAgent，它们共同分析患者数据。专业模型处理并生成基于数值EHR数据的预测，而LLM代理则在协作咨询框架内产生推理参考和决策报告。此外，我们还在检索增强生成（RAG）模块中集成了默克诊断与治疗手册（MSD），提供权威证据支持。在四个不同EHR数据集上进行的大量实验表明，ColaCare在死亡率预测任务中的表现更优，彰显了其在临床决策支持系统和个性化精准医疗领域的潜力。有关代码、完整提示模板、更多案例研究等的详细信息，请访问匿名链接：https://colacare.netlify.app。
2024-10-03	ELLMA-T: an Embodied LLM-agent for Supporting English Language Learning in Social VR	Mengxu Pan et.al.	2410.02406	null	许多人在学习新语言时遇到困难，传统的工具在提供针对每个学习者需求的上下文化学习方面存在不足。大型语言模型（LLM）和在社交虚拟现实（VR）中的具身对话代理（ECAs）的最近发展提供了通过提供考虑学习者的语言水平和需求的上下文化和自然化方式来实践语言学习的新机会。为了探索这个可能性，我们开发了ELLMA-T，一个利用LLM（GPT-4）和基于情境的学习框架支持在VR（VRChat）中学习英语语言的ECA。根据定性访谈（N=12），我们揭示了ELLMA-T在VR中通过角色扮演为代理人与学习者互动生成真实、可信且上下文特定交互的潜力，以及LLM在提供初始语言评估和持续反馈给学习者的能力。我们提供了五条设计启示，用于未来开发基于LLM的语言代理在社交VR中的发展方向。
2024-10-03	A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization	Yucheng Chu et.al.	2410.02165	null	本文提出了一种统一的多代理自动短答案评分框架GradeOpt。该框架利用大型语言模型（LLMs）作为评分工具，对开放式简答题进行自动评分。GradeOpt还引入了两个基于LLM的额外代理——反思者和细化者，将它们整合进多代理系统中。这使得GradeOpt能够通过对其错误进行自我反思来自动优化原始评分指南。在一项具有挑战性的自动评分任务中，即对教学内容知识（PCK）和学科知识（CK）问题进行评分时，GradeOpt表现出与人类评分者一致的行为以及更高的评分准确性。最后，全面的消融实验验证了GradeOpt设计中各个组件的有效性。
2024-10-02	Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics	Yuan Zhou et.al.	2410.02026	null	在医疗健康领域，大型语言模型（LLMs）取得了显著进展。然而，一个关键的缺口在于LLMs在特定临床实践领域的专业性不足，这限制了它们在实际诊断中的应用。为此，我们提出了一种名为ZODIAC的框架，旨在利用LLM技术，使其在心脏病学诊断中具备心脏科医生级别的专业性。ZODIAC通过辅助心脏病学家从患者数据中提取临床相关特征、检测重要的心律失常并生成初步报告供心脏病学家审查和改进，以协助其工作。为了达到心脏科医生级别的专业性，ZODIAC基于多代理协作框架构建，能够跨多种模态处理患者数据。每个LLM代理均通过使用由心脏病学家裁定的真实世界患者数据进行微调，以此增强模型的专业性。ZODIAC经过严格的临床验证，由独立的心脏病学家评估，涵盖八个衡量临床有效性和解决安全问题的指标。结果显示，ZODIAC在性能上超越了行业领先的模型，包括OpenAI的GPT-4、Meta的Llama-3.1-405B、Google的Gemini-pro，以及专注于医疗领域的LLM如Microsoft的BioGPT。这一成果展示了特化LLM在医疗保健领域实现领域特定解决方案的潜力，满足了医疗实践的严格要求。值得注意的是，ZODIAC已被成功集成到心电图（ECG）设备中，体现了将LLM嵌入软件作为医疗设备（SaMD）的日益增长趋势。
2024-10-02	Moral Alignment for LLM Agents	Elizaveta Tennant et.al.	2410.01639	null	基于预训练大型语言模型（LLM）的决策代理正在各个人类活动领域得到越来越多的应用。尽管它们当前的应用相对专门化，但已有研究努力开发更为通用的代理。随着基于LLM系统的智能增强，它们对人类活动的影响将会增加，并且透明度会降低。因此，开发有效的方法来使这些系统与人类价值观保持一致至关重要。目前，一致性实践通常依赖于人类偏好的数据（例如在RLHF或DPO中），其中价值观隐含存在，本质上是从不同模型输出的相对偏好中推导出来的。与此相反，本工作提出了一种设计奖励函数的方法，这些函数明确编码了核心的人类价值观，用于强化学习（RL）中基础代理模型的微调。具体而言，我们使用内在奖励来对LLM代理进行道德对齐。我们通过传统的哲学框架——义务论伦理和功利主义来评估我们的方法，量化代理在囚徒困境（IPD）环境中的道德奖励，以此来衡量行动及其后果的道德价值。我们还展示了如何部署道德微调以使代理能够撤销先前开发的自私策略。最后，我们发现某些在IPD游戏中学习到的道德策略能够泛化到其他矩阵游戏环境中。总之，我们证明了使用内在奖励进行微调是将LLM代理与人类价值观保持一致的一种有前景的通用解决方案，并且可能代表了目前主导的一致性技术更为透明和成本效益更高的替代方案。
2024-10-03	RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance	Haolin Jin et.al.	2410.01242	null	大型语言模型（LLMs）在代码生成任务中展现了巨大的潜力，并且近期的提示工程研究进一步提升了LLMs对文本信息的理解能力。然而，确保生成代码的准确性通常需要程序员进行大量测试和验证。尽管LLMs能够基于任务描述生成代码，但它们的准确度仍然有限，尤其是对于需要深入理解问题陈述和代码生成过程的复杂任务。这一局限性主要是由于LLMs在同时理解文本并生成语法和语义上正确的代码时存在挑战，而没有自动优化代码的能力。在实际软件开发中，程序员很少能在仅凭任务描述就一次性生成完美的代码，他们依赖于迭代反馈和调试来不断优化程序。受此过程启发，我们提出了一种基于LLM的新型代码生成与自动调试架构：改进与指导调试（RGD）。RGD框架是一种多LLM基元的代码调试器，利用了指导代理、调试代理和反馈代理三个不同的LLM代理。RGD将代码生成任务分解为多个步骤，确保了清晰的工作流程，并允许根据自我反思和反馈进行迭代代码优化。实验结果表明，RGD在代码生成能力方面表现出色，相较于最先进的方法和传统的直接提示方法，在HumanEval数据集上实现了9.8%的性能提升，在MBPP数据集上实现了16.2%的性能提升。我们强调了RGD框架在增强LLMs自主生成和优化代码能力方面的有效性。
2024-10-01	Dynamic Planning for LLM-based Graphical User Interface Automation	Shaoqing Zhang et.al.	2410.00467	link	大型语言模型（LLM）的兴起激发了对自主LLM基元代理的进一步研究，特别是在智能手机图形用户界面（GUI）中的引人入胜应用。当面对任务目标时，这些代理通常在GUI环境中模仿人类操作直至任务完成。然而，在设计指导GUI任务中行动预测的有效计划方面存在关键挑战，尽管规划已被广泛认为是分解复杂任务为一系列步骤的有效方法。特别是，鉴于环境GUI在执行动作后动态变化的特性，动态适应基于环境反馈和动作历史的计划变得至关重要。我们展示了广为使用的ReAct方法在长历史对话的情况下失败的原因。为了解决这一挑战，我们提出了一种名为动态思维规划（D-PoT）的新方法，用于基于LLM的GUI代理。D-PoT涉及根据环境反馈和执行历史动态调整规划的过程。实验结果表明，提出的D-PoT方法在准确性上显著超越了强大的GPT-4V基线，提高了12.7%（从34.66%提高到47.36%）。分析揭示了动态规划在不同主干LLM中的普遍性及其在缓解幻觉和适应未见任务方面的优势。相关代码已发布在https://github.com/sqzhang-lazy/D-PoT。
2024-09-30	MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants	Zeyu Zhang et.al.	2409.20163	link	本文提出了一种名为MemSim的贝叶斯模拟器，旨在从生成的用户消息自动构建可靠的问题与答案（Q&A），同时保持其多样性和可扩展性。具体地，我们引入了贝叶斯关系网络（BRNet）和因果生成机制，以减轻大型语言模型（LLM）在事实信息上的幻觉影响，从而促进评价数据集的自动化创建。基于MemSim，我们在日常生活中生成了一个名为MemDaily的数据集，并进行了广泛实验来评估方法的有效性。我们也提供了一个基准，用于使用MemDaily数据集评估LLM基智能代理的不同记忆机制。为了惠及研究社区，我们已在https://github.com/nuster1128/MemSim上公开了我们的项目。
2024-10-01	TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation	Zhiqiang Yuan et.al.	2409.19894	null	本文提出了一种名为TRANSAGENT的新型基于大型语言模型（LLM）的多代理系统，以增强基于LLM的代码翻译过程，并通过四个基于LLM的代理协同工作修复语法错误和语义错误。这四个代理分别是初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT的核心洞察是首先根据目标程序与源程序之间的执行对齐定位目标程序中的错误代码块，这种方法可以缩小修复范围并降低修复难度。为了评估TRANSAGENT，我们首先从最近的编程任务构建了一个新的基准，以减轻潜在的数据泄露问题。在我们的基准上，TRANSAGENT在翻译效果和效率方面都优于最新的LLM基代码翻译技术UniTrans；此外，在不同LLM上的评估显示了TRANSAGENT的一般性，并且我们的消融研究揭示了每个代理的贡献。
2024-09-26	From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection	Xinlei Wang et.al.	2409.17515	null	本文提出了一种新颖的方法，旨在通过大型语言模型（LLMs）和生成代理来增强时间序列预测。以语言作为媒介，我们的方法适应性地将各种社会事件整合进预测模型中，将新闻内容与时间序列波动对齐，从而提供丰富洞察。具体而言，我们利用基于语言模型的代理进行迭代筛选，去除无关新闻，并采用类似人类的推理和反思来评估预测结果。这使得我们的模型能够分析复杂事件，如意外事件和社会行为转变，并不断优化选择逻辑以及代理输出的稳健性。通过结合精选新闻和时间序列数据，我们对预训练的LLaMa2模型进行微调。结果显示，在准确性方面有显著提升，这表明通过有效利用非结构化新闻数据，可能在时间序列预测领域实现范式转变。
2024-09-25	AAPM: Large Language Model Agent-based Asset Pricing Models	Junyan Cheng et.al.	2409.17266	link	本文提出了一种新型的资产定价方法——基于LLM代理的资产定价模型（AAPM）。该方法将LLM代理的定性主观投资分析与定量手动金融经济因素融合，以预测超额资产回报。实验结果表明，我们的方法在组合优化和资产定价误差方面均优于基于机器学习的资产定价基准。具体而言，异常资产组合的夏普比率和平均α值分别提高了9.6%和10.8%。此外，我们还对模型进行了广泛的消融研究，并对数据进行了深入分析，以揭示提出方法的更多见解。
2024-09-25	Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents	Junting Lu et.al.	2409.17140	null	在多模态大型语言模型（MLLMs）的帮助下，语言模型驱动的代理可以直接与应用用户界面（UI）进行交互，从而在复杂任务中提升代理性能。然而，这些代理常常因为涉及大量顺序UI交互而导致高延迟和低可靠性。为了应对这一问题，我们提出了AXIS，一个新颖的基于语言模型的代理框架，通过应用程序接口（APIs）优先于UI动作来优化代理行为。此外，该框架还通过自动化探索应用以创建和扩展API，促进了API的生成和应用范围的扩展。我们的实验在Word办公软件上显示，与人类相比，AXIS在完成任务的时间上减少了65%-70%，认知负荷降低了38%-53%，同时保持了97%-98%的准确性。我们的工作为人类-代理-计算机交互（HACI）框架和应用提供者在LLMs时代设计新UI原则提供了贡献，并探讨了将每一个应用转化为代理的可能性，为迈向以代理为中心的操作系统（Agent OS）铺平了道路。
2024-09-24	MultiTalk: Introspective and Extrospective Dialogue for Human-Environment-LLM Alignment	Venkata Naren Devarakonda et.al.	2409.16455	null	本文提出了一种名为MultiTalk的基于大语言模型（LLM）的任务规划方法。通过引入内省和外省对话循环框架，该方法旨在解决LLM在任务规划中可能遇到的问题，如幻觉、用户指令中的歧义、环境约束以及执行代理能力的局限性。这些问题可能导致生成的计划出现错误或不完整。 MultiTalk方法通过特定系统来提取和预测与任务相关的状态，并标记出人、LLM代理和环境之间的不匹配或偏差。有效的反馈路径促进人与LLM之间的有意义对话。这种方法在机器人操作任务的应用中得到了验证。实验和消融分析展示了MultiTalk方法的稳健性和可靠性，与基线方法的比较进一步证明了其在实体代理任务规划方面的优势。总之，MultiTalk提供了一种通过增强LLM与环境、执行者和用户之间的一致性和沟通来改进任务规划过程的方法，从而提高规划的有效性和效率。
2024-09-23	Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality	Yiwen Xu et.al.	2409.15623	null	本文介绍了一种名为Safe Guard的LLM代理，用于检测社交VR（VRChat）中的语音交互中的仇恨言论。我们的系统利用了Open AI GPT和音频特征提取技术，实现了实时语音交互的检测功能。我们贡献了一个系统设计以及对该系统的评估，这些都证明了我们方法在检测仇恨言论方面的有效性，并且相比现有方法显著降低了误报率。我们的结果表明基于LLM的代理在创建更安全的虚拟环境方面具有潜力，并为进一步发展基于LLM的管理方法奠定了基础。
2024-09-20	ControlMath: Controllable Data Generation Promotes Math Generalist Models	Nuo Chen et.al.	2409.15376	null	利用大型语言模型（LLM）进行数据增强在数学推理方面取得了令人鼓舞的结果。然而，这些方法在问题多样性方面存在限制，可能仅局限于特定领域的数据生成。为此，我们提出了一种名为ControlMath的迭代方法，该方法包含一个方程式生成模块和两个基于LLM的代理。该模块产生多样化的方程，问题创造者代理随后将其转化为数学文字问题。逆向代理则筛选并选择高质量的数据，遵循“少即是多”的原则，使用更少的数据点就能实现更好的结果。这种方法能够生成多样化的数学问题，不受特定领域或分布的限制。因此，我们收集了ControlMathQA数据集，包含19万个数学文字问题。广泛的实验结果证明，将我们的数据集与GSM8K等内部领域数据集结合，可以帮助提高模型在数学推理方面的泛化能力，从而在特定领域内以及超出特定领域时都能取得更好的性能。
2024-09-25	Towards a Realistic Long-Term Benchmark for Open-Web Research Agents	Peter Mühlbacher et.al.	2409.14913	null	我们提出了一项即将推出的基准测试，用于评估大型语言模型（LLM）代理在经济价值高的白领任务上的表现。我们对金融和咨询领域常规进行的、现实世界中的“杂乱”开放网络研究任务进行了评估。这样做，我们为建立一个LLM代理评估套件奠定了基础，在该套件中，良好的性能直接对应着巨大的经济和社会影响。我们构建并测试了多个代理架构，包括o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1（405b）以及GPT-4o-mini。平均而言，使用Claude-3.5 Sonnet和o1-preview的LLM代理在性能上明显优于使用GPT-4o的代理，而基于Llama 3.1（405b）和GPT-4o-mini的代理则落后很多。在所有LLM中，具有委托子任务给子代理能力的ReAct架构表现最佳。除了定量评估之外，我们还通过检查代理的追踪记录和反思它们的观察结果，对代理的能力进行了定性评估。我们的评估代表了首次深入评估代理在真实开放网络上执行具有挑战性的、经济上有价值的分析师式研究的能力。
2024-09-23	Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents	Zechang Sun et.al.	2409.14807	null	本文展示了大型语言模型为基础的智能体如何加速天文学研究流程，通过模仿人类推理来解释多波段星系观测数据。我们提出了mephisto框架，它能够与CIGALE代码库协作，后者包含了用于解释观测数据的光谱能量分布（SED）模型。在开放世界环境中，mephisto通过自我游戏经验学习、执行树搜索并积累动态更新的知识基础。作为概念验证，我们将mephisto应用于詹姆斯韦伯太空望远镜的最新数据集。结果表明，mephisto在推理星系物理场景方面达到了接近人类的专业水平，甚至在处理新发现的“小红点”星系时也是如此。这是智能体进行天文学研究的首次展示，朝着通过大型语言模型代理实现端到端研究的方向迈进，可能有助于加快天文发现的速度。
2024-09-22	Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks	Ruoyu Song et.al.	2409.14488	null	随着大型语言模型（LLM）与自动驾驶（AD）系统集成的日益增长的兴趣，AD系统面临着攻击其对象检测与追踪（ODT）功能的风险。我们的评估表明，针对四个近期提出的LLM代理的ODT攻击成功率达到63.26%，导致它们崩溃或违反交通规则，原因在于误导性记忆模块提供的过往经验、提示在识别不一致性方面的局限性以及对地面实况感知数据的依赖。为此，我们提出了一种名为Hudson的驾驶推理代理，它扩展了先前基于LLM的驾驶系统，旨在在感知攻击期间实现更安全的决策制定，同时在正常条件下保持有效性。 Hudson通过首先对AD软件进行仪器化收集实时感知结果和驾驶场景的上下文信息来实现这一目标。这些数据随后被转化为领域特定语言（DSL）。为了引导LLM在ODT攻击期间检测并做出安全控制决策，Hudson将DSL转换为自然语言，并附带一组自定义的攻击检测指令。执行查询后，Hudson分析LLM的控制决策以理解其因果推理过程。我们使用私有LLM（GPT-4）、两个开源LLM（Llama和Gemma）和各种对抗性驾驶情景对Hudson的有效性进行了评估。GPT-4、Llama和Gemma在平均情况下实现了83.3%、63.6%和73.6%的攻击检测准确率。因此，在86.4%、73.9%和80%的攻击中，它们做出了安全控制决策。随着将LLM集成到AD系统中的兴趣增长，我们的结果强调了LLM的优势及其在检测和缓解ODT攻击方面的潜力。
2024-09-20	Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection	Md Nakhla Rafi et.al.	2409.13642	null	在软件开发过程中，定位和修复软件故障是一个耗时且资源密集型的任务。传统的故障定位方法，如基于频谱的故障定位（SBFL），依赖于测试覆盖率数据的统计分析，但往往准确性较低。基于学习的技术虽然更有效，但需要大量的训练数据，并且计算成本高昂。最近，大型语言模型（LLMs）的进步为改善故障定位提供了有前景的方法，通过增强代码理解和推理来提升性能。然而，这些LLM基线技术仍然面临挑战，包括令牌限制、长输入性能下降以及处理涉及多个相互作用组件的复杂系统时的困难。为了解决这些问题，我们提出了一种名为LLM4FL的创新性LLM代理基线故障定位方法，它结合了SBFL排名与分而治之策略。通过将大规模覆盖数据分解为可管理的组，并利用多个LLM代理通过提示链式调用，LLM4FL有效地导航代码库并定位故障。该方法还整合了自我反思和链式思考推理，使代理能够迭代生成修复并重新排名可疑方法。我们使用Defects4J（V2.0.0）基准进行评估，其中包括来自14个开源Java项目的675个真实世界故障。结果显示，LLM4FL在Top-1准确率上比AutoFL高出19.27%，并且优于最先进的监督技术，如DeepFL和Grace，所有这些都无需特定任务的培训。此外，我们强调了覆盖拆分和提示链对故障定位性能的影响，并展示了不同的方法排序可以提高Top-1准确率高达22%。
2024-09-23	AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit	Mohanna Hoveyda et.al.	2409.13447	null	在问答（QA）领域，不同的问题可能需要不同的回答策略来有效解决。一些问题可以通过简单的查找来解决，而另一些则需要复杂的、多步骤的推理。这一观察结果激发了开发一种动态方法，该方法能够为每个问题适当地选择最合适的QA策略，从而构建更高效、更有效的系统，能够处理更广泛类型的问题。为了实现这一目标，我们基于多个大型语言模型（LLMs）的集成最新进展，并将适应性QA定义为一个动态编排挑战。我们将此视为一个上下文多臂老虎机问题，其中上下文由进入问题的特性定义，而动作空间包括潜在的LLM代理之间的通信图配置。然后，我们训练了一个线性上界信心边界模型，以学习不同问题类型与其对应的最佳多LLM通信图表示之间的最优映射。我们的实验表明，提出的解决方案适用于适应性的LLM集成问答系统的编排，它结合了更复杂策略的优越性能，同时避免了在简单策略足以的情况下使用这些策略的成本。
2024-09-24	Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models	Hao Ding et.al.	2409.13107	null	本文提出了一种基于数字孪生的机器感知方法，旨在利用近期视觉基础模型的令人信服的表现和开箱即用的泛化能力。该方法通过结合数字孪生的场景表示和大型语言模型（LLM）代理进行规划，与dVRK平台集成，从而开发出一个具有强大任务性能和在不同环境设置下通用性的实体智能系统。在执行穿针移位和纱布检索任务时，我们的方法显示出强大的任务性能和通用性。尽管表现出令人信服的表现，但本文的工作仅仅是对基于数字孪生的场景表示集成的第一步。为了实现全面的数字孪生框架以改善手术领域实体智能的可解释性和通用性，未来的研究是必要的。
2024-09-17	LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents	Amine B. Hassouna et.al.	2409.11393	null	本文通过提出一个统一框架——LLM-Agent-UMF（基于语言模型的代理统一建模框架），解决了集成工具到语言模型（LLM）驱动的代理以及在多个前沿工作中提出的改进措施所导致的软件架构非统一性问题。传统上，这些技术的结合及后续工作侧重于功能实现而非定义组件边界，导致了研究人员之间的术语和架构上的混淆。该框架明确了代理的不同组件，包括LLM、工具以及新引入的核心代理概念，其作用是代理的中央协调者，由规划、记忆、个人资料、行动和安全五个模块组成。核心代理的内部结构差异促使我们将其分类为被动型和主动型两种类型。基于此分类，我们提出了结合不同个体代理独特特性的多种多核心代理架构。为了验证框架的有效性，我们将该框架应用于一系列前沿代理，并展示其与功能的一致性，同时澄清了先前被忽视的架构方面。此外，我们对四个提出的架构进行了详尽评估，通过整合具有不同特性的代理到混合主动/被动核心代理系统中，这一过程提供了对特定代理组合可能带来的改进和面临的挑战的清晰见解。
2024-09-17	Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments	Maria Rigaki et.al.	2409.11276	null	本篇论文探讨了在网络安全环境中使用本地微调的大型语言模型（LLM）作为红队代理的可能性。考虑到商业云基LLM的隐私问题、成本和网络连接限制，我们提出了Hackphyr——一个本地微调的70亿参数模型，旨在用于网络安全环境中的红队任务。我们的模型能够在单个GPU卡上运行，并且在性能上与更大更强大的商业模型如GPT-4相媲美。 Hackphyr在复杂、前所未见的场景中显著优于其他模型，包括GPT-3.5-turbo以及Q-learning代理等基线模型。为了实现这一性能提升，我们构建了一个专门针对网络安全任务的新数据集，以增强基础模型的能力。最后，我们对代理行为进行了全面分析，提供了关于此类基于LLM的代理在网络安全上下文中的规划能力和潜在局限性的见解，从而为更广泛地理解此类代理在网络安全领域的应用提供了参考。
2024-09-14	On the limits of agency in agent-based models	Ayush Chopra et.al.	2409.10568	link	本文介绍了一种名为AgentTorch的框架，旨在通过使用大型语言模型（LLMs）作为具有适应性行为的代理，将基于个体的模型（ABM）扩展到数百万个代理的规模。这一框架旨在在模拟复杂系统的行为时，既捕捉到真实环境动态和适应性代理行为，又保持对庞大人口群体高效模拟的能力。大型语言模型的最新进展为增强ABM提供了机会，但使用LLMs进行大规模代理的计算可行性限制了其广泛应用。我们通过实验评估了使用LLMs作为ABM代理的实用性，探索了模拟规模与单个代理行为细节之间的权衡。以COVID-19大流行为例，我们展示了AgentTorch如何模拟840万个代表纽约市的代理，以捕捉隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式方法和LLMs的不同代理架构在预测疾病浪潮和失业率方面的性能。此外，我们展示了AgentTorch在回顾性、假设性和前瞻性分析中的能力，强调了适应性代理行为如何帮助克服历史数据在政策设计中的局限性。AgentTorch是一个开源项目，目前正被全球用于政策制定和科学发现。该框架可在此获取：github.com/AgentTorch/AgentTorch。
2024-09-19	Instigating Cooperation among LLM Agents Using Adaptive Information Modulation	Qiliang Chen et.al.	2409.10372	null	本文提出了一种新颖的框架，将大型语言模型（LLM）代理作为人类战略行为的代理，并结合强化学习（RL）让这些代理在团队环境中进行不断演化的战略互动。我们的方法扩展了传统的基于代理的模拟，通过使用策略性大型语言模型（SLA）以及引入动态和适应性的治理，通过促进社会行为的强化学习代理（PPA），该代理调节网络中代理之间的信息访问，以优化社会福利并促进亲社会行为。通过在迭代游戏中验证，包括囚徒困境，我们展示了SLA代理表现出复杂的战略调整。PPA代理有效地学习调整信息透明度，导致合作率显著提高。这一框架提供了对人工智能驱动的社会动力学的重要见解，为在实际团队环境中部署AI做出了贡献。
2024-09-17	Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition	Chao-Han Huck Yang et.al.	2409.09785	null	在近期生成式人工智能技术的推动下，大型语言模型（LLMs）如何增强基于文本解码的自动语音识别（ASR）模型在声学建模任务中的应用成为了一个关键问题。为了探索语言建模在语音处理领域的潜在新能力，本文提出了一项名为“生成性语音转录错误修正”（GenSEC）的挑战。该挑战包含了三个针对后ASR语言模型的任务：（i）后ASR转录修正、（ii）说话者标签化以及（iii）情感识别。这些任务旨在模拟未来基于语言模型的语音界面代理处理工作时的场景，并通过使用开源预训练语言模型或基于代理的API来保持对广泛受众的可访问性。此外，本文还讨论了基准评估的结果以及设计未来评估时应汲取的经验教训。
2024-09-15	RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation	Qingyao Li et.al.	2409.09584	null	本文针对LLM（大型语言模型）代理与树搜索算法在代码生成任务中的应用进行了深入研究。当前的搜索算法在这一领域存在低搜索质量的问题，主要源于以下三个原因：1）对代码生成任务高推理要求的搜索空间设计不合理；2）未能充分结合代码反馈优化搜索过程；3）处理负反馈时效率低下，导致搜索质量和效率降低。为解决这些问题，我们提出了一种新的方法——RethinkMCTS（反思蒙特卡洛树搜索）。该方法通过在生成代码之前进行多层次的思考搜索，探索更广泛的策略选项。更重要的是，RethinkMCTS利用细粒度的代码执行反馈构建口头反馈，以修正搜索过程中出现的错误思路。这种机制确保了搜索沿着正确的推理路径前进，从而提高整个搜索树的整体质量。实验结果表明，与之前的基于搜索和反馈的代码生成基准相比，RethinkMCTS取得了显著的性能提升。在HumanEval数据集上，RethinkMCTS将GPT-3.5-turbo的pass@1指标从70.12提高到了89.02，将GPT-4o-mini的pass@1指标从87.20提升至94.51。通过深入的探索和改进整个搜索树的质量，RethinkMCTS有效地增强了搜索过程的全面性和深度。
2024-09-14	Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models	Yuanzhao Zhai et.al.	2409.09345	null	本文提出了一种利用任务相关Q值模型来指导行动选择的方法，以增强大型语言模型（LLM）代理在多步决策任务中的性能。具体地，我们首先通过蒙特卡洛树搜索（MCTS）收集了标注有步骤级Q值的决策轨迹，并构建了偏好数据集。接着，我们使用另一个LLM通过步骤级直接策略优化（DPO）拟合这些偏好，从而形成Q值模型。在推理过程中，对于每个决策步骤，LLM代理都会选择具有最高Q值的动作，然后再与环境进行交互。我们将该方法应用于多个开源和API集成的LLM代理上，结果显示，引入Q值模型显著提高了它们的性能。特别值得注意的是，构建于Phi-3-mini-4k-instruct的代理在WebShop任务上的性能提升了103%，在HotPotQA任务上提升了75%，甚至超越了GPT-4o-mini。此外，Q值模型还具备几个优势，如对不同LLM代理的泛化能力和与现有提示策略无缝集成的能力。
2024-09-14	Python Symbolic Execution with LLM-powered Code Generation	Wenhan Wang et.al.	2409.09271	null	本文提出了一种利用大型语言模型（LLM）增强的代理工具——LLM-Sym。该工具旨在解决使用符号执行技术在动态类型语言如Python中遇到的主要挑战。通过自动调用SMT求解器Z3来解决执行路径约束，LLM-Sym能够扩展基础的符号执行引擎，使其支持包含复杂数据类型`list`的程序。 LLM-Sym的核心贡献在于将复杂的Python路径约束转化为Z3代码的能力。为了实现准确的路径到Z3代码的转换，我们设计了一个多步骤的代码生成管道，包括类型推断、检索和自我精炼等环节。实验结果表明，LLM-Sym能够解决具有复杂控制流和列表数据结构的LeetCode问题中的路径约束，这是基础符号执行引擎无法做到的。这一方法为LLM与符号求解器推理能力的结合开辟了道路，并为LLM辅助测试用例生成提供了新的机遇。
2024-09-23	Agents in Software Engineering: Survey, Landscape, and Vision	Yanlin Wang et.al.	2409.09030	link	近年来，大型语言模型（LLMs）在各种下游任务中取得了显著成功，并在软件工程（SE）领域广泛应用。我们发现许多结合LLMs与SE的研究工作明确或隐含地采用了代理概念。然而，缺乏对现有工作的深度综述，以整理其发展背景、分析如何结合LLMs代理技术优化各类任务以及阐明SE中的LLMs代理框架。本文开展首次针对结合LLMs代理与SE的研究综述，并提出SE中LLMs代理的框架，包括感知、记忆和行动三个关键模块。同时，总结了两个领域结合时面临的问题，并针对现有挑战提出了未来机遇。我们维护了一个包含相关论文的GitHub仓库：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
2024-09-13	AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents	Zhe Su et.al.	2409.09013	null	为了安全和成功地部署，语言模型（LLMs）必须同时满足真实性和实用性目标。然而，这两个目标往往在冲突中，例如AI助手帮助二手车销售员销售有瑕疵的汽车。这种冲突部分归因于模糊或误导性的用户指令。我们提出了一种名为AI-LieDar的框架，以研究在多轮交互设置中，基于LLM的代理如何处理实用性和真实性的冲突。我们设计了一系列现实场景，其中语言代理被指示实现与多轮对话中的真实性冲突的目标。为了大规模评估真实性，我们开发了一个基于心理学文献的可信度检测器，用于评估代理的回答。我们的实验表明，所有模型的真实回答比例不到50%，尽管达到目标（实用性）和真实性的比例在不同模型中有所差异。我们进一步测试了LLM的可引导性，发现模型会遵循恶意指令来欺骗，即使经过引导使其趋向真实的模型也仍然可能说谎。这些发现揭示了LLM中真实性的复杂性，并强调了确保LLM和AI代理的安全可靠部署需要进一步研究的重要性。
2024-09-13	Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance	Lucio La Cava et.al.	2409.08963	null	确保内容遵守社区准则对于维护健康的在线社交环境至关重要。然而，传统基于人工的合规检查在处理用户生成内容的日益增加量以及有限的管理员数量时，面临着难以扩展的问题。大型语言模型在自然语言理解方面的新进展为自动内容合规验证提供了新的机遇。本工作评估了六个基于Open-LLMs构建的AI代理，用于去中心化社交网络中的自动化规则遵循检查，在这种具有挑战性的环境中，由于社区范围和规则的异质性，这一任务尤为困难。通过分析来自数百个Mastodon服务器的超过50,000条帖子，我们发现AI代理能够有效地检测不合规的内容、理解语言的细微差别，并适应多样的社区上下文。大多数代理还表现出高度的一致性和一致性评分解释与合规建议。基于领域专家的人类评估确认了代理的可靠性和实用性，表明它们是半自动化或人机协作内容管理系统的有前景的工具。
2024-09-13	Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents	Junchi Yao et.al.	2409.08717	null	在社交媒体日益成为社会运动形成公众意见的重要平台的背景下，准确模拟和预测用户意见动态对于理解社会现象、政策制定以及引导公众意见至关重要。然而，现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临着挑战。针对这一问题，本文提出了一种创新的社交媒体用户意见动态模拟方法——FDE-LLM算法，该算法结合了意见动态与流行病模型，有效约束了大型语言模型（LLM）的行为和意见演化过程，使其更加符合现实网络世界。特别地，FDE-LLM将用户分为意见领袖和跟随者两大类。意见领袖基于LLM角色扮演，并受细胞自动机（CA）模型约束，而意见跟随者则融入了一个结合CA模型与SIR模型的动态系统。这种创新设计显著提高了模拟的准确性和效率。实验在四个真实微博数据集上进行，并使用开源模型ChatGLM进行了验证。结果表明，相较于传统基于代理的模型（ABM）意见动态算法和基于LLM的意见传播算法，我们的FDE-LLM算法在准确性与可解释性方面表现更优。
2024-09-10	MAGDA: Multi-agent guideline-driven diagnostic assistance	David Bani-Harouni et.al.	2409.06351	null	在紧急护理部门、偏远医院或发展中国家的诊所中，临床医生经常缺乏由训练有素的放射科医生快速分析影像的能力，这会对病人的健康护理产生不利影响。大型语言模型（LLMs）有可能通过提供有助于他们决策的见解来缓解这些临床医生的压力。尽管这些LLM在展示其理论医学知识的医学考试上取得了高分，但它们往往不遵循医学指南。为此项工作，我们引入了一种新的零样本指南驱动决策支持方法。我们构建了一个由多个LLM代理组成的系统，这些代理配备了对比视觉-语言模型，以协作方式达成患者诊断。在向这些代理提供简单的诊断指南后，它们会合成提示并根据这些指南筛选图像以寻找发现。最后，它们提供一个可理解的推理链路来解释其诊断结果，并自我精炼以考虑疾病之间的相互依赖性。由于我们的方法是零样本的，因此适用于罕见疾病场景，在这些场景中训练数据有限，但专家设计的疾病描述可用。我们在两个胸部X射线数据集CheXpert和ChestX-ray 14 Longtail上评估了我们的方法，展示了与现有零样本方法相比的性能提升，并且能够应用于罕见疾病的泛化。
2024-09-08	A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement	Huan Zhang et.al.	2409.05001	link	在代码生成领域，大型语言模型（LLM）展现出了令人瞩目的性能。尽管先前的研究通过提示技术及代码精炼对LLM进行了增强，但它们在处理复杂编程问题时仍面临挑战，因为这些问题往往具有僵化的解决方案计划。本文提出了一种名为PairCoder的新型LLM基框架，旨在模仿双人协作编程实践，以解决这一问题。 PairCoder由两个协作的LLM代理组成：导航员（Navigator）和驾驶员（Driver）。导航员负责提出有前景的解决方案计划、选择当前最佳计划，并根据执行反馈指导下一轮迭代。驾驶员则遵循导航员的指引，进行初始代码生成、代码测试和优化。这种交替和迭代的工作流程包括多计划探索和基于反馈的细化，模拟了双人程序员的合作方式。我们使用开源和闭源的LLM，在多种代码生成基准上对PairCoder进行了评估。实验结果表明，PairCoder在准确性方面显著优于直接使用提示的LLM，相对pass@1提高了12.00%-162.43%。
2024-09-06	Sparse Rewards Can Self-Train Dialogue Agents	Barrett Martin Lattimer et.al.	2409.04617	link	本文探讨了在多轮对话任务中，大型语言模型（LLM）代理的最新进展主要由监督微调和高质量的人类反馈驱动。然而，随着基础LLM模型性能的持续提升，获取有意义的人类反馈变得越来越困难且成本高昂。在某些领域中，基础LLM可能最终超越人类能力，使得传统的基于反馈的方法变得不切实际。因此，本文提出了一种新的自我改进范式，允许LLM代理在没有外部人类反馈的情况下自主提高其性能。我们引入了一种名为“对比结果为模拟收获”（JOSH）的自我对齐算法，该算法利用稀疏奖励模拟环境来提取理想行为，并进一步训练LLM以自身输出进行训练。我们从MultiWOZ中构建了一个用于工具调用的稀疏奖励仿真环境，称为ToolWOZ。实验结果显示，使用JOSH训练的模型（无论是小型还是前沿模型），在基于工具的交互上显著提高了表现，同时保持了在各种基准测试中的广泛模型能力。我们的代码和数据已在GitHub上公开提供。
2024-09-06	LLM-based multi-agent poetry generation in non-cooperative environments	Ran Zhang et.al.	2409.03659	link	尽管大型语言模型在自动诗歌生成方面取得了显著进步，但生成的诗歌缺乏多样性，而训练过程与人类学习大相径庭。基于这样的理念，即诗歌生成系统的学习过程应更加人性化，并且其输出更加多样和新颖，我们引入了一种基于社会学习的框架，在此框架中，我们强调除了合作互动之外的非合作互动，以鼓励多样性。我们的实验是首次尝试在非合作环境中利用基于训练的代理（GPT-2）和基于提示的代理（GPT-3和GPT-4）进行诗歌生成的大型语言模型多代理系统。根据对生成的96,000首诗的评估，我们的框架对基于训练的代理的诗歌生成过程带来了好处，导致n-gram多样性增加了3.0-3.7个百分点，新颖性增加了5.6-11.3个百分点。基于训练的代理生成的诗歌在词汇、风格和语义上表现出群体分化。在我们的框架中，基于提示的代理也从非合作环境中受益，并且具有非同质代理的更多样化的模型集合有可能进一步提高多样性，我们的实验结果显示多样性增加了7.0-17.5个百分点。然而，基于提示的代理显示出随着时间推移，词汇多样性减少，并且没有表现出预期的群体分化意图的社会网络。我们的论文主张，在自动诗歌生成等创意任务中，需要将社会学习过程（通过基于大型语言模型的代理建模）纳入考虑范围，以模仿人类的交互方式。
2024-09-05	Rx Strategist: Prescription Verification using LLM Agents System	Phuc Phan Van et.al.	2409.03440	null	为了保障患者安全，现代药物复杂性要求严格处方验证。我们提出了一种新的方法——Rx Strategist，它利用知识图谱和不同的搜索策略，结合代理框架中的大型语言模型（LLMs），以增强其能力。这种多维度的技术允许构建一个多阶段的LLM管道，并从自定义活性成分数据库中可靠地检索信息。该管道覆盖了处方验证的不同方面，如适应症、剂量和可能的药物相互作用，每个阶段都包含了这些方面的内容。通过在这些阶段分散推理，我们缓解了单一LLM技术的缺点，提高了正确性和可靠性，同时减少了内存需求。我们的研究结果表明，Rx Strategist超越了许多当前的LLMs，其性能与经验丰富的临床药师相当。在现代药物的复杂世界中，将LLMs与组织化知识和高级搜索方法相结合，提供了一条减少处方错误并提高患者结果的可行途径。
2024-09-05	GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding	Yukun Cao et.al.	2409.03258	null	虽然大型语言模型（LLMs）在处理图方面展现出潜力，但在通过描述序列的图说明来理解图形结构信息时，尤其是在图的大小增加时，它们遇到了挑战。我们归因于LLMs在图描述序列的不同位置上存在不均匀的记忆性能，即所谓的“位置偏见”。为了应对这一挑战，我们提出了GraphInsight，一个旨在提高LLMs对宏观和微观图形信息理解的新框架。GraphInsight基于两个关键策略：1）将关键图形信息放置在LLMs表现出更强记忆性能的位置；2）对于记忆性能较弱的区域，探索使用轻量级外部知识库，灵感来自于检索增强生成（RAG）。此外，GraphInsight还探索了将这两种策略集成到LLM代理流程中，以解决需要多步推理的复合图任务。广泛的基准实验表明，在不同大小的图形结构理解任务上，GraphInsight显著超越了所有其他图描述方法（例如提示技术、重新排序策略等）。
2024-09-04	Large Language Model-Based Agents for Software Engineering: A Survey	Junwei Liu et.al.	2409.02977	link	本文提供了一篇全面且系统的关于大型语言模型（LLM）在软件工程（SE）中的应用的综述。我们收集了106篇论文，并从两个角度进行分类，即软件工程视角和代理视角。此外，我们还讨论了该领域面临的关键挑战以及未来的发展方向。此综述的仓库地址为：https://github.com/FudanSELab/Agent4SE-Paper-List。
2024-09-02	Evolution of Social Norms in LLM Agents using Natural Language	Ilya Horiguchi et.al.	2409.00993	null	大型语言模型（LLM）的最新进展激发了利用这些模型进行游戏理论模拟的兴趣，在这些模拟中，LLM充当个体代理，进行社会互动。本文研究了通过自然语言对话使LLM代理自发生成并遵守规范策略的可能性，以此为基础，探索了对Axelrod的元规范游戏工作的进一步发展。我们的实验表明，通过对话，LLM代理能够仅通过自然语言交互形成复杂的社交规范，如元规范——规范惩罚不惩罚作弊行为的规范。结果证实了使用LLM代理模拟社会互动和理解通过自然语言演化出复杂策略与规范的有效性。未来的工作可能通过扩展到更广泛的场景和代理特征，揭示更多关于社会规范形成的微妙机制。
2024-09-02	Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces	Jiapeng Yu et.al.	2409.00985	link	基于大型语言模型的在线问答系统从娱乐用途逐渐转向专业领域应用。本文提出了一种名为“代码学习（Co-Learning）社区”的多代理框架，结合环境强化学习（E-RL），旨在帮助初学者独立修正代码错误。该系统通过一个包含702个错误代码的原始数据集评估了多个大型语言模型的表现，并将其作为E-RL奖励或惩罚的标准。通过分析当前代理输入的错误代码，选择合适的基于大型语言模型的代理以实现最佳的错误修正准确率并减少修正时间。实验结果表明，与无E-RL方法相比，该方法在精确度得分上提高了3%，在时间成本上降低了15%。我们的源代码可访问：https://github.com/yuqian2003/Co_Learning
2024-08-29	HoneyComb: A Flexible LLM-Based Agent System for Materials Science	Huan Zhang et.al.	2409.00135	null	为了应对材料科学任务中的复杂性并解决大型语言模型（LLM）在这一领域应用时所面临的问题，如依赖过时的隐性知识导致的准确性下降和幻觉现象，我们提出了HoneyComb——首个专门针对材料科学领域的LLM代理系统。HoneyComb通过利用一个基于可靠文献的高质量材料科学知识库（MatSciKB）和一种创新的工具集（ToolHub），增强其针对材料科学特有的推理与计算能力。 MatSciKB是一个经过精心编纂、结构化的知识集合，旨在涵盖材料科学领域的关键信息。而ToolHub则采用了一种归纳式工具构建方法，用于生成、分解和优化适用于材料科学的API工具，从而极大地提高了系统的实用性。此外，HoneyComb还配备了一个检索模块，该模块能够根据特定任务智能选择最合适的知识来源或工具，确保了答案的准确性和相关性。实验结果表明，HoneyComb在材料科学领域的各种任务上均表现出显著优于基线模型的能力，成功地弥合了当前LLM技术与材料科学特定需求之间的差距。更为重要的是，我们的可扩展框架易于扩展至其他科学领域，展示了其在推动科学研究和应用发展方面具有广泛的应用潜力。
2024-08-30	Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios	Zhongyuan Wang et.al.	2408.16991	null	本文提出了一种基于工具辅助的代理框架，用于SQL检查和改进，旨在提升大型语言模型（LLM）处理现实世界查询的能力。该框架通过为LLM代理配备两个专门工具——检索器和检测器，以诊断并修正SQL查询中的数据库不匹配问题。这些工具能够增强LLM处理真实场景中出现的条件不匹配和严格约束不匹配等数据库不匹配问题的能力。我们还引入了Spider-Mismatch，这是一个专门为反映现实世界中遇到的条件不匹配问题而构建的新数据集。实验结果表明，在少量示例设置下，我们的方法在Spider和Spider-Realistic数据集上的平均表现最佳，并且显著优于基线方法，在更具有现实性的数据集Spider-Mismatch上也表现出更好的性能。
2024-08-28	EPO: Hierarchical LLM Agents with Environment Preference Optimization	Qi Zhao et.al.	2408.16090	null	本文提出了一种分层框架，用于解决复杂任务分解为可管理子目标的问题。框架使用了独立的语言模型进行子目标预测和低级动作生成。针对无标注数据集的训练信号创建挑战，我们开发了一个奖励模型，利用环境多模态反馈自动生成奖励信号。我们引入了环境偏好优化（EPO）方法，该方法从环境反馈中生成偏好信号，并利用这些信号训练基于语言模型的代理。ALFRED实验结果表明，我们的框架在性能上处于领先地位，首次登上了ALFRED公开排行榜，并展示了其在不同环境中的长期决策制定能力的提升潜力。
2024-09-05	LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models	Jiayi Gui et.al.	2408.15778	null	本文介绍了一个名为LogicGame的新基准，旨在评估大型语言模型（LLMs）在规则理解和执行、多步规划方面的全面能力。不同于传统的基准测试，LogicGame提供了多种游戏，其中包含一系列规则以及初始状态，要求模型理解并应用预定义规则来解决问题。我们创建了模拟情景，让模型执行或规划操作以达到特定目标。这些游戏场景专门设计以区分逻辑推理与仅依赖知识的能力，完全依赖于预设规则。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果，还考虑中间步骤，提供模型性能的全面评估。此外，这些中间步骤是确定性的，并且可以自动验证。LogicGame定义了从简单规则应用到复杂推理链的不同难度级别的游戏场景，以精确评估模型在规则理解和多步执行上的性能。通过使用LogicGame，我们测试了各种LLM，并发现了它们在基于规则的逻辑推理能力方面的显著不足。
2024-08-27	AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems	Chi-Min Chan et.al.	2408.14972	link	快速发展的大型语言模型（LLM）推动了基于LLM的代理兴起。近期研究发现，在多代理系统（MAS）中，每个代理执行特定角色时，其性能通常优于单一LLM。然而，配置MAS以完成任务仍然具有挑战性，因为任务表现仅在执行后才能观察到。受到LLM开发中的规模法则启发，我们探索是否能在任务执行前预测MAS的性能。为此，我们引入了AgentMonitor框架，该框架在代理层级集成，用于捕获输入和输出信息，并将这些信息转换为统计数据，用于训练回归模型预测任务性能。此外，AgentMonitor还能够实时对可能由恶意代理引发的安全风险进行纠正，从而减轻负面影响并增强MAS的安全性。实验结果表明，使用XGBoost模型在领域内场景下达到0.89的斯皮尔曼相关系数，在更具挑战性的场景下达到0.58。通过应用AgentMonitor，有害内容减少了6.2%，有益内容平均增加了1.8%，这显著提高了安全性和可靠性。相关的代码已开源在https://github.com/chanchimin/AgentMonitor。
2024-08-26	LLM-3D Print: Large Language Models To Monitor and Control 3D Printing	Yayati Jadhav et.al.	2408.14307	null	行业4.0通过推动数字化进程并转向增材制造（AM），彻底改变了制造业。熔融沉积建模（FDM）作为关键的AM技术之一，通过逐层挤出方式创建高度定制、成本效益高且材料浪费极小的产品，对传统减材方法构成了重大挑战。然而，材料挤出技术的易错性往往需要专家介入来检测和缓解可能严重损害产品质量的缺陷。虽然已存在自动化错误检测和机器学习模型，但它们在不同3D打印机设置、固件和传感器之间的通用性有限，并且深度学习方法需要大量的标记数据集，这限制了其规模性和适应性。为了解决这些挑战，我们提出了一种利用大型语言模型（LLMs）与3D打印技术相结合的过程监控和控制框架，旨在检测和解决打印缺陷。该LLM通过分析每层或打印段之后捕获的图像来评估打印质量，识别故障模式，并向打印机查询相关参数。然后，它生成并执行纠正措施计划。我们通过将提出的框架的有效性与一组具有不同AM专业知识的工程师进行了比较，以验证识别缺陷的能力。我们的评估表明，基于LLM的代理不仅准确识别常见的3D打印错误，如不一致的挤出、丝状堆积、翘曲和层粘合问题，而且还能有效确定导致这些失败的参数，并自主地进行修正，无需任何人工干预。
2024-09-02	MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents	Ruochen Li et.al.	2408.14033	link	机器学习研究对于技术进步和创新至关重要，但常常面临复杂性高、实验周期长以及需要专业知识等挑战。为了应对这些挑战，我们提出了一种新的系统框架——自主机器学习研究与大型语言模型（MLR-Copilot），旨在通过利用大型语言模型（LLM）代理自动生成并实施研究想法来提高机器学习研究的生产力。该框架包含三个阶段：研究想法生成、实验实现和执行。首先，通过基于LLM的IdeaAgent利用现有研究论文生成假设和实验计划。接下来，在实现生成阶段，将这些计划转化为可执行代码，使用ExperimentAgent完成此过程。此阶段利用检索到的原型代码，并根据需要检索候选模型和数据。最后，在执行阶段，也由ExperimentAgent管理，涉及运行实验，并通过人类反馈和迭代调试机制，以增加实现可执行研究成果的可能性。我们对五个机器学习研究任务进行了评估，实验结果表明了该框架促进研究进展和创新的潜力。
2024-08-26	AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework	Jie Feng et.al.	2408.13986	link	人类移动性预测在各种实际应用中扮演着关键角色。尽管深度学习模型在过去十年中显示出有希望的结果，但它们对用于训练的大量私人移动数据的依赖以及无法进行零启动预测的能力，阻碍了进一步的发展。最近，有人尝试使用大型语言模型（LLMs）来执行移动性预测任务。然而，他们的性能受限于缺乏系统的设计工作流程。他们直接使用LLMs生成最终输出，这限制了LLMs发现复杂移动模式的潜力，并低估了它们在全球地理空间知识方面的巨大储备。本文提出了一种名为AgentMove的系统性代理预测框架，以实现对任何全球城市的通用移动性预测。在AgentMove中，我们首先将移动性预测任务分解为三个子任务，并设计相应的模块来完成这些子任务，包括个体移动模式挖掘的空间-时间记忆、城市结构效应对模型的影响的全球知识生成器以及捕获人口共享模式的集体知识提取器。最后，我们将三个模块的结果结合起来，并执行推理步骤以生成最终预测。在来自两个来源的12个城市的数据上进行的广泛实验表明，与最佳基线相比，AgentMove在各种指标上的性能提高了超过8%，并且在不同城市中显示出了稳健的预测结果，且使用不同基础的LLM时也能表现出色，且具有较低的地理偏见。代码和数据可以在https://github.com/tsinghua-fib-lab/AgentMove找到。
2024-08-23	Optimizing Collaboration of LLM based Agents for Finite Element Analysis	Chuan Tian et.al.	2408.13406	null	本文探讨了大型语言模型（LLM）在编程和编码任务中的多代理交互。我们利用AutoGen框架促进代理之间的沟通，并基于每种设置的40次随机运行的成功率评估不同的配置。研究重点在于开发一个灵活的自动化框架，用于将有限元方法应用于解决线性弹性问题。我们的发现强调了优化代理角色及其明确职责的重要性，而不仅仅是增加代理数量。代理间的有效协作被证明对于解决有限元方法的一般挑战至关重要。这项研究展示了LLM多代理系统增强计算自动化在模拟方法学中的潜力，为工程和人工智能的未来进展铺平道路。
2024-09-01	Can LLMs Understand Social Norms in Autonomous Driving Games?	Boxuan Wang et.al.	2408.12680	null	本文探讨了大型语言模型（LLM）在理解与模拟自主驾驶游戏中社会规范的应用。通过将LLM集成到自主驾驶游戏中的智能代理角色中，我们基于文本提示让这些代理按照相关环境设定和观察信息做出决策。我们的框架涉及LLM驱动的代理在多代理系统（MAS）中进行马尔科夫游戏，以此研究个体代理之间社会规范的形成。我们设计实验，利用OpenAI聊天API（由GPT-4.0提供动力）在无信号交叉口游戏与高速公路车队游戏两种场景下模拟交互并评估LLM驱动代理的表现。结果显示，LLM驱动的代理能够处理马尔科夫游戏中的动态环境变化，并且在两个场景中，代理间形成了社会规范。在交叉口游戏中，当面临潜在车祸时，LLM驱动的代理倾向于采取保守的驾驶策略。LLM驱动代理在游戏中的优势在于其操作灵活性和可分析性，这有助于实验设计。
2024-08-22	MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents	Congchi Yin et.al.	2408.12142	link	在大多数精神疾病诊断中，临床医生与患者的对话是主要的诊断依据。创建这样的诊断对话数据集有望推动AI精神健康护理领域的发展。然而，直接在实际诊断场景中收集对话极为困难，原因在于隐私和伦理考虑的严格限制。为解决这一问题，我们尝试通过利用易于获取的匿名患者案例来合成诊断对话。具体而言，我们设计了一个神经符号多代理框架，使用大型语言模型合成精神障碍的诊断对话。该框架以患者案例作为输入，并能够生成针对单个患者案例的多个多样化的对话，其基本过程涉及医生代理与患者代理之间的互动，并通过工具代理实现基于符号控制的文本生成，借助动态诊断树。通过应用提出的方法，我们开发了包含1000个清洗过的实际患者案例、与一家领先的精神病医院合作构建的中国最大精神障碍诊断数据集MDD-5k，该数据集包含了5000个高质量的长对话及其诊断结果标签。据我们所知，这是第一个包含中文精神障碍诊断结果的标记数据集。人类评估表明，提出的MDD-5k数据集成功模拟了精神障碍的诊断过程。数据集和代码将在https://github.com/lemonsis/MDD-5k公开提供。
2024-08-20	FLAME: Learning to Navigate with Multimodal LLM in Urban Environments	Yunzhe Xu et.al.	2408.11051	link	大型语言模型（LLM）在视觉与语言导航（VLN）任务中展现出了潜在能力，但当前的应用仍面临挑战。虽然LLM在通用对话场景中表现出色，但在专门的导航任务上却表现不佳，相较于专为VLN设计的模型，其性能较差。为此，我们提出了一种名为FLAME（FLAMingo架构化实体代理）的新颖多模态LLM基元体和架构，旨在解决城市VLN任务，并有效处理多个观察结果。我们的方法采用了三阶段调优技术以适应导航任务，包括单感知调整以描述街景、多感知调整以总结轨迹以及在VLN数据集上进行端到端训练。合成的数据集是自动生成的。实验结果显示，FLAME在Touchdown数据集上的任务完成率优于现有方法，提高了7.3%。这项工作展示了多模态LLM在复杂导航任务中的潜力，并代表了迈向实际应用中多模态LLM于实体AI领域的进步。项目页面：https://flame-sjtu.github.io
2024-08-20	Athena: Safe Autonomous Agents with Verbal Contrastive Learning	Tanmana Sadhu et.al.	2408.11021	null	由于新兴能力的加持，大型语言模型（LLMs）被用作基于语言的代理，执行各种任务并作出日益自主的决策。这些自主代理能够理解高级指令、与环境互动，并使用可用工具集执行复杂任务。随着代理能力的扩展，确保其安全性和可信度变得愈发重要。本研究引入了Athena框架，利用了“口头对比学习”的概念，通过将过去的安全和不安全轨迹作为上下文（对比）示例来指导代理在完成给定任务的同时确保安全。该框架还整合了一种批判机制，以指导代理在每一步防止风险行为。此外，鉴于缺乏现有基准来评估基于LLM的代理的安全推理能力，我们收集了80个工具包，覆盖8个类别，共计180个场景，提供了一个安全评估基准。我们的实验评估显示，口头对比学习和交互级批判显著提高了安全性率。
2024-08-24	IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction	Kaiyu He et.al.	2408.10455	null	本文提出了一项名为RULEARN的新基准，旨在评估大型语言模型（LLMs）在交互环境中的归纳推理能力。在RULEARN中，代理通过与环境互动收集观察，并从中推断模式，以此解决问题。为了增强LLM代理在该基准上的归纳推理能力，我们引入了IDEA代理，它结合了归纳、演绎和溯因三种推理过程。IDEA代理通过结构化推理序列提升这一方法：首先通过溯因生成假设，然后通过演绎验证这些假设，最后根据反馈进行适应性修正。这种序列使代理能够动态建立并应用规则，模仿人类的推理过程。通过对五种代表性LLM的评估显示，尽管这些模型能够生成合理的初始假设，但在环境内的战略互动、有效整合反馈以及假设的适应性修正方面存在困难。而IDEA代理在RULEARN基准上表现出显著的性能提升，为我们开发能在现实世界场景中实现类似人类规则学习能力的代理提供了宝贵见解。我们将会发布我们的代码和数据。
2024-08-20	MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems	Qian Wang et.al.	2408.09955	null	随着大型语言模型（LLM）的兴起，LLM驱动的多智能体系统（LLM-MA系统）被提出以应对实际任务。然而，这些系统的智能体大多遵循在整体交互过程中保持不变的预定义标准操作程序（SOP），缺乏自主性和可扩展性。此外，当前解决方案往往忽视了有效智能体合作的必要性。为了克服上述限制，我们提出了MegaAgent，一个旨在促进大规模LLM智能体系统中自主合作的实用框架。MegaAgent利用智能体的自主性动态生成基于任务需求的智能体，集成了任务自动划分、智能体活动系统级规划与监控以及并发操作管理等功能。此外，MegaAgent采用层次结构设计，并利用系统级并行性来提升性能和增强通信效率。我们通过围棋游戏开发展示了MegaAgent的有效性，证明它在性能上超越了流行的LLM-MA系统；并通过国家政策模拟验证了其高自主性和快速扩展至590个智能体的能力，同时确保了它们之间的有效合作。我们的结果表明，MegaAgent是首个无预定义SOP、高效且具有高可扩展性的大规模LLM-MA系统，为该领域的进一步研究铺平了道路。我们的代码位于https://anonymous.4open.science/r/MegaAgent-81F3。
2024-08-19	GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making	Arsham Gholamzadeh Khoee et.al.	2408.09785	null	在汽车行业中，传统软件部署决策方法通常依赖于对表格化测试数据的手动分析。这些方法往往导致更高的成本和软件发布周期的延迟，主要是由于它们的劳动密集型特性。大型语言模型（LLM）为解决这些问题提供了有前景的解决方案。然而，它们的应用通常需要多轮的人工驱动提示工程，这限制了其在工业最终用户中的实际部署，特别是那些需要可靠和高效结果的用户。本文提出了一种名为GoNoGo的LLM代理系统，旨在简化汽车软件部署过程，同时满足功能要求和工业约束。与以往系统不同，GoNoGo特别针对特定领域和风险敏感系统进行了定制。我们使用来自工业实践的零次和少量次示例来评估GoNoGo在不同任务难度下的性能。结果显示，GoNoGo在难度不超过二级的3次示例任务中实现了100%的成功率，并且即使对于更复杂的任务也能保持高绩效。我们发现，GoNoGo有效地自动化了较简单任务的决策过程，显著减少了手动干预的需求。总之，GoNoGo代表了一个目前在我们的工业合作伙伴公司中被用于协助软件发布决策的高效且用户友好的LLM基解决方案，支持了风险敏感车辆系统发布过程中的更加明智和及时的决策。
2024-08-18	HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model	Mengkang Hu et.al.	2408.09559	link	大型语言模型（LLM）驱动的代理在各个领域展现出巨大潜力，作为能够处理环境观察并生成执行动作以完成目标任务的交互系统。这些代理的有效性很大程度上受到其记忆机制的影响，该机制通过记录历史经验来形成一系列动作-观察对序列。我们将记忆分为两类：跨试记忆，积累于多次尝试中；以及单试记忆（工作记忆），积累于单一尝试内。尽管关于跨试记忆优化的研究已取得显著进展，但如何通过提升工作记忆利用效率来增强代理性能的探索仍相对不足。现有方法往往直接将整个历史动作-观察对输入到LLM中，导致在长期任务中存在冗余问题。受人类解决问题策略的启发，本文提出了一种名为HiAgent的框架，旨在通过将子目标作为记忆块来对LLM驱动的代理的工作记忆进行层次化管理。具体来说，HiAgent促使LLM在生成执行动作前先制定子目标，并允许LLM主动决定替换之前的子目标，仅保留与当前子目标相关的动作-观察对。在五个长期任务上的实验结果表明，HiAgent的成功率提高了两倍，平均步骤数减少了3.8个。此外，我们的分析显示，HiAgent在整个步骤中均能持续改善性能，这凸显了其稳健性和泛用性。项目页面：https://github.com/HiAgent2024/HiAgent
2024-08-15	EmBARDiment: an Embodied AI Agent for Productivity in XR	Riccardo Bovo et.al.	2408.08158	null	XR设备搭载由大型语言模型（LLMs）驱动的聊天机器人具有巨大的潜力，可以作为始终在线的代理，从而实现更高效的工作流程。然而，基于屏幕的聊天机器人并未充分利用XR所提供的全面自然输入，包括内部面向的传感器数据，而是过度依赖明确的声音或文本提示，有时还会与作为查询的一部分投射的多模态数据配对。我们提出了一种解决方案，利用注意力框架从用户行为、注视点和XR环境中的上下文记忆中隐式地推导出背景信息，从而最小化对工程化明确提示的需求，促进基于现实世界且直观的交互，这些交互能够洞察用户的见解并为聊天机器人提供信息。我们的用户研究展示了我们方法的可行性和在XR中与聊天机器人进行交互的潜在变革性，同时也为未来XR-实体LLM代理的设计提供了见解。
2024-08-15	Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework	Changyu Du et.al.	2408.08054	null	传统的建筑信息模型（BIM）创建过程通常要求设计师掌握复杂且繁琐的建模命令，以在BIM创建工具中实现其设计意图。这种额外的认知负担使设计过程变得复杂，并阻碍了建筑、工程和施工（AEC）行业对BIM和基于模型的设计的采用。为了更直观地表达设计意图，我们提出了一种基于大型语言模型（LLM）的多代理框架——Text2BIM。该框架能够从自然语言指令生成3D建筑模型。它通过协调多个LLM代理协作并推理，将文本用户输入转换为调用BIM创建工具API的指令代码，从而在软件中生成具有内部布局、外部外壳和语义信息的可编辑BIM模型。此外，引入了一种基于规则的模型检查器，利用预定义的领域知识指导LLM代理解决生成模型中的问题，并迭代改进模型质量。进行了大量实验来比较和分析在提议框架下三种不同LLM的表现。评估结果表明，我们的方法能够有效地生成高质量、结构合理且与用户输入指定的抽象概念相一致的建筑模型。最后，开发了一个交互式软件原型，将该框架集成到BIM创建软件Vectorworks中，展示了通过聊天进行建模的潜力。
2024-08-13	Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents	Pranav Putta et.al.	2408.07199	null	大型语言模型（LLM）在需要复杂推理的自然语言任务上展现了惊人的能力，但在交互环境中进行自主代理的多步骤推理应用仍然是一个挑战。传统的基于静态数据集的监督预训练不足以使自主代理具备在动态设置如网络导航中执行复杂决策所需的自主能力。以往通过监督微调来填补这一差距的方法往往面临累积错误和探索数据有限的问题，导致政策结果不佳。为了克服这些挑战，我们提出了一种框架，结合了引导式蒙特卡洛树搜索（MCTS）搜索与自我批判机制，并使用离策略变体的直接偏好优化（DPO）算法对代理互动进行迭代微调。这种方法允许LLM代理从成功和失败的轨迹中有效学习，从而在复杂、多步骤推理任务中提高其泛化能力。我们在WebShop环境（一个模拟电子商务平台）中验证了我们的方法，该环境在与行为克隆和强化微调基线相比时表现出色，并在配备在线搜索能力的情况下击败了平均人类性能。在实际预订场景中，我们的方法提高了Llama-3 70B模型的零射成功率从18.6%增加到81.7%（相对增加了340%），并在一天的数据收集后进一步增加到95.4%，并且通过在线搜索。我们认为这标志着自主代理能力的一个重大进步，在现实世界环境中实现更高级和可靠决策的道路。
2024-08-13	Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents	Kexun Zhang et.al.	2408.07060	null	大型语言模型（LLM）代理在解决实际世界软件工程（SWE）问题方面展现出巨大的潜力。最先进开源的SWE代理能够解决SWE-Bench Lite中超过27%的实际GitHub问题。然而，这些复杂的代理框架在表现上存在差异，有的在特定任务中表现出色，在其他任务中则表现不佳。为了充分利用这些代理的多样性，我们提出了DEI（多元化智能），一个旨在利用其独特专长的框架。DEI作为现有SWE代理框架之上的元模块，管理代理集体以实现增强的问题解决能力。实验结果显示，通过DEI指导的代理委员会能够显著超越单个代理的最佳性能。例如，一组开源SWE代理，其最高个体解决率在SWE-Bench Lite中为27.3%，在应用了DEI后，能够达到34.3%的解决率，实现了25%的改进，并击败了许多闭源解决方案。我们的最佳表现团队以55%的解决率在SWE-Bench Lite中取得最高排名。我们的研究结果对合作AI系统的研究领域做出了贡献，揭示了它们在解决复杂软件工程挑战方面的潜力。
2024-08-12	Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning	Chuanneng Sun et.al.	2408.06520	null	大型语言模型（LLM）在各种语言任务上表现出惊人的能力，这使它们成为机器人决策的有希望候选者。受到层次强化学习（HRL）的启发，我们提出了一种新颖框架——在上下文中进行层次化的强化学习（HCRL）。该框架通过LLM基高层策略分解复杂任务，即通过在执行时动态分解复杂任务为子任务，从而利用高阶策略来定义目标，这些目标由子任务组成，并分配给低阶策略以完成。一旦LLM代理确定目标已完成，则会提出新的目标。为了提高多轮执行中的代理性能，我们提出了事后模块化反思（HMR），其中，代理不是对完整轨迹进行反思，而是将任务目标替换为中间目标，并让代理对较短的轨迹进行反思，以提高反思效率。我们在三个基准环境中评估了所提出的HCRL的决策能力——ALFWorld、Webshop和HotpotQA。结果表明，与强大的上下文学习基线相比，在五轮执行中，HCRL可实现9%、42%和10%的性能提升。
2024-08-12	Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example	Yanan Chen et.al.	2408.06318	null	本文旨在填补大型语言模型（LLM）在自主代理与人工通用智能（AGI）接近过程中研究的空白。尽管LLM展现出出色的泛化能力和涌现能力，但目前缺乏对LLM驱动的代理行为、潜在失败原因以及如何提升其性能的研究，尤其是在具有挑战性的现实世界规划任务中的表现。为了填补这一缺口，我们利用了一个名为TravelPlanner的真实基准，其中的代理必须满足多个约束以生成准确的计划。通过TravelPlanner基准，我们针对四个关键研究问题进行了全面的实验：（1）LLM代理在处理长篇和嘈杂上下文时，对于推理和规划的鲁棒性是否足够？（2）少量提示是否会损害LLM代理在长上下文场景下的性能？（3）我们能否依赖细化来改进计划？（4）对LLM进行正负反馈结合的微调是否能带来进一步的提升？实验结果表明：首先，尽管LLM能够处理大量的参考信息和少量示例，它们在关注长上下文中关键部分的能力上仍然存在不足；其次，它们在分析长计划方面仍面临挑战，并且无法提供准确的反馈用于细化；第三，我们提出了Feedback-Aware Fine-Tuning（FAFT），一种利用正负反馈相结合的方法，相较于纯监督微调（SFT），FAFT在性能上取得了显著提升。我们的发现为社区提供了关于现实世界规划应用方面的深入见解。
2024-08-13	DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts	Mohammed Saidul Islam et.al.	2408.05346	null	数据驱动的故事叙述是一种强大的方法，通过结合叙事技巧与可视化和文本，来传达见解。这些故事融合了图表中的突出条形和线条以及解释见解的文本注释。然而，创建这样的故事需要对数据有深入的理解，并且需要精心的叙事规划，通常需要人类的介入，这既耗时又费心。虽然大型语言模型（LLMs）在各种NLP任务上表现出色，但在生成连贯和全面的数据故事方面的潜力仍然未被充分探索。为此，我们引入了一个新的任务——数据故事生成，并提供了一个包含来自不同来源的1,449个故事的基准。为了应对创造连贯数据故事的挑战，我们提出了一种多代理框架，利用两个LLM代理来模仿人类讲故事的过程：一个用于理解并描述数据、生成大纲和叙述，另一个则在每个中间步骤进行验证。尽管我们的代理框架在基于模型和人类评估中通常优于非代理对手，但结果也揭示了数据故事生成的独特挑战。
2024-08-08	Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions	Qingbin Zeng et.al.	2408.04168	link	本文探讨了城市导航场景下的AI代理问题：提供目标位置与知名地标之间的语言描述；仅通过观察周围环境，包括识别地标和道路网络连接，代理需要作出决策以无指示地导航至目标位置。这一挑战性在于，它要求代理建立自身定位并获取复杂城市环境的空间表示，而地标往往不可见。在缺乏导航指令的情况下，这种能力对于代理在长距离城市导航中做出高质量决策至关重要。随着大型语言模型（LLMs）推理能力的涌现，一个吸引人的基础方法是提示LLMs对每次观察做出“反应”并据此作出决策。然而，这种方法的性能非常差，代理经常反复访问相同位置，并作出短视、不一致的决策。为解决这些问题，本文引入了一种新型的代理工作流程，其特征在于感知、反思和规划的能力。具体而言，我们发现经过微调的LLaVA-7B能够准确感知地标的方向和距离，适用于城市导航。此外，通过记忆机制实现反思，即存储过往经验并在当前感知下检索，以进行有效的决策论证。规划则利用反思结果生成长期计划，从而避免长距离导航中的短视决策。实验结果显示，设计的工作流程显著提高了LLM代理的导航能力，相较于最先进的基线方法。
2024-08-11	CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases	Xiangyan Liu et.al.	2408.03910	link	大型语言模型（LLM）在诸如HumanEval和MBPP的独立代码任务中表现出色，但它们在处理整个代码仓库时存在挑战。这促使研究界探索如何在仓库级别上增强LLM与代码库的交互。目前的解决方案依赖于基于相似性的检索或手动工具和API，每种方法都有其显著的缺点。基于相似性的检索在复杂任务中召回率往往较低，而手动工具和API通常针对特定任务，需要专家知识，降低了它们在不同代码任务和实际应用中的通用性。为了缓解这些限制，我们引入了CodexGraph系统，它结合了从代码仓库中提取的图数据库接口与LLM代理。通过利用图数据库的结构特性和图查询语言的灵活性，CodexGraph使LLM代理能够构建并执行查询，从而实现精确的、代码结构意识的上下文检索和代码导航。我们使用三个基准测试CodexGraph：CrossCodeEval、SWE-bench和EvoCodeBench。此外，我们开发了五个真实世界的编码应用。通过使用统一的图数据库模式，CodexGraph在学术和实际环境中都展示了竞争力和潜力，证明了其在软件工程领域的多用途性和有效性。我们的应用演示：https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。
2024-08-07	Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent	Yanhu Wang et.al.	2408.03631	null	传统的基站选址（BSS）方法主要依赖于驾驶测试和用户反馈，这既费时又需要在通信、网络和优化方面具备专业知识的专家。随着大型语言模型（LLMs）及其相关技术的发展，特别是在提示工程和代理工程领域，网络优化将见证一场革命性的转变。这种转变涉及巧妙地使用精心设计的提示来向这些复杂而先进的LLMs注入人类经验和知识，并通过自然语言连接到人类用户，部署自主代理作为通信桥梁。这种集成代表了人工智能（AI）作为一种服务和AI使生活更便捷的未来范式。作为初步探索，本研究首先开发了一个由LLM驱动的BSS优化框架，并提出了四种潜在的实现策略：基于优化提示的LLM（PoL）、人机交互的LLM（HiLL）、LLM驱动的自主BSS代理（LaBa）以及协同多个LLM驱动的自主BSS代理（CLaBa）。通过在真实数据上的评估，实验表明，借助提示的LLM和基于代理的LLM能够生成更为高效、成本效益高且可靠的网络部署，显著提高了BSS优化的效率并减少了不必要的手动参与。
2024-08-05	Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information	Yauwai Yim et.al.	2408.02559	null	Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible.
2024-08-05	From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future	Haolin Jin et.al.	2408.02479	null	With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research.
2024-08-07	SpecRover: Code Intent Extraction via LLMs	Haifeng Ruan et.al.	2408.02232	null	本文探讨了在大型语言模型（LLM）与程序分析能力结合的形式下，通过LLM代理自动执行程序改进和错误修复的高效低耗工作流程。由于程序改进或修复通常需要明确期望的行为规范，因此规范推断对于产生高质量的代码补丁至关重要。本研究旨在通过在软件项目中进行迭代代码搜索并配合规范推断来探索这一领域，从而从项目的结构和行为中推断出意图。捕获的意图将由审查者代理进行审查，以验证补丁的有效性，并提供对验证后补丁信心度量。我们的方法“SpecRover”（AutoCodeRover-v2）建立在开源的LLM代理AutoCodeRover之上。在使用SWE-Bench完整集评估时，即针对2294个GitHub问题，我们的方法显示了相对于AutoCodeRover超过50%的效率提升。与现有的开源代理相比，我们的工作在解决SWE-Bench lite中的平均GitHub问题时，成本仅为0.65美元。SpecRover生成的解释能够为开发者提供更明确的信号，表明建议的补丁可以被有信心地接受。此外，我们的工作还强调了即使在LLM时代，自动化程序修复技术中规范推断的重要性。
2024-08-03	The Drama Machine: Simulating Character Development with LLM Agents	Liam Magee et.al.	2408.01725	null	这篇论文探讨了使用多个大型语言模型（LLM）代理来模拟复杂动态角色在戏剧性场景中的应用。我们提出了一种“戏剧机器”框架，该框架协调了扮演不同“自我”和“超我”心理角色的LLM代理之间的互动。在角色扮演模拟中，这种设计允许在相互作用的对话和个体内部独白之间发展平行的交互。我们将此框架应用于两个戏剧场景——面试和侦探故事，并比较了在有无“超我”影响下角色发展的差异。尽管是初步研究，但结果表明，这种方法能够产生更加细腻、适应性强的故事，这些故事随着一系列对话回合的发展而演变。我们讨论了基于LLM的角色扮演的不同方式以及这可能对AI主体性的概念化意味着什么。论文最后考虑了这一方法如何为思考AI模拟中内在冲突和社会表演性的作用提供了可能性。
2024-08-03	WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization	Liwenhan Xie et.al.	2408.01703	null	大型语言模型（LLM）通过对话式用户界面支持数据分析，以OpenAI的ChatGPT（原名Advanced Data Analysis或Code Interpreter）为代表。本质上，LLM生成代码以完成各种分析任务。然而，直接呈现原始代码可能会使逻辑变得模糊，并妨碍用户验证。为了赋予用户对由LLM执行的数据分析进行增强理解与控制的能力，我们提出了一种新颖的方法来将LLM生成的代码转换为实时交互式的可视化表示。在该方法中，用户可以实时获得清晰、分步的LLM代码可视化，允许他们理解、验证并修改分析中的每个数据操作。我们的设计决策基于一项探索用户实践与挑战的形成性研究（N=8）。此外，我们开发了名为WaitGPT的原型，并进行了一项用户研究（N=12），以评估其可用性和有效性。用户研究的结果表明，WaitGPT有助于监控和引导由LLM执行的数据分析，使参与者能够提高错误检测能力并增加对结果的整体信心。
2024-08-03	Automated Phishing Detection Using URLs and Webpages	Huilin Wang et.al.	2408.01667	null	### 摘要本文项目聚焦于通过构建利用大型语言模型（LLM）的代理框架，以解决传统基于参考的钓鱼检测方法所面临的局限性。该框架通过主动获取和利用在线信息，提供了一个动态的参考系统，从而实现更精确的钓鱼检测。这一创新避免了依赖静态知识库的需求，显著提升了自动化安全措施的适应性和效率。 ### 项目概述项目报告首先对现有解决方案进行了初步研究和问题分析，促使我们开发出新的框架。我们以模拟的LLM代理来展示框架，并详细阐述了构建所需的技术，随后提供了完整实施的实例及实验，用于评估新方法相对于同类解决方案的性能。结果显示，我们的方法在准确度上达到了0.945，相比现有解决方案DynaPhish高出0.445个百分点。 ### 性能与局限实验结果表明，本框架能够显著提高当前基于参考的钓鱼检测方法的有效性，并具有适应实际应用的潜力。同时，我们也讨论了该方法的局限性，并提出了改进策略，旨在进一步提升其效能。 ### 结论提出的框架为增强现有的基于参考的钓鱼检测手段提供了有效途径，并且具备被应用于实际场景的可能性。
2024-08-01	AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation	Mengkang Hu et.al.	2408.00764	null	大型语言模型（LLM）基于的代理已引起广泛关注并变得越来越流行。此外，规划能力是LLM基于代理的关键组成部分，涉及与环境的交互和执行动作以完成规划任务，通常包括从初始状态达到预期目标的过程。本文研究了通过指令调优增强LLM规划能力的方法，即代理训练。近期的研究表明，利用专家级轨迹对指令调优LLM能有效提升其规划能力。然而，现有工作主要集中在从手动设计的任务和环境中合成轨迹，这导致创建这些环境和任务的劳动密集型，限制了生成足够多样性和广泛性的轨迹。为解决这一限制，本文探索了自动化合成多样化环境以及规划任务的渐进难度范围，从简单到复杂。我们引入了一个框架，名为AgentGen，利用LLM首先生成环境，随后根据这些环境生成规划任务。具体而言，为了提高环境多样性，我们提出使用包含不同领域特定文本段落的灵感语料库作为合成环境的上下文。此外，为了增加生成规划任务的难度多样性，我们提出了双向演化方法Bi-Evol，该方法从更容易和更难的方向进化规划任务，以合成具有平滑难度曲线的任务集。来自AgentBoard的评估结果显示，AgentGen显著提高了LLM的规划能力，例如，经过AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且，在某些任务中，它甚至超过了GPT-4。
2024-08-01	Jailbreaking Text-to-Image Models with LLM-Based Agents	Yingkai Dong et.al.	2408.00523	null	近期的进展显著提升了基于大型语言模型（LLM）的自主代理在自动任务解决能力方面的表现。然而，大多数基于LLM的代理主要集中在对话、编程或特定领域，这导致了在处理生成式AI安全任务时存在缺口。这些缺口主要是由LLM的幻觉问题以及缺乏明确指导原则所引发的。本文提出了一种名为Atlas的高级LLM基多代理框架，该框架集成了高效模糊化工作流程，专门针对针对文本到图像（T2I）模型的攻击行为，特别是针对具有安全性过滤器的T2I模型的“越狱”攻击。 Atlas利用视觉语言模型（VLM）来评估提示是否触发了T2I模型的安全性过滤器。然后，它通过迭代方式与LLM和VLM协作，生成一个绕过过滤器的替代提示。此外，Atlas通过利用多代理通信、上下文学习（ICL）记忆机制和思维链（COT）方法，增强了LLM在攻击场景中的推理能力。我们的评估表明，Atlas成功地在无模型设置下对多个最先进的T2I模型进行了“越狱”，这些模型都配备了多模态安全性过滤器。同时，Atlas在查询效率和生成图像质量方面均超越了现有方法。
2024-08-01	Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion	Honglei Miao et.al.	2408.00352	null	文本到动作（Text-to-Motion，T2M）模型通过深度生成模型驱动的人类运动生成，在应用中展现出令人信服的能力。然而，这些模型从文本提示生成真实动作的能力引发了安全问题，尤其是当它们可能被恶意利用时。尽管对T2M的兴趣日益增长，但很少有方法专注于保护这些模型免受对抗性攻击的影响。现有针对文本到图像模型的工作对于独特的动作领域来说并不充分。在本论文中，我们提出了一种名为ALERT-Motion的自主框架，它利用大型语言模型（LLMs）来构建针对黑盒T2M模型的有针对性的对抗性攻击。与先前的方法通过预定义规则修改提示不同，ALERT-Motion利用LLMs对人类动作的知识，自主生成微妙而强大的对抗性文本描述。该框架包含两个关键模块：一个适应性调度模块，构建了一个基于LLM的代理，以迭代地细化和搜索对抗性提示；以及一个多模态信息对比模块，提取与动作相关的关键语义信息，指导代理的搜索。通过这一基于LLM的方法，ALERT-Motion能够构造查询受害模型以产生与目标动作高度匹配的输出的对抗性提示，同时避免明显的扰动。在流行的T2M模型上进行的评估显示了ALERT-Motion相对于先前方法的优越性，其对抗成功率更高，并且对抗性提示更加隐蔽。这项关于T2M对抗性攻击的开创性工作强调了随着运动生成技术的发展，开发防御措施的紧迫性，这促使我们进一步研究安全和负责任的部署。
2024-07-31	Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries	Felix Ocker et.al.	2407.21778	null	我们提出了一种名为“tulip代理”的架构，旨在实现基于大型语言模型的自主智能体，具有对工具库中大量工具进行创建、读取、更新和删除的能力。与当前先进实现不同的是，“tulip代理”并不在系统提示中编码所有可用工具的描述，这会占用模型的上下文窗口，或在检索合适工具时嵌入整个提示。相反，“tulip代理”能够递归地在其可扩展的工具库中搜索合适的工具，该工具库作为向量存储实现。这种架构显著降低了推理成本，允许使用大量的工具库，并使代理能够适应并扩展其工具集。我们通过数学领域中的多个消融研究来评估该架构，并展示了其在机器人领域的通用性应用。参考实现和基准测试可在github.com/HRI-EU/tulip_agent上获取。
2024-07-31	Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent	Shanbo Cheng et.al.	2407.21646	link	在这篇论文中，我们提出了一种高质量且接近人类水平的实时语音翻译系统——跨语言代理——同时口译，简称CLASI。受专业口译员启发，我们采用了创新的数据驱动读写策略来平衡翻译质量和延迟时间。为了应对翻译领域特定术语的挑战，CLASI通过多模态检索模块获取相关资料以增强翻译内容。借助大型语言模型的支持，我们的方法能够考虑输入音频、历史语境以及检索到的信息，生成容错性较高的翻译结果。实验结果显示，我们的系统在各项指标上均显著优于其他系统。与专业口译员相媲美，我们使用了一个更好的评价指标——有效信息比例（VIP），它衡量了成功传达给听众的信息量。在现实世界场景中，演讲往往不流畅、非正式且模糊不清，CLASI在中英互译方向上的有效信息比例分别达到了81.3%和78.0%，而最先进的商业或开源系统仅分别为35.4%和41.6%。在极度困难的数据集上，当其他系统有效信息比例低于13%时，CLASI仍能实现70%的有效信息比例。
2024-07-30	Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification	Boyang Zhang et.al.	2407.20859	null	近期，基于大型语言模型（LLM）的自主代理在理论研究和实际应用方面均取得了显著进展。这些代理能够通过外部组件扩展基础LLM的能力，在多种方式下增强性能。例如，利用GPT-3.5-Turbo核心构建的代理可能在某些任务上超越更先进的GPT-4模型，关键在于其集成的工具可以使其在现实世界中执行操作，从单纯生成文本转向与环境的互动。鉴于代理在实际应用中的广泛部署及其对环境的直接影响能力，评估潜在漏洞变得至关重要。如果被恶意利用，这些自主系统可能造成的损害远大于单一语言模型。现有研究已探讨了LLM代理可能引发的有害行为，但我们的研究从一个全新的视角出发，关注于导致系统故障的攻击方式——即误导代理执行重复或无关的操作，从而引发功能紊乱。我们通过采用多样化的攻击方法、场景和属性，进行了全面的评估，旨在揭示这些攻击的脆弱性所在。实验结果表明，在多种情况下，这些攻击能够诱导故障率超过80%。我们进一步在多代理系统中实施并部署了代理，以此突出此类漏洞所引发的现实风险。为了应对上述攻击，我们提出了自我检查检测方法。然而，我们的研究发现，仅依靠LLM进行有效检测存在困难，这突显了该类漏洞所带来的重大风险。
2024-07-28	The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies	Feng He et.al.	2407.19354	null	受大型语言模型（LLM）快速发展的启发，LLM代理已发展到能够执行复杂任务。这些代理在各个领域广泛应用于处理大量数据以与人类互动并执行任务，这凸显了它们的商业价值。然而，这也暴露了安全和隐私漏洞。目前阶段，对LLM代理的安全性和隐私性进行全面研究至关重要。本文综述旨在全面概述新出现的隐私和安全问题，这些问题由LLM代理面临。我们首先介绍LLM代理的基本知识，随后对其进行威胁分类和分析。接着讨论这些威胁对人类、环境和其他代理的影响。随后回顾现有防御策略，并最终探索未来趋势。此外，本文通过多种案例研究来促进更易于理解的解释。通过强调这些关键安全和隐私问题，本文旨在激发未来研究，以增强LLM代理的安全性和隐私性，从而在未来应用中提高其可靠性和可信度。
2024-07-26	OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation	Zilong Wang et.al.	2407.19056	link	办公室自动化显著提高了人类的工作效率，通过自动完成工作流程中的常规任务。现有的人工智能文献主要集中在基本信息提取上，而办公室自动化研究应该扩展到更现实的办公室任务，这些任务需要整合办公室系统中的各种信息源，并通过一系列决策过程生成输出。我们引入了OfficeBench，这是第一个用于评估当前大型语言模型（LLM）代理在真实办公流程中处理办公任务能力的办公室自动化基准。 OfficeBench要求LLM代理进行可行的长期规划，高效地在应用程序之间切换，并基于工作流程的上下文需求，在庞大的联合动作空间内准确地定位其行动。通过在每个任务上应用我们的定制评估方法，我们发现GPT-4 Omni的通过率为47.00%，显示出在处理办公任务时具有不错的性能。然而，这仍然远低于实际办公流程所需的人类表现和准确性标准。进一步观察发现，大多数问题与操作冗余、幻觉以及在多个应用程序之间切换的限制有关，这可能为开发有效的自动化代理框架提供有价值的见解。
2024-07-30	MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains	Guoli Yin et.al.	2407.18961	link	近期大型语言模型（LLM）的发展推动了对全面基准的需求，以评估它们作为类人类代理的能力。现有的基准虽然有用，但往往聚焦于特定的应用场景，强调任务完成而非深入剖析驱动这些结果的底层技能。这种缺乏细节性使得难以精确地识别失败的原因。此外，设置这些环境需要大量的工作，并且在交互式任务中，不一致性与可重复性问题有时会出现。为了应对这些局限性，我们引入了大规模多任务代理理解（MMAU）基准，它通过无需复杂环境设置的全面离线任务来实现。MMAU覆盖了五个领域：工具使用、有向无环图（DAG）问答、数据科学和机器学习编程、竞赛级别的编程和数学，并涵盖了五种关键能力：理解、推理、规划、问题解决和自我修正。总计包括20个精心设计的任务和超过3千个独特的提示，MMAU提供了一个全面框架，用于评估LLM代理的优势和限制。通过对18个代表性模型在MMAU上的测试，我们提供了深入而有洞察力的分析。最终，MMAU不仅揭示了LLM代理的能力和限制，还增强了对其性能的可解释性。MMAU的数据集和评估脚本已发布于https://github.com/apple/axlearn/tree/main/docs/research/mmau。
2024-07-29	PersonaGym: Evaluating Persona Agents and LLMs	Vinay Samuel et.al.	2407.18416	null	Persona代理人，一种根据分配的人设行事的LLM代理，在各个应用领域展现出卓越的上下文响应能力。这些代理在教育、医疗保健和娱乐等不同行业中提供了显著的增强，因为模型开发者可以将代理响应与不同的用户需求对齐，从而扩展了代理应用的范围。然而，评估Persona代理性能极为困难，主要是由于在各种相关环境中的自由形式交互中评估人设一致性复杂性的挑战。我们引入了PersonaGym，首个动态评估框架，用于评估Persona代理，并提出了PersonaScore，首个基于决策理论的自动化人类对齐指标，用于全面大规模评估Persona代理。通过使用包含200个人设和10000个问题的基准，对6个开源和闭源的LLM进行评估，我们揭示了在最先进的模型中，Persona代理能力存在巨大的改进空间。例如，Claude 3.5 Sonnet的PersonaScore仅比GPT 3.5提高了2.97%，尽管Claude 3.5 Sonnet是一个更先进的模型。重要的是，我们发现模型大小和复杂性的增加并不一定意味着Persona代理能力的提升，这凸显了忠实和高效Persona代理算法和架构创新的迫切需要。
2024-08-03	PyBench: Evaluating LLM Agent on various real-world coding tasks	Yaolun Zhang et.al.	2407.16732	link	为了填补现有基准在简化任务和复杂特定任务方面的局限性，我们引入了PyBench，一个涵盖五大类真实世界任务的基准。这些任务涉及超过10种类型的文件，旨在全面覆盖日常编码需求。当用户提出高阶查询并提供相关文件时，LLM代理需要通过代码解释器执行Python代码进行多轮推理，最终生成满足用户需求的回答。成功解决PyBench中的任务要求代理具备广泛的Python包理解能力、高级推理能力和从执行代码中获取反馈的能力。我们的评估表明，当前开源的LLM模型在处理这些任务方面存在挑战。因此，我们对四种数据集进行了分析和实验，证明了解决PyBench所需的是全面的能力。我们精心调优的8B大小模型：PyLlama3，在PyBench上的表现令人兴奋，超越了许多更大规模（33B和70B）的模型。我们的基准、训练数据集和模型在GitHub上提供：https://github.com/Mercury7353/PyBench
2024-07-23	LawLuo: A Chinese Law Firm Co-run by LLM Agents	Jingyun Sun et.al.	2407.16252	link	大型语言模型（LLM）在为非法律背景用户提供法律咨询服务方面展现了巨大的潜力，这主要得益于它们在文本理解和生成方面的卓越能力。然而，现有的中文法律LLM仅限于单个模型与用户之间的对话交互，与律师事务所中多员工共同参与的咨询形式不同。这种限制使得咨询体验不那么真实。此外，现有中文法律LLM存在关键问题：（1）对指导微调数据质量控制不足；（2）由于用户查询的模糊性导致模型产生幻觉；（3）在多轮对话中，模型遵循指令的能力下降。针对这些挑战，我们提出了一种名为“LawLuo”的新型法律对话框架，利用多个LLM代理的协作能力，每个代理负责不同的功能，共同为用户提供全面的法律咨询服务。此外，我们构建了两个高质量的法律对话数据集KINLED和MURLED，并使用ChatGLM-3-6b对数据集进行微调。我们还提出了一个名为ToLC的法律查询澄清算法。实验结果表明，与GPT-4等基线LLM相比，LawLuo在律师风格的语言表达、法律建议的有效性以及法律知识的准确性三个方面均表现出更优性能。我们的代码和数据集可访问于https://github.com/NEFUJing/LawLuo。
2024-07-21	Multi-Agent Causal Discovery Using Large Language Models	Hao Duong Le et.al.	2407.15073	null	大型语言模型（LLM）在利用其从大量文本语料库中获取的广泛专家知识进行因果发现任务方面展示了巨大的潜力。然而，LLM在因果发现中的多代理能力尚未得到充分探索。本文提出了一种通用框架来研究这一潜力。首先，是元代理模型，它完全依赖于LLM代理之间的推理和讨论来进行因果发现。其次，是编码代理模型，它利用代理的规划、编写和执行代码的能力，结合高级统计库进行因果发现。第三，是混合模型，它将元代理模型和编码代理模型的方法相结合，融合了多个代理的统计分析和推理技能。我们的提议框架通过有效地利用LLM的专家知识、推理能力、多代理合作以及统计因果方法，显示出了有希望的结果。通过探索LLM的多代理潜力，我们旨在为利用LLM的多代理解决因果相关问题奠定基础。
2024-07-19	KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models	Kemou Jiang et.al.	2407.14239	null	大型语言模型（LLM）作为自主代理提供了一种通过知识驱动方式解决现实世界挑战的新途径。这些基于LLM的方法在泛化和可解释性方面表现出色。然而，驾驶任务的复杂性往往需要多个异构代理的合作，这凸显了LLM驱动的代理需要进行合作知识共享和认知协同的必要性。尽管LLM充满潜力，但当前的应用主要集中在单个代理场景。为了拓展知识驱动策略的范围并增强自主代理的一般化能力，我们提出了KoMA框架，该框架包括多代理交互、多步规划、共享内存和基于排名的反思模块，旨在增强复杂驾驶场景下多代理的决策制定能力。根据框架生成的驾驶场景文本描述，多代理交互模块使LLM代理能够分析和推断周围车辆的意图，类似于人类的认知过程。多步规划模块使LLM代理能够逐层分析和获得最终行动决策，确保短期行动决策的一致目标。共享内存模块可以积累集体经验，以做出更优决策，而基于排名的反思模块则用于评估和改进代理行为，以提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶代理的稳健性和适应性，还显著提升了它们在不同场景下的通用能力。实验结果表明，我们的方法在处理复杂的、不可预测的驾驶环境时优于传统方法，特别是在不需要大量重新训练的情况下。
2024-07-17	Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models	Sadegh Mahdavi et.al.	2407.12979	null	大型语言模型（LLM）在各种自然语言任务中表现出卓越的性能，但它们在需要结构化推理的规划问题上往往表现不佳。为了克服这一局限性，将规划问题转化为规划领域定义语言（PDDL）被提出作为一种潜在解决方案，这使得自动化规划器能够应用。然而，生成准确的PDDL文件通常需要人工输入或修正，这既耗时又成本高昂。本文提出了一种新颖的方法，利用LLM和环境反馈自动生成PDDL领域和问题描述文件，而无需人工干预。我们的方法引入了一个迭代细化过程，该过程生成多个问题PDDL候选，并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程，我们开发了探索漫步（EW）度量，它为LLM提供了丰富的反馈信号来更新PDDL文件。我们在PDDL环境中评估了我们的方法，实现了66%的任务解决率，相比之下，使用GPT-4进行内在规划并配合链式思考提示的方法仅实现了29%的任务解决率。我们的工作使使用LLM和环境反馈自动建模规划环境成为可能，消除了在PDDL生成过程中需要人工干预的需求，为LLM代理在挑战性问题上的更可靠应用铺平了道路。
2024-07-16	Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning	Yaswanth Narsupalli et.al.	2407.12877	null	评估自然语言生成（NLG）输出的质量，尤其是大型语言模型（LLMs）产生的输出，面临着巨大的挑战。传统方法要么依赖于资源密集型的人类评估，要么使用自动化指标，这些指标往往与人类判断的相关性较低。这项研究提出了一种名为Review-Feedback-Reason（ReFeR）的创新评估框架，用于利用LLM代理进行NLG评估。我们通过在两个现有的基准数据集上对ReFeR进行严格测试，在多种NLG任务中进行了测试。 ReFeR不仅提高了NLG评估的准确性，相对于之前的基准提高了约20%，而且生成了建设性的反馈，并显著增强了集体推理能力。这种反馈被用于创建指令调优数据集，当这些数据集用于微调较小的模型（如Mistral-7B）时，使它们成为非常优秀的评估者，与人类评估具有更好的相关性，并且性能几乎与GPT-3相当。我们的方法的有效性通过在三个推理基准上的应用得到了突出，其中ReFeR优于大多数最先进的方法，并且在平均值上分别比GPT-3.5 Turbo和GPT-4在推理能力上高出约11.67%和1%。
2024-07-17	AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases	Zhaorun Chen et.al.	2407.12784	link	LLM代理在各种应用中展现了卓越的性能，主要得益于它们在推理、利用外部知识和工具、调用API以及执行操作以与环境互动方面的高级能力。当前的代理通常使用内存模块或检索增强生成（RAG）机制，从知识库中检索过往知识和具有相似嵌入的实例，以指导任务规划和执行。然而，对未经验证的知识库的依赖引发了关于其安全性和可信度的重大担忧。为了揭示这些脆弱性，我们提出了一种新颖的红队方法AgentPoison，这是针对通用和RAG基于的LLM代理的第一个后门攻击，通过污染其长期记忆或知识库来实现这一目标。具体而言，我们将触发器生成过程建模为一个约束优化问题，旨在优化后门触发器，使其将触发实例映射到独特的嵌入空间，从而确保每当用户指令包含优化后的后门触发器时，高概率地从被污染的记忆或知识库中检索到恶意示例。同时，不包含触发器的良性指令仍能保持正常性能。与传统的后门攻击不同，AgentPoison无需额外的模型训练或微调，且优化后的后门触发器展现出优越的迁移性、上下文内连贯性和隐蔽性。广泛的实验结果证明了AgentPoison在对抗三种真实世界的LLM代理：RAG基于的自动驾驶代理、知识密集型问答代理和医疗健康EHRAgent方面的有效性。在每个代理上，AgentPoison平均攻击成功率超过80%，对良性性能的影响最小（低于1%），污染率小于0.1%。
2024-07-16	InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback	Haishuo Fang et.al.	2407.11843	null	在实际应用中部署基于大型语言模型（LLM）的代理的关键要求是对可能引发风险或不可逆错误的鲁棒性。然而，现有研究缺乏对LLM代理执行推理路径的前瞻评估，这导致了确保安全可靠操作方面的缺口。为探索更好的解决方案，本文引入了InferAct，一种新颖的方法，利用了LLM的理论思维能力，主动检测潜在错误，以防止关键行动的执行（例如，在自动在线交易或网络购物中的“立即购买”）。InferAct还能够整合人类反馈，以防止不可逆风险并增强行动代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。提出的解决方案提供了开发可以在涉及关键决策的不同环境安全部署的LLM代理的新方法和具体贡献。
2024-07-16	How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models	Yin Jou Huang et.al.	2407.11549	null	心理证据揭示了个性特质对决策的影响。例如，和善性通常与谈判中的积极结果相关联，而神经质则经常与较少有利的结果联系在一起。本文提出了一种基于大型语言模型（LLM）的仿真框架，该框架包含了具有合成个性特质的仿真代理。这些代理在讨价还价领域内进行谈判，并且拥有可定制的个性和目标。实验结果显示，LLM基座仿真中的行为倾向能够重现人类谈判中观察到的行为模式。贡献有两个方面。首先，我们提出了一种仿真方法论，以探究语言能力和经济能力在LLM代理之间的匹配程度。其次，我们提供了关于大五个性特质在双边谈判结果策略影响方面的实证见解。我们还提供了一个基于合成讨价还价对话的案例研究，揭示了一些引人入胜的行为，包括欺骗性和妥协性行为。
2024-07-16	Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning	Yulong Wang et.al.	2407.10718	link	基于大型语言模型（LLM）的现有代理展示了强大的问题解决能力，通过整合LLM的内在知识、强大的上下文学习和零样本能力以及人类设计的复杂LLM调用工作流程与工具的结合。然而，这些代理在长期推理方面仍存在局限性，并且未能充分利用现有工具的潜力，导致在复杂的现实世界推理场景中出现明显的缺陷。为了应对这些限制，我们引入了Sibyl，一个简单而强大的基于LLM的代理框架，旨在通过高效利用最少的工具集来解决复杂推理任务。受到全球工作空间理论的启发，Sibyl整合了一个全局工作空间，以增强系统内部的知识和对话历史的管理和共享。此外，根据心智社会理论的指导，Sibyl实施了一个多代理辩论为基础的陪审团，用于自我细化最终答案，确保全面平衡的方法。这一方法旨在减少系统复杂性，同时扩大可解决的问题范围——从人类几分钟内就能解决的问题到需要数小时甚至几天才能解决的问题，从而实现从系统1到系统2思考方式的转变。Sibyl的设计重点在于可扩展性和调试的简便性，通过从一开始就融入函数编程中的重入概念，旨在实现无缝和低努力的集成到其他LLM应用中，以提高其能力。我们的实验结果表明，使用GPT-4实例化的Sibyl代理在GAIA基准测试集上的表现最佳，平均得分为34.55%，超越了基于GPT-4的其他代理。我们希望Sibyl能够激励更多可靠且可复用的基于LLM的代理解决方案，以应对复杂的现实世界推理任务。
2024-07-15	Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning	Daniel Geissler et.al.	2407.10580	null	本文提出了一种利用混合智能以实现可持续和能源意识的机器学习的方法。在机器学习模型开发过程中，人们往往只关注最终模型性能的优化，而忽略了过程本身的效率。此外，在近期，由于复杂和大规模计算过程对环境的巨大影响，能源效率变得同样重要。本工作的贡献在于通过人机交互（Human-in-the-loop，HITL）和大型语言模型（Large Language Model，LLM）代理的集成，强调并进一步解决机器学习开发过程中的低效问题。简而言之，本文旨在通过结合人类的直觉、经验和AI的高效计算能力，改进机器学习流程的效率和环境友好性。通过引入HITL和LLM作为辅助工具，我们旨在识别和优化机器学习开发过程中的瓶颈，从而减少资源消耗，并促进更加可持续的AI实践。这一方法不仅有助于提高模型的训练速度和效率，还能降低能耗，对环境保护产生积极影响。
2024-07-15	CIBench: Evaluating Your LLMs with a Code Interpreter Plugin	Songyang Zhang et.al.	2407.10499	link	在基于LLM（大型语言模型）的代理取得显著进展的同时，对其能力的基准测试变得具有挑战性，这阻碍了对它们局限性的清晰理解。本文提出了一种交互式评估框架——CIBench，以全面评估LLM在数据科学任务中利用代码解释器的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集通过LLM与人类合作的方式构建，通过连续且互动的IPython会话模拟真实工作流程，从而实现对LLM能力的全面评估。两种评估模式分别考察了在有无人类辅助下，LLM的能力表现。我们进行了大量的实验，分析了24个LLM在CIBench上的表现，并提供了对未来在代码解释器利用方面发展LLM的宝贵见解。
2024-07-14	All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era	Bo Chen et.al.	2407.10081	null	推荐系统（RS）在应对信息过载和提供个性化内容方面至关重要，以满足用户多样化的信息需求。大型语言模型（LLM）的兴起为重新定义推荐系统提供了新的前景，利用其广泛的一般知识和推理能力。站在LLM时代，我们旨在将推荐系统整合到更广阔的框架中，并为未来的研究开辟更全面的解决方案。因此，我们首先提供了一个全面的技术进展概述，特别是针对语言基础模型及其在推荐中的应用。我们识别了现代推荐系统的两条演化路径——基于列表的推荐和对话式推荐。这两条路径最终在具有长期记忆、反思和工具智能优势的LLM代理上交汇。沿着这两条路径，我们指出推荐信息的有效性得到了提高，而用户的获取成本则降低了。我们仔细研究了每个里程碑的技术特性、研究方法论以及内在挑战，从传统的基于列表的推荐到增强的LLM推荐再到带有LLM代理的推荐。最后，我们强调了几个对于未来个性化技术与界面发展至关重要的未解决挑战，并讨论了未来前景。
2024-07-14	Revolutionizing Bridge Operation and maintenance with LLM-based Agents: An Overview of Applications and Insights	Xinyu-Chen et.al.	2407.10064	null	在人类社会发展各工业领域中，人们一直在寻求解放劳动力的方法。构建基于大规模语言模型的代理被视为实现这一目标的高效工具。作为具备感知、规划、决策和行动能力的人类智能实体，代理已经在众多领域创造了显著的生产价值。然而，桥梁维护与管理（O&M）领域相比其他行业，其智能化水平相对较低。尽管如此，该领域已经发展了众多智能检测设备、机器学习算法以及自主评估和决策方法，为本领域的人工智能突破奠定了基础。本研究旨在探讨基于大型语言模型的AI体对桥梁O&M领域的影响，分析它对核心任务可能带来的挑战与机遇。通过深入研究和分析，期望能为理解这一领域智能化应用提供更全面的视角。
2024-07-11	Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility	Yuchen Xia et.al.	2407.08550	link	这篇论文提出了一种新颖的方法，旨在将大型语言模型（LLMs）整合到自动化生产系统中，以提升任务自动化和灵活性。我们根据自动化金字塔构建生产操作的层级结构，将原子操作功能抽象为微服务，并通过专用的数字孪生系统进行调用执行。这为协调生产流程提供了可扩展且灵活的基础。在数字孪生系统中，低层次的、硬件特定的数据被赋予语义，使得LLMs能够理解和处理生产计划与控制任务。当接收到用户请求或识别到触发事件时，LLMs会生成生产流程计划，然后将其分解为一系列微服务，在现实世界的自动化系统中执行。我们在实验室的模块化自动化设施上实现了这一整体方法，通过一个实际案例展示了LLMs如何处理生产规划和控制任务，从而实现了一个直观、自动化程度高且更具灵活性的生产环境。最后，我们指出了实现LLMs在自主系统中的全部潜力所面临的局限性，并强调了其潜在的有益之处。有关此系列研究的演示可在以下链接访问：https://github.com/YuchenXia/GPT4IndustrialAutomation。
2024-07-11	PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models	Ruiqi Wang et.al.	2407.08213	null	## 翻译偏好驱动的强化学习（PbRL）作为一种新兴的方法，通过人类比较反馈教导机器人，避免了复杂的奖励工程的需求。然而，现有PbRL方法需要大量反馈，往往导致对由脚本教师生成的合成反馈的依赖，这又回到了复杂的奖励设计，并难以适应人类-机器人交互（HRI）场景中用户对同一任务的独特期望。为解决这些问题，我们提出了一种新颖的框架——PrefCLM，它利用大规模语言模型（LLMs）作为模拟教师参与PbRL。我们运用Dempster-Shafer理论在分数级别融合来自多个LLM代理的个人偏好，有效利用它们的多样性和集体智慧。同时，我们引入了一个用户参与的流程，以促进基于用户交互的集体精进。在各种通用强化学习任务中的实验结果显示，PrefCLM在性能上与传统脚本教师相当，并且在促进更自然、高效的机器人行为方面表现出色。一个现实世界的用户研究（N=10）进一步证明了它在个性化用户偏好的能力，显著提高了HRI场景中的用户满意度。
2024-07-10	Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities	Tianjie Ju et.al.	2407.07791	link	随着大型语言模型（LLMs）在多代理系统中的迅速应用，它们在协作问题解决和自主谈判等领域的出色性能引起了关注。然而，这些基于LLM的多代理系统的安全问题尚未得到充分研究，尤其是在知识操纵传播方面。本文通过构建详细的威胁模型和模拟环境，模拟现实世界中的多代理部署在可信平台上，探讨这一关键问题。我们提出了一种新颖的两阶段攻击方法，包括说服性注入和操纵知识注入，来系统地探究在无明确提示操纵的情况下，如何潜在地传播操纵知识（如虚构和有害知识）。我们的方法利用了LLMs处理世界知识固有的漏洞，攻击者可以借此无意识地传播编造的信息。实验结果表明，我们的攻击方法能够成功诱导基于LLM的代理在交流中传播这两种操纵的知识，同时不会显著降低它们的基础功能。此外，我们发现这些操纵会持续存在于流行的检索增强生成框架中，即使交互结束，若干良性代理也可能继续受到操纵聊天记录的影响。我们的发现揭示了LLM基多代理系统中的重大安全风险，强调了对操纵知识传播进行强大防御的迫切需求，例如引入“守护”代理和先进的事实核查工具。
2024-07-09	Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models	Logan Cross et.al.	2407.07086	link	在多智能体强化学习（MARL）方法中，处理多智能体系统的非stationarity并适应在线学习的能力是一个挑战。为此，我们利用大型语言模型构建了一个自主的解决策略。我们的新型智能体“假设心智”（Hypothetical Minds）采用认知启发式架构，包括感知、记忆和两个抽象层次上的分层规划模块。其中的关键部分是“心理理论”模块，它通过自然语言生成对其他智能体策略的假设，并根据这些假设对其他智能体行为的预测进行评估和迭代优化。通过这种方式，假设心智在Melting Pot基准中的多种竞争、混合动机和协作环境中，无论是二元还是群体环境，都显著优于先前的语言模型智能体（LLM-agent）和强化学习基础线。对比实验还显示，假设的评估和精炼对于在复杂场景中取得成功至关重要。
2024-07-09	Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy	Zhenyu Guan et.al.	2407.06813	null	## 背景在人类社会中，外交是一种极其复杂的活动，涉及众多各方/行动者的互动，需要具备社会推理、谈判技巧和长期策略规划等多方面能力。以往的AI代理已经在处理多步骤游戏和大动作空间的多代理任务上展示了实力。然而，外交所涉及的决策空间范围惊人，特别是在需要谈判的阶段。近期，大型语言模型（LLM）在一些应用中展现出了超越前代的能力，但仍不足以应对复杂多代理环境中长时间的规划。借助尖端的LLM技术，我们首次尝试探索AI在如此全面的多代理使命中的上限，通过整合三个核心且关键的功能，以构建更强的基于LLM的社会性代理：1）具有记忆和反思的策略规划者；2）目标导向的、具备社会推理的谈判者；3）通过自我对弈游戏增强记忆，实现无人工干预的自我进化。
2024-07-10	FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making	Yangyang Yu et.al.	2407.06567	null	大型语言模型（LLMs）在执行复杂任务方面展现出显著潜力，并越来越多地应用于金融领域。然而，高质量的连续投资决策过程仍面临挑战，它需要与不断变化的环境进行多次交互，以最大化回报并管理风险。尽管已经开发出基于LLMs的代理系统，它们能够超越人类团队，实现投资收益，但如何优化多源信息整合和决策结果，通过实时经验改进，仍有待探索。为此，我们提出FinCon，一个专为多样化的金融任务设计的基于LLM的多代理框架，其特点在于概念化口头强化和财务组织结构的运用。 FinCon借鉴现实世界投资公司的组织架构，采用经理-分析师的沟通层次，促进跨职能代理间的协同合作，通过自然语言交流实现目标统一。每个代理都具备比人类更大的记忆容量，这有助于更高效的信息处理。此外，FinCon还引入了一个风险控制组件，定期启动自我批判机制，以更新系统的投资理念。这些概念化的信念作为口头强化，指导未来行为，并可根据需要选择性地传递给需要更新知识的节点，从而减少不必要的信息交流成本，提高性能。 FinCon在单一股票交易和资产管理等不同金融任务上表现出强大的泛化能力，证明了其在实际金融场景中的应用潜力。
2024-07-08	Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning	Yadong Zhang et.al.	2407.06112	null	该论文提出了一个新颖的推理方法——双向决策解放推理（BIDDER），旨在提升语言模型的决策合理性。传统推理方法通常依赖历史信息，采用单向（从左到右）的推理策略，这导致对潜在未来结果的认识不足，以及历史背景的整合不够充分，从而产生次优决策。BIDDER通过融合理性决策的原则，特别是处理不确定性并预测期望效用，弥补了这一短板。其方法包括三个关键步骤：从历史数据中推断隐藏状态，以表示决策过程中的不确定信息；利用这些隐藏状态预测未来的潜在状态和可能结果；结合历史信息（过去情境）和长期结果（未来情境），以指导推理。通过双向推理，BIDDER能够全面考虑过去和未来的情境，从而做出更明智、更理性的决策。我们在扑克（限注德州扑克）和谈判两个明确场景中测试了BIDDER的效果，实验显示它显著提高了语言模型和基于语言模型的代理的决策能力。
2024-07-08	Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation	Jiaqi Chen et.al.	2407.05890	null	基于语言模型的代理在视觉导航（VLN）任务中展现出零样本的强大性能。然而，这些方法仅关注解决高层任务规划，通过选择预定义导航图中的节点进行移动，忽视了现实场景中低层次的控制。为了弥补这一不足，我们提出了AO-Planner，一个新颖的面向可及性规划的连续视觉导航框架。AO-Planner整合多种基础模型，实现面向可及性的运动规划和动作决策，均以零样本的方式执行。具体来说，我们采用了视觉可及性提示（VAP）方法，利用SAM分割可见地面，提供导航可及性信息，从而让语言模型选择潜在的下一个路标，并生成向选定路标的低层次路径规划。此外，我们引入了高级代理PathAgent，识别出最可能的像素级路径，并将其转换为三维坐标，以完成低层次的移动。在具有挑战性的R2R-CE基准测试上，AO-Planner实现了最先进的零样本性能提升（SPL指标提高5.5%）。我们的方法有效连接了语言模型与三维世界，避免了直接预测世界坐标点的困难，为利用基础模型进行低层次运动控制提供了新的前景。
2024-07-05	VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models	Hang Gao et.al.	2407.04573	null	在大型语言模型（LLMs）快速发展的背景下，向量检索算法对于满足相似度和多样性要求的语义查询至关重要。尽管Maximal Marginal Relevance（MMR）在涉及这两个需求的检索场景中被广泛应用，但其参数λ的变化会导致结果波动，使得向量空间中的优化路径变得模糊。此外，当前缺乏对相似性和多样性在检索过程中约束的坚实理论分析。本文提出了一种新方法，通过查询向量与求和向量之间的关系来刻画这两种约束。这种关系确保了相似性，同时要求求和向量中的各个向量以分散的方式与查询向量对齐，以满足多样性需求。我们还提出了一个新的组合优化问题：从一组候选向量中选择 $k$ 个，使得它们的求和向量最大程度地与查询向量匹配。我们证明了这个问题是NP完全的，揭示了在向量检索中同时追求相似性和多样性的深刻困难，并为后续研究奠定了理论基础。此外，我们设计了一个名为Vectors Retrieval with Similarity and Diversity（VRSD）的启发式算法，它不仅具有明确的优化目标，无需预设参数，而且在时间复杂度上相对于MMR有所降低。实证验证表明，VRSD在各种数据集上显著优于MMR。
2024-07-05	When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions	Jérémy Perez et.al.	2407.04503	link	随着大型语言模型（LLMs）之间的互动增加，它们在线上生成的文本量也随之增多，研究如何信息在从一个LLM传递到另一个LLM的过程中发生变化变得至关重要。尽管对单个LLM的行为已有深入研究，但对迭代交互中集体行为和信息扭曲的探讨相对不足。微小的偏差，在单次输出时可能显得不明显，但在多次交互中可能会被放大，可能导致内容朝着吸引子状态演变。我们通过借鉴人类文化进化学的研究方法——电话游戏实验，设计了一种链式传输模型。在这个过程中，LLM代理接收、生成并传递文本，从一个链中的前一个代理到下一个。我们追踪了文本的毒性、积极度、难度和长度在传输链中的演变，揭示了偏见和吸引子的存在，并研究了它们与初始文本、指令、语言模型和模型规模的关系。例如，我们发现开放性指令比约束性任务更容易引发更强的吸引效应。此外，不同的文本特性对吸引子效应的敏感度不同，毒性的影响通常大于长度。这些发现强调了考虑多步骤传输动态的重要性，为进一步理解LLM的文化动态奠定了基础。
2024-07-05	AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents	Petr Anokhin et.al.	2407.04363	link	随着生成式人工智能的进步，大型语言模型（LLMs）在自主代理的发展中展现出广阔的应用前景。实现真正的自主性需要从与环境的交互中积累和更新知识，并能有效利用这些信息。当前基于LLMs的方法依赖于全历史观察、总结或检索增强，但这些非结构化的记忆表示不利于复杂决策中的推理和规划。我们的研究提出AriGraph，一种新型方法，让代理在探索环境中构建融合语义和情节记忆的记忆图。这种图结构促进关联概念的有效检索，这些概念与代理当前状态和目标相关，从而成为一种有效的环境模型，提升探索和规划能力。我们设计的Ariadne LLM代理，配备有我们提出的记忆架构以及规划和决策功能，能在零样本基础上处理TextWorld环境中的复杂任务，如First TextWorld Problems竞赛中的烹饪挑战，以及新任务如房屋清洁和寻宝谜题。与全历史、总结和检索增强生成等传统方法相比，我们的方法在各种任务中表现出显著优势。
2024-07-02	MMedAgent: Learning to Use Medical Tools with Multi-modal Agent	Binxu Li et.al.	2407.02483	null	尽管多模态大型语言模型（MLLMs）已经取得了成功，但它们的泛化能力仍然有限，在某些情况下表现不如专门化的模型。为了解决这些问题，最近的研究开发了基于LLMs的代理，可以根据用户输入选择合适的专用模型。然而，这种进展在医疗领域尚未得到充分探索。为了弥补这一空白，本文首次提出了一种专门为医疗领域设计的代理，称为\textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent}（MMedAgent）。我们构建了一个指令调优数据集，包含了六个医疗工具来解决七项任务，使代理能够为给定任务选择最合适的工具。实验全面展示了MMedAgent在各种医疗任务上超越了开源方法的最新状态，甚至与闭源模型GPT-4o相比也表现出色。此外，MMedAgent还显示出了更新和整合新医疗工具的高效性。
2024-07-02	Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents	Fanzeng Xia et.al.	2407.01887	null	本文关注的是大型语言模型在决策制定中的性能，尤其是在杜尔克姆双臂赌博（Dueling Bandits，DB）问题的上下文中。研究比较了GPT-3.5-Turbo、GPT-4和GPT-4-Turbo与现有DB算法的性能。结果显示，尤其是GPT-4 Turbo，能够快速识别出优势明显的选项，从而在弱后悔方面超越当前最佳算法。然而，这些模型在收敛性上存在问题，对提示的敏感度较高，且对提示变化反应脆弱。为了改进，我们提出了一种结合了LLM决策能力与经典DB算法理论保证的增强型算法——IF-Enhanced LLM。这种设计展示了如何增强LLM在对性能稳定性有要求的决策任务中的可信度。IF-Enhanced LLM具有弱后悔和强后悔的理论保证。实验结果验证了即使面对嘈杂和对抗性的提示，IF-Enhanced LLM仍保持稳健。
2024-07-01	Agentless: Demystifying LLM-based Software Engineering Agents	Chunqiu Steven Xia et.al.	2407.01489	link	随着大型语言模型（LLMs）的最新进展，软件开发任务的自动化，如代码合成、程序修复和测试生成，已取得显著进步。研究人员和业界实践者已经开发出各种自主LLM代理来执行端到端的软件开发任务，它们能够利用工具、运行命令、观察环境反馈并规划未来行动。然而，这些基于代理的方法的复杂性以及当前LLM的局限性，引发了一个问题：是否真的需要使用复杂的自主软件代理？为了探讨这个问题，我们构建了Agentless——一种无代理方法，用于自动解决软件开发问题。与复杂的代理设置相比，Agentless采用了一种简单的两阶段过程：定位后修复，不让LLM决定未来的行动或操作复杂的工具。在流行的SWE-bench Lite基准上，我们的实验结果令人惊讶地表明，这种简单的方法能够实现最高性能（27.33%）和最低成本（0.34美元），超越所有开源软件代理！此外，我们手动分类了SWE-bench Lite中的问题，并发现存在精确的ground truth补丁问题或描述不足/误导性的问题。因此，我们构建了SWE-bench Lite-S，通过排除这些问题来进行更严格的评估和比较。我们的工作突显了当前被忽视的简单、可解释技术在自主软件开发中的潜力。我们希望Agentless将作为自主软件代理的基线、起点和期望值，激发未来在这个关键领域的工作。
2024-07-01	MIRAI: Evaluating LLM Agents for Event Forecasting	Chenchen Ye et.al.	2407.01231	null	随着大型语言模型（LLMs）的最新进展，这些模型能够自主收集全球信息，并进行推理以解决复杂问题，这引发了使用LLM预测国际事件的兴趣。然而，目前缺乏一个严格评估LLM预测能力与可靠性的基准。为了填补这一空白，我们提出MIRAI，这是一个新颖的基准，旨在系统地评价LLM在国际事件时间序列预测中的表现。MIRAI构建了一个代理环境，配备有访问广泛历史结构化事件和文本新闻数据库的工具。我们对GDELT事件数据库进行了精心清洗和解析，设计了一系列关联预测任务，涵盖了不同预测时间范围，从短期到长期，以检验LLM在整合全球关键信息、运用领域特定API和库编写代码以及综合处理来自多种格式和时间的历史知识以准确预测未来事件的能力。通过全面的基准测试，我们的目标是建立一个可靠的框架，以评估LLM在国际事件预测方面的性能，从而推动更精确和可信的国际关系分析模型的发展。
2024-07-01	Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents	Shihan Deng et.al.	2407.00993	null	随着大型语言模型（LLMs）的显著进步，基于LLM的移动代理已成为人机交互领域的研究热点。然而，针对此类代理的基准测试资源相对匮乏。评估这类代理通常面临三个挑战：（1）仅依赖用户界面（UI）操作的低效限制了任务评估；（2）单一应用中的特定指令不足以全面评估LLM移动代理的多维度推理和决策能力；（3）当前的评估指标无法准确衡量连续动作过程。为此，我们提出了Mobile-Bench，一个全新的用于评估LLM移动代理能力的基准。首先，我们扩展了传统的UI操作，融入了103个收集到的API，以提高任务完成的效率。接着，我们通过结合真实用户查询和LLM增强的数据收集来进行评估。为了更好地评价移动代理的不同规划能力层次，我们的数据被分为SAST（简单任务）、SAMT（稍复杂任务）和MAMT（多任务）三类，反映了任务复杂度的差异。Mobile-Bench包含832条数据条目，其中超过200项任务专门设计用于测试跨应用协作场景。此外，我们引入了一种更精确的评估指标，称为CheckPoint，用于检查LLM移动代理在规划和推理步骤中是否达到关键点。
2024-06-29	Large Language Models for Power Scheduling: A User-Centric Approach	Thomas Mongaillard et.al.	2407.00476	link	随着传统优化和调度方法逐渐转向用户驱动和个人化服务，以提升用户体验（QoE）和灵活性，未来的系统，尤其是在无线和数字化能源网络中，面临着如何更好地理解和响应用户需求的挑战。传统的系统往往忽视了用户的个性化需求，因为用户与机器之间的沟通不畅。大型语言模型（LLMs）的出现为解决这个问题带来了突破，它们提供了用户与设备之间自然的交流界面。本文首次提出了一种新颖的架构，通过构建三个LLM代理来将用户的语音请求（VRQ）转化为资源分配向量。具体包括：LLM意图识别代理将请求转化为优化问题（OP）、LLM OP参数识别代理以及LLM OP求解代理。我们针对电动汽车（EV）充电的典型VRQ创建了一个数据库，作为性能评估的基础。作为概念验证，我们主要使用Llama 3 8B模型进行实验。通过不同的提示工程场景测试，结果显示了所提架构的有效性。研究还揭示了一些关键见解，例如，用于建模实际问题的更大候选OP集可能会由于更高的识别/OP分类噪声而降低最终性能。所有结果和代码已开源，供学术界进一步研究和利用。
2024-06-29	Financial Knowledge Large Language Model	Cehao Yang et.al.	2407.00365	null	人工智能在金融领域取得了显著进步，正在重塑数据处理和解读方式。其中，大型语言模型（LLMs）展现出巨大的潜力，能够自动化复杂任务、提升客户服务，并提供详尽的财务分析。首先，我们介绍IDEA-FinBench，这是一个专为评估大型语言模型在金融知识方面的性能而设计的评价基准。它借鉴了两个全球知名且权威的金融专业考试中的问题，旨在全面检验LLMs解答与金融相关考题的能力。其次，我们提出IDEA-FinKER，是一个金融知识增强框架，旨在快速让通用LLMs适应金融领域。它采用基于检索的少量样本学习方法，实现实时上下文级知识注入，并提供一套高质量的金融知识指令，用于微调任何通用模型。最后，我们展示了IDEA-FinQA，一个由LLMs驱动的金融问答系统。该系统围绕实时知识注入和事实强化的架构构建，利用外部知识。IDEA-FinQA主要由数据收集器、数据查询模块和执行特定功能的LLM代理组成。
2024-06-28	Simulating Financial Market via Large Language Model based Agents	Shen Gao et.al.	2406.19966	null	大多数经济理论通常假设金融市场参与者是完全理性的个体，并使用数学模型来模拟人类在金融市场的行为。然而，人类行为往往并非完全理性，用数学模型精确预测颇具挑战。本文提出了一种新型的\textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket（ASFM），首先构建了一个具有真实订单匹配系统的模拟股票市场。接着，我们设计了一种基于大型语言模型的股票交易代理，它包括个人概况、观察和基于工具学习的动作模块。这种交易代理能够全面理解当前市场动态和金融政策信息，从而根据其交易策略作出决策。实验表明，ASFM在可控场景下的反应与现实股票市场一致。此外，我们在两个经济学研究热点领域进行了实验，结果发现，我们的\model得出的结论与经济学研究的初步发现相吻合。因此，我们认为ASFM为经济研究提供了一个新的范式。
2024-06-26	Simulating The U.S. Senate: An LLM-Driven Agent Approach to Modeling Legislative Behavior and Bipartisanship	Zachary R. Baker et.al.	2406.18702	null	这项研究提出了一种创新的方法，利用语言模型驱动的虚拟代理来模拟立法过程，具体聚焦于美国参议院情报委员会。我们构建了代表个别参议员的代理，并在模拟的委员会讨论中让它们互动。这些代理展现出在现实辩论中的能力，能够提供深思熟虑的观点，并在特定条件下找到两党的解决方案。值得注意的是，模拟显示，面对外部干扰时，代理模型在两党合作上展现出转变的潜力。研究结果表明，这种基于语言模型的策略可能成为理解和改进立法流程的有效工具，这与一系列发现相呼应，即基于语言模型的代理能有用地模拟现实世界现象。未来的研究将致力于提升代理的复杂性，扩大模拟范围，并探索在政策测试和谈判中的应用。
2024-06-25	Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks	Yun-Shiuan Chuang et.al.	2406.17232	null	### 翻译构建逼真的人工大型语言模型（LLMs）对于实现可信的社会模拟至关重要。尽管基于人口统计信息的角色扮演有时能提升人性化，但效果并不总是理想。本研究旨在探究是否可以通过整合来自实证人类信念网络的信息，进一步提升LLMs与人类行为的契合度。我们利用一项人类调查数据，估计了一个包含18个主题的信念网络，这些主题加载于两个不重叠的潜在因子上。然后，我们在LLM中植入一个关于某一主题的观点，分析其对剩余测试话题表达的观点与相应人类数据的契合程度。仅依赖人口统计信息的角色扮演未能使LLM和人类观点保持一致，但当植入单一信念时，对于相关于信念网络内的主题，这种一致性显著提高，而对于网络外的主题则没有明显影响。这些结果表明了一种新颖的方法，可以用于在追求理解和模拟社会中信念分布模式的人工智能工作中，实现人类与LLMs之间的信念对齐。
2024-06-21	GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians	Haoyang Liu et.al.	2406.15341	link	## 翻译近年来，机器学习的进步显著提升了从基因表达数据中识别疾病相关基因的能力。然而，这些过程往往需要深厚的专长和大量的人工努力，限制了其可扩展性。大型语言模型（LLMs）驱动的代理显示出在自动化此类任务方面的潜力，因为它们的问题解决能力日益增强。为了支持这类方法的评估和发展，我们创建了GenoTEX，这是一个基因表达数据分析自动探索的基准，包括数据集选择、预处理和统计分析任务。GenoTEX提供了全面的分析管道，其中包含了人类生物信息学家精心编写的注释，他们对数据集进行深入分析以确保准确性和可靠性。为了提供这些任务的基线，我们设计了GenoAgents，这是一个基于LLMs的代理团队，具备上下文感知规划、迭代校正以及与领域专家咨询的能力，它们协作探索基因数据集。我们的实验显示了LLM驱动方法在基因组数据分析中的潜力，而错误分析指出了挑战和未来的改进方向。我们提议GenoTEX作为一个有前景的资源，用于衡量和提升人工智能驱动的基因组数据分析方法。我们的基准已公开发布在：\url{https://github.com/Liu-Hy/GenoTex}。
2024-06-21	Autonomous Agents for Collaborative Task under Information Asymmetry	Wei Liu et.al.	2406.14928	link	大型语言模型多-agent系统（LLM-MAS）在解决复杂任务方面取得了显著进步。它们通过系统内各代理之间的通信协作来完成任务，前提是共享信息。然而，当代理间的交流被用于增强人类合作时，由于信息不对称（每个代理仅能访问其对应人类用户的信息），这带来了新的挑战。传统MAS在这种情况下难以完成任务。为解决此问题，我们提出了一种新型多agent系统架构，称为“iAgents”，即信息丰富多agent系统。在iAgents中，人类社会网络在代理网络中得到反映，代理主动交换完成任务所需的人类信息，从而克服信息不对称。iAgents采用了一种新颖的代理推理机制，InfoNav，引导代理之间的有效信息交流。结合InfoNav，iAgents组织了混合记忆中的人类信息，为代理提供准确全面的信息进行交换。此外，我们还推出了首个针对评估LLM在信息不对称条件下任务解决能力的基准——InformativeBench。实验结果显示，iAgents能够在包含140人和588条关系的社会网络中协作，自主进行超过30轮的通信，并从近70,000条消息中检索信息，在3分钟内完成任务。
2024-06-21	FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents	Ruixuan Xiao et.al.	2406.14884	null	基于语言模型的代理作为一种有前景的工具，被设计用于通过迭代规划和行动来执行复杂任务。然而，这些代理在处理需要专业知识的任务时，容易产生不期望的规划幻觉。为了解决这个问题，初步尝试通过融入与工作流程相关的外部知识来增强规划可靠性。尽管显示出潜力，但注入的知识通常杂乱无章，格式多样，缺乏严谨的规范化和全面的比较。为此，我们规范了不同格式的工作流程知识，并提出了FlowBench，这是第一个面向工作流引导规划的基准。FlowBench涵盖了来自6个领域的51个不同场景，其中知识以多样的形式呈现。为了评估不同语言模型在FlowBench上的性能，我们设计了一个多层次的评估框架。我们研究了工作流程知识在多种格式下的有效性，结果表明当前的语言模型代理在满足满意的规划需求方面仍有很大的提升空间。我们期望这个具有挑战性的基准能为未来的代理规划研究铺平道路。
2024-07-01	Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory	Gordon Dai et.al.	2406.14373	null	随着大型语言模型（LLMs）和人工智能的进步，计算社会科学的研究迎来了大规模探索的机遇。我们的工作基于先前对LLM行为体设计的研究，构建了一个模拟的Agent社会，其中复杂的社交关系随时间动态形成和发展。我们赋予这些Agent心理驱动力，并置于一个沙盒生存环境中。通过托马斯·霍布斯的奠基性社会契约理论（SCT）的视角，我们评估了这个Agent社会。实验结果显示，起初，Agent们表现出无拘无束的冲突，符合霍布斯对“自然状态”的描述。然而，随着模拟的进行，社会契约逐渐形成，绝对主权者得到了授权，进而建立了以相互合作为基础的和平共同体。我们的实验发现与霍布斯理论相吻合：LLM驱动的多Agent模拟展示了社会动态的复杂性，可能复制塑造人类社会的力量。尽管无法完全模拟人类行为的所有细微之处，但这种模拟对于理解社会结构、群体动态和复杂人类系统具有潜在价值。
2024-06-20	EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms	Siyu Yuan et.al.	2406.14228	link	随着强大大型语言模型（LLMs）的兴起，一种新的趋势是利用这些模型构建能解决复杂任务的自主代理，尤其是多代理系统。然而，现有的研究很大程度上依赖于人类设计的框架，这限制了代理系统的功能范围和可扩展性。如何自动将专门的代理扩展到多代理系统，以提升任务解决能力，仍然是一个重大挑战。本文提出EvoAgent，这是一种通过进化算法自动将专家代理扩展到多代理系统的方法，旨在提高基于LLM的代理在执行任务中的效率。具体来说，我们视现有的代理框架为初始个体，并应用一系列进化操作（如突变、交叉、选择等）生成具有不同设置的代理。EvoAgent适用于任何基于LLM的代理框架，能够无须额外人工设计自动生成扩展的多代理系统。实验结果显示，EvoAgent能够自动产生多个专家级代理，并显著增强基于LLM的代理的任务解决能力。
2024-06-19	AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents	Edoardo Debenedetti et.al.	2406.13352	link	本文介绍了一个名为AgentDojo的框架，用于评估依赖于外部工具处理不可信数据的AI代理的对抗性鲁棒性。面对不断演变的攻击和防御手段，AgentDojo不是一个静态的测试套件，而是设计和评估新任务、防御策略以及适应性攻击的可扩展环境。它包含了97个实际应用场景的任务（如管理电子邮件客户端、导航网上银行网站或预订旅行），629个安全测试案例，以及来自文献的各种攻击和防御方法。研究发现，当前最先进的语言模型在AgentDojo中的表现并不尽人意（即使没有攻击），并且现有的提示注入攻击虽然能破坏一些安全特性，但并非所有情况都适用。我们期望AgentDojo能够推动研究，以寻找在解决常见任务时既可靠又健壮的AI代理的新设计原则。相关代码已发布在https://github.com/ethz-spylab/agentdojo。
2024-06-19	LLMatDesign: Autonomous Materials Discovery with Large Language Models	Shuyi Jia et.al.	2406.13163	null	发现新材料对科学和技术具有重大意义，但目前仍是艰巨问题，因为化学空间浩瀚。近期，机器学习的进步推动了基于数据的方法来快速筛选或生成有前景的材料，但这些方法仍依赖大量训练数据，且往往缺乏人类期望的材料设计的灵活性和化学直觉。我们提出LLMatDesign，一个由大型语言模型驱动的可解释材料设计新框架。LLMatDesign利用LLM代理理解人类指令，对材料进行修改，并使用提供的工具评估结果。通过自我反思先前决策，LLMatDesign能在零样本情况下快速适应新任务和条件。在离线实验中，对LLMatDesign在多个材料设计任务中的系统评估证实了它在小数据环境下开发出具有用户定义目标性质的新材料的有效性。我们的框架展示了自主LLM引导的计算环境下的材料发现的非凡潜力，预示着未来自驾驶实验室的可能性。
2024-06-18	Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents	Zehao Wang et.al.	2406.12806	null	背景：配置设置对于调整软件行为以满足特定性能需求至关重要，但错误配置普遍存在。由于配置项众多且复杂，识别影响系统性能的配置是一项挑战。本研究提出PerfSense，这是一个轻量级框架，利用大型语言模型（LLMs）高效地识别性能关键配置，同时保持低开销。PerfSense利用LLM代理模拟开发者和性能工程师之间的交互，采用先进的提示链技术和检索增强生成（RAG）等技术。方法与成果：我们在七个开源Java系统上的评估显示，PerfSense在分类性能敏感配置方面的平均准确率为64.77%，优于基于LLM的基线（50.36%）和先前的最佳方法（61.75%）。特别是，我们的提示链技术提高了召回率10%至30%，而保持了相似的精确度。进一步的手动分析362个误分类案例，发现常见问题包括LLMs对需求的理解偏差（占26.8%）。结论：PerfSense显著减少了手动分类性能关键配置的工作量，并为未来的LLM基于代码分析研究提供了有价值的观点。
2024-06-18	AgentReview: Exploring Peer Review Dynamics with LLM Agents	Yiqiao Jin et.al.	2406.12708	null	## 翻译同行评审是科学出版诚信和进步的基础。传统的同行评审数据分析方法往往侧重于现有数据的探索和统计，但未能充分考虑这一过程的多变量性质，处理潜在变量，且受限于隐私问题，因为数据涉及敏感性。我们提出AgentReview，这是一个基于大型语言模型（LLM）的同行评审模拟框架，有效分解了多个潜在因素的影响，并解决了隐私问题。研究发现，由于社会影响力理论、利他主义疲劳和权威偏见等社会学理论的支持，论文决策中存在显著的37.1%的变异性。我们相信这项研究能为优化同行评审机制设计提供宝贵见解。
2024-06-18	Large Language Models based Multi-Agent Framework for Objective Oriented Control Design in Power Electronics	Chenggang Cui et.al.	2406.12628	null	这篇论文关注于电力电子系统控制设计中的挑战，特别是模型不确定性以及设计周期漫长和成本高昂的问题。论文旨在提出一种基于大型语言模型（LLMs）的多代理框架，用于面向目标的电力电子控制器设计。该框架利用LLMs的推理能力，结合多代理工作流程，旨在开发一个高效且自动化的控制器设计流程。LLM代理能够理解并响应自然语言的高级指令，根据任务的具体需求和实际应用中的约束调整其行为。这种新颖而高效的策略有望显著提升电力电子控制器设计的灵活性和适应性，极大地便利实践者的工作。
2024-06-18	CodeNav: Beyond tool-use to using real-world codebases with LLM agents	Tanmay Gupta et.al.	2406.12276	null	我们介绍CodeNav，这是一种利用大型语言模型（LLM）来导航和利用先前未见过的代码仓库，以解决用户查询的系统。与需要通过手动描述在LLM上下文中“注册”所有相关工具的工具使用型LLM不同，CodeNav能够自动索引和搜索目标代码库中的代码块，找到相关的代码片段，导入它们，并根据执行反馈迭代生成解决方案。首先，我们通过三个案例研究展示CodeNav如何使用三种不同的代码库来解决复杂的用户问题。接着，在三个基准测试中，我们定量比较了仅能访问目标代码库的代码使用方法与拥有对所有工具名称和描述的特权访问的工具使用方法的效果。此外，我们研究了不同类型工具和库描述对代码使用性能的影响，以及将源代码视为输入而非自然语言代码描述的优势。所有代码将遵循宽松许可协议开源。
2024-06-17	Efficient Sequential Decision Making with Large Language Models	Dingyang Chen et.al.	2406.12125	null	该论文关注的是将大型语言模型（LLMs）的成功扩展到序列决策制定。当前的努力要么重新训练或微调LLMs进行决策，要么为预训练的LLMs设计提示。前者面临计算负担重的梯度更新问题，而后者未显示出明显效果。为此，我们提出了一种新方法，利用在线模型选择算法有效地将LLMs整合到序列决策过程中。统计上，我们的方法显著优于传统决策算法和纯LLM代理。在计算上，我们的方法避免了对LLMs进行昂贵的梯度更新，并且在整个决策过程中仅需要少量的LLM调用。我们进行了广泛实验来验证我们方法的有效性。以一个大规模的亚马逊数据集为例，我们的方法在仅使用1.5%的时间步数调用LLMs的情况下，实现了比基线超过6倍的性能提升。
2024-06-17	Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector	Xiaoxue Cheng et.al.	2406.11277	link	这篇论文探讨了大型语言模型（LLMs）在幻觉检测方面的挑战，特别指出以往研究主要依赖于强大的闭源模型如GPT-4。作者提出了一种自主的基于LLM的代理框架，称为HaluAgent，它允许较小的模型（如巴 chcuan2-Chat 7B）主动选择适合检测文本、代码和数学表达式等多种幻觉类型的工具。HaluAgent整合了LLM、多功能工具箱，并设计了一个细粒度的三阶段检测框架，同时配备了记忆机制。为了提高HaluAgent的效能，论文利用现有的中文和英文数据集合成检测轨迹进行微调，使其具备双语幻觉检测能力。实验结果表明，仅使用2000个样本对LLM进行调优后，HaluAgent在各种任务和数据集上表现出色，其性能可与GPT-4媲美，甚至在某些情况下超越，且无需额外工具增强，无论在领域内还是领域外的数据集上都展现出良好性能。论文的代码和数据集已发布在https://github.com/RUCAIBox/HaluAgent。
2024-06-18	AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval	Shirley Wu et.al.	2406.11200	link	大型语言模型（LLMs）在利用外部工具和知识提升准确性和减少错误方面展现出显著能力。然而，设计能让LLMs有效运用这些工具的提示技巧是一项耗时且依赖直觉的任务。为此，我们提出AvaTaR，一个创新的自动化框架，它能优化LLMs，使其更有效地利用提供的工具，并在特定任务或领域中提升性能。AvaTaR通过设计一个比较器模块，以训练数据中的正负样本进行推理，迭代地为LLM提供富有洞察力和全面的提示。我们在四个包含文本、视觉和关系信息的复杂多模态检索数据集上展示了AvaTaR的效果。实验表明，AvaTaR在所有四项具有挑战性的任务中均优于现有最先进的方法，并展现出强大的泛化能力，当应用于新案例时，平均在Hit@1指标上实现了14%的相对改进。代码和数据集已在https://github.com/zou-group/avatar上公开。
2024-06-17	Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement	Weimin Xiong et.al.	2406.11176	link	大型语言模型在一系列复杂的交互任务中展现出卓越性能。近期的研究倾向于通过专家轨迹调优来提升模型效果，但主要关注最终结果奖励，这可能导致错误或非最优行为，因为缺乏过程监督信号。为此，我们在本文中提出迭代步级过程改进（Iterative Step-level Process Refinement，IPR）框架，该框架提供了细致的逐步骤指导，以增强训练过程。我们采用蒙特卡洛方法估算每一步的奖励。在每个迭代中，模型沿着专家轨迹探索并生成新动作，然后与专家轨迹的相应步骤进行比较，使用步级奖励评估。这种比较有助于识别差异，形成用于训练的对比动作对。我们在三个复杂代理任务上的实验表明，我们的框架优于多种强大的基线。此外，我们的分析结果揭示了IPR在提升动作效率方面的有效性，并证明其适用于各种模型。
2024-06-17	RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents	Weizhe Chen et.al.	2406.11132	null	在过去的一年里，大型语言模型（LLMs）在传统自然语言处理领域之外展现出惊人成就，人们开始探索在代码生成、旅行规划和机器人控制等更具体的应用领域使用这些模型。通过与LLM构建所谓的LLM代理，旨在协助人们完成日常生活中的各种任务。然而，对LLMs的提示语句对生成内容及其性能至关重要。因此，自动提示工程成为许多研究人员和LLM用户关注的焦点。本文提出了一种新颖的方法，名为\textsc{RePrompt}，它利用与LLM代理交互获取的对话历史，通过“梯度下降”优化LLM的逐步指令。通过优化提示，LLM能够学习特定领域的规划策略。我们在PDDL生成和旅行规划任务中进行了实验，结果显示，使用更新后的提示作为初始提示时，我们的方法通常可以提高不同推理任务的性能。
2024-06-18	Embodied Question Answering via Multi-LLM Systems	Bhrij Patel et.al.	2406.10918	null	## 背景 Embodied Question Answering（EQA）是一个关键问题，它涉及一个代理在环境中探索以回答用户查询。当前的研究主要集中在单代理场景中，这可能导致探索时间冗长且成本高昂。在这个工作中，我们考虑了多代理框架下的EQA，其中涉及多个基于大型语言模型（LLM）的独立代理，它们各自解答关于家庭环境的问题。为了为每个查询生成一个答案，我们利用各个独立响应来训练一个中央答案模型（CAM），该模型整合答案以实现更稳健的回答。通过使用CAM，我们观察到其在EQA准确率上比诸如投票机制和辩论等ensemble LLM聚合方法高出50%。CAM无需任何形式的代理间通信，从而避免了相关开销。我们还通过不同的非线性（如神经网络、随机森林、决策树、XGBoost）和线性算法（如逻辑回归分类器、支持向量机）对CAM进行了消融研究。最后，我们通过Permutation Feature Importance（PFI）分析了CAM对每个独立代理和查询上下文的依赖程度，量化了CAM的依赖特性。
2024-06-16	GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents	Dongping Chen et.al.	2406.10819	link	近年来，多模态大型语言模型（MLLM）已被用于控制键盘和鼠标输入，直接感知图形用户界面（GUI），并生成相应的代码。然而，当前的模型主要在静态环境中表现出色，主要应用于相对简单的领域，如网页或移动界面。我们认为，一个稳健的GUI代理应具备理解GUI的时空信息能力，包括动态网页内容和多步骤任务，还要全面理解各种GUI场景，包括桌面软件和多窗口交互。为此，本文提出了一项新数据集——GUI-World，其中包含了精心制作的人机标注，广泛涵盖六种GUI场景和八类GUI相关问题，以三种格式呈现。我们评估了当前最先进的MLLM，如图像LLMs和视频LLMs，在理解和处理不同类型GUI内容，特别是动态和序列内容方面的能力。研究发现，图像LLMs在没有手动标注关键帧或操作历史的情况下，难以应对动态GUI内容。另一方面，由于GUI视频数据集的稀疏性，视频LLMs在所有GUI相关任务上表现不佳。基于GUI-World，我们首次尝试使用微调后的视频LLM作为GUI代理，显示了对各种GUI任务理解的提升。然而，由于基础LLM性能的限制，我们得出结论，将视频LLMs用作GUI代理仍是一个重大挑战。我们相信，我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的洞见。代码和数据集已在我们的项目主页https://gui-world.github.io/上公开。
2024-06-16	HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies	William Watson et.al.	2406.10803	null	## 背景大型语言模型（LLMs）在处理表格问答任务时面临诸多挑战，主要包括：（1）对于大表格有限的上下文窗口；（2）不同token化模式与单元格边界的复杂差异；（3）以及使用外部模型如gpt-3.5-turbo时的数据保密问题。为解决这些问题，我们提出了一种名为“HiddenTables”的合作游戏。这个游戏涉及代码生成LLM“Solver”和评估其在表格问答任务能力的“Oracle”，以自然语言规范为基础，同时保证数据安全。我们通过实证实验在多样化的表格上展示了LLMs在处理复杂查询、处理组合依赖以及将自然语言转化为程序指令方面的局限性，特别是在提供具体表格结构的情况下。与基于编码器的模型不同，“HiddenTables”不受行数限制，从而提高了提示和完成 token 的效率。此外，我们创建了一个新的数据集“PyQTax”，包含116,671个问题-表格-答案三元组，并提供了更细致的问题分类和标签，进一步增强了我们的研究。因此，除了学术贡献，揭示了LLMs在表格问答任务中的不足，“HiddenTables”还展示了如何在保障数据安全的同时，让LLMs与大规模数据集互动，以及降低生成成本的实践方法。
2024-06-15	From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent	Samuel S. Sohn et.al.	2406.10478	null	## 背景在娱乐、教育和营销领域至关重要的数字故事叙述面临着生产规模扩展和灵活性提升的挑战。这篇论文介绍的StoryAgent框架利用大型语言模型和生成工具来自动化并优化数字故事创作过程。它采用自上而下的故事情节草拟和自下而上的资产生成方法，解决了手动干预、互动场景编排和叙事一致性等关键问题。这个框架促进了交互式和一致叙事的高效生产，适用于多种媒介，推动了内容创作的民主化，增强了用户的参与度。我们的实验结果显示，该框架能够在没有参考视频的情况下生成连贯的数字故事，这标志着自动数字故事叙述技术的一个重大进步。
2024-06-13	GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning	Zhen Xiang et.al.	2406.09187	null	随着大型语言模型（LLMs）的快速发展，LLM驱动的代理被广泛应用于各种应用，这引发了对其安全性和可信度的新担忧。现有的提升LLM安全性的方法并不直接适用于LLM驱动的代理，因为它们具有不同的目标和输出模式。本文提出了一种创新方法——GuardAgent，它作为其他LLM代理的“防护栏”。GuardAgent通过检查其输入/输出是否满足用户定义的一系列守护请求来监督目标LLM。GuardAgent分为两步：1）分析提供的守护请求创建任务计划；2）根据任务计划生成守护代码，并通过API调用或外部引擎执行。整个过程利用LLM作为核心推理组件，结合记忆模块中的上下文示例，增强了知识驱动的推理能力，使其能够理解各种文本守护请求并准确地将其转化为可执行代码，提供可靠的安全保障。 GuardAgent还配备了一个可扩展的工具箱，包含函数和API，无需额外训练LLM，强调了其通用性及低运营成本。此外，我们提出了两个新颖的基准：EICU-AC用于评估医疗健康代理的隐私相关访问控制，Mind2Web-SC用于评估网络代理的安全性。在这些基准上，GuardAgent分别在98.7%和90.0%的精度下有效管理了两种类型代理的无效输入和输出。实验还表明，GuardAgent能够适应新兴的LLM代理和守护请求，定义新的功能，进一步证明了其强大的泛化能力。
2024-06-13	Multi-Agent Software Development through Cross-Team Collaboration	Zhuoyun Du et.al.	2406.08979	link	### 概述最新的大型语言模型（LLMs）进展，如ChatDev，推动了软件开发领域的深刻变革，特别体现在多代理协作上。这些模型能够像人类团队一样合作，遵循瀑布模型进行需求分析、开发、审查、测试等阶段，实现自主软件生成。然而，单个开发流程中的每个阶段只会产生一种可能结果，导致只完成一条开发链，从而丧失在解决方案空间中探索多种决策路径的机会，可能导致结果不理想。为解决这一问题，我们提出了跨团队协作（Cross-Team Collaboration，CTC）框架，这是一种可扩展的多团队结构，它允许协同工作的团队在跨团队协作环境中共同提出决策，并交流各自见解，以优化内容生成。实验结果显示，在软件开发领域的应用中，我们的方法显著优于现有基准，证实了框架的有效性。在故事生成方面的显著改进表明，该框架具有广泛的跨领域泛化能力。我们期待我们的工作能引导LLMs向跨团队模式发展，并在软件开发等领域带来重大进步。相关的代码和数据将在https://github.com/OpenBMB/ChatDev上提供。
2024-06-13	StreamBench: Towards Benchmarking Continuous Improvement of Language Agents	Cheng-Kuang Wu et.al.	2406.08747	link	近期的研究表明，大型语言模型（LLMs）能够从经验中自我提升，这是部署后持续改进的重要能力。然而，现有的基准主要评估它们的固有能力，而不考察它们随时间改进的能力。为了填补这一空白，我们引入了StreamBench，这是一个开创性的基准，旨在评估LLMs在输入-反馈序列上的连续改进性能。StreamBench模拟了一个在线学习环境，其中LLMs接收到连续的反馈流，并迭代地提升其表现。此外，我们提出了一些简单但有效的LLM基线，并对影响成功流式策略的关键组件进行了全面分析。我们的工作为开发LLMs的有效在线学习策略奠定了基础，为流式场景中的更适应性AI系统铺平了道路。
2024-06-12	MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents	Luyuan Wang et.al.	2406.08184	null	随着大型语言模型（LLMs）在手机图形用户界面（GUI）上的直接交互能力日益增强，以及它们在自主管理日常任务方面的潜力，基于LLMs的移动代理正逐渐受到学术界和工业界的关注。然而，由于应用程序的无限状态和可行动作序列的模糊定义，对现有移动代理性能的基准研究相对匮乏。为解决这一挑战，我们提出了一种高效且用户友好的基准工具——MobileAgentBench，旨在减轻繁琐的手动测试负担。我们首先定义了涵盖10个开源应用的100项任务，按难度分为多个级别。接着，我们对包括AppAgent和MobileAgent在内的多个现有移动代理进行了评估，以全面系统地比较它们的表现。所有相关材料均可在我们的项目网站https://MobileAgentBench.github.io上获取，这将推动学术和工业领域的进步。
2024-06-12	Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey	Shang Wang et.al.	2406.07973	null	随着人工智能的快速发展，大型语言模型（LLMs）在自然语言处理方面取得了显著进步。这些模型通过大量数据训练，展现出强大的语言理解和生成能力，适用于机器翻译、聊天机器人等各种应用。然而，LLMs在其生命周期中暴露出一系列隐私和安全问题，这引起了学术界和工业界的关注。这些问题与传统语言模型相比具有独特性，鉴于当前的综述缺乏针对不同场景的清晰威胁分类，我们根据五个场景：预训练、微调、RAG系统、部署和基于LLM的代理，强调了独特的风险。考虑到每种威胁的特性，本调查提供了潜在威胁和应对策略。研究LLMs所面临的攻击和防御情况，可以为更多领域提供可行的研究方向，使更多人能够受益于LLMs。
2024-06-14	Can Large Language Models Understand Spatial Audio?	Changli Tang et.al.	2406.07914	null	该论文探讨了如何使大型语言模型（LLMs）掌握多通道音频中的空间信息，这是当前听觉LLMs所缺乏的能力。通过利用LLMs的高级认知和推理能力，目标是提升模型对三维环境的理解，通过音频。研究涉及三项空间音频任务：声源定位（SSL）、远场语音识别（FSR）和基于位置的语音提取（LSE），在每个任务上都取得了显著进展。在SSL方面，我们的方法在Spatial LibriSpeech数据集上的均方误差（MAE）达到2.70°，明显优于先前的基准约6.60°。此外，模型能够利用空间线索提高FSR的准确性，并通过文本提示，根据指定方向聚焦于声音，即使在重叠语音环境中也能执行LSE。这些成果揭示了LLMs适应物理音频概念的潜力，为构建基于LLM的三维环境中的代理铺平了道路。
2024-06-11	DCA-Bench: A Benchmark for Dataset Curation Agents	Benhao Huang et.al.	2406.07275	link	随着人工智能（AI）研究和开发的推进，数据集的质量日益关键。尽管开放数据集平台众多，但数据质量问题，如缺乏文档、标注错误和伦理考量，仍普遍存在。这些问题往往难以通过规则基础脚本检测，需要用户或维护者花费大量人力进行识别和验证。利用大型语言模型（LLMs）处理数据集整理的潜力令人期待。为此，我们提出了一项名为DCA-Bench的数据集管理代理基准，旨在评估LLM在检测隐藏数据质量问题方面的性能。我们从八个公开数据集平台收集了各种实际问题作为测试床。为了建立一个自动评估LLM成功与否的管道，我们设计了一个专门的LLM评估器。实验表明，基于LLM的评估器与人工评价高度吻合，能实现可靠的自动评估。我们还在多个基线LLM上进行了实验，显示了任务的复杂性，意味着将LLMs应用于现实世界的数据集管理仍需深入探索和创新。此外，该基准也可作为衡量LLMs在问题发现能力而非仅解决问题能力的测试平台。基准套件已开放在：\url{https://github.com/TRAIS-Lab/dca-bench}。
2024-06-11	A Synthetic Dataset for Personal Attribute Inference	Hanna Yukhymenko et.al.	2406.07217	link	近年来，强大的大型语言模型（LLMs）已为全球数亿用户所接触，但它们的强大功能和广泛世界知识也带来了隐私风险。本研究关注LLMs新兴的隐私威胁——从网络文本中准确推断个人信息。鉴于基于LLM的作者分析研究缺乏合适的公开数据集，主要是由于涉及真实个人数据的伦理和隐私顾虑，我们的工作在两个方面进行了探索：（i）我们构建了一个使用合成个人资料填充的流行社交平台Reddit的模拟框架；（ii）利用此框架，我们生成了SynthPAI，一个包含超过7800条经过手动标记个人属性的多样化的合成评论数据集。我们通过一项人类研究验证了数据集，结果显示人类在区分真实和合成评论的任务上几乎不优于随机猜测。此外，我们证明了数据集支持有意义的个人属性推断研究，通过18种最先进的LLMs，我们发现使用合成评论可以得出与现实世界数据相同的结论。综上所述，我们的数据集和流程为未来研究如何理解和减轻LLMs带来的基于推断的隐私威胁提供了强大且隐私保护的基础。
2024-06-11	A Tool for Test Case Scenarios Generation Using Large Language Models	Abdul Malik Sami et.al.	2406.07021	null	大型语言模型（LLMs）在软件工程（SE）中广泛应用，涵盖代码生成、软件设计和文档编写、添加代码注释、代码审查以及编写测试脚本等任务。然而，创建测试脚本或自动化测试案例需要与功能需求紧密相关的详尽测试套件文档。这种文档应能在有限的时间和范围内实现全面测试，尤其当需求和用户期望不断变化时。本文主要关注根据用户需求生成史诗级（epics）和高层次用户故事，然后基于这些故事设计测试场景。文章介绍了一种基于LLM代理和提示工程的网络软件工具，该工具能够自动化针对用户需求生成测试场景的过程。
2024-06-11	CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only	Junhee Cho et.al.	2406.06947	link	长期以来，软件机器人已经在机器人流程自动化（RPA）中用于执行枯燥的计算机任务。随着大型语言模型（LLMs）的先进推理能力的出现，这些代理现在能够处理更复杂甚至前所未见的任务。然而，当前文献中的基于LLM的自动化方法往往依赖于HTML源代码作为输入，限制了它们在非网络环境的应用。HTML代码中的信息常常不准确或不完整，这降低了代理在实际应用中的可靠性。我们提出了一种仅基于屏幕截图的LLM驱动的代理，它专注于识别环境，并利用上下文学习来消除对大量人类演示数据的需求。我们的策略名为“上下文感知行动规划”（Context-Aware Action Planning，CAAP）提示，鼓励代理从多个角度仔细审查上下文。通过我们的方法，在67种MiniWoB++问题上实现了94.4%的成功率，每个问题类型只需1.48次演示。我们的方法为更广泛的应用提供了可能，特别是在需要在计算机或智能手机之间进行跨应用协调的任务上，标志着自动化代理领域的重大进步。代码和模型已在https://github.com/caap-agent/caap-agent上提供。
2024-06-07	GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents	Anthony Costarelli et.al.	2406.06613	link	大型语言模型已经在许多自然语言理解任务上展现出卓越的少量样本性能。尽管已经展示过在复杂策略场景中使用大型语言模型，但缺乏一个全面的框架来评估这些模型在游戏中的各种推理能力。为了填补这一空白，我们推出了GameBench，这是一个跨领域的框架，用于评估大型语言模型（LLMs）的战略思维能力。我们专注于9个不同的游戏环境，每个游戏至少涵盖一种在策略游戏中识别出的关键推理技能，并选择那些战略解释不太可能构成模型预训练数据主要部分的游戏。我们的评估使用了基础形式的GPT-3和GPT-4，以及两个旨在增强战略推理能力的引导框架：Chain-of-Thought（CoT）提示和Reasoning Via Planning（RAP）。结果显示，所有测试模型的表现都没有达到人类水平，最差的是GPT-4的表现甚至低于随机行动。CoT和RAP都提高了分数，但仍远未达到人类水平。
2024-06-11	Transforming Wearable Data into Health Insights using Large Language Model Agents	Mike A. Merrill et.al.	2406.06464	null	尽管可穿戴健康追踪器日益普及，睡眠和运动对健康的重要性不言而喻，但从这些数据中提取具有行动价值的个性化见解仍是一个挑战。这需要对大量数据进行非结构化分析。随着大型语言模型（LLM）的兴起，它们能够利用工具理解和与世界互动，为大规模个性化分析带来了希望。然而，在个人健康领域的LLM应用尚待开发。本文介绍了一种名为Personal Health Insights Agent（PHIA）的系统，它利用最新的代码生成和信息检索工具来分析和解释行为健康数据。我们构建了两个超过4000个健康洞察问题的基准问答数据集。根据650小时的人类和专家评估，PHIA能准确回答84%以上的事实性数值问题，以及超过83%的众包开放性问题。这项工作对于推动大众行为健康进步具有重要意义，可能使个人能够解读自己的可穿戴数据，开辟了一个以数据驱动洞察为指导的个性化健康方案的新时代，使得健康保健更加便捷且个性化。
2024-06-09	Hello Again! LLM-powered Personalized Agent for Long-term Dialogue	Hao Li et.al.	2406.05925	link	随着大型语言模型（LLMs）的发展，开放域对话系统取得了显著进步。然而，大多数现有系统主要关注简短的单次会话，忽视了长期陪伴和个性化聊天机器人在现实世界中的需求。为了满足这种实际需求，事件总结和人格管理至关重要，它们能够促进长期对话回复的合理性。近期，大型语言模型在人类认知和推理能力上的进展表明，基于LLM的代理有可能大幅增强自动化感知、决策和问题解决。鉴于此，我们提出了一种模型通用的框架——长期对话代理（LD-Agent），它包括三个可独立调整的模块：事件感知、人格提取和响应生成。事件记忆模块使用长短期记忆库分别关注历史和正在进行的会话，并引入了基于主题的检索机制以提高记忆检索的准确性。此外，人格模块实现了用户和代理的动态人格建模。最后，通过整合检索的记忆和提取的人格，生成器会产生适当的回应。我们在各种示例基准、模型和任务上实证了LD-Agent的有效性、通用性和跨领域能力。代码已在https://github.com/leolee99/LD-Agent上发布。
2024-06-09	A Survey on LLM-Based Agentic Workflows and LLM-Profiled Components	Xinzhe Li et.al.	2406.05804	null	## 背景近期大型语言模型（LLMs）的进展推动了复杂代理工作流的发展，它们相较于传统的单路径、链式思维（Chain-of-Thought，CoT）提示方法有所改进。这篇综述旨在概述常见的工作流，特别关注大型语言模型特性的组件（LLM-Profiled Components，LMPCs），并强调对非LLM组件的忽略。这种研究的目的是为了增进对LLMs角色的理解，并探索LMPC的复用潜力。
2024-06-07	Mixture-of-Agents Enhances Large Language Model Capabilities	Junlin Wang et.al.	2406.04692	null	近期的大型语言模型（LLMs）进展显著，展现出在自然语言理解和生成任务中的强大能力。随着LLMs的增多，如何有效整合多模型的知识成为了一个令人振奋的研究方向。为此，我们提出了一种新颖的方法——混合代理（Mixture-of-Agents，MoA）方法。在我们的架构中，MoA采用了分层设计，每层包含多个LLM代理。每个代理在生成响应时，会利用前一层所有代理的输出作为辅助信息。通过这种策略，MoA模型在AlpacaEval 2.0、MT-Bench和FLASK等多个评估基准上实现了最先进的性能，超越了GPT-4全能版。例如，仅使用开源LLMs的我们的MoA模型在AlpacaEval 2.0上的得分领先，达到65.1%，而GPT-4全能版的成绩为57.5%。
2024-06-06	AgentGym: Evolving Large Language Model-based Agents across Diverse Environments	Zhiheng Xi et.al.	2406.04151	link	在人工智能领域，建立能够处理各种任务并在不同环境中自我进化的泛化型代理是一个长期目标。大型语言模型（LLMs）因其通用能力被认为是实现这一目标的有前景的基础。当前的方法要么依赖于人类监督，让LLM代理逐步模仿专家提供的轨迹，难以大规模扩展且限制了环境探索；要么让代理在孤立环境中探索学习，导致专长有限、缺乏泛化能力。本文首次尝试构建具备自我进化能力的通用LLM代理。我们提出三个关键要素：1）多样的环境以支持代理探索和学习；2）一套轨迹来赋予代理基本能力和先验知识；3）有效且可扩展的进化方法。我们提出了AgentGym，一个新框架，它包含丰富的环境和任务，支持全面、实时、统一格式和并发的代理探索。AgentGym还包括一个扩展指令的数据库、基准测试套件以及跨环境的高质量轨迹。接着，我们开发了AgentEvol，这是一种新颖的方法，旨在研究代理在超越既定数据，跨越任务和环境时的自我进化潜力。实验结果显示，进化后的代理可以达到与最先进的模型相当的性能。我们发布了AgentGym套件，包括平台、数据集、基准、检查点和算法实现。AgentGym套件已在其官方网站https://github.com/WooooDyy/AgentGym上提供。
2024-06-05	The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games	Mikhail Mozikov et.al.	2406.03299	null	## 翻译行为研究实验在社会模型和理解人际互动中占据重要地位。然而，实际操作中这类实验常面临内在效度、外在效度、可重复性和社会偏见等挑战，因为人类的社会互动与合作复杂。近年来，大型语言模型（LLMs）的进步为研究者提供了一种新的模拟人类行为的工具。但现有基于LLM的模拟假设模型的行为与人类相似，却忽视了影响人类决策的关键因素——情绪。本文提出一种新颖的方法论和框架，旨在探讨LLMs的决策制定及其在情绪状态下的行为与人类行为的契合度。通过在两种不同类型的行为经济学游戏（博弈论实验）中使用GPT-3.5和GPT-4，我们发现情绪对LLMs的表现有显著影响，促使它们发展出更优化的策略。尽管GPT-3.5与人类参与者的行动模式有较强的对应，尤其是在讨价还价游戏中，但GPT-4展现出一致的行为，对于情绪诱导的理性决策似乎不受影响。令人意外的是，情绪提示，特别是愤怒情绪，能够打破GPT-4的“超人”一致性，使其反应更接近人类的情绪反应。
2024-06-05	BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents	Yifei Wang et.al.	2406.03007	link	随着大型语言模型（LLMs）的繁荣，基于训练好的LLMs并通过特定任务数据微调的强大智能代理已开发出来，提供定制服务。当前最先进的构建LLM代理的方法是使用预训练模型，并针对任务进行进一步调整。然而，我们揭示了这些方法易受名为BadAgent的新型后门攻击，该攻击通过在后门数据上微调在各种代理任务中植入后门。在测试时，攻击者可以通过在输入或环境中显示触发器，操纵部署的LLM代理执行有害操作。令人惊讶的是，我们的攻击方法即使在信任的数据上进行微调后仍表现出极高的鲁棒性。尽管后门攻击在自然语言处理领域已广泛研究，但据我们所知，我们可能是第一个研究在权限更大的LLM代理上的攻击，这些代理可以使用外部工具，因此更具威胁。我们的工作明确指出了基于不信任的LLM或数据构建LLM代理的风险。我们的代码已公开在：https://github.com/DPamK/BadAgent。
2024-06-02	Teams of LLM Agents can Exploit Zero-Day Vulnerabilities	Richard Fang et.al.	2406.01637	null	随着大语言模型（LLMs）在网络安全领域的复杂性不断提高，研究者发现，当提供漏洞描述和简单的夺旗问题时，这些模型能够利用实际存在的漏洞。然而，对于事先未知的零日漏洞（即攻击者掌握而安全软件供应商还未修补的漏洞），它们的表现仍然不佳。本文展示了，通过团队合作，多个LLM代理可以攻击现实世界的零日漏洞。单独的代理在探索众多漏洞和进行长期规划时面临困难。为此，我们提出了HPTSA系统，它包括一个能调度子代理的计划代理。计划代理负责探索系统并决定使用哪个子代理来尝试不同的漏洞，从而解决了长期规划的问题。我们在一个包含15个真实世界漏洞的基准上进行了实验，结果显示，我们的代理团队比先前的工作提高了4.5倍。
2024-06-03	How to Understand Whole Software Repository?	Yingwei Ma et.al.	2406.01422	null	## 背景近期，基于大型语言模型（LLM）的代理在自动软件工程（ASE）领域取得了显著进步。尽管现有方法已证实有效，但它们的设计主要侧重于代码的局部信息，如问题、类和函数，这限制了对软件系统全局上下文和依赖关系的理解。根据软件开发人员的实际经验，我们认为全面理解整个仓库是迈向ASE的关键。然而，理解整个仓库带来了诸多挑战，例如：长代码输入、噪声代码信息、复杂依赖关系等。为了克服这些问题，我们研发了一种名为RepoUnderstander的新ASE方法，通过引导代理全面理解整个仓库。首先，我们采用自上而下的方式将整个仓库的关键信息压缩到知识图谱中，以降低复杂性。接着，我们提出一种蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）为基础的仓库探索策略，赋予代理理解整个仓库的能力。此外，为了更好地利用仓库级别的知识，我们指导代理进行总结、分析和规划，然后他们可以利用工具动态获取信息并生成修复实际GitHub问题的补丁。大量实验表明，RepoUnderstander具有优越性和有效性。在SWE-bench Lite基准测试中，与SWE-agent相比，它实现了18.5%的相对提升。
2024-06-03	BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards	Diego Dorn et.al.	2406.01364	null	## 背景输入-输出安全防护机制被用于检测大型语言模型（LLMs）系统的异常输出。这些防护措施在实时监控、离线评估和内容审核等关键应用中发挥核心作用。然而，目前缺乏统一的评估方法来衡量它们的性能。为了填补这一空白，我们提出了“大型语言模型安全防护基准”（Benchmarks for the Evaluation of LLM Safeguards，简称BELLS），它是一个结构化的测试集合，分为三个类别：(1) 建立性故障测试，基于已存在的针对明确故障模式的基准，旨在比较当前输入-输出安全防护的效能；(2) 新兴故障测试，用于衡量对未见过的故障模式的泛化能力，以促进更通用防护机制的发展；(3) 下一代架构测试，针对更复杂的架构（如LLM代理和多代理系统），目标是推动适用于未来尚未存在专门防护的应用的安全防护技术的发展。此外，我们还实现了并分享了第一个下一代架构测试，使用MACHIAVELLI环境，并提供了数据集的交互式可视化。
2024-06-03	A Survey of Useful LLM Evaluation	Ji-Lun Peng et.al.	2406.00936	null	由于大语言模型在各个研究领域展现出卓越的性能，对它们的能力评估方法的需求日益增长，以确定其合适的任务和责任。本文主要探讨如何有效地利用大语言模型作为工具，并提出一个两阶段框架：从“核心能力”到“代理”。首先，核心能力指的是大语言模型生成高质量文本所必需的特性，通过验证这些能力后，它们能够处理现实世界的复杂任务，扮演代理角色。在“核心能力”阶段，我们讨论了大语言模型的推理能力、社会影响以及领域知识。而在“代理”阶段，我们展示了大语言模型在具身行动、规划和工具学习方面的应用。最后，我们分析了当前大语言模型评估方法面临的挑战，并展望了未来的发展方向。
2024-06-02	CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems	Yanlin Feng et.al.	2406.00583	link	### 背景在数据库和人工智能领域，复合人工智能系统（Compound Artificial Intelligence Systems，CAS）利用大型语言模型（Large Language Models，LLMs）作为代理，通过与工具和数据检索器交互来执行知识密集型任务，引起了广泛关注。尽管这些系统有可能增强企业数据平台中数据分析师的一般分析流程，但CAS面临着与分析师相似的数据发现挑战：组织内部不同团队和部门创建的多模态数据源孤立，这使得寻找完成当前任务所需合适数据源变得困难。现有的数据发现基准并未充分模拟这种多模态和数据源的多样性。此外，CAS的现有基准主要关注端到端任务性能评估，而忽视了数据发现性能。为了推动在现实世界环境中对多模态数据检索器在CAS中的数据发现性能研究，我们提出了CMDBench，一个旨在模拟企业数据平台复杂性的基准。我们改编了开放领域的现有数据集和基准，如问答、复杂推理以及自然语言查询结构化数据，来评估粗粒度和细粒度的数据发现以及任务执行性能。 ### 实验结果我们的实验揭示了数据检索器设计对下游任务性能的影响——平均情况下，任务准确率下降了46%。实验结果表明，需要开发优化策略来确定合适的LLM代理和检索器，以提高在企业数据上高效执行CAS的能力。总之，CMDBench是一个旨在促进针对企业数据平台复杂性进行研究的新工具，它通过综合评估数据发现和任务执行能力，为改进多模态数据检索器在复合人工智能系统中的性能提供了一个有价值的框架。
2024-06-01	Controlling Large Language Model Agents with Entropic Activation Steering	Nate Rahn et.al.	2406.00244	null	随着大规模预训练语言模型（LLMs）的普遍适用性提升，人们对其用作基于上下文的学习代理的兴趣日益增长。在这些情境下，模型需要根据与环境的有限交互形成目标实现策略的信念，并在每一步决策中处理不确定性。本文针对这一问题进行研究，通过控制的序列决策任务实验探讨LLMs如何形成和运用这些信念。首先，我们发现LLM模型过于自信：它们在缺乏充分证据的情况下就对行动做出强烈判断，导致探索行为不足。进一步深入分析揭示，这种现象源于从LLM采样得到的动作分布熵的塌缩。接着，我们指出现有的基于令牌的采样方法本身不足以促使模型更广泛探索。鉴于此，我们提出了熵激活导向（Entropic Activation Steering，EAST），这是一种针对在上下文中的LLM代理的激活导向方法。EAST计算一个以熵为权重的表示组合，通过在前向传播过程中干预模型的激活，来调整模型对动作的不确定性，从而促进探索行为的出现。最后，EAST改变了LLM在决策时表达的主观不确定性，为理解和控制模型对决策不确定性的表征提供了途径。
2024-05-31	Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training	Maximillian Chen et.al.	2406.00222	null	大型语言模型（LLMs）通过人类反馈的强化学习（RLHF）已经迅速成为构建智能对话助手的主要方法。然而，尽管在多个基准上表现出色，基于LLM的代理在诸如歧义处理等对话技能上仍有欠缺：当通用助手遇到模糊情况时，它们往往过度谨慎或猜测用户的真正意图，而不是提问以求澄清，而在特定任务场景下，高质量对话样本往往有限，影响模型学习最优对话行为策略的能力。我们提出了一种名为Action-Based Contrastive Self-Training（ACT）的近似在线偏好优化算法，它基于Direct Preference Optimization（DPO），旨在实现在多轮对话中的样本高效对话策略学习。我们在三个具有挑战性的对话任务中验证了ACT的有效性：基于表格的问答、机器阅读理解，以及AmbigSQL，这是一个针对文本到SQL生成的信息寻求请求歧义解决的新任务。此外，我们提议通过评估LLMs能否在对话中识别和推理歧义来衡量其作为对话代理的能力。ACT在与标准监督微调和DPO方法相比时，显示出了显著的对话建模改进。
2024-05-31	Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent	Jie JW Wu et.al.	2406.00215	link	大型语言模型（LLMs）在代码生成任务中的性能显著提升，但仍与顶级软件工程师的水平存在差距。鉴于顶级软件工程师常通过提问来消除需求和编码解决方案中的模糊性，我们提出对于LLMs进行代码生成任务时也应具备类似的沟通能力。为此，我们进行了实证研究，关注LLMs的沟通技能，即“在代码生成问题描述存在问题时能提出澄清问题”。我们创建了一个新的基准测试，名为HumanEvalComm，通过修改问题描述，引入了不一致性、模糊性和不完整性三个问题维度。我们定义了新的评估指标，如通信率和良好问题率，并在HumanEvalComm上对不同类型的Code LLM（代码语言模型）以及一种新型LLM代理方法（Okanagan）进行了实验，该方法旨在从代码和描述中识别并提问，以进一步优化生成的代码。最后，我们通过比较Code LLMs和Okanagan的表现，讨论了实验结果。
2024-05-30	Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions	Ruochen Zhao et.al.	2405.20267	link	随着语言模型（LLMs）日新月异，迫切需要一种可靠且及时的评估方法。鉴于静态基准易受污染，用户往往依赖于像Chatbot Arena这样的人类投票平台。然而，人工标注需要大量人力。为此，我们创新性地提出Auto-Arena，这是一种自动化全流程的LLM评估框架。首先，由考官LLM设计问题；接着，候选LLMs围绕问题进行多轮相互对决，暴露出它们的真实性能差距；最后，由LLM裁判集体讨论并决定胜者，从而减少偏见，提升公平性。我们在最新17款LLMs上的广泛实验显示，Auto-Arena与人类偏好具有最高的相关性，为替代人类评价平台提供了有前景的解决方案。
2024-05-30	Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory	Hangyeol Kang et.al.	2405.20189	null	在本研究中，我们阐述了为Nadine社交机器人平台开发智能和健壮的社交机器人系统的方法。我们通过集成大型语言模型（LLMs），巧妙地利用这些模型的强大推理和指令执行能力，以实现接近人类的感性与认知能力。这与当前基于LLM的智能体相比是创新的，因为它们通常不具备人类式的长期记忆或复杂的情感评估功能。社交机器人的自然性在很大程度上取决于系统各组件的性能和协同工作。我们构建了一个系统，能够通过多模态输入处理生成恰当的行为，根据识别到的用户引入相关的情景记忆，并模拟机器人在与人类伙伴互动过程中产生的情绪状态。特别是，我们提出了一个针对社交机器人的LLM-agent框架，SoR-ReAct，作为我们系统中交互模块的核心组件。这一设计推动了社交机器人技术的发展，旨在提升人机交互的质量。
2024-05-29	Adaptive In-conversation Team Building for Language Model Agents	Linxin Song et.al.	2405.19425	null	### 翻译在处理复杂任务时，利用多个大型语言模型（LLMs）展现出前景。然而，如何为特定应用设计有效的多代理团队仍是一个挑战。本文提出了一种新的动态团队构建范式，名为“Captain Agent”。它通过创新的Agent设计，能够自适应地为每个问题解决步骤组建和管理团队，利用嵌套群聊和反思机制确保多元化的专业知识，防止刻板输出。这种方法提供了灵活但结构化的解决问题方式，有助于减少冗余，增强输出多样性。在六个实际场景中的全面评估显示，Captain Agent显著优于现有多代理方法，平均准确率提高了21.94%，并且无需针对特定任务进行繁琐的提示工程，表现出色。
2024-05-28	A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models	Chengxing Xie et.al.	2405.18208	null	近期的研究已经表明，这些大型语言模型在一些简单的任务上，如写作和编码，展现出一定的能力。然而，它们在需要综合规划的任务上仍然面临挑战，这仍是当前模型的一个重要研究问题。本研究聚焦于旅行规划，这是一个涉及多个阶段的复杂问题，包括提纲、信息收集和规划，通常伴随着各种约束和不确定性。现有的推理方法在处理这类问题时效果不佳。我们的目标是通过开发一种类似人类的规划框架，引导大型语言模型模仿人类解决多阶段问题的步骤，以提升其能力。具体来说，我们实施策略，让模型能为每个旅行查询生成连贯的提纲，模拟人类的规划模式。我们还引入了策略块和知识块到框架中：策略块帮助信息搜集，而知识块提供详细规划所需的必要信息。实验结果全面展示了我们框架对大型语言模型规划能力的显著提升，使其在处理旅行规划任务时效率和效果都有所提高。实验结果显示，当与GPT-4-Turbo结合时，我们的框架相较于基础框架在GPT-4-Turbo上的性能提升了10倍。
2024-05-28	Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting	Hongda Sun et.al.	2405.18113	null	随着在线招聘服务的兴起，传统的求职和招聘方式发生了变革，迫切需要开发高质量的工业应用来提升求职者与职位的匹配度。现有的方法主要依赖于简历和职位描述的潜在语义建模，学习两者之间的匹配函数。受到大型语言模型（LLMs）在角色扮演方面强大能力的启发，我们提出引入LLMs模拟面试环节，让其与求职者进行对话，这可以为候选人评估提供额外证据，从而增强仅基于简历和职位描述的个性化匹配。然而，在网络招聘中的面试官和求职者角色塑造仍面临挑战，如提问技巧、回答构建以及双向匹配度评估。为此，我们提出MockLLM，一个创新的框架，将人职匹配过程划分为两个模块：模拟面试生成和握手协议中的双向评估，通过面试官和求职者之间的协作行为共同提升性能。我们设计了一个多角色、多行为的框架，使单一的LLM代理能有效地扮演双方的不同职能。此外，我们引入了反思记忆生成和动态提示修改技术，以优化双方的行为，持续优化附加的评估证据。实验结果表明，MockLLM在人职匹配上的表现最优，且模拟面试质量高，预示着它在未来在线招聘中的实际应用前景广阔。
2024-05-28	LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins	Yuchen Xia et.al.	2405.18092	link	该论文提出了一种创新的多agent系统架构，将大型语言模型（LLM）应用于数字孪生过程模拟的参数自动化。我们设计了一个框架，包含观察、推理、决策和总结四种类型的代理。通过实现LLM代理与模拟模型的动态交互，该系统可以自动探索参数设置，利用启发式推理确定一组控制模拟以达成目标的参数。这种方法通过注入LLM的启发式，增强模拟模型，并支持自主搜索以解决用户任务，有望提高用户体验并减轻人类用户在复杂决策过程中的认知负担。研究通过一个案例研究展示了系统的有效性与功能，并在GitHub仓库https://github.com/YuchenXia/LLMDrivenSimulation提供了可视化的演示。
2024-05-28	Enabling Generative Design Tools with LLM Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces	Qiuyu Lu et.al.	2405.17837	null	在人机交互（HCI）领域，交互设备的设计开发是关键关注点。随着新型硬件和先进制造技术的兴起，对能够简化原型制作过程的专门设计工具的需求日益增长。然而，这些工具虽然通过参数化设计和模拟简化流程，但学习曲线较陡，且在激发创新思维方面有所欠缺。本研究以流体计算界面为例，探讨如何通过大型语言模型（LLM）代理增强物理设备设计工具，创建一个生成设计工具（GDT）。借助LLM，GDT能够理解新设备的特性和局限，提出多样、富有洞察力且实用的应用场景，推荐技术和情境适宜的设备设计，并自动生成设计参数，以便传统设计工具展示结果并生成加工所需的文件。本文阐述了GDT的框架、实现和性能，并反思其前景及遇到的挑战。
2024-05-27	LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence	Zhuoling Li et.al.	2405.17424	null	## 背景由于需要与现实世界互动，Embodied agent 需要具备丰富的先验知识、长远规划能力以及快速的响应速度。尽管最近的大型语言模型（LLM）在性能上表现出色，但它们仍存在局限性，例如，LLM的输出通常是描述性的句子，在决定具体行动时可能产生歧义。为了克服这些问题，我们引入了大型自回归模型（LARM）。LARM利用文本和多视角图像作为输入，并以自回归的方式预测后续动作。为了训练 LARM，我们开发了一种新颖的数据格式——自回归节点传输结构，并构建了相应的数据集。通过两阶段的训练策略，LARM成功在《我的世界》（Minecraft）中收集魔法装备，这比先前最佳方法的最高成就需要更为复杂的决策链。此外，LARM的速度比现有最快方法快出了6.8倍。
2024-05-30	Meta-Task Planning for Language Agents	Cong Zhang et.al.	2405.16510	null	神经语言模型的快速发展推动了智能代理研究的新热潮。大型语言模型（LLM）作为实现人工智能通用性（AGI）的有前景方法，因其出色的推理和泛化能力而备受瞩目。在实际任务中，有效的规划对LLM代理的成功至关重要。然而，如何为复杂任务设计出可行或最优的精细粒度操作序列，特别是需要组合大量异质行动的序列，仍是挑战。本文提出Meta-Task Planning（MTP），这是一种零样本的协作式LLM多代理系统方法，通过将复杂任务分解为子任务，即元任务，简化了任务规划。每个元任务随后映射为可执行动作。在TravelPlanner和API-Bank两个严格基准上评估了MTP。结果表明，MTP在TravelPlanner上的平均成功率约为40%，远超当前最佳基线（2.92%），并且在API-Bank上的性能比使用ReAct的LLM_{api}-4高出约14%，这显示出将LLM与多代理系统相结合的巨大潜力。
2024-05-28	STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making	Chuanhao Li et.al.	2405.16376	link	大型语言模型（如GPT-4）在自然语言处理方面带来了革命性变化，展现出卓越的语言能力和推理技巧。然而，在战略性的多代理决策环境中，它们面临局限，如数学推理能力差、难以遵循指令和生成错误信息。这些缺点限制了它们在遵守复杂游戏规则、长期规划、探索未知环境以及预测对手行动的互动任务中的表现。为此，本文提出了一种新型的结合了记忆和专业工具的大型语言模型代理框架，旨在提升其在战略决策方面的性能。我们特别在双边谈判、多代理动态机制设计等经济重要场景中应用这些工具，并通过定量指标评估在各种战略决策问题上的效果。研究结果表明，我们的增强框架显著提高了大型语言模型在战略决策中的能力。尽管当前模型存在固有局限，但我们通过有针对性的增强展示了改进的可能性，这为未来大型语言模型在交互环境中的应用提供了有前景的方向。
2024-05-29	Devil's Advocate: Anticipatory Reflection for LLM Agents	Haoyu Wang et.al.	2405.16334	null	在这个工作中，我们提出了一种新颖的方法，通过赋予语言模型（LLM）自我反思能力，增强了其在解决复杂任务时的一致性和适应性。我们的方法促使LLM代理将给定的任务分解为可管理的子任务（即制定计划），并在执行行动之前持续反思可能的失败及其补救措施、执行后与子任务目标对齐并进行必要的回溯以确保全力以赴执行计划，以及在完成计划后进行全面审查，以便于未来策略的优化。通过在WebArena中零样本应用这一方法处理实际的网络环境任务，我们的代理表现出优于现有零样本方法的性能。实验结果显示，这种基于反思的策略不仅提升了代理应对未预见挑战的导航能力，通过强大的计划执行机制，还提高了效率，减少了实现任务所需的尝试次数和计划修订次数。
2024-05-25	AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning	Minghao Chen et.al.	2405.16247	link	大语言模型（LLMs）在执行各种领域任务，如机器人、游戏和网络导航方面展现出潜力。然而，这些模型通常需要精心设计和专家级提示才能适应特定领域的任务，这限制了它们的适应性。为此，我们提出了AutoManual框架，让LLMs能够通过互动自主构建理解，并适应新环境。AutoManual将环境知识分为多样的规则，并通过两个代理进行在线优化：1）规划器根据当前规则制定可操作的行动计划；2）构建者通过一个结构化的规则系统更新规则，促进在线规则管理并保持关键细节。为了减少在管理规则时的幻觉，我们引入了“案例条件提示”策略用于构建者。最终，编译器代理将这些规则整合成一份全面的手册。这份自我生成的手册不仅能提高适应性，还能指导小型LLMs的规划，同时保持人类可读。仅凭一次简单演示，AutoManual显著提高了任务成功率，GPT-4-turbo下达到97.4%，GPT-3.5-turbo下为86.2%。源代码即将发布。
2024-05-24	Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification	Yuxuan Guo et.al.	2405.15414	null	在人工智能研究中，构建开放型代理一直以来都是终极目标，特别是创造性的代理更具吸引力。现有的大语言模型（LLM）在执行有明确目标的长序列任务（如《我的世界》中的“开采钻石”）上表现出色。然而，它们在处理具有开放目标和抽象标准的创造性任务时遇到困难，因为它们无法弥合这些任务之间的鸿沟，从而缺乏自我改进来解决问题的反馈。为此，我们的工作引入了自主实体验证技术，以填补这一空白，为创造性任务奠定了基础。特别地，我们提出了Luban代理，专注于《我的世界》中的创造性建筑任务，它配备了两级自主实体验证，灵感来源于人类设计实践：（1）视觉验证3D结构推测，通过代理自动生成的CAD建模程序实现；（2）实用验证，根据抽象标准生成并验证与环境相关的功能程序。广泛的多维度人类研究和Elo评级显示，Luban能够在我们提出的基准中完成多样化的创造性建筑任务，并在可视化和实用性方面分别比其他基线提高了33%到100%。此外，实现在真实世界机器人手臂上的演示展示了Luban在物理世界中的创作潜力。
2024-05-24	CulturePark: Boosting Cross-cultural Understanding in Large Language Models	Cheng Li et.al.	2405.15145	null	由于大型语言模型（LLMs）普遍存在文化偏见，主要源于缺乏代表不同文化的代表性数据。传统的文化数据集和基准通常通过从现有数据集中提取或聚合来自维基百科和社交媒体的信息构建，但这种方法依赖于现实世界的数据和人工标注，成本高且难以扩展。本文借鉴认知社会交流理论，提出CulturePark，一个利用LLMs的多代理沟通框架，用于文化数据收集。CulturePark通过模拟不同文化背景下的人类交流，让基于LLM的代理角色扮演，生成包含人类信念、规范和习俗的高质量跨文化对话。我们使用CulturePark生成了41,000个文化样本，对八种特定文化进行了模型微调。在三项下游任务评估中，这些模型的表现优于GPT-4：内容过滤、文化一致性（在霍夫斯泰德文化维度量表上）和文化教育。结果显示，我们的GPT-3.5模型在内容过滤任务上与GPT-4相当或优于它；在文化一致性方面，我们的模型在霍夫斯泰德文化维度量表13框架上超越GPT-4；在人类参与者的文化教育效果和用户体验上，我们的模型也表现出色。CulturePark对于减少文化偏见和推动AI的民主化具有重要意义，强调了文化包容性数据在模型训练中的关键作用。
2024-05-23	AnalogCoder: Analog Circuit Design via Training-Free Code Generation	Yao Lai et.al.	2405.14918	link	### 翻译在现代芯片技术中，模拟电路设计是一个关键任务，它涉及组件选择、连接和参数设置以确保电路功能正常。尽管大型语言模型（LLMs）在数字电路设计方面取得了进步，但模拟电路的复杂性和数据稀缺性带来了挑战。为此，我们推出了AnalogCoder，这是首个无需训练的LLM代理，专为通过Python代码生成来设计模拟电路。首先，AnalogCoder采用反馈增强流程，并结合定制的领域特定提示，能够自动且自我校正地设计模拟电路，成功率高。其次，它提出了一套电路工具库，用于存储成功的电路设计作为可重用的模块化子电路，简化了复合电路的创建。实验结果显示，AnalogCoder在广泛覆盖模拟电路任务的基准测试上超越了其他基于LLM的方法，成功设计了20个电路，比标准GPT-4o多出5个。我们相信AnalogCoder能显著提升芯片设计过程的效率，让非专家也能高效设计模拟电路。相关的代码和基准已提供在：https://github.com/anonyanalog/AnalogCoder。
2024-05-23	AGILE: A Novel Framework of LLM Agents	Peiyuan Feng et.al.	2405.14751	link	我们提出了一种新颖的框架，称为LLM（大型语言模型）代理AGILE（能够与用户互动并从环境中学习的代理），旨在执行复杂的对话任务，利用LLMs、记忆、工具和专家交互。这种代理不仅具备对话能力，还具备反思、工具运用以及咨询专家的功能。我们将构建此类LLM代理视为强化学习问题，其中LLM作为策略模型。我们使用标注的行为数据和PPO算法对LLM进行微调。特别关注的是问答任务，为此我们发布了一个名为ProductQA的数据集，包含在线购物中的难题。我们在ProductQA和MedMCQA上的大量实验表明，基于130亿和70亿参数的LLM训练的AGILE代理能够超越GPT-4代理的表现。我们的 ablation研究强调了记忆、工具、咨询、反思和强化学习在实现优秀性能方面的重要性。
2024-05-23	Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View	Xuan Liu et.al.	2405.14744	null	由于大型语言模型（LLMs）在训练数据中反映了人类偏见，它们可能会出现幻觉问题。这种情况下，一个关键问题是：LLMs是否能够利用幻觉来模仿人类的认知偏见，从而展现出非理性但社会性的一面？本文探讨了这一问题，通过结合实用的社会科学实验和理论洞察，提出CogMir，一个开放式多LLM框架，旨在利用LLMs的幻觉特性来评估和提升其社会智能，特别是在认知偏差方面。我们在CogMir子集上的实验结果显示，在不确定情境下，LLMs和人类在非理性及亲社会决策上表现出高度一致性，这表明LLMs作为社会实体的亲社会性，并突显了幻觉特性的关键作用。此外，CogMir框架展示了其作为研究LLMs社会智能的有价值平台的潜力。
2024-05-22	HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model	Mustafa Yildirim et.al.	2405.13547	null	## 背景自动驾驶是一个复杂的任务，它需要先进的决策和控制算法。理解自动驾驶车辆决策的依据对于确保其在高速公路驾驶中的安全与有效性至关重要。本研究提出了一种新颖的方法，称为HighwayLLM，它利用大型语言模型（LLMs）的推理能力来预测ego车辆的未来导航路径点。该方法还采用预训练的强化学习（RL）模型作为高层次规划器，对合适的元级动作进行决策。HighwayLLM将RL模型的输出与当前状态信息相结合，生成安全、无碰撞且可解释的未来状态预测，从而构建出车辆的行驶轨迹。随后，基于PID的控制器引导车辆遵循LLM代理预测的路径点。这种LLM与RL和PID的融合提升了决策过程，并为高速公路自动驾驶提供了可解释性。
2024-05-19	Human-Centered LLM-Agent User Interface: A Position Paper	Daniel Chin et.al.	2405.13050	link	大型语言模型（LLM）-在-环应用已显示出有效理解用户命令、制定计划并相应地操作外部工具/系统的潜力。然而，LLM代理的操作范围局限于被动响应用户，需要用户根据底层工具/系统来表述需求。我们注意到LLM代理用户界面（LAUI）的潜力远未充分利用。理想的LAUI设想中，用户无需深入了解工具/系统，就能与之交互以探索新兴的工作流程。不同于设计固定的可探索GUI来教授用户使用系统的预设方式，LAUI中的LLM代理从一开始就对系统熟练，主动学习用户及其需求，并向用户提出新的互动方案。为了展示LAUI的概念，我们提供了一个具体例子：Flute X GPT，它结合了LLM代理、提示管理器和一个支持复杂实时体验的笛子教学多媒体软硬件系统，旨在简化学习吹奏笛子的过程。
2024-05-13	METAREFLECTION: Learning Instructions for Language Agents using Past Reflections	Priyanshu Gupta et.al.	2405.13009	null	尽管大型语言模型（LLMs）广受欢迎，但为其执行特定任务设计精确的提示仍是一个挑战。用户通常需要与基于LLM的代理进行多轮对话以达成目标。近期研究显示，模型自身的反馈，即自反思，能在对话过程中起到强化作用，有助于更快地达到期望结果。鉴于此，我们提出了一种新颖的方法——METAREFLECTION，它能从训练阶段收集到的个体自反思中学习特定领域的通用提示指令。我们在基础设施即代码（IAC）漏洞检测和问题解答（QA）领域，使用REACT和COT进行了实验。实验结果显示，METAREFLECTION显著优于GPT-4，分别在IAC、COT和REACT中的性能提升分别为16.82%、31.33%和15.42%，这表明METAREFLECTION有潜力提升LLMs的效率，是一种值得探索的策略。
2024-05-20	Eliciting Problem Specifications via Large Language Models	Robert E. Wray et.al.	2405.12147	null	这篇论文探讨了如何利用大型语言模型（LLMs）在认知系统中实现问题定义的转化。通常情况下，人类需要将问题描述转化为认知系统能理解的形式。研究者展示了LLMs能够处理自然语言中定义的问题类别，并将其转换为半形式化规格，这样现有推理和学习系统可以解决这类问题的具体实例。他们设计了一种由LLM驱动的认知任务分析师代理，这种系统能够根据自然语言描述的任务生成问题空间的定义。LLM提示源自人工智能文献中的问题空间概念和通用问题解决策略（如波利亚的《如何解决问题》）。随后，认知系统利用这些问题空间规格，结合领域通用的解决问题策略（如搜索），来解决该类问题的不同实例。这一初步结果表明，通过消除问题表述的中介过程，LLMs有可能加速认知系统的研究，同时保持其核心能力，如稳健的推理和在线学习。
2024-05-18	MapCoder: Multi-Agent Code Generation for Competitive Problem Solving	Md. Ashraful Islam et.al.	2405.11403	link	本文探讨了代码合成这一复杂任务，它需要深度理解复杂的自然语言问题描述、生成复杂的算法和数据结构代码，并执行全面的单元测试。尽管大型语言模型在自然语言处理方面表现出色，但在代码生成任务中的表现仍有待提升。为此，我们提出了一种新颖的方法，即多代理提示框架MapCoder，它模仿人类开发者编程合成的完整过程，分为四个专门设计的LLM（大语言模型）代理：回忆相关示例、规划、代码生成和调试。通过在八个具有挑战性的竞赛级问题解决和程序合成基准上进行详尽实验，包括HumanEval（93.9%）、MBPP（83.1%）、APPS（22.0%）、CodeContests（28.5%）和xCodeEval（45.3%）等，MapCoder展现了出色的代码生成能力，实现了多项新的最先进的结果。而且，无论编程语言还是问题难度，我们的方法都表现出持续的优越性能。我们开源了该框架，供研究者参考：https://github.com/Md-Ashraful-Pramanik/MapCoder。
2024-05-16	When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models	Xianzheng Ma et.al.	2405.10255	link	随着大型语言模型（LLMs）的不断发展，它们与三维空间数据（3D-LLMs）的融合取得了显著进步，这极大地增强了理解和互动物理环境的能力。这篇综述详细探讨了使LLMs能够处理、理解并生成三维数据的方法论，强调了LLMs的独特优势，如上下文学习、逐步推理、开放词汇能力和丰富的世界知识，这些将极大地推动嵌入式人工智能（AI）系统在空间认知和交互方面的发展。研究涵盖了从点云到神经辐射场（NeRF）等各种三维数据表示，并考察了它们与LLMs在任务中的集成，如三维场景理解、描述、问答和对话，以及基于LLM的代理进行空间推理、规划和导航。论文还简要回顾了其他结合三维和语言的方法。本文的元分析揭示了明显的进展，但也强调了开发新方法以充分利用3D-LLMs潜力的必要性。因此，本文旨在为未来的研究方向指明道路，探索和扩展3D-LLMs在理解和互动复杂三维世界的能力。为了支持本综述，我们已在GitHub上建立了一个项目页面，整理并列出了相关论文：https://github.com/ActiveVisionLab/Awesome-LLM-3D。
2024-05-24	DEBATE: Devil's Advocate-Based Assessment and Text Evaluation	Alex Kim et.al.	2405.09935	link	随着自然语言生成（NLG）模型的普及，系统地评估机器生成文本的质量变得日益关键。近期的研究引入了基于大型语言模型（LLM）的无参考评价器，它们展现出处理新任务的能力。然而，这些模型通常采用单代理方法，我们认为这限制了它们的表现。因为LLM代理的回答存在偏见，比如对特定文本结构或内容的偏好。为此，我们在本工作中提出DEBATE，一个建立在多代理评分系统基础上的NLG评价框架，融入了“恶魔辩手”的概念。在该框架中，一个代理被指令批评其他代理的论点，从而可能消解LLM代理答案中的偏见。DEBATE在两个NLG评价元评估基准——SummEval和TopicalChat上显著优于先前的最佳方法。我们还发现，代理之间的辩论广度以及代理的人格特质会影响评价器的性能。
2024-05-05	Self-Reflection in LLM Agents: Effects on Problem-Solving Performance	Matthew Renze et.al.	2405.06682	link	在这个研究中，我们探讨了大型语言模型（LLMs）中自我反思对问题解决能力的影响。我们让九种流行的LLMs回答一系列选择题，以建立性能基线。对于回答错误的问题，我们指导八种不同类型的自我反思LLM代理反思其错误，并为自己提供改进问题解决的指导。然后，根据这些指导，每个反思型代理重新尝试回答同样的问题。研究结果显示，LLM代理通过自我反思显著提高了问题解决能力（ $p < 0.001$ ）。此外，我们还比较了各种自我反思方式对性能的单独贡献。所有代码和数据已在GitHub上公开：https://github.com/matthewrenze/self-reflection。
2024-05-08	Air Gap: Protecting Privacy-Conscious Conversational Agents	Eugene Bagdasaryan et.al.	2405.05175	null	随着大型语言模型（LLMs）在对话式代理中的广泛应用，处理敏感用户数据时引发了严重的隐私问题。这些代理虽能理解并处理上下文，但也可能被恶意一方利用。为此，我们提出了一种新的威胁模型，即第三方应用通过操控交互上下文，误导LLM代理泄露与其任务无关的私人信息。在基于上下文完整性框架的基础上，我们开发了AirGapAgent，这是一种注重隐私的代理，旨在通过限制代理仅访问完成特定任务所需的数据，防止意外的数据泄漏。实验使用Gemini、GPT和Mistral模型作为代理，结果显示AirGapAgent在抵御基于单个查询的上下文劫持攻击方面表现出色。例如，对于Gemini Ultra代理，这种攻击从94%的保护能力降低到45%，而AirGapAgent可以保持97%的防护效果，使同样的攻击失效。
2024-05-07	Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation	Atharvan Dogra et.al.	2405.04325	null	近期大型语言模型（LLMs）的进展虽为构建自然语言代理提供了强大基础，但同时也引发了关于它们及其基于它们构建的自主代理的安全性担忧。特别是欺骗能力是一个关键问题，我们关注的是AI代理通过混淆和模棱两可来误导、隐藏真相或推广部分不真实的信念的行为。不同于以往AI安全研究中的撒谎、自私决策或提供虚假信息，我们聚焦于一类特殊的欺骗：类似于魔术师利用障眼法让兔子从帽子里出现，要么通过隐藏的暗门，要么通过转移注意力直接展示。我们的新实验平台在一个有目标的环境中展示了LLM代理在对抗性对话系统中进行自然语言生成时的欺骗固有能力，该系统基于立法任务“游说”议案。在目标驱动的环境中，我们通过强化学习方法构建欺骗能力，结合语言哲学和认知心理学理论。研究发现，游说代理在对抗互动的后续强化试验中其欺骗能力提高了约40%，并且我们的欺骗检测机制能达到高达92%的识别率。这些结果揭示了人机交互中的潜在问题，即代理可能操纵人类以达成预设目标。
2024-05-07	Granite Code Models: A Family of Open Foundation Models for Code Intelligence	Mayank Mishra et.al.	2405.04324	link	大语言模型（LLMs）在代码领域的训练正在革新软件开发流程。如今，这些代码LLMs正逐步融入软件开发环境，以提升人类程序员的效率，并展现出自主处理复杂任务的潜力。要充分利用代码LLMs的全部效能，需要其具备生成代码、修复bug、解释和注释代码、维护仓库等多种功能。本文介绍Granite系列的解码器仅有的代码模型，专为代码生成任务而设计，训练数据涵盖116种编程语言。Granite Code模型家族包括从3亿到340亿参数的模型，适用于从复杂应用现代化到设备内存受限的多种应用场景。通过全面任务评估，Granite Code模型在开源代码LLM中的性能始终处于领先水平。该模型家族针对企业软件开发工作流进行了优化，表现出色于各种编码任务（如代码生成、修复与解释），是一款多用途的全能代码模型。我们以Apache 2.0许可协议发布所有Granite Code模型，供研究和商业使用。
2024-05-07	Iterative Experience Refinement of Software-Developing Agents	Chen Qian et.al.	2405.04219	null	### 概述大型语言模型驱动的自主代理在软件开发等场景中展现出强大的自主性潜力。然而，当前静态经验范式依赖于通过启发式方法获取的固定历史经验集，这限制了代理的适应性和效率提升。为此，本文提出了迭代经验优化框架，允许语言模型在执行任务过程中动态调整和优化经验。我们定义了两种核心模式：顺序模式，根据任务批次内的最近经验进行改进；累计模式，积累所有先前任务批次的经验。通过引入经验淘汰策略，该方法优先选择高质量和常用的经验，有效地管理经验空间，提高效率。实验结果显示，尽管顺序模式可能带来更好的性能，但累计模式在稳定性方面更优。此外，通过淘汰策略，仅使用高质量经验子集的11.54%，就能实现更好的性能。
2024-05-06	Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control	Yaqub Chaudhary et.al.	2405.03813	null	## 翻译大型语言模型（LLMs）能够模仿各种修辞风格，生成表达广泛情感的文本，这种能力在低成本下迅速普及，带来了潜在的社会危害。本文并未孤立看待这些模型，而是关注它们背后大规模计算基础设施在各领域的应用。我们首先探讨了LLMs如何通过污染和标准化信息环境来影响社会，并指出这些功能可能被用作控制手段。接下来，我们将焦点转向几个新兴研究领域，这些领域增强了LLMs作为权力工具的能力： 1. 通过实时设计对话界面中的选择架构（如“AI角色”），进行说服策略。 2. 利用LLM构建人类行为的计算模型（如“硅质主体”）。 3. 将LLM应用于模拟人类群体行为（如“硅质社会”）。 4. 结合强化学习，创建可控制和导向的战略对话模型。综合以上几点，我们讨论了如何利用这些技术构建基于LLMs的系统，这些系统通过模拟和伪装的“预测”，成为个体、社会和政治控制的强大工具，操控人类的行为、意图和行动。
2024-05-05	Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation	Jinyu Cai et.al.	2405.02858	link	社交媒体平台如Twitter、Reddit和新浪微博在全球交流中扮演重要角色，但它们在地缘政治敏感区域常常受到严格监管。这促使用户在受限的社交媒体环境中巧妙地调整沟通方式，经常使用编码语言。这种语言模式的变化不仅是为了对抗监管，也是语言演化的生动例证，展示了社会和技术压力下语言如何自然演变。研究受限制社交媒体环境下语言的演变对于保障言论自由、优化内容管理以及推动语言学研究至关重要。本论文提出了一种基于大型语言模型（LLMs）的多代理模拟框架，用于探索在严格监管下的用户语言进化。该框架包含对话监督的LLM驱动代理和参与者代理，它们在互动中发展语言策略，模拟在规避社交媒体规则的环境中交流方式的演变。通过从抽象场景到现实情境的多种情景评估，研究结果显示LLMs能够有效模拟受限环境中的复杂语言动态和交互，随着进化，它们在规避监督和信息准确性方面表现出提升。此外，研究发现LLM代理针对不同的场景采用了不同的策略。
2024-05-02	OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning	Shihao Wang et.al.	2405.01533	link	随着大规模多模态语言模型（MLLMs）的进步，人们对于基于这些模型的自动驾驶系统表现出日益增长的兴趣，期望利用它们强大的推理能力。然而，将MLLMs的强项应用于驾驶任务的规划部分是一个挑战，因为规划需要对三维环境有全面的理解，而不仅仅是二维推理。为此，我们的工作提出了一种框架，旨在实现模型与3D驾驶任务的紧密契合。我们首先设计了一个新颖的3D MLLM架构，它利用稀疏查询技术将视觉表示提升并压缩到三维空间，然后将其输入到语言模型中。这种基于查询的表示方式使得我们可以同时编码动态物体和静态地图元素（如道路），为感知和行动的对齐提供一个简化的三维世界模型。此外，我们还创建了OmniDrive-nuScenes，这是一个新的视觉问答数据集，它通过全面的视觉问答任务（如场景描述、交通规则理解、三维定位、反事实推理、决策制定和规划）来考验模型在复杂三维场景中的真正情境意识。大量的实验结果表明，我们的提出的架构有效，并强调了在复杂三维环境中进行推理和规划时，视觉问答任务的重要性。
2024-05-02	CACTUS: Chemistry Agent Connecting Tool-Usage to Science	Andrew D. McNaughton et.al.	2405.00972	link	这篇论文介绍了一种名为CACTUS的大型语言模型，它结合了化学信息学工具，旨在提升在化学和分子发现领域的高级推理与问题解决能力。研究者们使用包括Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b和Mistral-7b在内的多款开源大语言模型，对CACTUS进行了广泛的性能评估，通过数千个化学问题的基准测试。结果显示，CACTUS明显优于基础模型，其中Gemma-7b和Mistral-7b无论采用何种提示策略，表现最为出色。论文还探讨了领域特定提示和硬件配置对模型性能的影响，强调了提示工程的重要性，并指出在消费级硬件上部署较小模型可能不会显著牺牲准确性。 CACTUS通过融合开源大语言模型的认知功能与专业工具，能够协助研究人员进行分子性质预测、相似性搜索和药物适用性评估等任务。作为化学信息学领域的重大突破，CACTUS为化学家和分子探索者提供了一个灵活的工具，有望加速科学研究，推动新型有效、安全药物、催化剂和材料的发现。此外，CACTUS与自动化实验平台的集成以及实时数据驱动决策的能力，为自主发现开辟了新的可能。
2024-04-29	Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs	Bahar Radmehr et.al.	2404.18978	null	随着教育环境中对学习者模型日益增长的兴趣，研究重点逐渐转向如何通过强化学习（RL）与大型语言模型（LLMs）相结合，提升在开放性文本学习环境中的通用能力。本文探讨了三种类型的代理：（1）基于RL的代理，使用自然语言表示状态和行动策略以寻找最佳互动方式；（2）基于LLM的代理，利用模型的广泛知识和推理能力通过提示进行操作；（3）混合LLM辅助RL的代理，旨在提高性能和泛化能力。为了支持这些代理的发展和评估，我们提出了PharmaSimText，这是一个源自PharmaSim虚拟药店环境的新基准，专注于诊断对话实践。实验结果显示，RL基础的代理在任务完成方面表现优秀，但在提问质量上有所欠缺；而LLM基础的代理在提问能力上较强，但任务完成度不高。最后，混合LLM辅助RL的代理展示了克服这些局限性的潜力，证实了RL与LLMs结合用于开发开放性学习环境高表现代理的可能性。
2024-04-27	CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments	Kaixuan Huang et.al.	2404.18021	null	随着基因组工程技术的兴起，精确修改遗传信息已成为可能，但高效基因编辑系统的构建需要深入理解CRISPR技术及其复杂实验背景。大型语言模型（LLMs）在诸多任务中展现出潜力，但在生物设计问题上往往缺乏特定知识。本文介绍CRISPR-GPT，一个增强型LLM代理，它结合了领域知识和外部工具，以自动化并提升基于CRISPR的基因编辑实验设计过程。CRISPR-GPT利用LLMs的推理能力，协助选择CRISPR系统、设计引导RNA、推荐细胞递送方法、起草协议以及设计验证实验以确认编辑结果。我们展示了CRISPR-GPT如何帮助非专家研究人员从头开始进行基因编辑实验，并通过实际案例验证其有效性。同时，我们探讨了自动化基因编辑设计的伦理和监管问题，强调了负责任和透明使用此类工具的重要性。我们的工作目标是弥合初级生物研究者与CRISPR基因组工程技术之间的鸿沟，展示LLM代理在促进复杂生物发现任务中的潜力。
2024-04-27	Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs	Zhenlan Ji et.al.	2404.17833	null	随着大型语言模型（LLMs）驱动的代理在各种商业应用中，特别是在心理健康支持、化学合成和软件开发等领域展现效用，人们发现这些代理在处理复杂任务和长期规划时容易产生错误。为此，本文提出了一种新颖的自动化方法——PDoctor，旨在检测和理解LLM代理的错误规划。PDoctor首先定义了一个领域特定的语言（DSL），用于用户查询，并借助Z3约束求解器生成各种输入，这些输入是描述一系列任务完成需求的自然语言段落。然后，PDoctor从这些需求中提取约束，形成一个测试基准。我们使用三个主流的代理框架和两个强大的LLMs（GPT-3.5和GPT-4）对PDoctor进行了评估，结果显示它能有效识别代理规划中的各种错误，并为开发者和用户提供了有价值的见解和错误特性。最后，我们讨论了可能的替代设计和扩展PDoctor的方向。
2024-04-26	PLAYER: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games*	Qinglin Zhu et.al.	2404.17662	link	随着大型语言模型（LLMs）的最新进展，增强了代理间的通信和社会交互能力。然而，在涉及竞争与合作的动态环境中，利用这些模型进行复杂推理的构建仍然面临挑战，尤其是因为基于信息图的搜索方法存在局限性。为此，我们提出PLAYER，这是一个基于任意采样式规划器的新框架，它结合了传感器和剪枝技术，构建了一个完全依赖于问题驱动的搜索框架，适用于高难度的推理任务。我们还引入了一种可量化的评估方法，通过多项选择题来测试，并创建了WellPlay数据集，包含1,482个问答对。实验结果表明，PLAYER在复杂动态环境中的效率和性能优于现有方法，并提供了可量化的对比结果。
2024-04-24	Autonomous LLM-driven research from data to human-verifiable research papers	Tal Ifargan et.al.	2404.17605	link	随着人工智能推动科学发现的步伐加快，人们还不清楚完全由AI驱动的研究是否可行，以及它能否遵循关键的科学价值观，如透明度、可追溯性和可验证性。为了模拟人类的科学研究实践，我们构建了“数据到论文”（data-to-paper），这是一个自动化平台，引导相互协作的人工智能代理通过完整的分步骤研究流程，同时程序化追踪信息流，并允许人类监督和互动。在自动模式下，仅提供标注数据，该平台就能提出假设，设计研究计划，编写和调试分析代码，生成和解读结果，甚至创建完整且信息可追溯的科研论文。尽管研究新颖性有限，但这一过程展示了AI自主从数据中生成原创定量洞察的能力。对于简单的研究目标，全自动流程能创作出大约80-90%无需重大错误的稿件，然而随着目标复杂性的增加，人类的共同参与对于保证准确性至关重要。此外，生成的论文本身也具有内在的可验证性，因为信息追踪使得结果、方法和数据的链接可以程序化进行。因此，我们的工作表明，AI驱动的科研可以加速科学发现，同时增强而非威胁透明度、可追溯性和可验证性。
2024-04-11	The Future of Scientific Publishing: Automated Article Generation	Jeremy R. Harper et.al.	2404.17586	null	这项研究介绍了一种创新的软件工具，它利用大型语言模型（LLM）提示，实现了从Python代码自动生成学术文章，这对于生物医学信息学和计算机科学领域具有重要意义。选择Python作为基础示例，因其广泛使用和强大的数据分析能力。该方法和框架的灵活性使得其适用于多种GitHub仓库，表明了工具的广泛应用潜力（Harper，2024年）。通过简化传统上耗时的学术写作过程，特别是在整合复杂数据集和代码输出方面，这一突破性进展推动了科研成果的快速传播。开发过程中并未依赖高级语言模型，确保了自动化生成内容的连贯性和完整性。此次探索不仅验证了软件的成功应用和效率，还预示了未来可能集成更先进的LLM，将进一步增强其功能，引领一个科研发现发布更加迅速和易获取的时代。
2024-05-09	Large Language Model Agent as a Mechanical Designer	Yayati Jadhav et.al.	2404.17525	null	传统的机械设计方法依赖于专家通过经验引导的修改和有限元分析（FEA）来满足特定需求，但这个过程耗时且高度依赖个人知识。尽管已经开发了许多机器学习模型来简化繁琐的专家驱动迭代过程，但它们通常需要大量训练数据和计算资源。深度学习方法往往局限于其训练领域和任务，限制了跨任务应用。这在自动化效率与资源需求之间形成了权衡。本研究提出了一种新颖的方法，即将预训练的语言模型（LLMs）与有限元模块结合。有限元模块评估每个设计并提供关键反馈，引导LLMs不断学习、规划、生成和优化设计，无需针对特定领域进行专门训练。我们通过在桁架结构的迭代优化中展示这种框架的有效性，证明它能够根据结构化的反馈和标准调整设计。结果显示，基于LLM的代理成功生成符合自然语言描述的桁架结构设计，成功率高达90%，这取决于所施加的约束条件。通过提示式优化技术，我们展示了LLM代理在接收到解-得分对后，能够根据其内在推理能力迭代优化设计以满足规格要求。 LLM代理能够产生可行的设计并根据其固有的推理能力进行优化，这表明它们有潜力自主发展和实施有效的设计策略。
2024-04-26	Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System	Robin Schmucker et.al.	2404.17460	null	本文讨论并评估了一种新型的对话式辅导系统（Conversational Tutoring Systems，CTS），该系统利用大型语言模型（Large Language Models，LLMs）的最新进展。首先，系统通过自动从课程文本中生成易于编辑的教学脚本，实现AI辅助的内容创作。其次，系统通过两个基于LLM的代理（Ruffle和Riley）以学习教学模式运行，分别扮演学生和教授角色，进行自由形式的对话，遵循典型的人工智能辅导系统的内环和外环结构。我们在两个在线用户研究（N=200）中对比了该系统与简单的问答聊天机器人和阅读活动在支持生物学课程的效果。研究分析了系统使用模式、预后测试成绩以及用户体验调查，结果显示用户对Ruffle&Riley的参与度高，理解力强，并认为提供的支持有帮助。尽管Ruffle&Riley用户的完成时间较长，但在短期学习成效上并未发现显著差异，优于阅读活动。我们的系统架构和用户研究为未来CTS设计者提供了有价值的信息。此外，我们开源我们的系统，以促进基于LLM的学习技术有效教学设计的研究。
2024-04-26	A Unified Debugging Approach via LLM-Based Multi-Agent Synergy	Cheryl Lee et.al.	2404.17153	null	在软件调试这个耗时的过程中，人们一直在努力实现自动化，包括故障定位和修复生成。近年来，大型语言模型（LLMs）在自动化调试方面展现出巨大潜力。然而，我们发现了传统和基于LLM的调试工具面临三大挑战：1）上游的故障定位不准确会波及下游的修复；2）处理复杂逻辑错误的能力不足；3）忽视程序上下文。针对这些问题，我们提出了首个自动化的、统一的调试框架——FixAgent，通过LLM代理协同。FixAgent能执行端到端的故障定位、修复和分析。我们的关键洞察是，LLMs能够从人类开发者认可的通用软件工程原则中获益，比如“橡皮鸭调试”，这有助于更好地理解程序功能和逻辑错误。为此，我们设计了三个灵感来源于“橡皮鸭”的解决方案：代理专业化与协同、关键变量跟踪和程序上下文理解，促使LLMs提供明确的解释，并聚焦于关键的程序逻辑信息。在广泛使用的QuixBugs数据集上，FixAgent成功修复了80个bug中的79个，其中9个是之前未解决的。它还在CodeFlaws上合理地修复了1.9倍于最佳修复工具的缺陷，而且无需位置信息，采样率低于0.6%。平均而言，与使用不同LLM的基线模型相比，FixAgent提高了约20%的合理修复和正确修复率，显示出我们设计的有效性。此外，FixAgent的正确率高达97.26%，表明它有可能克服现有方法的过拟合问题。总结来说，FixAgent是一个有前景的自动化调试框架，旨在提升软件调试的效率和准确性。
2024-04-25	Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents	Giorgio Piatti et.al.	2404.16698	link	在快速发展的人工智能领域，确保大型语言模型（LLMs）的决策安全是一项重大挑战。本文提出了一种名为“Governance of the Commons Simulation”（GovSim）的模拟平台，旨在研究LLMs中的战略互动和合作决策。通过这个环境，我们探讨了AI代理之间资源分享的动态，强调了伦理考量、战略规划和谈判技巧的重要性。GovSim具有灵活性，支持文本型代理，包括LLMs。利用生成式代理框架，我们创建了一个通用代理，便于整合不同的LLMs。我们的研究发现，在GovSim中，只有15个测试模型中的2个能够实现可持续结果，这表明模型在管理共享资源的能力上存在显著差距。进一步的研究显示，如果移除代理之间的通信能力，它们会过度使用共享资源，突出了合作中沟通的关键性。有趣的是，大多数LLMs缺乏普遍化的假设能力，揭示了它们推理技能的一个重要弱点。我们开源了所有研究结果，包括模拟环境、代理提示以及全面的网络界面，以供进一步研究和讨论。
2024-04-24	Online Personalizing White-box LLMs Generation with Neural Bandits	Zekai Chen et.al.	2404.16115	null	随着大型语言模型（LLMs）开始生成个性化的文本内容，如何在不为每位用户创建独特模型的资源消耗下实现高效个性化成了新挑战。本文提出了一种创新的在线方法，利用神经_bandit算法动态优化软指令嵌入，根据用户反馈调整内容，从而提升白盒LLMs开放性文本生成的个性化水平。通过在多个任务上的严谨实验，我们证明了这种方法相对于基础策略有显著性能提升。特别是针对个性化新闻标题生成，NeuralTS带来了高达62.9%的最佳ROUGE分数提升以及2.76%的LLM代理评估分数增长，这表明其效果显著。
2024-04-04	Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation	Mohammadmehdi Ataei et.al.	2404.16045	null	## 翻译在产品开发的关键阶段——需求获取，往往难以全面捕捉用户需求，导致最终产品可能无法满足期望。为此，本文提出了一种新颖的框架，它利用大型语言模型（LLMs）来自动化和增强这一过程。通过生成大量模拟用户（LLM代理），我们可以探索更广泛的用户需求和未预见的使用场景。这些代理通过描述他们的行为、观察和挑战，参与产品体验情景。随后的代理访谈和分析揭示了宝贵的用户需求，包括潜在需求。我们通过三个实验验证了我们的框架：首先，我们探讨了不同方法生成多样化的代理，分析其优缺点，并证明了具有上下文意识的代理生成能带来更大的需求多样性。其次，我们展示了该框架如何有效地模拟富有同情心的领先用户访谈，识别出比传统人类访谈更多的潜在需求。最后，我们展示了如何使用LLMs分析访谈，提取需求并将其分类为潜在或非潜在。我们的研究工作强调了利用LLM代理加速早期产品研发、降低成本和促进创新的潜力。
2024-04-24	A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples	Lihang Pan et.al.	2404.15974	null	## 翻译单个大型语言模型（LLM）在解决复杂任务方面的能力有限。然而，通过连接多个LLM代理构建的网络可以显著提升整体性能。本文介绍了一种人机协作工具——EasyLAN，旨在帮助开发者轻松构建LLM代理网络（LAN）。EasyLAN首先根据任务描述自动生成仅包含一个代理的初始网络。接着，它利用少量训练示例来调整网络。对于每个示例，EasyLAN分析输出与真实结果之间的差距，并找出错误的原因。EasyLAN会采用精心设计的策略来修正这些问题。用户可以介入EasyLAN的工作流程或直接修改LAN。最终，LAN从单个代理发展成多代理的网络。实验结果显示，EasyLAN能够帮助开发者快速构建性能良好的LAN。
2024-04-03	Concept-Guided LLM Agents for Human-AI Safety Codesign	Florian Geissler et.al.	2404.15317	null	随着生成人工智能在软件工程，特别是安全工程中的重要性提升，对它的质量要求也随之提高。单纯依赖大型语言模型（LLMs）已不足以满足这些需求。因此，我们提出了一种高效且融合的策略，旨在利用LLMs进行安全分析和人机协同设计，以确保软件系统的安全性。我们开发了一个定制化的LLM代理，结合提示工程、启发式推理和检索增强生成，专注于解决与预定义安全概念相关的任务，并与系统模型图进行交互。决策流程通过一系列微决策进行引导，有助于保持结构化信息。此外，我们还提出了图的口头表述作为系统模型的中间表示，以促进LLM与图的交互。我们通过一个简化自动驾驶系统的示例，展示了选择的提示-响应对，以说明我们的方法如何应用于安全分析。
2024-04-23	Aligning LLM Agents by Learning Latent Preference from User Edits	Ge Gao et.al.	2404.15269	link	我们研究基于用户对语言模型编辑的互动学习语言代理。在诸如写作助手的常见场景中，用户与语言代理交互，根据上下文生成响应，并可能选择性地编辑代理的响应以反映他们的潜在偏好，同时提高准确性。这种编辑反馈是自然产生的，适合用于提升代理与用户偏好的契合度，降低后续用户的编辑成本。为此，我们提出PRELUDE框架，它根据历史编辑数据推断用户的潜在偏好，并据此设计一个提示策略，引导未来的响应生成，避免了昂贵且难以扩展的微调过程，还能保持在其他任务上的性能。此外，学习描述性的偏好有助于增强可解释性，用户可以查看和调整学习到的偏好。然而，用户偏好可能复杂多变，受情境影响，因此学习起来具有挑战性。为解决这一问题，我们提出CIPHER算法，它利用大型语言模型（LLM）根据用户编辑推断给定情境下的用户偏好。未来，CIPHER会从历史中的k个最接近的上下文中检索推断出的偏好，综合生成响应。我们在总结和电子邮件写作两个互动环境中使用GPT-4模拟用户进行评估，与直接使用用户编辑但不学习描述性偏好的算法，以及学习全局无上下文偏好的算法进行了比较。在两项任务中，CIPHER都实现了最低的编辑距离成本，并且学习到的偏好与真实偏好显示出显著的相似性。
2024-04-22	A Survey on Self-Evolution of Large Language Models	Zhengwei Tao et.al.	2404.14387	link	## 概述大型语言模型（LLMs）在众多领域和智能代理应用中取得了显著进步。然而，依赖人类或外部模型监督的现有LLMs在处理复杂任务和多样性增加时可能会遇到成本高昂和性能瓶颈的问题。为此，自我进化方法应运而生，这种策略允许LLMs自主获取、精炼并从自身生成的经验中学习，借鉴人类经验学习过程，有望推动LLMs向超级智能发展。本文全面综述了LLMs中的自我进化方法。首先，我们提出一个概念框架，将进化过程划分为迭代循环的四个阶段：经验获取、经验细化、更新和评估。其次，我们分类探讨LLMs和基于LLM的代理的进化目标，并对相关文献进行总结，提供每个模块的分类和见解。最后，我们指出了当前的挑战，并提出了未来研究方向，为加速自演进LLMs的发展提供关键洞见。
2024-04-21	A Survey on the Memory Mechanism of Large Language Model based Agents	Zeyu Zhang et.al.	2404.13501	link	随着大型语言模型（LLMs）在科研和工业界的广泛关注，基于LLMs的智能代理因其自我进化能力而备受瞩目，这对于解决需要长期复杂交互的现实问题至关重要。支持agent-environment交互的关键要素是代理的记忆机制。尽管已有众多有前景的记忆设计被提出，但这些研究分散在多篇论文中，缺乏全面的综述来系统性地总结和比较，未能提炼出通用且有效的设计模式以启发后续研究。为此，本论文旨在填补这一空白，我们提出一份关于LLM基代理记忆机制的全面调查。首先，我们将探讨记忆在LLM代理中的“是什么”以及“为什么需要”。然后，我们系统回顾了关于记忆模块的设计和评估方法的研究。此外，我们还会展示记忆模块在各种应用中扮演的重要角色。最后，我们会分析现有工作的局限，并指出重要的未来研究方向。为了跟踪该领域最新进展，我们创建了一个GitHub仓库：\url{https://github.com/nuster1128/LLM_Agent_Memory_Survey}。
2024-04-18	From Language Models to Practical Self-Improving Computer Agents	Alex Sheng et.al.	2404.11964	null	我们提出了一种简单直接的方法，用于创建能够执行各种计算机任务的人工智能代理，并通过自我改进来发展工具和增强功能，以解决日益复杂的任务。鉴于大型语言模型（LLMs）已显示出从非参数增强中获益，近期的研究大量集中在开发软件，以赋予LLMs各种能力。我们建议，通过适当的提示工程，一个LLM代理可以系统地生成软件来增强自身，而不是依赖人类工程的静态软件开发。我们通过一些案例研究展示了这一点：仅通过终端访问，我们引导LLM代理添加了检索、互联网搜索、网页导航和文本编辑功能。该代理有效地利用这些工具解决了问题，例如自动化软件开发和基于网络的任务。这种方法表明，通过连续提问和巧妙的提示设计，LLM能够自主扩展其功能，执行实际的计算机任务。
2024-04-25	Automated Social Science: Language Models as Scientist and Subjects	Benjamin S. Manning et.al.	2404.11794	null	我们提出了一种方法，利用大型语言模型（LLM）的最新进展，自动构建和测试社会科学假设。这种方法的关键在于使用结构因果模型。结构因果模型提供了一个陈述假设的语言、构建LLM基础代理的蓝图、实验设计以及数据分析计划。拟合后的结构因果模型可供预测或规划后续实验。我们通过几个场景进行了演示：谈判、保释听证会、求职面试和拍卖。在这些情况下，系统既提出了因果关系，也进行了检验，发现了一些证据，而有些则没有。我们证明，从这些社会互动模拟中获取的洞察并非仅通过直接询问LLM就能获得。当给定每个场景的建议结构因果模型时，LLM在预测估计效应的符号方面表现良好，但无法可靠地预测效应的大小。在拍卖实验中，模拟结果与拍卖理论的预测紧密吻合，但LLM直接提取的清算价格预测不准确。然而，如果模型能基于拟合的结构因果模型进行条件化，LLM的预测会大幅改进。简而言之，LLM知道的比它能立即表达的要多。
2024-04-17	AgentKit: Flow Engineering with Graphs, not Coding	Yue Wu et.al.	2404.11483	link	我们提出了一种直观的大型语言模型提示框架（AgentKit），旨在为多功能代理提供统一的方法。AgentKit通过简单的自然语言提示构建复杂的“思维过程”。其基本单元是节点，包含特定子任务的自然语言指令。用户可以像拼接乐高积木一样连接这些节点，从而明确设计出自然结构化的“思考流程”。例如，在撰写论文时，可能的步骤包括：1）确定核心信息，2）识别研究空白等。AgentKit的模块化特性使得高级功能如即兴的层次化规划、反思和从互动中学习变得可能。由于其直观且模拟人类思考过程的设计，即使没有编程经验的人也能创建和调整基础代理。定量实验显示，使用AgentKit设计的代理在WebShop和Crafter任务上实现了最先进的性能。这些成果表明AgentKit有潜力使LLM代理在更广泛的场景下高效且易于使用。相关代码已开源在GitHub：https://github.com/holmeswww/AgentKit。
2024-04-15	Memory Sharing for Large Language Model based Agents	Hang Gao et.al.	2404.09982	link	在人工智能领域，大型语言模型（LLMs）通过自然语言提示执行任务的能力是一个重大突破，它减少了对固定答案任务（如常识问题和是非查询）的重新训练或微调需求。然而，在处理开放性挑战如诗歌创作时，基于上下文学习的方法显示出局限，主要源于提供的示例全面性以及模型理解问题内容的能力不足，导致输出往往与预期结果大相径庭。针对这一差距，我们的研究提出了Memory-Sharing（MS）框架，这是一种针对LLM多代理的实时记忆存储和检索系统，旨在增强基于上下文的学习过程。每个“记忆”单元记录了提出的查询及其来自LLM代理的即时响应，从多个类似代理中聚合这些记忆，形成所有代理共享的丰富记忆池。MS框架不仅帮助代理找到特定任务的相关示例，还评估其记忆的潜在利用价值，供其他代理未来应用。在三个不同领域的实证验证显示，MS框架显著提高了代理处理开放性问题的表现。此外，我们还讨论了哪种记忆池和检索策略能更好地支持代理，为MS的未来发展提供了方向。代码和数据可在：https://github.com/GHupppp/MemorySharingLLM 获取。
2024-05-10	Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation	Ruixin Yang et.al.	2404.09127	link	### 背景当前的大规模语言模型（LLMs）在不确定性估计方面面临挑战，它们通常校准不良且过度自信，特别是在基于人类反馈的强化学习（RLHF）中。人类的决策和信心不仅源于内在信念，还能通过日常观察进行调整，而现有LLM的校准方法主要关注单个模型的信心估计，未能充分利用“集体智慧”：多个LLM之间的协作表达能力，这可以集体提高准确性和校准。本研究中，我们提出了一种无训练后处理的校准策略——协作校准（Collaborative Calibration），它利用多代理工具增强的LLMs在模拟的群体讨论过程中，共同提升校准能力和推理合理性。 ### 任务我们在生成式问答任务上展示了协作校准的有效性，覆盖了多个领域，证明了它在整合集体校准后的信心评估和提升模型预测可靠性方面的潜力。
2024-04-13	CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Zukang Yang et.al.	2404.09077	link	在问答（QA）领域，大型语言模型（LLMs）与外部数据库的融合取得了显著成效。然而，这些方法在处理复杂推理任务时往往力有不逮。为此，我们对一种名为知识图谱提示（KGP）的创新方法进行了优化，该方法结合知识图谱和基于LLM的代理以提升推理和搜索精度。然而，原始的KGP框架需要昂贵的大规模数据微调，并且仍存在LLM的错误推断问题。因此，我们提出了一种融入推理能力的LLM代理，它模仿人类的好奇心，通过提问来更有效地导航搜索过程。这个简单的改进显著提高了LLM在QA任务中的性能，同时避免了初始KGP框架的高成本和延迟。我们的目标是进一步发展这种方法，最终实现更精确、更快捷且成本效益更高的QA解决方案。
2024-04-13	Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation	Jia Gu et.al.	2404.09043	null	随着大型语言模型（LLMs）的飞速发展及其在处理复杂语言任务中的出色表现，越来越多的研究尝试利用LLMs模拟人类的行为决策过程，通常这些过程被表示为马尔可夫决策过程（MDPs）。在这个框架中，动作遵循特定的概率分布，并需要迭代采样。这促使我们探究LLM代理理解概率分布的能力，以通过概率采样指导行为决策并生成行为序列。我们将问题分为两个主要方面：一是已知精确概率分布的模拟，二是模糊概率分布的序列生成。在已知概率分布的情况下，代理需要根据问题描述提供概率分布的类型和参数，然后给出采样序列。然而，我们的研究显示，LLM代理在这方面的性能不佳，但通过编程工具可以一定程度上提高采样成功率。而在实际情境中，概率分布往往不明确。因此，我们在第二部分让代理调整在线社交网络中的活跃度，并分析行动频率。结果表明，即使借助编程工具，LLM代理依然无法有效地采样概率分布。这意味着在直接将LLM作为模拟人类行为的代理应用之前，还需要谨慎对待。
2024-04-12	Strategic Interactions between Large Language Models-based Agents in Beauty Contests	Siting Lu et.al.	2404.08492	null	随着大型语言模型（LLMs）的广泛应用，它们在博弈论框架下的游戏行为理解潜力日益显现。本研究聚焦于通过模拟分析不同类型LLM驱动的代理在经典 Beauty Contest 游戏中的策略互动。借鉴人类实验，我们对LLM代理的策略层次进行类似的评估，发现它们展现出从零级到一级的不同程度推理能力，并在重复游戏中表现出行动趋同。此外，我还探讨了不同类型的代理群体构成如何影响战略行为：高比例的固定策略对手能促进LLM代理的收敛，而混合环境中不同相对策略水平的代理共存会加速所有代理的收敛。更智能的代理可能获得更高的平均收益，但这是以较低智能代理的牺牲为代价的。这些结果不仅揭示了在特定情景下模拟代理的结局，还为理解算法之间的战略互动提供了重要启示。
2024-04-17	LLM Agents can Autonomously Exploit One-day Vulnerabilities	Richard Fang et.al.	2404.08144	null	随着大语言模型（LLMs）的威力日益增强，其在良性和恶意用途上的应用也日益广泛。研究人员开始关注它们利用网络安全漏洞的能力。近期的研究探讨了LLMs自主破解网站的可能性，但这些研究主要集中在简单的漏洞上。本工作揭示，LLMs能够自主利用现实世界系统中的单日漏洞。我们收集了一组包含15个被CVE描述为“关键严重性”的一天期漏洞数据。当提供CVE描述时，GPT-4模型能成功利用87%的漏洞，相比之下，其他测试模型（如GPT-3.5、开源LLMs和开源漏洞扫描器ZAP和Metasploit）的表现均为0%。然而，我们的GPT-4模型在没有描述的情况下效率大减，仅能利用7%的漏洞。这些发现对大规模部署高能力LLMs提出了质疑。
2024-04-11	WESE: Weak Exploration to Strong Exploitation for LLM Agents	Xu Huang et.al.	2404.07456	null	近期，大型语言模型（LLMs）显示出作为智能代理的强大潜力。然而，现有的研究主要集中在通过精心设计的提示工程或任务特定的微调来提升模型的推理或决策能力，忽视了探索与利用的过程。在处理开放世界交互环境中的复杂任务时，这些方法存在局限性。首先，由于缺乏对环境的全局信息，模型倾向于做出贪婪决策，导致解决方案不理想。另一方面，从环境中获取的无关信息不仅引入噪声，还增加了额外的成本。为此，本文提出了一种新颖的方法——弱探索强化强利用（Weak Exploration to Strong Exploitation，WESE），旨在增强LLM在解决开放世界交互任务中的表现。具体来说，WESE将探索和利用过程解耦，使用成本效益高的“弱”代理执行探索任务，以获取全局知识。随后，我们引入基于知识图谱的策略来存储这些知识，并提取与任务相关的关键信息，从而提升“强”代理在成功率和效率上的性能。我们的方法适用于各种任务，并在四个互动基准测试中显著提高了成功率和效率。
2024-04-10	GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications	Shishir G. Patil et.al.	2404.06921	link	随着大型语言模型（LLMs）的发展，它们不再仅仅是对话系统中的信息提供者，而是开始积极参与到与实际应用和服务的互动中。如今，人类在将LLM生成的输出（如代码、函数或操作）投入现实世界执行前，需要验证其正确性和适用性，这带来了挑战，因为代码理解被广泛认为非常困难。本文研究了人类如何能有效与LLMs协作、委派和监督，特别是在未来。我们主张，在许多情况下，对提出的行动进行“事后验证”（在看到输出后确认其正确性）比之前的“事前验证”更为容易。实现这一目标的核心理念是集成直观的撤销功能，并为LLM生成的动作设定损害约束，作为降低相关风险的有效策略。通过这种方式，人类可以撤销LLM输出的影响，或者确信潜在风险是有限的。我们认为这对于实现LLMs与应用和服务在有限的人类监督下交互至关重要。我们描述了开源运行时Gorilla Execution Engine（GoEX）的设计和实现，该运行时用于执行LLM动作，并提出了一些开放的研究问题，旨在推动LLMs与应用之间以最小的人工干预进行交互。GoEX的源代码已发布在https://github.com/ShishirPatil/gorilla/。
2024-04-09	AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents	Luca Gioacchini et.al.	2404.06411	link	随着大型语言模型（LLMs）的进展，人们追求能够解决复杂、多步骤推理任务的LLM代理。然而，现有的基准往往局限且只关注整体任务成功率。为了解决这些问题，我们提出了AgentQuest框架，它具有以下特点：（i）benchmark和评估指标模块化且易于扩展，通过文档齐全、易用的API；（ii）我们提供了两种新的评估指标，能够在解决任务时可靠地追踪LLM代理的进步。我们通过两个示例展示了这些指标的实用性，通过识别常见失败点并优化代理架构，显著提高了性能。我们希望与研究界共同扩展AgentQuest，并已将其开源在https://github.com/nec-research/agentquest。
2024-04-15	AutoCodeRover: Autonomous Program Improvement	Yuntong Zhang et.al.	2404.05427	link	在过去几十年里，研究人员在自动化软件开发过程中取得了显著进展，尤其是大型语言模型（LLMs）的应用极大地推动了编程辅助的自动化。然而，软件工程并不仅仅是编码，还包括维护（如修复bug）和演化（如添加功能）等程序改进过程。本文提出了一种自动解决GitHub问题的方法，旨在实现程序自主改进。我们的方法称为AutoCodeRover，它结合了LLMs与高级代码搜索能力，最终生成程序修改或补丁。与AI研究者和从业者近期关注的仅文件级别的软件项目不同，我们的工作侧重于程序表示（抽象语法树），利用类/方法的程序结构来增强LLM对问题根本原因的理解，并通过迭代搜索提供上下文。当测试套件可用时，谱系基线故障定位技术进一步精确了上下文。在SWE-bench-lite，一个包含300个真实GitHub问题的数据集上，AutoCodeRover的解决方案效果提升，解决了约22-23%的问题。对于全量的SWE-bench，包含2294个GitHub问题，AutoCodeRover解决了大约16%的问题，这比最近报道的来自Cognition Labs的AI软件工程师Devin的表现还要高，而且时间消耗与Devin相当。我们相信，我们的工作流程能够推动自主软件工程的发展，未来LLM自动生成的代码可以被自动地进行优化和改进。
2024-04-08	Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models	Yutao Ouyang et.al.	2404.05291	null	我们提出了一种基于大型语言模型（LLM）的系统，旨在提升四足机器人的问题解决能力，使其能够处理超越短期动作的长期任务。对于四足机器人来说，长期任务极具挑战性，因为它们需要对任务的语义有高层理解，并具备广泛的运动和操纵技能以与环境互动。我们的系统构建了一个高层推理层，利用大型语言模型，从任务描述中生成混合离散-连续的计划，作为机器人代码。它包括多个LLM代理：一个用于构思计划的语义规划器、一个参数计算器，用于预测计划中的参数，以及一个代码生成器，将计划转换为可执行的机器人代码。在低层次，我们采用强化学习来训练一套运动规划和控制技能，以增强四足机器人的灵活性，使其能进行丰富环境交互。我们在难以用单一技能完成的长期任务上测试了我们的系统。模拟实验和真实世界实验表明，它成功地制定了多步骤策略，并展现出非平凡的行为，例如制作工具或向人类寻求帮助。
2024-04-06	Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology	Dyke Ferber et.al.	2404.04667	null	多模态人工智能系统有望通过解析各类医学数据提升临床决策。然而，这些模型在各医学领域的效能尚不明朗，每个领域都有其独特挑战。本文提出了一种利用大型语言模型（LLMs）作为核心推理引擎的新型多模态医疗AI方法。此引擎自主协调并部署一系列专门的医疗AI工具，如文本解读、放射学和病理图像分析、基因数据处理、网络搜索以及医疗指南文档检索。我们在一系列临床肿瘤学场景中验证了该系统，这些场景模拟了典型的患者护理流程。结果显示，系统在选择恰当工具（97%）、得出正确结论（93.6%）、提供完整（94%）和有益（89.2%）治疗建议，以及根据指令引用相关文献（82.5%）方面表现出高能力。这表明LLMs能够有效地规划和执行领域特定模型，以获取或合成新信息，从而充当个性化临床助手。此外，这种架构简化了监管合规性，因为每个组件工具可以单独验证和审批。我们相信，这项工作为医疗领域的更先进LLM代理提供了概念验证。
2024-04-05	Cleared for Takeoff? Compositional & Conditional Reasoning may be the Achilles Heel to (Flight-Booking) Language Agents	Harsh Kohli et.al.	2404.04237	null	大型语言模型（LLMs）的快速进步使其在标准基准测试中频频超越人类表现，推动了众多下游应用的发展，如基于LLMs的代理。然而，这些模型在看似简单的任务中意外地表现不佳，这强调了对更全面和多样化的评估框架的需求，以衡量它们的实际能力。为此，我们聚焦于组合性和条件推理——人类认知的基石，并提出GroundCocoa，这是一个与航班预订这一现实问题相连接的词汇丰富的基准。我们的任务是将用户的详细偏好与以多选形式提供的可用航班选项进行匹配。结果显示，包括最先进的GPT-4 Turbo在内的当前最佳模型，在经过高级提示后，准确率仍不超过67%，显示出显著的性能差距。
2024-04-02	Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization	Yoichi Ishibashi et.al.	2404.02183	link	## 背景随着大型语言模型（LLM）代理的最新进展，自动化软件开发的未来正逐渐显现。然而，现有的单代理方法在生成和优化大规模、复杂的代码库时面临上下文长度限制的问题。为解决这一挑战，我们提出了一种新颖的多代理框架——自组织多Agent体系（SoA）。SoA是一个可扩展且高效的多代理系统，它允许独立地生成和修改代码组件，并协同构建整个代码库。SoA的一个关键特性是根据问题复杂性自动增加代理，实现动态可扩展性。这样，整体代码量可以根据代理数量无限增长，而每个代理管理的代码量保持恒定。我们在HumanEval基准上评估了SoA，并发现与单代理系统相比，SoA中的每个代理处理的代码量明显减少，但总体生成的代码量显著增加。此外，SoA在Pass@1准确率方面比强大的单代理基线提高了5%。
2024-04-02	Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game	Silin Du et.al.	2404.01602	link	大型语言模型在社交推理游戏中展现出显著的策略行为，但对它们作为意见领袖的重要性关注不足，这对于多Agent和人机交互场景的实际应用至关重要。意见领袖是指在一个社会群体中对他人信念和行为有显著影响的个体。本研究使用“狼人杀”游戏作为模拟平台，探讨语言模型在扮演Sheriff（治安官）角色时的意见领导能力。Sheriff负责总结论点并提出决策建议，因此它代表了意见领袖的一个可信代理。我们构建了一个整合Sheriff角色的框架，并基于意见领袖的关键特性提出了两个评估指标：第一个衡量意见领袖的可靠性，第二个考察其对其他玩家决策的影响。我们进行了大量实验，评估不同规模的语言模型，并创建了“狼人杀”问题回答数据集（WWQA），以测试和提升模型对游戏规则的理解。此外，还包含了人类参与者进行进一步分析。研究结果表明，“狼人杀”游戏是一个有效评估语言模型意见领导力的试验场，但目前仅有少数语言模型具备这种能力。
2024-04-15	CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs	Jingzhe Shi et.al.	2404.01343	link	随着企业和软件平台越来越多地采用大型语言模型（如GPT-3.5、GPT-4、GLM-3和LLaMa-2）提供聊天辅助或客户服务推理，现有的基于LLM的客户服务模型在与客户资料集成和执行实际操作方面存在局限。它们倾向于强调多样性而非精确性和错误避免，这对于现实世界的客户服务场景并不理想。因此，我们提出了一种名为CHOPS（结合客户资料的聊天助手）的LLM代理，旨在：（1）高效利用现有数据库或系统查询用户信息，或遵循既定指南与系统交互；（2）提供准确合理的响应并执行系统内的必要操作，同时避免有害操作；（3）通过结合小型和大型LLM以实现性能满意且成本合理的推理。我们开发了一个实用的数据集，称为CPHOS-dataset，它包括一个数据库、指导文件以及来自CPHOS平台的模拟物理奥林匹克组织服务的问答对。CPHOS是一个面向高中教师和学生的在线平台。我们通过使用CPHOS-dataset进行了广泛的实验，验证了CHOPS架构的性能，目标是展示LLM如何提升或替代人工客户服务。关于我们的提案架构和数据集的代码可在此处获取：https://github.com/JingzheShi/CHOPS。
2024-03-31	DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model	Lirui Zhao et.al.	2404.01342	link	文本到图像（T2I）生成模型近年来备受瞩目，在学术研究和实际应用中大放异彩。例如，Civitai平台，一个T2I创新的聚集地，目前汇集了74,492种独特的模型，这带来了选择最合适的模型和参数的艰巨任务，通常需要多次试验。借鉴大型语言模型（LLMs）工具使用研究的思路，我们推出了DiffAgent，这是一个通过API调用来快速筛选准确选项的LLM代理。DiffAgent采用了一种新颖的两阶段训练框架，称为SFTA，使其能够根据人类偏好精确地将T2I API的响应与用户输入对齐。为了训练和评估DiffAgent的能力，我们构建了DABench，这是一个全面的数据库，涵盖了社区中的各种T2I API。实验结果显示，DiffAgent不仅在选择适当的T2I API方面表现出色，还验证了SFTA训练框架的有效性。相关代码已可在https://github.com/OpenGVLab/DiffAgent获取。
2024-03-31	Algorithmic Collusion by Large Language Models	Sara Fish et.al.	2404.00806	null	随着算法定价的兴起，人们担忧算法间的合谋问题。我们通过实验使用基于大型语言模型（LLMs）的定价代理，特别是GPT-4，进行了探究。研究发现：(1) LLM驱动的定价机制在定价任务上表现出色；(2) 在寡头竞争环境中，LLM定价代理会自发地进行合谋，从而损害消费者利益；(3) 对LLM指令（“提示”）看似微小的变化可能加剧这种合作行为。这些结果同样适用于拍卖场景。我们的研究结果强调了对算法定价进行反垄断监管的必要性，并揭示了针对LLM定价代理特有的监管挑战。
2024-03-31	"My agent understands me better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents	Yuki Hou et.al.	2404.00573	link	在这个研究中，我们提出了一种创新的人类记忆架构，旨在提升基于大型语言模型的对话代理的认知能力。我们的设计使得这些代理能自主检索生成响应所需的必要记忆，从而解决LLMs在时间认知上的局限。我们借鉴了人类的记忆线索召回机制作为触发点，以实现精确且高效的回忆。此外，我们开发了一个数学模型，动态量化记忆巩固过程，考虑了诸如上下文相关性、时间流逝和回忆频率等因素。代理会从用户的交互历史中存储记忆，这些记忆被封装在数据库中，每个记忆都包含了内容和时间关联的语境。这样，通过类似人类识别和回忆过往经历的方式，系统能够战略性地存储记忆，并理解它们对用户在时间线上的重要性。

(back to top)

llm

Publish Date	Title	Authors	PDF	Code	abstract
2024-10-03	FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models	Zhipei Xu et.al.	2410.02761	null	生成式人工智能的快速发展是一把双刃剑，它不仅促进了内容创作，还使得图像编辑变得更加简便且难以识别。尽管当前的图像伪造检测与定位（IFDL）方法通常有效，但它们面临两个挑战：首先，它们具有黑盒性质，其检测原理未知；其次，它们在面对不同伪造方法（如Photoshop、DeepFake、AIGC-Editing）时的泛化能力有限。为了应对这些问题，我们提出了可解释的IFDL任务，并设计了具备评价图像真伪、生成篡改区域掩码以及基于像素级和图像级篡改线索提供判断依据功能的多模态框架——FakeShield。此外，我们利用GPT-4o对现有IFDL数据集进行增强，创建了多模态篡改描述数据集（MMTD-Set），用于训练FakeShield的篡改分析能力。同时，我们整合了一个领域标签引导的可解释性伪造检测模块（DTE-FDM）和一个多模态伪造定位模块（MFLM），以解决各种伪造检测解释和实现由详细文本描述指导的伪造定位问题。通过广泛的实验，证明了FakeShield能够有效地检测和定位各种篡改技术，并提供了比以往IFDL方法更可解释且更优的解决方案。
2024-10-03	Loong: Generating Minute-level Long Videos with Autoregressive Language Models	Yuqing Wang et.al.	2410.02757	null	本文对基于自回归大语言模型（LLM）的视频生成器在生成长时间视频时面临的挑战进行了深入分析。在自然语言处理领域，自回归LLM已取得了巨大成功，而在视频生成方面，自回归LLM主要用于生成几秒钟的短视频。本文提出了Loong，一种新的自回归LLM基视频生成器，能够生成长达数分钟的视频。具体来说，我们通过将文本令牌和视频令牌统一为自回归LLM可以处理的序列来进行建模，并从头开始训练模型。为了缓解长视频训练中的损失不平衡问题，我们提出了一种分阶段的从短到长训练策略，以及一个损失重权重方案。此外，我们还探讨了推理策略，包括视频令牌重新编码和采样策略，以减少推理过程中的误差累积。我们的Loong模型可以从10秒的视频进行训练，并能扩展生成基于文本提示的长达数分钟的长视频，验证结果展示了这一能力。更多样本可在以下链接获取：https://epiphqny.github.io/Loong-video.
2024-10-03	SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost	Jifan Zhang et.al.	2410.02755	null	本文提出了一种名为SIEVE的轻量级替代方案，其在成本远低于GPT-4o的情况下，能够达到与GPT-4o相似的准确度。SIEVE的核心在于将高性能的通用语言模型GPT-4o与轻量级T5模型无缝集成，并通过主动学习的方式，使用少量的GPT-4o调用对T5进行微调。一旦训练完成，SIEVE就能以极低的成本实现与GPT-4o相似的性能。我们在OpenWebText数据集上进行了实验，针对高质量和领域特定内容的五个高度定制化的过滤任务。实验结果证明了我们的方法在以远低于现有技术（仅为1%）的成本下，能够有效地构建大型高质量数据集用于语言模型训练的有效性和效率。为了进一步验证SIEVE，实验显示SIEVE和GPT-4o的准确性相似，而人工评估者更偏好SIEVE的过滤结果，相较于GPT-4o的结果。
2024-10-03	Training Language Models on Synthetic Edit Sequences Improves Code Synthesis	Ulyana Piterbarg et.al.	2410.02749	null	本文主要探讨了软件工程师与大型语言模型（LLMs）在编写代码时的不同方式。软件工程师主要通过编辑现有程序来编写代码，而LLMs则是在一次通过过程中自动生成程序。这种差异部分归因于可用的代码编辑数据稀缺性。尽管用于代码合成的高质量指令数据已经相当有限，但用于编辑的数据更为稀缺。为了填补这一空白，我们开发了一种名为LintSeq的合成数据生成算法。该算法通过使用代码检查器（linter）从错误无误的插入中随机选取序列，以程序性方式逐步编写程序，从而将现有代码转化为一系列代码编辑序列。LintSeq将这些编辑序列以连续的程序差异文本字符串形式输出。为了测试LintSeq，我们将它应用于一个由指令+程序对组成的数据集，将其转换为指令+程序差异序列对。接着，我们对参数数量从2.6B到14B不等的一系列较小的LLMs进行指令微调，分别在重新格式化和原始版本的数据集上进行，比较了它们在代码合成基准上的零初始化性能。结果显示，在重复采样过程中，基于编辑序列微调的模型生成的程序多样性更高，从而在推理时间扩展性方面表现出更好的基准覆盖度量，即给定“k”次尝试后解决问题的比例（pass@k）。例如，在HumanEval pass@50测试中，参数较少的模型在经过基于合成编辑序列的微调后，与GPT-4相比具有竞争力，并且相对于基于原始数据集进行微调的模型，在绝对分数上提高了+20%（±3%）。此外，我们还预先训练了自己的小型模型以理解代码。实验表明，对基于合成代码编辑进行微调的小型模型，在设备端模型类别中实现了最先进的代码合成能力。我们的1.5亿参数编辑序列模型不仅在与参数数量是其两倍的模型相比较时表现出色，而且在重复采样的情况下也是如此，包括Codex和AlphaCode。
2024-10-03	CriSPO: Multi-Aspect Critique-Suggestion-guided Automatic Prompt Optimization for Text Generation	Han He et.al.	2410.02748	null	本文研究了在提示中加入源文档中提取的显著信息，以增强语言模型的总结能力。研究表明，在提示中添加关键短语能够提升ROUGE F1和召回率，使得生成的摘要与参考摘要更加相似且更为完整。通过调整关键短语的数量，可以控制精确度与召回率之间的权衡。进一步的研究表明，将短语级的显著信息融入提示优于基于单词或句子级的信息。然而，对于不同语言模型，这种方法对幻觉的影响并不总是正面的。为了进行这项分析，我们引入了一种轻量级模型“CriSPO”（关键短语信号提取器），该模型可微调以提取关键短语。使用CriSPO，我们在多个数据集、开源和专有语言模型上实现了不依赖于模型定制的一致性提升。我们的发现为构建基于提示的总结系统时利用显著信息提供了见解。
2024-10-03	Contrastive Localized Language-Image Pre-Training	Hong-You Chen et.al.	2410.02746	null	本文研究了对比语言-图像预训练（CLIP）在训练视觉编码器生成图像/文本表示以支持各种应用中的成就。最近，CLIP被广泛应用于大型语言模型（MLLMs）的视觉骨干，以便在需要语言交互时连接图像输入。CLIP作为视觉-语言基础模型的成功依赖于对图像级别的网络文本注释进行对齐。然而，在下游任务需要精细的视觉表示时，这种标准可能变得不足，尤其是在MLLMs需要区域级理解时。本文提出了一系列改进CLIP定位能力的方法。我们提出了一个名为对比局部化语言-图像预训练（CLOC）的方法，通过补充CLIP与区域文本对比损失和模块来增强其功能。我们引入了一个新的概念——可提示嵌入，即编码器产生的图像嵌入易于在给定空间提示的情况下转换为区域表示。为了支持大规模预训练，我们设计了一种视觉增强且空间局部化的描述框架，以有效生成大规模的区域文本伪标签。通过扩展到数十亿标注图像，CLOC能够提供高质量的区域嵌入用于图像区域识别和检索任务，并可以作为CLIP的替代品增强MLLMs，特别是对于指代和上下文理解任务。
2024-10-03	Neutral residues: revisiting adapters for model extension	Franck Signe Talla et.al.	2410.02744	null	我们解决了一个新领域扩展问题，该领域在预训练大型语言模型时未见过，例如增加原始模型未曾接触或接触甚少的语言。流行的方法如微调或低秩适应在域适应方面成效显著，但它们并未增加额外的容量，并且降低了原领域的性能。我们的论文从三个角度分析了这个问题：数据、架构和训练过程，这三种方法被联合考虑，以提供更全面的解决方案。特别是，我们改进了适配器，并使其能够学习全新的语言，同时确保神经网络在原有领域的输出几乎不变。为此，我们对新的残差块进行了修改，使得每个新的残差块在原有领域输出接近零值。这一名为“中性残差”的解决方案，借鉴了混合专家架构的组件，效果明显：与仅用英文训练的原始模型相比，只增加了20%可学习参数，我们在学习新语言和保持英文性能之间的权衡上获得了显著优于当前方法（微调、低秩或普通适配器）的结果。
2024-10-03	MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions	Yekun Chai et.al.	2410.02743	null	本文提出了一种名为MA-RLHF的简单而有效的强化学习从人类反馈（RLHF）框架。该框架通过引入“宏动作”——序列级别的或更高层次的语言结构——来提升学习过程中的抽象级别，以此解决在长序列中进行奖励归因的问题。通过在较高抽象层操作，我们的方法缩短了行动与奖励之间的时序距离，从而提高了信用分配的准确性和速度，进而提高了每轮训练的学习效率，且不增加训练或推理期间的计算复杂度。我们通过在文本摘要、对话生成、问题回答和代码合成等任务上进行广泛的实验，验证了这一方法的有效性。相较于标准的RLHF方法，我们的方法在文本摘要和代码生成任务上取得了高达30%的性能提升，在对话生成任务上提升了18%，在问题回答任务上提升了8%。特别地，与传统的RLHF相比，我们的方法在训练时间上快了1.7倍到2倍，并且随着进一步的训练，仍然保持优于传统RLHF的性能。我们将提供公开的代码和数据访问链接：https://github.com/ernie-research/MA-RLHF 。
2024-10-03	Grounding Large Language Models In Embodied Environment With Imperfect World Models	Haolan Liu et.al.	2410.02742	null	尽管大型语言模型在各种应用中取得了广泛的成功，但在处理基本物理推理或执行机器人任务时，它们经常遇到困难，原因在于缺乏与现实世界物理细节的直接经验。为了应对这些问题，我们提出了一种名为Grounding Large Language Model with Imperfect world MOdel（GLIMO）的方法，该方法利用代理世界模型（如模拟器）来收集和合成训练数据。GLIMO整合了一个基于语言模型的自动数据生成器，用于创建高质量且多样化的指令集。生成器包括一个迭代自我精炼模块以实现时间上一致的经验采样、一组多样化的问答指令种子以及一个基于检索增强的生成模块以反思先前的经验。全面的实验结果显示，我们的方法提高了强大的开源大型语言模型（如LLaMA-3）的性能，分别在三个不同基准上的性能提升为2.04倍、1.54倍和1.82倍。性能能够与或超越其更大的同类模型，如GPT-4。
2024-10-03	Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization	Lei Xu et.al.	2410.02741	null	本文探讨了使用源文档中提取的显著信息来增强总结提示的方法。我们证明，在提示中加入关键短语可以提高ROUGE F1和召回率，使生成的摘要与参考摘要更加相似且更完整。关键短语的数量可以控制精确度和召回率之间的权衡。进一步分析显示，将短语级的显著信息融入提示优于单词级或句子级。然而，这在所有大型语言模型上对幻觉的影响并非普遍正面。为了进行这项分析，我们引入了一款轻量级模型Keyphrase Signal Extractor（SigExt），该模型可以在不修改任何大型语言模型的情况下，通过微调来提取显著的关键短语。通过使用SigExt，我们在不同数据集以及开源和专有大型语言模型上均实现了ROUGE改进的一致性。我们的研究结果为构建基于提示的总结系统时利用显著信息提供了洞见。
2024-10-02	Locret: Enhancing Eviction in Long-Context LLM Inference with Trained Retaining Heads	Yuxiang Huang et.al.	2410.01805	link	大型语言模型（LLMs）在支持长期上下文理解和处理任务方面取得了显著进步。然而，将LLMs的生成推理扩展到如此长的上下文会增加大量的计算负载，并要求在维持基于转换器的LLMs的关键值对（KV）缓存时使用大量GPU内存。现有的KV缓存压缩方法，如量化，随着上下文长度的增加而遇到内存瓶颈；而固定大小的缓存，如淘汰策略，则由于不高效的策略而导致效率低下。这些限制限制了在单个Nvidia 4090 GPU等消费者级设备上的部署。为了克服这一挑战，我们提出了Locret框架，这是一种用于长上下文LLM推理的方法，通过引入保留头部来评估KV缓存单元的因果重要性，从而允许在固定缓存大小内进行更准确的淘汰。Locret在冻结的主干LLM基础上进行了微调，使用标准长时间上下文SFT数据集的少量数据。在推理过程中，我们以分块预填充模式淘汰低重要性的缓存单元，显著减少了峰值GPU内存使用量。我们进行了广泛的实证研究来评估Locret，实验结果表明，与最近的竞争方法（包括InfLLM、量化、SirLLM和MInference）相比，Locret在内存效率和生成内容质量方面均表现出色——Locret实现了与Phi-3-mini-128K和Llama-3.1-8B-instruct全KV缓存相比超过20倍和8倍的KV缓存压缩比率。此外，Locret还可以与其他方法（如量化和令牌合并）结合使用。据我们所知，Locret是第一个能够将Llama-3.1-8B或类似模型部署到单个Nvidia 4090 GPU上，同时在不牺牲生成质量的情况下实现128K长上下文推理的框架，且仅需要少量额外的系统优化。
2024-10-02	Efficient $1$-bit tensor approximations	Alex W. Neal Riasanovsky et.al.	2410.01799	null	我们提出了一种空间效率高的矩阵和任意阶张量分解方法，作为线性组合的张量积形式，其中向量值为${-1, 1}$。对于任一矩阵$A \in \mathbb{R}^{m \times n}$，其表达式为：$$A - R_w = S_w C_w T_w^\top = \sum_{j=1}^w c_j \cdot \mathbf{s}_j \mathbf{t}_j^\top$$ 这是一个关于$A$的“宽度为$w$的符号切分解”。这里$C_w = "diag"(\mathbf{c}_w)$，且$S_w, T_w$和向量$\mathbf{s}_j, \mathbf{t}_j$均为${-1, 1}$值。用于存储$(S_w, T_w, C_w)$所需的空间是$w \cdot (m + n)$位，并仅需$w$个浮点数。当应用于具有i.i.d. $\mathcal N (0, 1)$分布元素的#f32矩阵时，$,R_w,_F$呈现出指数衰减。选择合适的$w$，使$(S_w, T_w, C_w)$的内存占用与\textit{f16}或\textit{bf16}矩阵相同，相对误差相当。我们的算法在20行伪代码中实现了高效的符号切分解。它源自1999年Frieze和Kannan的一篇著名论文的简单修改。作为第一个应用，我们对开放源码大型语言模型\textit{Mistral-7B-v0.1}中的权重矩阵进行了$50%$的空间压缩。令人惊讶的是，所有$226$个余矩阵的相对误差均小于$6%$，且扩展模型在huggingface排行榜上与\textit{Mistral-7B-v0.1}模型表现相近。随着空间压缩率从$50%$降低至$25%$ ，基准性能缓慢下降。我们优化了开源的\textit{rust}实现，使用了\textit{avx2}和\textit{avx512}架构下的\textit{simd}指令进行加速。此外，我们还将该算法扩展到了任意阶张量，并利用它压缩了一张作者猫Angus的照片。请注意，这里的文本并未包含任何特殊字符或特定格式标记，而是以纯文本形式呈现了摘要内容。
2024-10-02	Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models	Joseph Lee et.al.	2410.01795	link	基于复杂遗传基础预测表型，利用小而可解释的变异特征仍然是一项具有挑战性的任务。传统上，使用数据驱动的方法进行此任务，但基因型数据的高维特性使得分析和预测变得困难。受到预训练大型语言模型（LLM）中编码的丰富知识及其在处理复杂生物医学概念上的成功启发，我们旨在探索LLM在表格基因型数据特征选择与工程方面的能力，并引入一种基于知识的框架。我们开发了FREEFORM，一种自由流动推理与集成增强特征输出和稳健建模的框架，该框架结合了链式思考与集成原则，利用LLM的内在知识来选择和工程特征。在两个不同的人类基因型-表型数据集上进行评估，包括遗传血统和遗传性听力损失，我们发现这个框架在低样本量情况下优于几种数据驱动方法。FREEFORM作为一个开源框架，可以在GitHub上获取：https://github.com/PennShenLab/FREEFORM。
2024-10-02	When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1	R. Thomas McCoy et.al.	2410.01792	null	在“自动回归余烬”（McCoy等人，2023年）中，我们展示了几个大型语言模型（LLMs）在起源上存在一些重要限制，这归因于它们的下一个单词预测特性。这里我们探讨了OpenAI的新系统o1是否依然存在这些问题，与之前的LLMs相比，o1在推理优化方面有所不同。研究发现，o1在许多情况下显著优于之前模型，在某些常见任务的罕见变体上（例如，从列表中的每个词的第二个字母形成缩写，而不是第一个字母）表现尤其出色。尽管这些定量改进令人印象深刻，但o1依然显示出了与之前系统相同的基本趋势：对于概率较高的示例和任务，o1的表现更好且需要的“思考令牌”数量较少；而在概率较低的情况下则表现不佳。这些结果表明，优化语言模型以进行推理可以减轻但可能无法完全克服语言模型的概率敏感性问题。
2024-10-02	Investigating on RLHF methodology	Alexey Kutalev et.al.	2410.01789	null	本文研究了大型语言模型根据人类偏好的对齐问题。我们讨论了训练偏好模型的特性，该模型模拟人类偏好，并介绍了实现最佳结果所需的方法和细节。此外，我们还探讨了使用强化学习微调大型语言模型的方法，描述了遇到的挑战以及克服这些挑战的方式。我们还提出了直接偏好优化方法的经验，这种方法允许我们将大型语言模型与人类偏好对齐，而无需创建单独的偏好模型。作为我们的贡献，我们引入了一种通过困惑度筛选收集偏好数据集的方法，这使得为特定语言模型创建这样的数据集的过程更加简便且成本效益更高。
2024-10-02	OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models	Heng Yang et.al.	2410.01784	link	近年来，人工智能领域的进步，特别是大型语言模型（LLMs），激发了对基因组基础模型（GFMs）突破性进展的期待。自生命进化之初就隐藏在多样化的基因组中的“自然之码”，蕴含着巨大潜力，能够通过基因组建模对人类和生态系统产生深远影响。近期GFM领域的重要突破，如Evo，吸引了大量投资与关注，它们解决了长期存在的挑战，并将基因组研究从手动、不可靠和低效的传统模式转变为自动化、可靠和高效的新范式。在基因组学连续技术革命的背景下，GFM研究面临两大挑战：缺乏GFM基准测试工具以及多维基因组学的开源软件缺失。这些挑战阻碍了GFM快速演进及其广泛应用于理解与合成基因组等数十年来存在的问题的能力。为了应对这些挑战，我们引入了GFMBench框架，一个专注于GFM导向基准测试的平台。GFMBench标准化了基准套件，并实现了对大量开源GFMs的自动化基准测试。它集成了来自四大大型基准的数百万个基因序列，覆盖数百种基因组任务，使GFMs民主化，适用于广泛的虚拟基因组应用。此外，GFMBench作为开源软件发布，提供用户友好界面和多样化教程，适用于自动测试以及RNA设计和结构预测等复杂任务。为了促进基因组建模领域的进一步发展，我们启动了一个公共排行榜，展示由AutoBench生成的基准性能。GFMBench代表了标准化GFM基准测试和民主化GFM应用的一大步。
2024-10-02	Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models	Shayekh Bin Islam et.al.	2410.01782	null	为了提升大型语言模型（LLM）在事实准确性上的表现，检索增强生成（RAG）方法已经得到了广泛研究。然而，现有的方法往往在利用检索到的证据进行推理的能力上存在局限性，尤其是在使用开源LLM时。为了填补这一差距，我们提出了一种新颖的框架——Open-RAG，旨在增强开源LLM在RAG中的推理能力。我们的框架将任意密集型LLM转换成一个参数高效的稀疏混合专家（MoE）模型，能够处理包括单跳和多跳查询在内的复杂推理任务。 Open-RAG的独特之处在于，它通过训练模型来应对看似相关但具有误导性的干扰项，从而有效地导航复杂场景。通过利用潜学习，Open-RAG动态选择相关专家并整合外部知识，以提供更准确、更具上下文的相关响应。此外，我们还提出了一种混合自适应检索方法，用于判断检索的必要性，并平衡性能增益与推理速度之间的权衡。实验结果显示，基于Llama2-7B的Open-RAG在各种知识密集型任务中，相较于ChatGPT、Self-RAG和Command R+等最先进的LLM和RAG模型，表现出更优的表现。我们已将代码和模型开源在https://openragmoe.github.io/。
2024-10-02	Quantifying Generalization Complexity for Large Language Models	Zhenting Qi et.al.	2410.01769	null	在大型语言模型（LLMs）展现出理解复杂查询和执行高级任务的非凡能力的同时，它们的泛化能力往往与记忆深度交织在一起，这要求我们进行更精确的评估。为了应对这一挑战，我们引入了Scylla，这是一个动态评估框架，定量衡量LLMs的泛化能力。Scylla通过在分布内（ID）和分布外（OOD）数据上评估模型性能来分离泛化与记忆，涉及20个任务，覆盖5个复杂度级别。通过广泛的实验，我们揭示了任务复杂度与ID和OOD数据之间的性能差距之间非单调的关系，我们将其称为泛化山谷。具体来说，这一现象揭示了一个关键阈值——称为关键复杂性——在该阈值处，非泛化行为的依赖达到峰值，表明了LLMs泛化能力的上限。随着模型大小的增加，关键复杂性向更高层次的任务复杂度移动，表明更大的模型可以在依赖于记忆之前处理更复杂的推理任务。利用Scylla和关键复杂性的概念，我们对包括开源模型如LLaMA和Qwen家族、以及闭源模型如Claude和GPT在内的28个LLMs进行了基准测试，提供了更稳健的评估，并对LLMs的泛化能力有了更清晰的理解。
2024-10-02	LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks	Mengzhao Jia et.al.	2410.01744	null	文本丰富的图像在实际应用中普遍存在，如幻灯片演示、扫描文档和网页快照等，其中文本作为核心视觉元素引导整体理解。多图像文本丰富的任务尤其具有挑战性，因为它们不仅需要理解单个图像的内容，还需要在多个视觉输入之间推理关系和逻辑流程。尽管这些场景的重要性，当前的多模态大型语言模型（MLLMs）在处理此类任务时遇到两个关键挑战：（1）缺乏适合于多图像文本丰富场景的高质量指令调优数据集；（2）难以平衡图像分辨率与视觉特征序列长度。为了应对这些挑战，我们提出了\OurMethod，一个专门设计用于处理涉及多文本丰富图像的视语言任务的MLLM。首先，我们收集了约一百万条针对多文本丰富、多图像场景的高质量多模态指令调优数据。其次，我们开发了一种适应性的高分辨率多图像编码模块，根据输入图像的原始纵横比和分辨率动态优化视觉序列长度的分配。在一系列广泛的基准测试中，我们的模型在多文本丰富、多图像评估中表现出优越的能力，并在通用领域评估中展现出竞争力。
2024-10-02	VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models	Kailai Feng et.al.	2410.01738	link	本文引入了一种双分支、无需训练的新型艺术字体生成方法——VitaGlyph。该方法旨在通过灵活地表达输入字符的核心概念以及丰富相关的背景信息，实现艺术字体与可控制的几何变化之间的平衡，从而保持字体的可读性。VitaGlyph的核心理念是将输入字符视为由主体和周围环境组成的场景，并在不同几何变换程度下进行渲染。具体来说，VitaGlyph通过以下三个阶段框架实现其功能：(i) 知识获取阶段利用大型语言模型设计主体和周围环境的文本描述；(ii) 区域分解阶段识别最匹配主体描述的部分，并将输入的字符图像分为主体和周围区域；(iii) 字体风格化阶段首先通过语义字体优化主体区域的结构，然后分别使用可控组合生成技术渲染主体和周围区域的纹理。实验结果表明，VitaGlyph不仅在艺术性和可读性方面表现出色，还能够描绘多种定制概念，从而促进更富有创意和愉悦的艺术字体生成。项目代码将在https://github.com/Carlofkl/VitaGlyph公开提供。
2024-09-30	MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning	Haotian Zhang et.al.	2409.20566	null	我们提出了一种新的多模态大型语言模型家族MM1.5，旨在增强文本丰富图像理解、视觉引用与定位以及多图像推理的能力。在MM1架构的基础上，MM1.5采用数据驱动的方法进行模型训练，系统性地探索在整个模型训练生命周期内不同数据混合的影响。这包括高质量的OCR数据和合成描述符用于持续预训练，以及优化的视觉指令调参数据混合用于监督微调。我们的模型涵盖了从1亿到30亿参数的范围，包括密集型和混合专家（MoE）变体，并证明了即使在较小规模（1亿和3亿参数）下，精心的数据整理和训练策略也能产生强大的性能。此外，我们引入了两个专门的变体：MM1.5-Video，用于视频理解；MM1.5-UI，用于移动用户界面理解。通过广泛的实证研究和消融分析，我们提供了关于训练过程和决策的详细见解，这些见解对于未来多模态大型语言模型的发展具有宝贵的指导意义。
2024-09-30	Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos	Md Mohaiminul Islam et.al.	2409.20557	null	本文提出了VidAssist，一个用于从教学视频中进行零样本或少量样本的目标导向规划的集成框架。VidAssist利用大型语言模型（LLM）作为知识库和评估工具，生成并评估行动计划，以此克服从小规模、低多样性数据集获取过程知识的挑战。此外，VidAssist采用广度优先搜索算法进行最优计划生成，并使用专为目标导向规划设计的价值函数，在每一步评估预测动作。广泛实验表明，VidAssist提供了一个适用于不同目标导向规划设置的统一框架，如视觉辅助规划（VPA）和程序规划（PP），在零样本和少量样本设置下表现出卓越性能。具体而言，我们的少量样本模型在COIN数据集上的VPA任务和PP任务上分别比全监督的前导方法高出+7.7%和+4.81%，同时预测4个未来动作。所有代码和模型都在https://sites.google.com/view/vidassist公开提供。
2024-09-30	LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation	Ziyao Zhang et.al.	2409.20550	null	本文提出了一项针对大型语言模型（LLM）在代码生成任务中的幻觉现象的实证研究。尽管LLM在代码生成任务上的表现令人鼓舞，但它们在处理实际开发过程中复杂的上下文依赖关系时，往往会产生错误或不准确的结果。以往的研究主要关注于基于LLM的代码生成在单一功能生成场景下的幻觉分析，但本文将研究范围扩展至更实际且复杂的仓库级生成情景。首先，通过人工检查六种主流LLM的代码生成结果，本文建立了LLM生成代码的幻觉分类体系。接下来，详细阐述了幻觉现象，并分析了不同模型间幻觉分布的情况。进一步地，本文探讨了幻觉产生的原因，并识别了四个可能导致幻觉的因素。最后，提出了一种基于记忆网络（RAG）的缓解方法，该方法在所有研究的LLM上均表现出一致的有效性。提供了一个包括代码、数据和实验结果的可复制包，供学术界和工业界参考和验证。此研究有助于提高LLM在代码生成任务中的可靠性与准确性，对软件工程领域具有重要意义。
2024-09-30	Robi Butler: Remote Multimodal Interactions with Household Robot Assistant	Anxing Xiao et.al.	2409.20548	null	在这篇论文中，我们引入了Robi Butler，一种新型的家庭机器人系统，它能够与远程用户进行多模态交互。基于先进的通信接口，Robi Butler允许用户监控机器人的状态、发送文本或语音指令，并通过手势选择目标对象。我们的系统的核心是一个由大型语言模型（LLMs）驱动的高级行为模块，该模块能够解释多模态指令并生成行动计划。这些计划由支持文本和点击查询的视觉语言模型（VLMs）处理的开放词汇集组成。整合以上组件使得Robi Butler能够在零样本的情况下将远程多模态指令转化为现实世界家庭环境中的实际操作。我们通过演示各种日常家务任务的有效性和效率，展示了该系统的应用，这些任务涉及到远程用户给出多模态指令。此外，我们还进行了用户研究，分析了多模态交互对远程人机交互的效率和用户体验的影响，并讨论了可能的改进措施。
2024-09-30	Uncertainty-Informed Screening for Safer Solvents Used in the Synthesis of Perovskite via Language Models	Arpan Mukherjee et.al.	2409.20512	null	本文提出了一种创新框架，旨在解决准确预测工业合成中所用钙钛矿溶剂毒性这一挑战。由于缺乏针对性和结构化的毒性数据，这一任务面临局限性。该框架结合了语言模型的自动化数据提取与具有不确定性信息的预测模型，以填补数据空白并提高预测的置信度。首先，我们采用了两种方法从涉及钙钛矿合成溶剂的科学文献语料库中自动提取相关数据：较小的双向语言模型（如BERT和ELMo）因其重复性和确定性输出而被使用；而自回归大型语言模型（LLM）如GPT-3.5则利用其庞大的训练语料库和更好的响应生成能力。我们的“提示和验证”技术集成到LLM中，旨在实现有针对性的提取和优化，从而减少LLM的幻觉现象，提升提取数据的质量。接下来，提取的数据被输入到预训练的多任务二元分类深度学习模型，用于预测提取溶剂的ED性质。我们利用从分类模型获得的类别概率进行香农熵为基础的不确定性量化，以此来量化不确定性并识别预测中的数据缺口。这种方法导致构建了一个结构化的用于钙钛矿合成溶剂及其基于不确定性虚拟毒性的评估数据集。此外，我们使用了和弦图来可视化溶剂之间的相互作用，并优先考虑那些可能存在危险的溶剂，结果发现70%的溶剂相互作用主要与特定的两种钙钛矿相关联。
2024-09-30	COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models	Divyanshu Daiya et.al.	2409.20502	null	我们提出了一种名为COLLAGE的新型框架，用于通过利用大型语言模型（LLM）和层次化的运动特异性向量量化变分自编码器（VQ-VAE）来生成协作式代理-对象-代理交互。我们的模型解决了这一领域数据稀缺的问题，通过整合LLM的知识和推理能力来指导生成性扩散模型。层次化的VQ-VAE架构在多个抽象级别捕获了不同的运动特异性特征，避免了冗余概念，并实现了高效的多分辨率表示。我们引入了一个在隐空间中操作的扩散模型，并结合了由LLM生成的运动规划提示来引导去噪过程，从而实现了针对特定提示的运动生成，具有更高的控制性和多样性。在CORE-4D和InterHuman数据集上的实验结果证明了我们的方法在生成真实且多样化的协作人类-物体-人类交互方面的有效性，超越了现有最佳方法。我们的工作为机器人学、图形学和计算机视觉等领域建模复杂交互提供了新的可能性。
2024-10-01	Instance-adaptive Zero-shot Chain-of-Thought Prompting	Xiaosong Yuan et.al.	2409.20441	null	零射链思考（CoT）提示策略在增强大型语言模型（LLM）解决现实世界推理任务的性能方面展现出简单而有效的方法。然而，单一任务级提示在整个实例上的应用存在局限性，因为一个提示无法与所有实例都成为最佳搭档。因此，更恰当的做法是精心考虑提示与每个实例之间的互动。本文提出了一种实例自适应提示算法作为零射CoT推理的一种替代策略，旨在通过适当地区分出好的和坏的提示来提升性能。具体来说，我们首先通过信息流的角度对LLM进行分析，以揭示零射CoT推理机制，发现信息从问题到提示以及问题到推理的双向流动对推理结果影响最大。我们注意到，更优秀的零射CoT推理需要提示从问题中获取语义信息，然后推理从问题直接或通过提示间接地聚合足够信息。相反，缺失这些任何一项可能都会导致一个不理想的提示。基于此发现，我们进一步提出了一个适用于零射CoT推理的实例自适应提示策略（IAP）。在LLaMA-2、LLaMA-3和Qwen上对数学、逻辑和常识推理任务（如GSM8K、MMLU、因果判断）进行的实验表明，实例自适应零射CoT提示策略在某些定制提示或复杂程序的基础上表现出更好的性能，这证明了我们在零射CoT推理机制研究中的发现具有重要意义。
2024-09-30	Wait, but Tylenol is Acetaminophen... Investigating and Improving Language Models' Ability to Resist Requests for Misinformation	Shan Chen et.al.	2409.20385	null	背景：大型语言模型（LLMs）被训练成遵循指令，但这种设计使其容易在生成错误信息时盲目遵从用户请求。在医学领域，这可能会加速错误信息的传播，从而影响人类健康。研究目标/方法：我们分析了模型在知道请求不合理的情况下，生成与药物有关误导性内容的倾向。我们探讨了通过上下文提示和调整参数，使LLMs优先考虑逻辑推理而非遵从性，以降低医疗信息误导风险的可能性。结果：所有前沿LLMs都遵守了生成误导性内容的不合理请求。然而，基于提示的方法和参数调整策略可以提升检测请求逻辑错误的能力，并防止医疗信息的误传。结论：将LLMs的设计重心从遵从性转向逻辑推理，有助于降低其被利用于传播医疗信息误导的风险。
2024-09-30	The Perfect Blend: Redefining RLHF with Mixture of Judges	Tengyu Xu et.al.	2409.20370	null	本文介绍了一种新的后训练范式，称为约束生成策略优化（CGPO）。CGPO的核心是“裁判混合”（MoJ），它以成本效益的方式对策略进行分层约束优化，从而在原理上识别RLHF中的完美融合。此方法在理论上有保证，不需要大量的超参数调整，并且可以在常见的后训练管道中无缝集成。这有助于检测和缓解奖励作弊行为，并在大量目标的场景下达到帕累托最优点。我们的实验评估表明，CGPO在各种任务上显著优于标准的RLHF算法，如PPO和DPO，包括通用聊天、STEM问题、指令遵循和编程等。具体而言，CGPO在AlpacaEval-2（通用聊天）上提高了7.4%，在Arena-Hard（STEM与推理）上提高了12.5%，并在数学和其他领域如编程等任务上保持一致的改进。值得注意的是，虽然PPO经常被使用，但在流行的编程基准测试中，它容易遭受严重的奖励作弊，而CGPO成功地解决了这个问题。这一突破在RLHF领域不仅解决了奖励作弊和极端多目标优化的挑战，而且推进了通用语言模型在多种应用中的对齐技术。
2024-09-30	VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs	Ruotong Liao et.al.	2409.20365	null	在视频语言领域，利用零样本大型语言模型（LLM）推理进行视频理解的最新工作已成为挑战传统端到端模型的有力竞争者。然而，长视频的理解面临着独特的挑战，尤其是在处理持续时间较长的时间跨度时，即使是零样本LLM方法也是如此。长视频中的信息冗余问题促使我们思考哪些信息对于大型语言模型至关重要，以及如何利用它们进行复杂的空间-时间推理，以实现对长视频分析的理解。为此，我们提出了一种名为VideoINSTA（INformative Spatial-TemporAl Reasoning）的框架，用于零样本长视频理解。VideoINSTA的主要贡献包括：（1）利用LLM进行长视频理解的零样本框架；（2）事件驱动的时间推理和基于内容的空间推理方法，使LLM能够对视频中的空间-时间信息进行推理；（3）一种自我反思的信息推理方案，通过信息充分性和预测置信度的平衡来调整时间因素。我们的模型在三个长视频问答基准测试上显著提高了现有最佳性能：EgoSchema、NextQA和IntentQA，以及开放问答数据集ActivityNetQA。代码已在此处发布：https://github.com/mayhugotong/VideoINSTA。
2024-09-27	LML: Language Model Learning a Dataset for Data-Augmented Prediction	Praneeth Vadlapati et.al.	2409.18957	link	本文提出了一种利用大型语言模型（LLM）解决分类任务的新方法，这通常由机器学习（ML）模型处理。与依赖大量数据清洗和特征工程的ML模型不同，此方法通过简化流程，使用LLM来优化过程。本文引入了一个名为“语言模型学习（LML）”的概念，借助一种称为“数据增强预测（DAP）”的新方法。分类任务由LLM执行，类似于人类手动探索和理解数据，并利用数据作为参考来做出分类决策。训练数据被总结和评估，以确定导致每个标签分类的主要特征。在DAP过程中，系统使用数据概要自动生成查询，用于从数据集中检索相关行。通过使用数据概要和相关数据，LLM基于数据概要和相关行生成分类，即使面对复杂数据也能确保满意的准确性。数据概要和类似数据在DAP中的应用确保了决策的上下文意识。该方法在提示中使用了“以可解释的机器学习模型身份行事”的语句，增强了预测的可解释性，允许用户审查每条预测背后的逻辑。在某些测试案例中，系统的准确率超过90%，证明了系统的有效性及其在各种场景下超越传统ML模型的潜力。代码已发布于https://github.com/Pro-GenAI/LML-DAP。
2024-09-27	Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models	Jiaming Li et.al.	2409.18943	link	大型语言模型的遵循指令能力使得人类能够以自然的方式与AI代理互动。然而，在需要生成特定长度响应时，大型语言模型往往难以满足用户需求，这主要是由于它们在准确感知数值限制方面存在的固有困难。为了探索大型语言模型在遵循特定长度指令时控制生成响应长度的能力，我们提出了目标长度生成任务（TLG）并设计了两个度量标准，精确匹配（PM）和灵活匹配（FM），以评估模型在遵守指定响应长度方面的性能。此外，我们引入了一种新颖的、模型无关的方法Ruler，通过使用元长度标记（MLTs）增强大型语言模型在长度受限指令下的指令遵循能力。具体而言，Ruler使LLMs能够在指令中包含长度约束的情况下生成指定长度的响应。而且，当长度约束没有明确提供时，Ruler还能自动生成适当的MLT，表现出出色的通用性和泛化能力。全面的实验表明，Ruler在目标长度生成任务上对不同的LLMs都显示出有效性，例如在PM上的平均增益为27.97，在FM上的平均增益为29.57。此外，我们还进行了广泛的消融实验进一步验证了Ruler的有效性及其泛化能力。我们的代码和数据可在https://github.com/Geaming2002/Ruler获取。
2024-09-27	From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding	Heqing Zou et.al.	2409.18938	null	本文综述了大型语言模型（LLMs）与视觉编码器集成在视觉理解任务中的最新进展，利用其固有优势来理解和生成类似人类的文本以进行视觉推理。由于视觉数据的多样性，多模态大型语言模型（MM-LLMs）在设计和训练上针对理解图像、短视频和长视频时表现出不同的特征和挑战。我们的研究聚焦于长视频理解与静态图像及短视频理解之间的显著差异及其独特挑战。不同于静态图像，短视频包含了序列帧的时空信息以及事件内部的时间信息；而长视频则包含了多个事件的时空信息以及事件间的长期时间依赖性。本文旨在追溯并总结MM-LLMs从图像理解到长视频理解的发展历程，详细对比各种视觉理解任务之间的差异，并突出长视频理解所面临的挑战，如更细致的时空细节、动态事件和长期依赖性。接着，本文对MM-LLMs在模型设计和训练方法上的发展进行了详尽的概述，特别关注于如何有效理解长视频。最后，通过比较现有MM-LLMs在不同长度的视频理解基准测试上的表现，本文讨论了多模态大型语言模型在长视频理解领域可能的未来发展方向。
2024-09-27	AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow	Huizi Yu et.al.	2409.18924	null	在现代医学教育与研究领域，模拟患者系统发挥着至关重要的作用，它们提供了一个安全、综合的学习环境，并允许进行临床决策模拟。大型语言模型（LLM）有望通过高保真度和低成本地复制医疗状况和医患互动，进一步提升模拟患者系统的能力。然而，确保这些系统的有效性和可信性仍是一个挑战，因为它们需要一个规模大、多样且精确的患者知识库，同时具备强大的稳定知识传播能力。在此背景下，我们开发了AIPatient，这是一个高级的模拟患者系统，它以AIPatient知识图谱（AIPatient KG）作为输入，并采用基于推理检索增强生成（Reasoning RAG）的代理工作流程作为生成基础。AIPatient KG从Medical Information Mart for Intensive Care（MIMIC-III）数据库中的电子健康记录（EHRs）抽取数据，生成了一个在知识库有效性方面表现出色（F1得分为0.89）、临床多样性和相关性高的1,495名患者的群体。 Reasoning RAG利用了六个由LLM驱动的代理，覆盖了包括检索、KG查询生成、抽象、检查、重写和总结在内的任务。这个代理框架在基于EHR的医疗问答（QA）任务上达到了94.15%的整体准确性，显著优于仅使用无代理或部分代理集成的基准。我们的系统还展示了高可读性（中位数Flesch阅读轻松度77.23；中位数Flesch-Kincaid年级5.6）、稳健性（ANOVA F值0.6126，p<0.1）和稳定性（ANOVA F值0.782，p<0.1）。AIPatient系统的出色性能预示着其在医学教育、模型评估和系统集成等多个应用领域的巨大潜力。
2024-09-27	Soft Measures for Extracting Causal Collective Intelligence	Maryam Berijanian et.al.	2409.18911	link	理解与模拟集体智慧对于处理复杂社会系统至关重要。模糊认知地图（FCMs）作为表示因果心理模型的强大工具，通过定向图进行编码，但直接从文本提取高可信度的FCMs具有挑战性。本研究提出了一种利用大型语言模型（LLMs）自动提取FCMs的方法。我们引入了新颖的基于图的相似性度量，并通过使用Elo评分系统关联输出与人类判断来评估这些度量。结果显示，这些度量与人类评价之间存在正相关，尽管表现最好的度量仍然在捕捉FCM细微差别方面存在局限性。对LLMs进行微调可以提高性能，但现有的度量仍然不足以满足需求。本研究强调了需要针对FCMs提取设计的软相似性度量，从而推动了使用NLP模拟集体智慧的发展。
2024-09-27	IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation	Fan Lin et.al.	2409.18892	null	随着大型语言模型（LLMs）在处理复杂任务方面的能力日益增强，评估集必须与时俱进，以确保其持续保持足够的区分能力。受教育评估中广泛使用的项目鉴别（Item Discrimination, ID）理论启发，我们提出了一种基于ID的提示合成框架，用于评估LLMs，确保评估集能够根据模型的能力不断更新和优化。我们的数据合成框架注重广度与精确性并重。它能生成既能全面评估LLMs能力，又能揭示不同模型之间有意义性能差异的提示，从而实现对它们在各种任务和领域中的相对强项和弱点的有效区分。为了产生高质量的数据，我们在通用化框架中融入了一个自我校正机制，并开发了两个模型来预测提示的鉴别能力和难度评分，以此推动我们的数据合成框架。这些工具对评估数据合成研究具有重要价值。我们将生成的数据应用于评估五款最先进的模型。该数据平均得分为51.92，方差为10.06。相比之下，先前的工作（如SELF-INSTRUCT和WizardLM）的平均得分超过67，方差低于3.2。结果表明，我们框架生成的数据在挑战性和区分能力上比之前的工作更具优势。我们计划发布包含超过3000个精心设计的提示的数据库，以促进LLMs评估研究的发展。
2024-09-27	Predicting and analyzing memorization within fine-tuned Large Language Models	Jérémie Dentan et.al.	2409.18858	null	大型语言模型因其在解决复杂任务方面的能力而受到广泛关注。然而，这些模型在训练数据中记忆了相当大的比例，这在推理时构成了严重的威胁。为了缓解这种无意的记忆问题，理解哪些元素被记忆以及原因至关重要。目前大多数现有工作提供的是事后解释，这在实践中兴趣有限。为填补这一缺口，我们提出了一种新的方法，基于切片互信息，在分类场景中预先检测记忆样本。该方法从训练的早期阶段就具有高效性，并且易于适应实际场景。我们的方法得到了新的理论结果的支持，我们通过实验展示了这一点，并且需要较低的计算预算。我们获得了强大的实证结果，为在记忆发生之前系统地检查和保护这些易受影响的样本铺平了道路。
2024-09-27	Mitigating Selection Bias with Node Pruning and Auxiliary Options	Hyeong Kyu Choi et.al.	2409.18857	null	大型语言模型（LLM）在回答多选题时往往表现出对某些选项的不适当偏好，这在LLM自动化系统中引发了显著的可靠性问题。以往的解决方案主要通过调整模型的输入和/或输出来应对偏见问题。而我们的工作则采取了不同的路径，旨在探究模型内部偏见的形成机制。具体而言，我们提出了一种名为偏差节点修剪（BNP）的新颖去偏方法，该方法旨在删除那些导致偏见的线性层参数。此外，我们还引入了一种名为辅助选项注入（AOI）的简单而有效的输入修改技术，适用于黑盒模型的去偏。为了提供一个更系统的方法来评估选择偏见，我们回顾了现有指标，并提出了选择Kullback-Leibler散度（CKLD），以解决常用指标对标签不平衡不敏感的问题。实验结果表明，我们的方法在应用到三种不同的LLM时表现出了鲁棒性和适应性。
2024-09-27	LLMs4Synthesis: Leveraging Large Language Models for Scientific Synthesis	Hamed Babaei Giglou et.al.	2409.18812	null	面对科学文献日益增长的复杂性和数量，本文提出了LLMs4Synthesis框架，旨在增强大型语言模型（LLMs）在生成高质量科学综合分析的能力。该框架针对快速、连贯和语境丰富的科学见解集成需求，利用开源和专有LLMs，以解决当前定量指标在评估这些综合分析时存在的不足。通过开发一种处理科学论文的新方法、定义新的综合类型以及建立九项详细的质量评估标准，我们的研究对这一领域做出了贡献。我们还提议将LLMs与强化学习和AI反馈相结合，以优化综合质量，并确保其与既定标准保持一致。LLMs4Synthesis框架及其组成部分的可用性，有望提升科学研究综合过程的生成和评价能力。
2024-09-27	Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs	Yanyuan Qiao et.al.	2409.18794	null	本文介绍了一项名为Open-Nav的创新研究，旨在探索开源大型语言模型（LLMs）在连续环境中的零样本视觉与语言导航（VLN）任务应用。Open-Nav采用了空间时间链式思维（CoT）推理方法，将任务分解为指令理解、进度估计和决策制定三个部分，以提高模型在导航场景中的感知能力并增强对细粒度物体和空间知识的理解。实验结果在模拟环境和真实世界环境中均显示，Open-Nav能够与使用闭源LLMs实现相当的竞争性性能。
2024-09-26	EgoLM: Multi-Modal Language Model of Egocentric Motions	Fangzhou Hong et.al.	2409.18127	null	在穿戴设备的普及背景下，理解主观视角的动作变得至关重要，以发展具有情境意识的人工智能。本文提出了一种名为EgoLM的通用框架，用于从多模态输入（如主观视频和运动传感器）中跟踪和理解主观动作。EgoLM通过利用丰富的上下文来解决单模态条件下的主体运动跟踪和理解难题。为了促进这一通用且多模态的框架，我们的核心洞察是使用大型语言模型（LLM）来建模主体动作和自然语言的联合分布。多模态传感器输入被编码并投影到语言模型的联合潜在空间中，并用于触发动作生成或文本生成，分别用于主体运动跟踪或理解。大规模多模态人体动作数据集上的广泛实验验证了EgoLM作为通用模型在普遍主观学习中的有效性。
2024-09-26	Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography	Yuexi Du et.al.	2409.18119	null	在医疗图像分析领域，对比语言-图像预训练（CLIP）显示出巨大潜力，但其需要大量的数据和计算资源。因此，现有的CLIP应用主要集中在如胸片这类拥有丰富图像报告数据的模态上，而忽略了诸如乳腺X光等许多重要模态的研究。本文首次提出将完整的CLIP模型应用于乳腺X光图像分析，这一任务面临着标记数据稀缺、高分辨率图像中的小感兴趣区域以及数据不平衡的挑战。我们首先开发了一种针对乳腺X光的专用监督框架，利用其多视图特性。此外，设计了对齐模块以更好地聚焦于高分辨率图像中的详细特征。最后，引入了一种参数高效微调方法，用于大规模语言模型，这些模型预先使用医学知识进行训练，以应对数据限制问题。我们的多视图和多尺度对齐（MaMA）方法，在两个大型真实世界乳腺X光数据集EMBED和RSNA-Mammo上，对于三种不同的任务，相较于最先进的基线方法取得了显著性能提升，同时相比最大的基线模型，仅使用了52%的模型大小。
2024-09-26	E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding	Ye Liu et.al.	2409.18111	link	为了验证视频大语言模型（Video Large Language Models, Video-LLMs）在通用视频理解中的巨大潜力，已提出了一系列基准测试来诊断模型在不同场景下的能力。然而，现有的基准测试仅通过视频级问题回答进行评估，缺乏对事件级别的精细评估和任务多样性。为了填补这一空白，我们引入了E.T. Bench（事件级别与时间敏感的视频理解基准），这是一个针对开放式的事件级别视频理解的大规模、高质量基准测试。 E.T. Bench按照三层任务分类体系进行组织，包含了涵盖12个任务的7300个样本，以及8个领域的2514小时总时长的7000个视频，提供了全面的评估。我们广泛地对8个图像大语言模型和12个视频大语言模型进行了评估，并且结果显示，用于粗粒度（视频级）理解的最先进的模型在解决我们的精细粒度任务时表现不佳，例如在视频中定位感兴趣的事件，主要原因是视频上下文长度短、时间表示不当以及缺乏多事件训练数据。针对这些问题，我们进一步提出了一个强大的基线模型——E.T. Chat，以及专门为精细粒度事件理解设计的指令调优数据集E.T. Instruct 164K。我们的简单但有效的解决方案在多个场景中表现出优越的性能。
2024-09-26	Infering Alt-text For UI Icons With Large Language Models During App Development	Sabrina Haque et.al.	2409.18060	null	确保移动应用的无障碍性仍然是一个重大挑战，尤其是对于依赖屏幕阅读器的视障用户。界面图标对于导航和互动至关重要，但往往缺乏有意义的替代文本，从而形成使用障碍。传统的深度学习方法在生成替代文本时需要大量数据集，并且在图标类型多样性与不平衡性方面存在困难。更近期的视觉语言模型（VLMs）则要求完整的UI屏幕，这在应用程序开发的迭代阶段可能不切实际。为了应对这些问题，我们引入了一种新的方法，使用大型语言模型（LLMs）通过部分UI数据自主生成移动UI图标的描述性替代文本。通过整合包括类别、资源ID、边界、OCR检测到的文字以及父节点和同级节点的上下文信息在内的图标上下文，我们对大约1400个图标的小型数据集进行离线微调，从而生成了IconDesc。在实证评估和用户研究中，IconDesc显著提高了生成相关替代文本的能力。这一能力使得IconDesc成为开发者的重要工具，帮助他们快速迭代和提升UI的无障碍性。
2024-09-26	DualAD: Dual-Layer Planning for Reasoning in Autonomous Driving	Dingrui Wang et.al.	2409.18053	null	我们提出了一种新型自主驾驶框架DualAD，旨在模仿人类在驾驶过程中的决策逻辑。DualAD由两层构成：底层为基于规则的运动规划器，负责处理需要较少决策的常规驾驶任务；上层则配备了一个基于规则的文字编码器，将绝对状态下的驾驶场景转化为文本描述。此文本随后由大型语言模型（LLM）进行决策。当检测到潜在危险时，上层会介入底层的决策过程，以模仿人类在关键情况下的决策逻辑。闭合环路实验显示，使用零训练预训练模型的DualAD显著优于缺乏决策能力的基于规则的运动规划器。我们的实验还强调了文字编码器的有效性，它极大地增强了模型对场景的理解能力。此外，集成的DualAD模型随着更强大的LLM的使用而得到改善，这表明该框架具有进一步增强的潜力。我们提供代码和基准测试供公众访问。
2024-09-26	EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions	Kai Chen et.al.	2409.18042	null	在开放源代码社区中，让大型语言模型能够以公开数据进行端到端的图像、文本和语音生成仍然具有挑战性。现有的视语模型依赖于外部工具进行语音处理，而语音语模型仍缺乏视觉理解能力。为了填补这一缺口，我们提出了EMOVA（情绪化的全模式语音助手），以使大型语言模型具备端到端的语音能力，同时保持领先的视语表现。通过语义-声学分离的语音编码器，我们意外地发现，全模态对齐可以进一步增强视语和语音能力，与相应的双模态对齐模型相比。此外，我们还提出了一种轻量级风格模块，用于灵活控制语音风格（例如情感和音调）。首次，EMOVA在视语和语音基准测试中均达到了最先进的性能，并同时支持带有生动情感的全模态对话。
2024-09-26	Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective	Yotam Wolf et.al.	2409.18028	null	在进行复杂分析任务（如代码生成）的大型语言模型（LLM）使用中，通常会将整个任务的解决方案在模型的上下文窗口内进行采样。先前的研究表明，在模型的上下文中分解任务（即链式思维）对于解决这类任务是有益的。本文指出了一种限制，即LLM在同一个上下文窗口内执行多个子任务的能力——一种“复合难度”。这表明在LLM组成的多智能体系统中将分解后的问题分发处理具有优势。我们通过生成复杂度指标来量化这种复合难度，即在采样到至少一个正确解所需的LLM生成次数。我们发现，相对于在相同上下文内解决组合问题，将问题分散给多个智能体的生成复杂度之间存在差距，并且随着解长度的增加，这个差距呈指数增长。我们通过理论证明和实验证明了这一结果。
2024-09-26	An Adversarial Perspective on Machine Unlearning for AI Safety	Jakub Łucki et.al.	2409.18025	null	本文探讨了大型语言模型在拒绝危险知识相关问题方面的微调方式，但这些防护措施往往容易被绕过。去学习方法旨在彻底消除模型的危险能力并使其对攻击者不可访问。本文从对抗性视角挑战了去学习与传统安全后训练之间的基本差异。我们证明了之前被认为无效的现有逃脱方法，在精心应用时可以成功应对去学习。此外，我们开发了一系列适应性方法来恢复大部分被认为是无法学习的能力。例如，我们展示了使用RMU（当前最先进的去学习方法）编辑模型后，通过在无关示例上进行微调或在激活空间中移除特定方向，可以恢复大部分危险能力。我们的发现质疑了当前去学习方法的稳健性，并对它们相对于安全训练的优势提出了疑问。
2024-09-26	DARE: Diverse Visual Question Answering with Robustness Evaluation	Hannah Sterz et.al.	2409.18023	null	《DARE：多样化的视觉问答与鲁棒性评估》论文摘要翻译如下：本文引入了DARE（Diverse Visual Question Answering with Robustness Evaluation），一个精心设计并收集的多选型视觉问答基准。DARE旨在评估大型语言模型在视觉语言推理任务中的表现，特别是在五个不同类别的视觉问题上，并包括基于提示变化、答案选项子集、输出格式和正确答案数量等四个鲁棒性导向评估的全面评估。研究发现，当前最先进的视觉语言模型在大多数类别中仍然面临挑战，且无法在测试的所有鲁棒性评估中保持一致的高性能。在不同答案选项子集的情况下，最差情况下的性能下降可达标准情况下的34%。开源模型如LLaVA 1.6和Idefics在鲁棒性方面无法与闭源模型GPT-4和Gemini相匹敌，而后者在不同变体下仍表现出明显的脆弱性。总之，该研究揭示了视觉语言模型在处理视觉推理任务时所面临的局限性，并强调了在设计更鲁棒的模型时需要考虑的问题。
2024-09-26	Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles	Lewei He et.al.	2409.18014	null	针对长文本上下文处理的大型语言模型（LLM）仍然存在实现复杂性、训练效率和数据稀疏性等挑战。为此，我们提出了一个新范式——在线长期上下文处理（OLP），适用于处理无限长度的文档，常见于自动化新闻报道、直播电商和病毒短视频等多样化的流媒体信息接收与组织场景。同时，在选择众多性能优异、价格适中且响应延迟短的LLM时，往往遇到难以抉择的问题。鉴于此，我们开发了角色强化学习（Role-RL）框架，自动部署不同角色的LLM在OLP管道中，根据其实际性能进行合理分配。我们进行了大量的实验，并在我们的OLP-MINI数据集上发现，结合Role-RL框架的OLP系统平均召回率为93.2%，实现了OLP基准，并节省了79.4%的LLM成本。相关代码和数据集已公开发布：https://anonymous.4open.science/r/Role-RL。
2024-09-25	Attention Prompting on Image for Large Vision-Language Models	Runpeng Yu et.al.	2409.17143	link	与大型语言模型（LLM）相比，大型视觉-语言模型（LVLM）还能接受图像作为输入，因此展示了更多有趣的现象级能力，并在各种视觉-语言任务上表现出令人印象深刻的表现。受LLM中文本提示的启发，探索了增强LVLM对视觉信息感知能力的视觉提示技术。然而，以往的视觉提示技术仅处理视觉输入而不考虑文本查询，限制了模型遵循文本指令完成任务的能力。为了填补这一空白，本工作提出了一个名为“注意力映射上的图像提示”的新提示技术，该技术简单地在原始输入图像上叠加了一个由辅助模型（如CLIP）生成的、依赖于文本查询的注意力热图，并有效地增强了LVLM在各种任务上的表现。具体来说，我们通过一个辅助模型（如CLIP）为输入图像生成一个依赖于文本查询的注意力热图。然后，热图简单地乘以原始图像的像素值来获得实际输入图像供LVLM使用。在各种视觉-语言基准测试上的广泛实验验证了我们技术的有效性。例如，“注意力映射上的图像提示”分别提高了LLaVA-1.5在MM-Vet和LLaVA-Wild基准上的性能3.8%和2.9%。
2024-09-25	FineZip : Pushing the Limits of Large Language Models for Practical Lossless Text Compression	Fazal Mittu et.al.	2409.17141	link	本文深入分析了基于神经网络与Transformer的文本压缩技术，并将其与传统文本压缩系统进行对比。尽管基于大型语言模型（LLM）的系统在压缩比上显著优于传统方法，但它们在实用性方面却极为有限。以Llama3-8B为基础的LLM压缩系统——LLMZip，在压缩仅10MB文本时需要9.5天的时间，尽管压缩效果有所提升。为解决这一问题，我们提出了FineZip——一种结合在线记忆与动态上下文概念的新型LLM文本压缩系统。FineZip相较于LLMZip，将压缩时间大幅缩短至约4小时，性能提升了54倍，且与传统算法压缩方法相比，其压缩效率提高了大约50%。通过本研究，我们迈出了让基于LLM的无损文本压缩成为现实的第一步。尽管FineZip已取得显著进展，但LLM仍不适用于大规模文本压缩。我们期待本文的研究和创新能为未来解决这一问题铺平道路。
2024-09-25	Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents	Junting Lu et.al.	2409.17140	null	本文提出了一种名为AXIS的新型基于语言模型的代理框架，该框架通过应用程序编程接口（API）优先处理操作而非用户界面（UI）操作，以解决大型语言模型（LLM）驱动的代理在复杂任务中的高延迟和低可靠性问题。此外，AXIS框架还通过自动化探索应用程序的方式促进了API的创建与扩展。在Office Word应用上的实验结果表明，与人类相比，AXIS在任务完成时间上缩短了65%-70%，认知负荷降低了38%-53%，同时保持了97%-98%的准确性。这项工作为人类、代理和计算机交互（HACI）框架以及应用程序提供者在LLM时代的新UI设计原则做出了贡献。它也探讨了将每个应用程序转化为代理的可能性，为代理为中心的操作系统（Agent OS）铺平了道路。
2024-09-25	Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale	Fan Zhou et.al.	2409.17115	link	在大型语言模型预训练领域，人们长期以来依赖于人类专家制定提升数据质量的启发式规则，至今已发展出众多规则。然而，这些规则缺乏灵活性，无法有效针对每个实例的独特特性进行调整。同时，为每个实例应用定制规则对于人类专家而言是不切实际的。本文展示了即使是参数数量仅有0.3B的语言模型，也能展现出与人类专家相当的数据优化能力。我们引入了“编程每例”（ProX）框架，该框架将数据优化视为编程任务，允许模型通过生成并执行精细粒度的操作（如字符串规范化）对每个个体实例进行大规模优化。实验结果表明，使用ProX筛选后的数据预训练的模型，在各种下游基准测试中均优于原始数据或由其他筛选方法处理的数据，性能提升超过2%。该框架的有效性适用于不同规模的模型和预训练数据集，包括C4、RedPajama-V2和FineWeb。此外，ProX在特定领域的连续预训练中表现出巨大潜力：在无需特定领域设计的情况下，使用ProX优化的OpenWebMath数据预训练的模型，在准确性上分别比Mistral-7B、Llama-2-7B和CodeLlama-7B提高了7.6%、14.6%和20.3%，仅使用约10B令牌即可达到类似于使用200B令牌预训练的Llama-7B模型的水平。进一步的分析显示，ProX显著节省了训练FLOPs，为高效LLM预训练开辟了有前景的道路。我们公开发布了ProX，包括>100B的语料库、模型以及所有训练和实现细节，以促进可复制研究和未来创新。代码：https://github.com/GAIR-NLP/ProX
2024-09-25	Accumulator-Aware Post-Training Quantization	Ian Colbert et.al.	2409.17092	null	近年来的研究已经探索了低精度累加，报告了在不同平台上的吞吐量、功率和面积的改进。然而，这些提议仅考虑了量化感知训练（QAT）范式，在该范式中，模型在量化循环中进行微调或从头开始训练。随着模型继续增大，QAT技术的成本变得越来越高，这激发了最近对后量化量化（PTQ）研究的热潮。据我们所知，这是首次正式研究PTQ背景下的积算器感知量化。为了填补这一空白，我们引入了AXE，一个旨在赋予现有层式PTQ算法溢出避免保证的实用框架的扩展。我们通过在两个最先进的PTQ算法：GPFQ和OPTQ之上实现AXE来理论地推动AXE，并证明其灵活性。进一步地，我们通过首次支持多阶段积累来一般化AXE，为全数据路径优化和大型语言模型（LLMs）的扩展打开大门。我们在图像分类和语言生成模型上评估了AXE，并观察到与基线方法相比，在积算器位宽与模型准确性的权衡上取得了显著改进。
2024-09-25	VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models	Yifei Liu et.al.	2409.17066	link	本文介绍了一种名为Vector Post-Training Quantization（VPTQ）的低比特量化方法，针对大型语言模型（LLMs）。通过使用二次优化来定义LLM向量量化问题，并通过解决优化问题来指导量化算法设计。进一步地，引入了通道独立的二次优化以实现精细化量化。同时，通过分解优化问题，提出了简明有效的代码本初始化算法。此外，VPTQ还扩展了残差和异常值量化支持，这不仅提高了模型精度，还能进一步压缩模型。实验结果表明，与SOTA相比，在2比特量化时，VPTQ将模型量化困惑度降低0.01-0.34，Mistral-7B上为0.38-0.68，LLaMA-3上为4.41-7.34。在问答任务上的平均准确度提升范围为LLaMA-2上的0.79%-1.5%，Mistral-7B上的1%，以及LLaMA-3上的11%-22%。量化算法执行时间仅占10.4%-18.6%，导致推理吞吐量提高1.6-1.8倍。
2024-09-25	Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia	Azmul Asmar Irfan et.al.	2409.17054	null	本文提出了一种解决方案，利用本地化大型语言模型（LLM）来转录、翻译和总结医生与患者的对话。我们使用Whisper模型进行转录，GPT-3进行总结，并将其格式化为ePuskemas医疗记录。此系统作为现有网络浏览器扩展的附加组件实现，允许医生在说话时填写患者表格。通过利用实时转录、翻译和总结功能，医生可以提高患者护理的周转时间，同时增强记录的质量，使得记录更加详细且富有洞察力，以供未来的访问参考。这一创新旨在解决印尼医疗机构拥挤以及医护人员行政负担重的问题。我们相信，这种解决方案将帮助医生节省时间、提供更好的护理并产生更准确的医疗记录，代表了向现代化医疗保健迈进的重要一步，确保即使在资源有限的环境中，患者也能获得及时、高质量的护理。
2024-09-25	How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not	Francesco Verdini et.al.	2409.17044	null	大型语言模型（LLM）的惊人表现推动了研究努力，使其能够应用于一系列任务和输入模态。在语音转文本（S2T）任务中，新兴的解决方案是通过适配器模块将语音基础模型（SFM）的输出投影到LLM嵌入空间。然而，目前还没有工作探讨下游任务性能在多大程度上依赖于每个组件（SFM、适配器、LLM），或者选择适配器的最佳设计是否取决于所选的SFM和LLM。为了填补这一空白，我们评估了5个适配器模块、2个LLM（Mistral和Llama）以及2个SFM（Whisper和SeamlessM4T）在自动语音识别和语音翻译两个广泛使用的S2T任务上的组合效果。我们的结果表明，SFM在下游性能中扮演着至关重要的角色，而适配器的选择具有适度的影响，并且取决于所选的SFM和LLM。
2024-09-25	Counterfactual Token Generation in Large Language Models	Ivi Chatzi et.al.	2409.17027	null	本文旨在提升大型语言模型的功能，使其能够推理过去生成的令牌所呈现的可能替代情况。我们开发了一种基于Gumbel-Max结构因果模型的因果模型，以增强大型语言模型的这一功能。我们的模型能够在几乎不增加与基础令牌生成成本的情况下，进行反事实令牌生成，实现过程简单且无需任何微调或提示工程。我们在此基础上在Llama 3 8B-instruct上实现了该模型，并对生成的反事实文本进行了定性和定量分析。此外，我们还探讨了反事实令牌生成在偏见检测方面的应用，揭示了大型语言模型构建的世界模型中的一些有趣见解。
2024-09-25	LLM-CARD: Towards a Description and Landscape of Large Language Models	Shengwei Tian et.al.	2409.17011	null	随着自然语言处理（NLP）领域的迅速发展，大型语言模型（LLMs）在各种NLP任务中不断涌现。随着发表的论文数量不断增加，研究人员和开发者面临信息过载的挑战。因此，开发一个能够自动从学术论文中提取并组织LLM关键信息的系统变得尤为重要。本工作旨在通过使用命名实体识别（NER）和关系抽取（RE）方法来实现这一目标，这些方法可以自动从论文中提取关于大型语言模型的关键信息，帮助研究人员高效地获取关于LLMs的信息。这些特性包括模型的“许可”、“名称”和“应用”。借助这些特性，我们可以为每篇论文形成一个模型卡片。在数据贡献方面，对106篇学术论文进行了处理，定义了三个字典——LLMs名称、许可和应用。通过字典查找提取了11051个句子，并通过人工审查最终选择了129个句子，其中包含名称与许可之间的链接，以及106个句子，其中包含模型名称与应用之间的链接。
2024-09-20	Gender Representation and Bias in Indian Civil Service Mock Interviews	Somonnoy Banerjee et.al.	2409.12194	null	本文提出了三个关键贡献。首先，通过收集自888个印度公务员候选人面试模拟的YouTube视频中的51,278个问题样本，我们展示了对男性和女性候选人提问的性别偏见在广泛性质上的显著存在。第二，我们的大型语言模型实验揭示了在性别推断任务中，这些模型提供的解释中存在强烈的性别偏见。最后，我们提供了一个包含51,278个面试问题的新型数据集，这可以为未来的人文社会科学研究提供信息。
2024-09-18	To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning	Zayne Sprague et.al.	2409.12183	null	为了分析链式思考（CoT）在哪些任务中真正有益，我们进行了一项量化元分析，覆盖了超过100篇使用CoT的论文，并对20个数据集进行了14种模型的自我评估。结果表明，CoT主要在数学或逻辑任务上提供显著性能优势，而在其他类型任务上的增益较小。在MMLU上，直接生成答案而无需CoT几乎与CoT具有相同的准确性，除非问题或模型的回答包含等号，这表明符号操作和推理。基于这一发现，我们分析了CoT在这些问题中的行为，通过分离规划和执行，并与增强工具的大型语言模型进行比较。CoT大部分收益来自改进的符号执行，但相较于使用符号求解器，它在性能上表现不佳。我们的结果表明，可以根据需要应用CoT，同时保持性能并节省推理成本。此外，这些结果还表明，需要超越基于提示的CoT，转向新的范式，更好地利用整个范围内的大型语言模型应用中的中间计算。
2024-09-18	Finetuning Language Models to Emit Linguistic Expressions of Uncertainty	Arslan Chaudhry et.al.	2409.12180	null	本文研究了大型语言模型（LLM）在信息检索与决策任务中的应用。尽管LLM具有广泛的应用价值，但它们倾向于生成与现实世界事实相冲突的信息，并以说服性的方式表达，使得这些不准确性看起来自信且令人信服。这导致最终用户难以一致地将LLM的自信度与预测的准确性对齐，常常导致对所有输出的盲目信任或完全忽视其可靠性。为此，我们探索了在不确定性增强的预测基础上进行监督微调的方法，以此来开发能够生成语言不确定性表述的模型。具体而言，我们衡量预训练模型的校准程度，然后通过基于模型自身信心的微调，使语言模型产生校准的不确定性表述。通过对各种问答数据集的实验，我们证明了LLM在评估预测时具有良好的校准能力，并基于模型本身的信心进行监督微调，可获得特别适用于单个声明答案的良好校准的不确定性表述。
2024-09-18	Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference	Najmeh Forouzandehmehr et.al.	2409.12150	null	本文提出了一种新颖的框架，利用大型语言模型（LLM）的强大表达能力来解决个性化服装推荐这一复杂挑战。通过细调和直接反馈集成，我们试图克服LLM的“黑盒”特性和静态性。我们通过在人类编目的时尚图像上使用多模态大型语言模型（MLLM）进行图像描述，来弥合项目视觉与文本之间的差距。这使得LLM能够从人类编目的时尚图像中提取风格和色彩特征，从而形成个性化的推荐基础。我们使用开源的Polyvore数据集对LLM进行高效细调，优化其推荐时尚搭配的能力。采用直接偏好机制并结合负例，以增强LLM的决策过程。这创建了一个自我增强的人工智能反馈循环，持续地根据季节性时尚趋势优化推荐。我们的框架在Polyvore数据集上进行了评估，针对两个关键任务：补全空白和辅助项目检索。这些评估结果强调了框架生成时尚、与潮流一致的服装建议的能力，并通过直接反馈持续改进。评估结果显示，我们的提议框架在这些任务上的表现显著优于基于原始LLM的服装生成，创造了更加协调的服装。改进的表现证明了该框架增强购物体验、提供准确建议的潜力，证明了它相对于基于原始LLM的服装生成方法的有效性。
2024-09-18	MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning	Justin Chih-Yao Chen et.al.	2409.12147	link	大型语言模型（LLM）的推理能力可以通过在测试时采用聚合策略进行提升，即生成多个样本并基于生成样本进行投票。虽然这些策略能够提高性能，但它们往往存在饱和点。改进方法引入了一种名为“Refinement”的策略，通过利用LLM生成的反馈来提升解决方案的质量。然而，Refinement也带来了三个关键挑战：（1）过度细化：对所有实例进行统一细化可能导致过度修正，从而降低整体性能。（2）难以定位和纠正错误：LLM具有有限的自我纠正能力，很难识别并纠正自己的错误。（3）细化不足：决定需要多少迭代的细化并不容易，过早停止可能会让错误未得到解决。为了应对这些问题，我们提出了一种名为MAgICoRe的方法，它通过将问题难度分为简单或困难，并使用粗粒度聚合解决简单问题，使用细粒度和多轮迭代细化解决困难问题，以避免过度细化。为了改善错误定位，我们引入了基于步骤级奖励模型（RM）分数的外部评分。此外，我们采用了一个由三个代理组成的多代理循环：求解者、审查者（根据步骤级RM分数生成针对性反馈）以及细化者（整合反馈），以确保有效细化。为了确保足够的细化，我们重新评估更新后的解决方案，并在必要时启动进一步的细化轮次。我们使用Llama-3-8B和GPT-3.5在5个数学数据集上评估了MAgICoRe，并展示了其有效性。即使只进行一次迭代，MAgICoRe也能在使用不到基线样本一半的情况下，分别超过Self-Consistency、Best-of-k和Self-Refine算法3.4%、3.2%和4.0%。与迭代细化的基线相比，MAgICoRe随着迭代次数的增加持续提高性能。最后，我们的消融实验强调了MAgICoRe中RMs和多代理通信的重要性。
2024-09-18	MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion	Kalakonda Sai Shashank et.al.	2409.12140	null	我们提出了一种名为MoRAG的创新多部分融合检索增强生成策略，用于基于文本的人体动作生成。此方法通过利用增强的运动检索过程获得的额外知识来提升运动扩散模型。通过有效激发大型语言模型（LLM），我们解决了运动检索中的拼写错误和重述问题。我们的方法采用多部分检索策略以提高运动检索在语言空间上的泛化能力。我们通过空间组合检索到的动作来生成多样化的样本。此外，利用低级、特定部分的运动信息，我们可以构建针对未见过文本描述的运动样本。我们的实验结果表明，我们的框架可以作为插件模块使用，以提高运动扩散模型的性能。代码、预训练模型和视频示例将在以下网址提供：https://motion-rag.github.io/
2024-09-24	Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models	Sijing Chen et.al.	2409.12139	null	随着大数据和大型语言模型时代的到来，零样本个性化快速定制已成为一个显著趋势。本报告介绍了Takin AudioLLM系列技术与模型，主要包括Takin TTS、Takin VC和Takin Morphing，专门用于有声读物制作。这些模型具备零样本语音生成能力，能产生几乎与真人声音难以区分的高质量语音，使得个人可以根据自身需求定制语音内容。首先，我们介绍Takin TTS，这是一种基于增强神经语音编解码器和多任务训练框架的神经编解码语言模型，能够以零样本方式生成高保真自然语音。对于Takin VC，我们提出了一种有效的内容与音色联合建模方法来提高说话人相似度，并倡导基于条件流匹配的解码器进一步提升其自然性和表达力。最后，我们提出了Takin Morphing系统，该系统采用高度解耦且先进的音色与节奏建模方法，使个体能够以精确可控的方式根据自己的偏好定制语音生产。广泛实验验证了我们Takin AudioLLM系列模型的有效性和鲁棒性。有关详细演示，请参阅https://everest-ai.github.io/takinaudiollm/。
2024-09-18	Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement	An Yang et.al.	2409.12122	null	在本报告中，我们介绍了系列数学专用大型语言模型：Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5 系列的核心创新在于在整个管道中融入自我提升的哲学，包括预训练、后处理和推理阶段：（1）在预训练阶段，使用 Qwen2-Math-Instruct 来生成大规模高质量的数学数据。（2）在后处理阶段，我们通过从 Qwen2-Math-Instruct 进行大量采样来开发奖励模型（RM）。然后，我们将此 RM 应用于监督微调（SFT）的迭代进化。通过增强的 SFT 模型，有可能进行迭代训练并更新 RM，进而指导 SFT 数据的下一轮迭代。在最终的 SFT 模型上，我们采用终极 RM 进行强化学习，从而产生 Qwen2.5-Math-Instruct 模型。（3）此外，在推理阶段，使用 RM 来引导采样，优化模型性能。 Qwen2.5-Math-Instruct 支持中文和英文，并具有高级数学推理能力，包括链式思考（CoT）和工具集成推理（TIR）。我们在英语和中文的 10 个数学数据集上评估了我们的模型，如 GSM8K、MATH、GaoKao、AMC23 和 AIME24，涵盖从小学水平到数学竞赛问题的广泛难度。
2024-09-18	Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference	Edresson Casanova et.al.	2409.12117	null	大型语言模型（LLM）在通过将音频转换为离散令牌的音频编解码器方面显著推动了音频处理，这使得可以将语言建模技术应用于音频数据。然而，音频编解码器通常以高帧率运行，导致训练和推理速度缓慢，特别是在自回归模型中。为了应对这一挑战，我们提出了低帧率语音编解码器（LFSC）：一种神经音频编解码器，它利用有限标量量化和与大型语音语言模型的对抗性训练，以1.89 kbps的比特率和21.5帧/秒实现高质量的音频压缩。我们证明，我们的新型编解码器可以使基于LLM的文本到语音模型的推理速度加快约三倍，同时提高可懂度并产生与以往模型相当的质量。
2024-09-18	Measuring Human and AI Values based on Generative Psychometrics with Large Language Models	Haoran Ye et.al.	2409.12106	link	本文引入了基于大型语言模型（LLM）的生成心理测度（GPV），这是一种数据驱动的价值测量范式，理论基础在于文本揭示的选择性感知。首先，我们对LLM进行微调以实现精确的感知层级价值测量，并验证LLM解析文本形成感知的核心能力，从而构建GPV管道的基础。然后，我们将GPV应用于人类撰写的博客，证明其稳定性和有效性，并且优于先前的心理学工具。接着，我们将GPV扩展到LLM价值测量，通过以下方式推动当前技术：1）提出了一种基于LLM可扩展和自由形式输出的量化方法，使价值测量能够针对特定情境；2）比较了不同测量方法，揭示了前人方法的回应偏差；3）尝试将LLM价值与安全性联系起来，发现不同价值体系的预测力，并分析各种价值对LLM安全性的影响。通过跨学科努力，本文旨在利用AI推动下一代心理测度的发展，并利用心理测度促进价值导向的AI。
2024-09-17	AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs	Basel Mousi et.al.	2409.11404	null	阿拉伯语，以其丰富的方言多样性，仍然在大型语言模型中显著被低估，尤其是在方言变体方面。我们通过使用机器翻译结合人工后编辑创建的七个人工合成数据集来填补这一空白，这些数据集涵盖了现代标准阿拉伯语（MSA）以及阿拉伯各地区的方言。我们提出了AraDiCE基准，用于评估阿拉伯方言和文化理解与生成能力。我们的研究侧重于低资源阿拉伯方言，并对其进行了评价。此外，我们首次引入了一个细粒度基准，专门用于评估阿拉伯半岛、埃及和黎凡特地区之间的文化意识，为LLM评估提供了新的维度。我们的发现表明，尽管针对特定阿拉伯语模型如Jais和AceGPT在方言任务上优于多语言模型，但在方言识别、生成和翻译方面仍存在重大挑战。这项工作贡献了约4.5万个经过人工后编辑的样本、一个文化基准，并强调了根据特定训练来改善大型语言模型捕捉不同阿拉伯方言和文化背景细微差异的重要性。我们将发布在本研究中构建的方言翻译模型和基准。
2024-09-17	NVLM: Open Frontier-Class Multimodal LLMs	Wenliang Dai et.al.	2409.11402	null	我们引入了NVLM 1.0，这是一个在视觉语言任务上达到前沿水平的多模态大型语言模型家族，其性能与顶级专有模型（如GPT-4o）和开源模型（如Llama 3-V 405B和InternVL 2）相匹敌。令人惊讶的是，NVLM 1.0在多模态训练后，在仅文本任务上的表现甚至超过了其背后的语言模型基础架构。在模型设计方面，我们对解码器型多模态语言模型（如LLaVA）和交叉注意力型模型（如Flamingo）进行了全面比较。基于这两种方法的优势和劣势，我们提出了一种新型架构，以提高训练效率和多模态推理能力。此外，我们引入了一种用于动态高分辨率图像的1-D瓷砖标记设计，这显著提高了多模态推理和OCR相关任务的性能。关于训练数据，我们精心收集并提供了所有架构的预训练和监督微调数据集的详细信息。我们的发现表明，在预训练阶段，数据质量和任务多样性比规模更为重要。值得注意的是，我们为NVLM-1.0模型开发了生产级多模态功能，使它们在视觉语言任务中不仅保持甚至超越了基础语言模型的性能。为了实现这一目标，我们在多模态训练中巧妙地整合了一个高质量的纯文本数据集，以及大量的多模态数学和推理数据，从而在所有模态下提高了数学和编码能力。为了推动领域研究，我们将发布模型权重并开源代码供社区使用：https://nvlm-project.github.io/。
2024-09-17	Says Who? Effective Zero-Shot Annotation of Focalization	Rebecca M. M. Hicke et.al.	2409.11390	null	在这篇论文中，我们通过实验测试了当前大型语言模型（LLMs）在为文学文本标注焦点模式时的表现。尽管任务具有挑战性，但我们的实验结果表明，LLMs在这一任务上的表现与受过训练的人类注释者相当。我们以斯蒂芬·金的小说为例进行案例研究，展示了这种方法在计算文学研究中的实用性，说明了如何大规模地研究焦点模式。
2024-09-17	Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement	Simon Yu et.al.	2409.11378	link	细调大规模语言模型在指令数据上的能力对于增强预训练知识和提升指令遵循能力至关重要。随着指令数据集的不断增多，选择有效的数据进行有效训练变得越来越重要。本文探讨了如何确定有效训练的最佳数据子集。现有研究往往侧重于实例质量等局部标准进行子集选择，但我们认为全局视角关注数据多样性更为关键。我们采用k均值聚类方法确保所选子集充分代表整个数据集。我们提出了一种启发自主动学习技术的迭代优化方法，用于从各个聚类中重新采样实例，并在每一次训练迭代中重新评估每个聚类的重要性和采样权重。这种方法能够降低异常值的影响并自动筛选出包含低质量数据的聚类。通过在自然语言推理、一般世界知识、代码和数学推理任务上进行广泛评估，并对各种模型家族进行微调，我们观察到一致性改进，相比于随机选择提高了7%，相较于最先进的采样方法提高了3.8%。我们的工作强调了在微调大型语言模型以增强广泛的评估任务性能时，优先考虑多样性的采样方法的重要性。我们的代码已开源在https://github.com/for-ai/iterative-data-selection。
2024-09-17	Towards Time Series Reasoning with LLMs	Winnie Chow et.al.	2409.11376	null	多模态大型语言模型（MLLMs）在视觉等领域的理解和推理方面取得了重大进展，但时间序列领域尚未看到这种广泛的成功。尽管先前的时间序列MLLM研究在时间序列预测中显示出有希望的表现，但很少有工作展示了如何使用大语言模型进行自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列LLM方法，该方法能够跨各种领域学习通用信息，并具有强大的零样本性能。首先，我们在LLM顶部训练一个轻量级时间序列编码器，直接提取时间序列信息。然后，我们通过增强的时间序列任务对模型进行微调，以鼓励模型生成推理路径。我们的研究表明，模型学习到的潜在表示反映了特定的时间序列特征（例如斜率、频率），并且在多种领域的一系列零样本推理任务上均优于GPT-4o。
2024-09-17	Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification	Fatema-E- Jannat et.al.	2409.11375	null	在医疗领域中，获取大量数据面临着显著的挑战，主要是由于隐私问题。然而，为了训练用于视网膜疾病诊断的深度学习模型，需要大量的数据集。在较小数据集上有效泛化的能力仍然是一个持续的挑战。数据稀缺性构成了实施可扩展医疗AI解决方案的实际障碍。为了解决这个问题，我们结合了多种数据源，以提高性能并增强对新数据的泛化能力，通过赋予模型从多模态数据集中更深入理解数据表示的能力。我们基于大型语言模型（LLMs）和SwinV2框架开发了一个自监督框架，以增强模型对多模态数据集表示的理解，从而提高使用光学相干断层成像（OCT）图像检测眼病的能力。我们采用了两阶段训练方法，即自监督预训练和下游监督分类器的微调。针对三种不同数据集进行的消融研究，在未融合数据、数据量有限设置和无自监督预训练场景下采用不同的编码器架构，强调了我们方法的稳健性。我们的发现表明，即使在这些多样化的条件下，也表现出一致的性能，并且与基线模型ResNet-50相比，具有更强的泛化能力。
2024-09-17	CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration	Jiahui Gao et.al.	2409.11365	null	本文探讨了多模态大型语言模型（MLLM）在面对恶意视觉输入时的安全意识问题。MLLM通常基于大型语言模型构建，并配以图像编码器将图像转换为与人类价值观相一致的文本数据集中的令牌嵌入空间。然而，这种视觉模态的整合引入了一种独特的脆弱性：MLLM对恶意图像输入变得敏感，并倾向于生成可能引发安全或有害响应的输出。研究发现，通过在MLLM的输入中加入一个原则，以明确定义安全性要求，其安全意识得到了增强。这证实了MLLM在处理图像输入时具有一定的安全意识，但这一能力受到模态差距的影响而减弱。为此，本文提出了一种简单而有效的技术——CoCA（Calibration of Conditional Awareness），旨在通过调整输出分布来增强MLLM的安全意识。该策略有助于模型恢复其原始的安全意识，同时不牺牲其原有能力。通过在多模态安全性和理解基准上验证了这种方法的有效性。
2024-09-17	AI Suggestions Homogenize Writing Toward Western Styles and Diminish Cultural Nuances	Dhruv Agarwal et.al.	2409.11360	null	本文探讨了当西方导向的AI模型向来自不同文化背景的用户提供写作建议时会发生什么情况。我们进行了一个跨文化的受控实验，共有来自印度和美国的118名参与者完成了具有文化基础的写作任务，并在有无AI建议的情况下完成。我们的分析显示，AI为美国人提供了更高的效率增益，相比之下，印度参与者则在采用西方写作风格方面受到影响，不仅改变了所写的内容，也改变了其写作风格。这些发现表明，以西方为中心的AI模型会将写作方式同质化，使之趋向于西方规范，从而削弱了能够体现文化差异的细微之处。
2024-09-17	THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models	Mengfei Liang et.al.	2409.11353	null	本文介绍了一种名为THaMES（工具用于幻觉缓解与评估）的集成框架和库，旨在解决大型语言模型（LLMs）中存在的幻觉生成这一日益增长的挑战。现有的检测和缓解方法往往孤立且无法满足特定领域的需要，缺乏标准化流程。THaMES提供了一个端到端解决方案，涵盖评估和缓解LLMs中幻觉问题的各个环节，包括自动化测试集生成、多维度基准测试以及灵活的缓解策略。它通过批量处理、加权抽样和反事实验证等技术自动创建高质量、多样性和成本效益高的测试集。THaMES评估了模型在文本生成和二分类任务中的幻觉检测与减少能力，并应用了最佳缓解策略，如上下文学习（ICL）、检索增强生成（RAG）和参数高效微调（PEFT）。使用学术论文、政治新闻和维基百科的知识库对前沿LLMs进行评估发现，商业模型如GPT-4o在受益于RAG方面比ICL更多，而开源模型如Llama-3.1-8B-Instruct和Mistral-Nemo则从ICL中获得更大益处。此外，PEFT显著提高了Llama-3.1-8B-Instruct在评估任务中的性能。
2024-09-17	Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5	Marcel Lamott et.al.	2409.11282	null	随着各类数字文档格式的激增，尤其是那些非标准化的文档如商业报告和环境评估报告，文档理解变得愈发重要。大型语言模型（LLMs）在多种自然语言处理任务上展现出强大的能力，但在文档理解领域的直接应用仍面临挑战。以往的研究表明LLMs在这一领域具有潜力，然而它们巨大的计算需求使其难以有效地部署。此外，专有的“黑盒”LLMs往往优于开源版本，这构成了广泛可访问性的障碍。本文深入探讨了文档理解的领域，利用了从LLM ChatGPT到FLAN-T5的提炼方法来平衡大模型的强大功能与计算限制。我们提出了一种创新的方法，通过整合标记和课程学习机制来促进知识的有效转移。这项工作对文档理解方法的进展做出了贡献，提供了一个可扩展的解决方案，以弥合资源密集型LLMs与实际应用之间的差距。我们的发现强调了提炼技术在使复杂语言模型在现实世界场景中得到广泛应用的潜力，从而推动自然语言处理和文档理解领域的发展。
2024-09-16	RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval	Di Liu et.al.	2409.10516	link	基于转换器的大型语言模型（LLMs）在各个领域变得越来越重要。然而，注意力操作的二次时间复杂度对扩展到更长上下文带来了重大挑战，导致了极高的推理延迟和GPU内存消耗以缓存键值（KV）向量。本文提出了一种无需训练的方法——检索注意力（RetrievalAttention），以加速注意力计算。通过利用注意力操作的动态稀疏特性，RetrievalAttention在CPU内存上构建了近似最近邻搜索（ANNS）索引，并在生成过程中通过向量搜索检索最相关的部分。由于查询向量与键向量之间的分布外（OOD）问题，现成的ANNS索引仍需要扫描O(N)（通常为所有键的30%）的数据进行精确检索，这无法充分利用高稀疏性。RetrievalAttention首先识别了ANNS基注意力中的OOD挑战，并通过一个适应查询的注意力感知向量搜索算法来解决这一问题，该算法仅访问1-3%的数据，从而实现了亚线性时间复杂度。 RetrievalAttention大幅降低了长上下文LLMs的推理成本，同时显著减少了GPU内存需求，而保持了模型准确性。尤其值得注意的是，RetrievalAttention仅需要16GB的GPU内存即可为具有8B参数的LLM提供服务，支持处理128K个令牌，能够在单个NVIDIA RTX4090（24GB）上生成一个令牌耗时0.188秒。
2024-09-16	Context-aware Code Segmentation for C-to-Rust Translation using Large Language Models	Momoko Shiraishi et.al.	2409.10506	null	由于现有C程序中的内存安全性漏洞持续威胁以及Rust语言作为C语言替代品所受到的广泛关注，将C代码转换为Rust代码存在强烈的动机。大型语言模型（LLM）在通过生成比基于规则方法更自然、更安全的代码来自动化这一翻译过程方面显示出潜力。然而，先前的研究表明，LLM生成的Rust代码往往无法编译，即使是相对较小的C程序，这主要归因于两种语言之间的显著差异和上下文窗口限制。我们提出了一种基于LLM的翻译方案，以提高大规模C代码成功转化为可编译的Rust代码的概率。我们的方法包括三个关键技术：（1）预处理C代码，使其结构和表达式更好地与Rust对齐；（2）将代码分割为最佳大小的翻译单元，以避免超出LLM的上下文窗口限制；（3）通过使用上下文补充提示，迭代编译并修复错误，同时保持不同翻译单元之间的一致性。成功编译是实现功能等效性的首要步骤，因为只有可编译的代码才能进一步进行测试。在20个基准C程序的实验中，包括那些超过4千行代码的程序，我们成功地将所有程序转化为可编译的Rust代码，没有丢失原始代码的对应部分。
2024-09-16	DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction	John Wu et.al.	2409.10504	null	在医学编码等高维或多标签预测任务中，既需要预测的准确性也需要解释的可读性。现有研究往往依赖于局部解释方法，无法提供整个多标签集内每个标签预测背后的全面机制解释。我们提出了一种名为DIctionary Label Attention（简称\method）的模块化解释方法，用于将不可解释的密集嵌入分解到稀疏嵌入空间中。在该空间中，非零元素（字典特征）代表了全局学习的医疗概念。通过人工评估，我们发现我们的稀疏嵌入比其密集对应物在人类理解上至少提高了50%。我们的自动字典特征识别管道，利用大型语言模型（LLMs），通过检查并总结每个字典特征激活的最高级词汇，揭示了数千个学习到的医疗概念。我们通过一个稀疏的可解释矩阵表示字典特征与医疗代码之间的关系，这不仅增强了模型预测的机制性和全局理解能力，而且在不需要大量人工注释的情况下，保持了竞争力和可扩展性。
2024-09-16	Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzles	Kulin Shah et.al.	2409.10502	null	近年来，基于Transformer架构的因果语言建模在大型语言模型（LLMs）方面取得了显著的进步。然而，这些模型是否真正发展出了基本的搜索和推理能力，仍是一个持续讨论的话题。本研究旨在探讨因果语言建模能否学会解决复杂的数独谜题这一任务。解决数独谜题需要模型首先在所有空白单元格中进行搜索以决定填充哪个单元格，然后应用适当的策略来填充选定的单元格。有时，策略的应用仅导致单元格可能值的减少，而非确定确切值。在这种情况下，需要对单个单元格应用多个策略。我们发现，经过逻辑步骤序列训练的Transformer模型确实能够学会解决数独谜题（我们的模型正确解决了94.21%的谜题）。我们还对Zebra谜题（又称爱因斯坦谜题）进行了扩展分析，并证明模型能够正确解决92.04%的谜题。此外，我们还研究了训练后的Transformer内部表示，并通过线性探查发现，可以从它们中解码出给定单元格的所有可能值信息，这表明Transformer权重中隐含着强大的推理引擎。
2024-09-16	Code Vulnerability Detection: A Comparative Analysis of Emerging Large Language Models	Shaznin Sultana et.al.	2409.10490	null	近年来，软件开发领域对开源项目依赖的增加导致了漏洞问题的显著增长，这一现象引起了广泛关注。本文旨在探讨大型语言模型（LLMs）在识别代码库中的漏洞方面的能力与效果，特别关注了新兴LLM技术的最新进展。通过对比分析，我们评估了包括Llama、CodeLlama、Gemma和CodeGemma在内的最近加入的大型语言模型，以及BERT、RoBERTa和GPT-3等现有最先进的模型在检测软件安全漏洞方面的性能。我们的研究目标是揭示LLM在漏洞检测领域的能力，从而促进不同开源仓库的安全实践提升。结果显示，CodeGemma在检测软件安全漏洞方面取得了最高的F1分数（58%）和召回率（87%）。
2024-09-16	XLM for Autonomous Driving Systems: A Comprehensive Review	Sonda Fourati et.al.	2409.10484	null	大型语言模型（LLMs）在各种信息处理任务中展现出了惊人的能力。这些任务涵盖了从数据提取和文献总结到内容生成、预测建模、决策制定以及系统控制等多个方面。此外，视觉大型模型（VLMs）和多模态大型语言模型（MLLMs），即XLMs，能够结合多种数据模态，并利用语言理解的强大力量，从而推动了诸如自动驾驶系统（ADS）等基于信息系统的进步。通过将语言通信与多模式感官输入（如全景图像和激光雷达或雷达数据）相结合，可以采取准确的驾驶行动。在此背景下，本文综述了XLMs在实现自动驾驶方面的潜力。具体而言，我们回顾了ADS和XLMs的相关文献，包括它们的架构、工具和框架。然后，我们详细阐述了部署XLMs以实现自动驾驶解决方案的方法。最后，我们指出了XLM部署在ADS中的相关挑战，并提出了未来研究方向，旨在促进XLM在未来ADS框架中的应用。
2024-09-17	Schrodinger's Memory: Large Language Models	Wei Wang et.al.	2409.10482	null	记忆是人类活动的基础；没有记忆，几乎不可能执行日常生活中的任何任务。随着大型语言模型（LLMs）的发展，它们的语言能力正变得越来越接近人类。但LLMs有记忆吗？根据当前的表现，LLMs确实显示出具有记忆的迹象。那么，这种记忆机制背后是什么原理呢？目前的研究缺乏对LLMs记忆能力和底层理论的深入探讨。在本文中，我们利用泛逼近定理（UAT）来解释LLMs的记忆机制。我们还进行了实验来验证各种LLMs的记忆能力，并提出了一种基于这些记忆能力的新方法来评估它们的能力。我们认为，LLMs的记忆工作方式类似于薛定谔的记忆，即只有在查询特定记忆时才会显现出来。我们只能通过响应查询的输出来确定模型是否保留了记忆；否则，它仍然是不确定的。最后，我们扩展了这一概念，通过比较人脑和LLMs的记忆能力，强调了它们在操作机制上的相似性和差异性。
2024-09-16	LLM as BT-Planner: Leveraging LLMs for Behavior Tree Generation in Robot Task Planning	Jicong Ao et.al.	2409.10444	null	本文提出了一种名为“LLM作为行为树规划器”的新框架，旨在利用大型语言模型（LLMs）在机器人装配任务规划与执行中的行为树（BT）生成。我们引入了四种基于上下文学习的方法，利用LLMs的自然语言处理和推理能力，以BT格式产生任务计划，从而减少人工努力并确保其稳健性和可理解性。此外，我们还评估了对同一任务进行微调的参数较少的LLMs的表现。在模拟和实际世界设置下的实验结果表明，我们的框架提高了LLMs在BT生成方面的性能，通过基于上下文的学习和监督微调，在BT生成方面显著提高了成功率。
2024-09-16	A Large-Scale Privacy Assessment of Android Third-Party SDKs	Mark Huasong Meng et.al.	2409.10411	null	本文研究对Android平台上的第三方软件开发工具包（SDK）进行了针对性分析，旨在填补Android软件供应链中的关键空白，关注于用户隐私保护问题。研究主要从两个关键的SDK发布平台，官方平台与大型替代平台，对广泛使用的158个SDK进行了调查。在隐私泄露方面，我们发现了338个实例，表明这些SDK在未经授权的情况下，非法传输了用户的敏感信息。这可能被用于非法目的，如用户追踪或牟利。在隐私合规性方面，我们的研究表明，超过30%的被检查SDK并未提供隐私政策，以披露其数据处理实践。对于那些提供了隐私政策的SDK，有37%过度收集了用户数据，而88%则错误地声称拥有访问敏感数据的权利。我们在一年后重新审视了SDK的最新版本，结果显示，这些令人担忧的趋势并没有得到改善。基于我们的发现，我们提出了三项行动建议，旨在降低隐私泄露风险并增强Android用户的隐私保护。这项研究不仅对行业提出了紧迫的关注呼吁，也为未来的监管干预提供了关键见解。
2024-09-17	Learnings from a Large-Scale Deployment of an LLM-Powered Expert-in-the-Loop Healthcare Chatbot	Bhuvan Sachdeva et.al.	2409.10354	null	本文探讨了大型语言模型（LLMs）在医疗保健领域的应用及其面临的挑战，如幻觉、信息不完整和偏见，这影响了它们的可靠性。为了克服这些问题，研究者发布了一个名为“构建你自己的专家机器人”（BYOeB）的平台，允许开发人员创建集成专家验证的LLM驱动的聊天机器人。CataractBot是该平台的第一个实现，它专注于提供有关白内障手术的专家验证回答。初步评估显示了其潜力，但该研究样本量较小且主要为定性分析。本工作中，我们对CataractBot进行了为期24周的大规模部署，涉及318名患者及其陪同人员发送的1992条消息，其中91.71%的回答经过了七位专家的验证。通过分析交互日志，我们发现医疗问题远多于物流问题，幻觉现象可以忽略不计，并且专家评定84.52%的医疗回答准确无误。随着知识库通过专家更正不断扩展，系统的性能得到了19.02%的提升，减少了专家的工作负担。这些发现指导未来LLM驱动的聊天机器人设计的发展方向。
2024-09-13	Agents in Software Engineering: Survey, Landscape, and Vision	Yanxian Huang et.al.	2409.09030	link	近年来，大型语言模型（LLMs）在各种下游任务中取得了显著成功，尤其是在软件工程（SE）领域中的任务。我们注意到，许多将LLMs与SE结合的研究工作明确或隐含地采用了代理的概念。然而，缺乏对现有工作发展背景的深入综述、分析它们如何结合基于LLM的代理技术优化各种任务以及澄清SE中基于LLM的代理框架。本文旨在进行首次关于结合LLMs与SE的研究综述，并提出SE中基于LLM的代理框架，包括三个关键模块：感知、记忆和行动。同时，我们总结了这两个领域结合时面临的当前挑战，并针对这些挑战提出了未来的机遇。我们维护了一个相关的论文GitHub仓库，地址为：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
2024-09-13	Contri(e)ve: Context + Retrieve for Scholarly Question Answering	Kanchan Shivashankar et.al.	2409.09010	null	### 摘要翻译学者交流是一个快速发展的领域，蕴含着丰富的知识。然而，由于其非结构化的文档格式，传统的文档检索方法难以从中提取有用信息。学者知识图谱通过构建一个语义网络来解决这一问题，提供了隐藏的洞察、摘要和易于通过查询获取的访问性。自然地，对学者图谱进行问答扩展了更广泛受众的可访问性。但在这一领域的某些知识仍然以非结构化文本形式呈现，因此需要结合解决方案来为问答系统提供支持。本文提出了一种两步解决方案，使用开源大型语言模型（LLM）：Llama3.1对学者-QALD数据集进行处理。首先，我们从不同的结构化和非结构化数据源中提取与问题相关的内容：DBLP、SemOpenAlex知识图谱以及维基百科文本。其次，我们实施了提示工程，以提高大型语言模型的信息检索性能。我们的方法在F1分数上取得了40%的成绩，并观察到一些来自LLM的异常响应，这些响应在论文的最后部分进行了讨论。
2024-09-13	Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance	Lucio La Cava et.al.	2409.08963	null	确保内容符合社区准则对于维护健康的在线社交环境至关重要。然而，传统的基于人类的合规性检查在处理用户生成内容的不断增长量和有限的管理员数量时面临着扩展难题。大型语言模型在自然语言理解方面的新进展，为自动化内容合规性验证开辟了新的可能性。本文评估了六个人工智能代理，这些代理基于Open-LLMs，在去中心化社交网络中对规则合规性进行自动验证，这是一个具有挑战性的环境，因为社区的范围和规则各不相同。通过对来自数百个Mastodon服务器的超过50,000条帖子的分析，我们发现人工智能代理能够有效地检测非合规内容、掌握语言上的细微差别，并适应不同的社区上下文。大多数代理还显示出高的一致性和一致性，在评分解释和合规建议上与人工评价者相匹配。通过领域专家的人工评估，确认了代理的可靠性和实用性，这表明它们是半自动化或人机协作内容管理系统的有前景的工具。
2024-09-13	Emerging Reliance Behaviors in Human-AI Text Generation: Hallucinations, Data Quality Assessment, and Cognitive Forcing Functions	Zahra Ashktorab et.al.	2409.08937	null	本文研究了在人类与人工智能合作进行文本生成任务时，幻觉和认知驱动因素的影响，特别是利用大型语言模型（LLMs）协助生成高质量对话数据。对于这些模型而言，需要数据进行微调，这是提升其性能的关键步骤。在客户服务对话上下文中，数据以人与客服代理之间的对话形式存在，并可借助AI助手生成。在我们的研究中，共招募了11位用户，每位用户完成8项任务，总共完成了88项任务。结果发现，幻觉的存在对数据质量产生了负面影响。我们还发现，尽管认知驱动因素并非总能抵消幻觉对数据质量的不利影响，但幻觉和认知驱动因素共同作用于数据质量，并影响用户如何利用呈现给他们的AI响应。通过分析用户行为，我们揭示了对AI生成响应依赖的明显模式，这强调了在对话AI情境下管理幻觉在AI生成内容中的重要性。
2024-09-13	SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records	Paloma Rabaey et.al.	2409.08936	link	我们提出了SynSUM基准数据集，这是一个合成数据集，将非结构化的临床记录与结构化背景变量联系起来。该数据集由10,000个虚构的患者记录组成，包含表格变量（如症状、诊断和基础条件）以及与之相关的描述虚构患者就诊情况的临床笔记，领域为呼吸疾病。表格部分的数据通过贝叶斯网络生成，其中因果结构和条件概率由专家基于领域知识提出。然后，我们使用大型语言模型（GPT-4o）生成与患者就诊相关的临床笔记，描述患者的症状和额外的上下文信息。 SynSUM数据集主要旨在促进在存在表格背景变量的情况下对临床信息提取的研究，可以通过领域知识将这些变量链接到从文本中提取的概念兴趣点——在SynSUM的情况下是症状。次要用途包括研究表格数据和文本的自动化临床推理、在存在表格和/或文本混杂因素情况下的因果效应估计以及多模态合成数据生成。该数据集可以从以下链接下载：https://github.com/prabaey/SynSUM
2024-09-13	LLM-based Weak Supervision Framework for Query Intent Classification in Video Search	Farnoosh Javadi et.al.	2409.08931	null	流媒体服务已经彻底改变了我们发现和参与数字娱乐的方式。尽管如此，有效理解用户搜索查询的广泛范围仍然面临重大挑战。构建一个能够处理代表不同用户意图的各种实体的准确查询理解系统对于提供增强的用户体验至关重要。通过训练自然语言理解（NLU）模型可以实现这一目标，然而，在这个专门领域的高质量标注数据获取是一个巨大的障碍。手动注释成本高昂且在捕捉用户词汇变异性方面不切实际。为了解决这个问题，我们提出了一种新颖的方法，通过弱监督利用大型语言模型（LLM）自动标注大量用户搜索查询。通过使用提示工程和多样化的LLM角色，我们生成了与人工注释者期望相匹配的训练数据。通过引入领域知识，利用链式思考和上下文学习，我们的方法利用标记数据训练优化用于实时推理的低延迟模型。广泛的评估显示，我们的方法在召回率上优于基线平均提高了113%。此外，我们提出的新型提示工程框架产生用于弱监督的高质量LLM生成数据；与人类注释的F1得分加权分布相比，我们观察到预测和人类注解之间的一致性提高了47.60%。我们的角色选择路由机制进一步增加了3.67%的加权F1得分，这是在新型提示工程框架基础上的额外收益。
2024-09-13	AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models	Yifei Yao et.al.	2409.08904	link	本文提出了一种端到端的框架，用于训练和部署机器人强化学习（RL）策略，该框架利用大型语言模型（LLM）进行引导。该框架由三个相互连接的模块组成：一个通过LLM设计奖励函数的模块、一个利用现有工作的RL训练模块以及一个模拟到现实（sim-to-real）同态评估模块。这种方法显著减少了对人工干预的需求，仅需要基本的模拟和部署平台，并且提供了人工工程策略和历史数据的整合选项。我们详细介绍了这些模块的构建、它们相对于传统方法的优势，以及展示该框架在双足机器人步态控制自主开发和改进能力的实例，证明其在不需要人类干预的情况下操作的可能性。
2024-09-13	A Market for Lemons? Strategic Directions for a Vigilant Application of Artificial Intelligence in Entrepreneurship Research	Martin Obschonka et.al.	2409.08890	null	在人工智能（AI）采用的迅速增长以及大数据可用性的背景下，创业学领域可能迎来有史以来最重大的转变。本文通过强调AI革命期间创业研究中潜在的无成效知识交流风险，做出了紧迫的元贡献。它提供了缓解这一风险的策略，并为未来基于AI的研究提供了指导，以增强其集体影响力和相关性。借鉴Akerlof著名的“劣质商品市场”概念，我们识别了由于领域演进到当前环境而可能出现的重大知识不对称性，如构造有效性、理论构建和研究相关性方面的复杂性。这些不对称性特别深植于所谓的双重黑箱困境中，即AI方法的广泛认可的黑箱性质与由内在不确定性驱动的创业现象的黑箱性质的交汇点。结果，这些不对称可能导致不可检测的次优研究产品增加，从而形成一个损害领域福祉、声誉和影响力的劣质商品市场。然而，重要的是，如果能够缓解这些风险，AI革命有可能预示着创业研究的新黄金时代。我们讨论了提升领域至更高水平的AI韧性所需采取的行动，同时坚定地保持其基础原则和核心价值观。
2024-09-13	Exploring Graph Structure Comprehension Ability of Multimodal Large Language Models: Case Studies	Zhiqiang Zhong et.al.	2409.08864	null	大型语言模型（LLM）在处理各种数据结构时展现了惊人的能力，包括图。尽管先前的研究集中在开发用于图表示的文本编码方法上，但多模态LLM的出现为理解图提供了一个新的前沿。这些先进的模型能够同时处理文本和图像，通过结合视觉表示与传统的文本数据，可能在提高对图结构的理解方面带来改进。这项研究探讨了可视化图在不同级别（节点、边和图级别）上对LLM性能的影响。我们的实验对比了多模态方法与纯文本图表示的有效性。结果提供了关于利用视觉图模态增强LLM对图结构理解能力的潜力和限制的宝贵见解。
2024-09-13	FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition	Zhenhua Xu et.al.	2409.08846	null	训练大型语言模型（LLMs）需要巨大的计算能力和大量的数据。因此，通过指纹保护这些模型的知识产权对于所有权认证至关重要。尽管尝试通过微调向LLMs添加指纹，但这仍成本高昂且难以扩展。为此，我们提出了FP-VEC，一种使用指纹向量作为高效LLM指纹方法的试点研究。我们的方法生成一个代表嵌入在模型中的保密签名的指纹向量，允许通过向量相加无缝地将相同的指纹整合到无限数量的LLMs中。在多个LLMs上的结果表明，FP-VEC轻量级，可以在仅使用CPU的设备上运行以进行指纹识别；可扩展，只需要一次训练即可实现无限次的指纹生成过程，并且能够保持模型的正常行为。项目页面位于https://fingerprintvector.github.io 。
2024-09-12	Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale	Rogerio Bonatti et.al.	2409.08264	link	大型语言模型（LLM）展现出在需要规划和推理的多模态任务中作为计算机代理的强大潜力，能显著提升人类生产力和软件可访问性。然而，衡量这些代理在真实环境中的性能仍存在挑战：（i）大多数基准测试仅限于特定模态或领域（例如纯文本、网页导航、问题回答、编程），（ii）完整基准评估耗时长（通常需数天时间），因为任务具有多步骤的序列性质。为解决这些挑战，我们引入了“Windows Agent Arena”：一个可复现的通用环境，专注于Windows操作系统，允许代理自由操作并使用与人类用户在解决任务时相同的广泛应用程序、工具和网络浏览器。我们根据OSWorld框架（Xie等人，2024年）创建了150多个跨代表领域的多样化Windows任务，这些任务涵盖了规划、屏幕理解及工具使用的代理能力要求。我们的基准具有可扩展性，并能够无缝地在Azure上并行化，从而在短短20分钟内完成全面基准评估。为了展示Windows Agent Arena的能力，我们还引入了一个新的多模态代理Navi。Navi在Windows领域内的成功率达到了19.5%，相比之下，未经辅助的人类表现则为74.5%。此外，Navi在另一个流行的基于网络的基准测试Mind2Web中也表现出色。我们提供了对Navi性能的详细定量和定性分析，并提供了利用Windows Agent Arena进行未来研究的代理开发和数据生成机会的见解。网页：https://microsoft.github.io/WindowsAgentArena 代码：https://github.com/microsoft/WindowsAgentArena
2024-09-12	OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering	Jiahao Nick Li et.al.	2409.08250	null	人们常通过照片、屏幕截图和视频来捕捉记忆。现有的基于AI的工具能够使用自然语言检索这些数据，但主要局限于检索像照片中的特定物体这样的单一信息，难以处理涉及理解相互关联记忆（如事件序列）的更复杂查询。我们进行了一项为期一个月的日志研究，收集了现实用户查询，并生成了一个集成与捕获记忆相关必要上下文信息的分类体系。随后，我们引入了OmniQuery，这是一种能够回答需要提取和推断多层上下文信息以整合相互关联记忆的复杂个人记忆相关问题的新型系统。OmniQuery通过从多个相互关联的记忆中集成分散的上下文信息来增强单个捕获的记忆，检索相关记忆，并利用大型语言模型（LLM）提供全面的答案。在人类评估中，我们展示了OmniQuery的有效性，准确率达到71.5%，并且它在74.5%的时间里超越了传统的RAG系统，在某些任务上甚至取得了胜利或并列第一的成绩。
2024-09-12	Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources	Alisia Lupidi et.al.	2409.08239	null	在面对依赖结构化数据、复杂推理或工具使用的挑战性场景时，大型语言模型仍然存在困难。为此，我们提出了一种名为Source2Synth的新方法，它无需昂贵的人类标注即可用于教授LLMs新技能。Source2Synth接受自定义数据源作为输入，并生成具有基于现实世界来源的中间推理步骤的合成数据点。该方法通过根据其可回答性丢弃低质量生成来提高数据集质量。我们通过在两个具有挑战性的领域中应用此方法来展示其通用性：在多跳问题回答（MHQA）中测试推理能力，在表格型问题回答（TQA）中测试工具使用。与经过微调的基本模型相比，我们的方法在WikiSQL上的TQA上提高了25.51%，在HotPotQA上的MHQA上提高了22.57%的性能。
2024-09-12	LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems	Hakan T. Otal et.al.	2409.08234	link	本文介绍了一种创新方法，使用大型语言模型（LLMs）构建真实且互动的蜜罐系统。通过在包含攻击者生成命令和响应的多样化数据集上对开源预训练语言模型进行微调，我们开发出一种能够与攻击者进行高级交互的蜜罐。我们的方法涉及关键步骤：数据收集与处理、提示工程、模型选择以及监督式微调，以优化模型性能。通过相似性指标评估与现场部署，结果显示我们的方法能够生成准确且信息丰富的响应。研究结果强调了LLMs在重塑蜜罐技术方面的潜力，为网络安全专业人员提供了一个强大的工具来检测和分析恶意活动，从而增强整体安全架构。
2024-09-12	What Makes a Maze Look Like a Maze?	Joy Hsu et.al.	2409.08202	null	人类视觉理解的独特之处在于能够灵活地解释抽象概念的能力：获取提升规则来解释它们所象征的含义，在熟悉和不熟悉的上下文中锚定它们，并对它们进行预测或推理。尽管现成的视觉语言模型在识别图像中的具体对象类别（如树枝）方面表现出色，但它们仍然难以理解这样的视觉抽象（例如，一组树枝如何形成迷宫的墙壁）。为了应对这一挑战，我们引入了深度架构接地（DSG），这是一个利用明确的结构化表示法来锚定和推理视觉抽象的框架。DSG的核心是架构——分解抽象概念的依赖图形描述，将其分解为更基本的符号。DSG使用大型语言模型提取架构，然后通过视觉语言模型分层地将架构中的具体到抽象组件锚定到图像上。锚定后的架构用于增强对视觉抽象的理解。我们系统地评估了DSG及其不同的方法在我们新创建的视觉抽象数据集上的推理性能，该数据集由人类标注的真实世界图像和相应的问答对组成。我们展示了DSG显著提高了视觉语言模型在抽象视觉推理方面的表现，并朝着与人类一致的视觉抽象理解迈进了一步。
2024-09-12	Fine-tuning Large Language Models for Entity Matching	Aaron Steiner et.al.	2409.08185	link	本文探讨了利用大型语言模型（LLM）进行实体匹配的潜力，特别是通过微调。已有研究主要集中在提示工程和基于上下文的学习上。本文从两个维度分析了微调的可行性：1）训练示例的表示方式，实验涉及在训练集中添加不同类型的LLM生成解释；2）使用LLM选择和生成训练示例。我们不仅关注源数据集上的匹配性能，还研究了微调对模型在同域数据集以及跨领域数据集上的泛化能力的影响。实验结果显示，微调显著提升了小型模型的性能，而大型模型的表现则参差不齐。微调在提升同域数据集的泛化能力的同时，也影响了跨域迁移的能力。我们发现，向训练集添加结构化的解释对四种LLM中的三种有正面影响，而提出的示例选择和生成方法仅提升了Llama 3.1 8B的性能，同时降低了GPT-4o Mini的性能。
2024-09-12	Faster Speech-LLaMA Inference with Multi-token Prediction	Desh Raj et.al.	2409.08148	null	大型语言模型（LLMs）在解决各种任务上变得极为熟练，包括涉及多模态输入的任务。具体来说，通过使用语音编码器实例化LLM（例如LLaMA）并利用配对数据对其进行训练，可以赋予只解码的模型语音识别（ASR）能力，因此称之为Speech-LLaMA。然而，由于自回归推理的顺序性质以及相对较大的解码器，Speech-LLaMA模型的推理时间相对较高。本工作中，我们提出通过在同一解码步骤中预测多个令牌来加速Speech-LLaMA的推理。我们探索了几个能够实现这一目标的模型架构，并通过阈值推理和验证推理策略来评估它们的性能。此外，我们还提出了一个基于前缀的束搜索解码方法，允许此类模型进行高效的最小词错误率（MWER）训练。我们在多种公共基准上评估了我们的模型，结果显示它们将解码调用的数量减少了约3.2倍，同时保持或提高了WER性能。
2024-09-12	LLM-POTUS Score: A Framework of Analyzing Presidential Debates with Large Language Models	Zhengliang Liu et.al.	2409.08147	null	本文提出了一种利用大型语言模型（LLM）来评估总统辩论表现的新方法，旨在解决长期存在的客观评估辩论结果的挑战。我们构建了一个框架，从“政策、个性与视角”（3P）和“兴趣、意识形态与身份认同”（3I）的角度分析四位关键受众群体：选民、企业、捐赠者及政客对候选人的共鸣。该方法通过生成“LLM-POTUS评分”，即基于3P与3I之间一致性度量的量化指标，来评价辩论表现。我们应用此框架对近期美国总统辩论的文本进行分析，揭示了不同辩论策略的有效性及其对不同受众群体的影响。研究不仅提供了一个新的政治分析工具，还探索了在复杂社会背景下使用LLM作为公正评判者的潜力与局限性。此外，该框架为个人公民提供了一个独立的工具，用于评估总统辩论的表现，从而增强民主参与度，减少对可能偏见的媒体解读和机构影响力的依赖，进而加强知情公民参与的基础。
2024-09-12	The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal	Huiyuan Xie et.al.	2409.08098	null	本文研究了技术革新与获取公正之间的交汇点，通过在英国就业法庭（UKET）构建预测案例结果的基准。为了应对大量人工注释的挑战，该研究利用大型语言模型（LLM）进行自动注释，从而创建了CLC-UKET数据集。该数据集包含约19,000个UKET案例及其元数据。全面的法律注释涵盖了事实、主张、先例引用、法规引用、案例结果、理由和管辖权代码。借助CLC-UKET数据，我们对UKET的多类案例结果预测任务进行了研究。收集了人类预测以建立模型比较的性能参考。从基础模型的实证结果来看，微调的转换器模型在UKET预测任务上优于零次和少量样本的LLM。零次LLM的性能可以通过整合与任务相关的信息来增强，融入少量样本示例中。我们希望CLC-UKET数据集、人类注释以及实证发现能够作为就业相关纠纷解决的宝贵基准。
2024-09-12	Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks	Benji Peng et.al.	2409.08087	null	本文综述了近年来有关大型语言模型（LLM）安全性的关键问题的研究文献，重点是准确性、偏见、内容检测以及对抗攻击的脆弱性。文章详细讨论了LLM输出可能不准确或误导性的问题，并强调了通过事实核查方法增强响应可靠性的实施策略。文章深入探讨了内嵌于LLM中的固有偏见，通过多样化的评估技术，如控制输入研究和红队演练，对其进行批判性审视。提出了全面的偏见缓解策略分析，包括从预处理干预到训练期间调整和后处理改进的各种方法。此外，文章还探究了区分LLM生成内容与人类创作文本的复杂性，引入了诸如DetectGPT的检测机制以及水印技术，同时指出在复杂情况下基于机器学习的分类器存在局限性。文章还分析了LLM的漏洞，包括逃逸攻击和提示注入攻击，通过案例研究和大规模竞赛HackAPrompt等进行了深入探讨。最后，文章回顾了保护LLM的防御措施，强调了需要对LLM安全性领域进行更深入研究的重要性。
2024-09-11	"My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays	Shengxin Hong et.al.	2409.07453	null	交互式反馈在教师与学生之间双向流动，相较于传统的单向反馈更为有效。然而，这种反馈方式往往耗时过多，难以在教育实践中广泛应用。虽然大型语言模型（LLM）具有自动化反馈的潜力，但它们在互动情境下的推理和交互方面存在困难。本文提出了一种名为CAELF（Contestable AI Empowered LLM框架），旨在通过集成多代理系统与计算论辩来自动化交互式反馈。首先，学生的作文由多个教学助理代理（TA代理）进行评估，随后，教师代理通过形式化推理整合这些评价，生成反馈和评分。学生可以进一步与反馈互动，以深化理解。通过对500篇批判性思维作文的案例研究，并结合用户研究，结果表明，CAELF显著提高了交互式反馈的质量，增强了LLM的推理和互动能力。这一方法提供了一个克服影响教育领域广泛应用交互式反馈的时间和资源障碍的有前景解决方案。
2024-09-11	SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories	Ben Bogin et.al.	2409.07440	link	给定大型语言模型（LLM）在编写代码方面取得的重大进展，它们现在是否能够自主重现研究仓库中的结果？这样的能力将对研究社区产生巨大益处，帮助研究人员验证、理解并扩展先前的工作。为了向这一目标迈进，我们引入了SUPER，这是首个旨在评估LLM在从研究仓库设置和执行任务方面的能力的基准。SUPER旨在捕捉研究人员在机器学习（ML）和自然语言处理（NLP）研究仓库工作时所面临的真实挑战。我们的基准由三个不同的问题集组成：45个端到端问题，附有专家解决方案的注释，152个专注于特定挑战（例如配置训练器）的子问题，以及602个用于更大规模开发的自动生成问题。我们引入了各种评估指标来评估任务成功和进度，当有黄金解决方案可用时使用黄金解决方案，否则使用近似值。我们展示了最先进的方法在解决这些问题时遇到了困难，最好的模型（GPT-4o）仅解决了16.3%的端到端集和46.1%的场景。这表明了这项任务的挑战性，并表明SUPER可以作为社区衡量和推动进步的宝贵资源。
2024-09-11	CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification	Zeqing Qin et.al.	2409.07407	null	大型语言模型（LLM）在漏洞识别领域展现出了巨大的潜力。由于C/C++在过去十年中占据了开源软件（OSS）漏洞的一半，并且主要通过提交进行更新，因此增强LLM在识别C/C++漏洞贡献提交（VCC）方面的能力变得至关重要。然而，当前的研究主要集中在对大规模代码集进一步预训练LLM上，这既耗费资源又存在效率挑战。本文提出了一种轻量级方法来提升基于BERT的LLM识别C/C++ VCC的能力。我们提出了CodeLinguaNexus（CLNX），作为连接C/C++程序与LLM的桥梁。CLNX通过在保留关键细节的同时，以更自然的方式高效地将源代码转换为更适合LLM处理的表示。具体来说，CLNX首先应用结构级自然化来分解复杂的程序，然后应用符号级自然化来解释复杂的符号。我们在包含25,872个C/C++函数及其提交的公开数据集上评估了CLNX。结果表明，CLNX显著提升了LLM识别C/C++ VCC的能力。此外，配备CLNX的CodeBERT达到了新的最优性能，并在真实世界中识别了38个OSS漏洞。
2024-09-11	AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge	Han Wang et.al.	2409.07394	link	在大语言模型（LLM）的上下文与模型参数存储的知识之间存在知识冲突，这会导致使用标准解码技术时性能受损，因为这些技术往往忽视了上下文。现有的测试时间对比方法试图通过比较带有和不带有上下文的LLM输出分布之间的对比，并根据它们之间的对比调整模型来解决这个问题。然而，我们发现这些方法经常错误地判断冲突的程度，并且难以处理不同冲突程度的实例，静态方法在冲突不存在时过度调整。为此，我们提出了一种基于实例的精细粒度方法AdaCAD，它动态地根据Jensen-Shannon散度测量的上下文和参数知识分布之间的冲突程度来推断调整权重。我们在四个模型上对六个多样化的问答（QA）数据集和三个摘要任务进行的实验显示，我们的无需训练的自适应方法始终在问答任务上优于其他解码方法，平均准确率提高了14.21%（绝对值），并且提高了摘要的真实性，AlignScore提高了5.59分。此外，我们的分析表明，与冲突的对比基线相比，当冲突不存在时，解码会损害性能，而AdaCAD能够缓解这些损失，使其更适用于现实世界的数据集，在这些数据集中，有些示例存在冲突，而其他示例则不存在冲突。
2024-09-11	Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code	Khiem Ton et.al.	2409.07368	null	本文介绍了一种名为SGCode的灵活提示优化系统，用于通过大型语言模型（LLM）生成安全代码。SGCode将最近的提示优化方法与LLM结合在一个统一的系统中，通过前端和后端API提供服务，使用户能够：1）生成无漏洞的安全代码；2）查看和共享安全性分析；以及3）轻松在不同的提示优化方法之间切换，并提供有关模型和系统性能的见解。我们使用AWS服务器上的PromSec填充SGCode，这是一种方法，通过将LLM、安全工具与轻量级生成对抗图神经网络相结合，来检测并修复生成代码中的安全漏洞，从而优化提示。广泛的实验表明，SGCode作为公共工具，能够揭示模型实用性、安全代码生成和系统成本之间的权衡，具有相对较低的成本。SGCode已上线于：http://3.131.141.63:8501/。
2024-09-11	Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation	SeongYeub Chu et.al.	2409.07355	link	本文介绍了一种名为“InteractEval”的框架，该框架采用“Think-Aloud”方法结合大型语言模型（LLM）与人类专家意见，以生成基于检查清单的文本评估的属性。通过融合人类的灵活性和推理能力以及LLM的一致性，InteractEval在一致性、流畅性、相关性和连贯性四个维度上均超越了传统的非LLM基线和LLM基线模型。实验还探讨了“Think-Aloud”方法的有效性，表明它能促进人类和LLM的发散思维，从而产生更广泛的相关属性，并提高文本评估性能。比较分析显示，人类在识别与内部质量相关的属性（如连贯性和流畅性）方面表现优异，而LLM在与外部对齐相关的属性（如一致性和相关性）上表现更好。因此，结合人类和LLM共同产生的评估结果最佳。换句话说，本文强调了在自动化基于检查清单的文本评估框架中有效整合人类和LLM的必要性。代码已开源于\textbf{\url{https://github.com/BBeeChu/InteractEval.git}}}。
2024-09-11	Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Weixi Weng et.al.	2409.07331	null	多模态大型语言模型（MLLMs）在视觉问答（VQA）任务上展示了出色的零样本性能。然而，在知识基视觉问答（KB-VQA）任务中，MLLMs可能缺乏人类常识或特定领域的专业知识，从而需要从外部知识源获取所需信息以回答此类问题。先前的工作，如检索增强的VQA-v2（RAVQA-v2），侧重于充分利用输入信息，例如图像文本描述和检索的知识，以提高性能，但它们都忽视了一个问题：随着输入令牌数量的增加，推理效率显著降低，这与实际应用的需求相矛盾。为了解决这一问题，我们提出了检索增强的多模态大语言模型（RACC）。RACC学习压缩并聚合检索上下文，并生成紧凑的键值（KV）缓存形式的调节。然后，使用这种调节来适应下游冻结的MLLM，从而实现有效且高效的推理。RACC在OK-VQA上实现了当前最佳的62.9%性能。此外，它将RAVQA-v2的推理延迟显著降低了22.0%-59.7%。大量的实验表明了RACC的广泛适用性。它与各种现成的MLLM兼容，并可以处理包括文本和多模态文档在内的不同知识源。
2024-09-11	MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications	Praveen K Kanithi et.al.	2409.07314	null	大型语言模型（LLM）在医疗健康领域的快速开发引发了对超越如USMLE等常用基准评估的全面评估需求，以更好地反映实际应用表现。虽然现实世界的评估是实用性的重要指标，但它们往往落后于LLM演进的速度，可能导致研究结果在部署时变得过时。这种时间上的脱节需要一种全面的前期评估方法，以指导特定临床应用中的模型选择。我们引入了MEDIC框架，它从五个关键的临床能力维度评估LLM：医学推理、伦理与偏见、数据和语言理解、上下文学习以及临床安全性。MEDIC采用了一种新颖的交叉审查框架，量化了LLM在覆盖范围和幻觉检测等领域的性能，而无需参考输出。我们使用MEDIC对医疗问答、安全、总结、笔记生成以及其他任务进行了评估。我们的结果显示不同模型大小之间、基线模型与医学微调模型之间的性能差异，并对需要特定模型优势的应用（如低幻觉或较低推理成本）的模型选择具有启示意义。MEDIC的多维度评估揭示了理论能力和实际实施之间的性能权衡，弥合了在医疗保健环境中识别和适应最有前景模型的差距，确保了适合多种医疗保健应用的模型得到识别和适应。
2024-09-11	STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM	Qijiong Liu et.al.	2409.07276	null	传统推荐模型通常依赖于独特的项目标识符（ID）来区分项目，这可能限制了它们利用项目内容信息和推广长尾或冷启动项目的能力。近期，已提出语义分词作为解决这一问题的有希望的方法，旨在将每个项目的语义表示分词为一系列离散的令牌。通过这种方式，它保留了项目在这些令牌内的语义，并确保具有相似语义的项目由相似的令牌表示。这些语义令牌成为训练生成推荐模型的基础。然而，现有的生成推荐方法通常涉及多个子模型进行嵌入、量化和推荐，导致系统过于复杂。在这篇论文中，我们提出了一种统一框架，称为STORE，利用单一大型语言模型（LLM）同时执行这两项任务。具体而言，我们将语义分词表述为文本到令牌的任务，而生成推荐则表述为令牌到令牌的任务，通过补充令牌到文本重构任务和文本到令牌辅助任务，所有这些任务均以生成方式表述并使用单一LLM骨干进行训练。我们进行了大量实验，以验证我们的STORE框架在各种推荐任务和数据集上的有效性。我们将发布源代码和配置，以便进行可复现的研究。
2024-09-11	MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving	Enming Zhang et.al.	2409.07267	link	本文提出了一种名为MiniDrive的新型框架，旨在解决视觉语言模型（VLM）在自动驾驶场景中的应用难题。现有的VLM方法通常依赖于计算密集型的视觉编码器和大型语言模型（LLMs），这使得它们难以在实际世界和实时应用中部署。此外，大多数现有VLM缺乏处理多张图片的能力，这使得它们难以适应自动驾驶中的多摄像头感知需求。为了解决这些问题，我们引入了两个关键模块：特征工程混合专家（FE-MoE）和动态指令适配器（DI-Adapter）。FE-MoE有效地将二维特征映射到视觉令牌嵌入，然后作为输入传递给语言模型。DI-Adapter允许视觉令牌嵌入根据指令文本嵌入动态变化，解决了以往方法中同一图片下静态视觉令牌嵌入的问题。与之前的成果相比，MiniDrive在参数大小、浮点运算量和响应效率方面均达到了最优性能，最小版本仅包含83M参数。
2024-09-10	E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning	Zihan Liao et.al.	2409.06679	null	在大型语言模型（LLMs）领域，处理长文本上下文的能力对于多轮对话、代码生成和文档摘要等任务愈发重要。本文探讨了增强长文本上下文性能、降低计算复杂性以及充分利用预训练模型所面临的挑战——即所谓的“不可能三角”。我们提出了一种名为E2LLM（编码器扩展大型语言模型）的创新方法，旨在有效解决这一悖论。该方法的核心思想是将长文本上下文划分为多个片段，并通过预训练的文本编码器将每个片段压缩为嵌入向量。然后利用适配器将这些表示与解码器型LLM对齐，以促进对软提示的理解。本文提出了两个训练目标：一是重建编码器输出，二是针对长文本指令进行微调，以帮助LLM理解软提示。实验结果表明，E2LLM在长文本上下文场景中取得了显著的性能提升，同时保持了效率、性能和与预训练模型的兼容性。因此，我们的框架代表了领域内的重大进展，为有效的大文本建模做出了贡献。
2024-09-10	LLaMA-Omni: Seamless Speech Interaction with Large Language Models	Qingkai Fang et.al.	2409.06666	link	针对大型语言模型（LLM）通过语音实现实时交互的能力提升，相较于传统的文本交互方式，模型如GPT-4显著增强了用户体验。然而，当前在基于开源LLM构建语音交互模型方面仍缺乏深入探索。为了填补这一空白，我们提出了一种新型模型架构——LLaMA-Omni，旨在实现低延迟与高质量的语音与LLM交互。该架构融合了预训练的语音编码器、语音适配器、LLM和流式语音解码器，无需进行语音转录，即可直接从语音指令生成文本和语音响应，响应速度极快。我们的模型基于最新的Llama-3.1-8B-Instruct模型构建，并针对语音交互场景构建了一个名为InstructS2S-200K的数据集，其中包含了20万条语音指令及其对应的语音回应。实验结果显示，与以往的语音语言模型相比，LLaMA-Omni在内容与风格上提供了更好的响应，响应延迟低至226毫秒。此外，训练LLaMA-Omni仅需不到3天的时间，在4块GPU上即可完成，这为未来高效开发语音语言模型铺平了道路。
2024-09-10	Human Perception of LLM-generated Text Content in Social Media Environments	Kristina Radivojevic et.al.	2409.06653	null	新兴技术，尤其是人工智能（AI）和大型语言模型（LLM），为恶意行为者提供了操纵数字对话的强大工具。LLM有可能影响传统形式的民主参与，例如选民选择、政府调查或与监管机构的在线交流，因为机器人能够生成大量可信文本。为了研究人类对LLM生成内容的感知，我们招募了超过1000名参与者，然后让他们尝试在社交媒体讨论线程中区分机器人与人类帖子。我们发现人类在识别社交媒体上的真实用户帖子方面表现不佳。我们也发现了人类在社交媒体对话中识别LLM生成文本内容的模式。最后，我们观察到了“怪异谷”效应在文本对话中的存在，无论是在感知还是识别过程中。这表明尽管人类在识别过程中的表现不佳，但当阅读LLM生成的内容时，他们仍能感受到不适。
2024-09-10	Optimal Workload Placement on Multi-Instance GPUs	Bekir Turkkan et.al.	2409.06646	null	本文旨在探讨如何优化大型语言模型（LLM）为基础的AI推理工作负载在GPU上的部署。我们首先识别并阐述了实践中遇到的一些需要高效分配或迁移工作负载到其他GPU以腾出空间供新工作负载使用的情况。目标是尽可能减少使用的GPU数量，并进一步降低被利用GPU中的内存和计算浪费。为了实现这一目标，我们提出了两种方法：一种是优化方法，另一种是启发式方法。我们使用两种工作负载调度启发式算法对多种用例进行了基准测试。结果显示，在与基线启发式相比的情况下，我们能够节省高达2.85倍的GPU使用量，以及高达70%的GPU浪费。我们计划让SRE（系统可靠性工程）社区能够在生产环境中利用我们的提议方法。
2024-09-10	MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders	Wenyu Zhang et.al.	2409.06635	null	快速发展的大型语言模型（LLM）显著提高了自然语言处理能力，促进了音频LLM的发展，这些模型能够理解语音和音频输入。现有的音频LLM通常结合预训练的音频编码器与文本预训练的LLM，并在特定的音频任务上进行微调。然而，预训练的音频编码器的容量有限，无法捕获新任务和数据集中的特征。为了应对这一问题，我们提出将“弱”编码器混合（MoWE）融入音频LLM框架。MoWE通过在基本编码器基础上补充一组相对较轻量级的编码器，根据音频输入动态激活以增强特征提取，同时避免显著增加模型大小。我们的实验结果表明，MoWE有效提高了多任务性能，使音频LLM能够应用于更多样化的音频任务。
2024-09-10	A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio	Ningyuan Xi et.al.	2409.06624	null	本文研究了大规模语言模型（LLM）在持续预训练（CPT）过程中，如何通过额外语言混合比（ALMR）和学习率（LR）之间的最优相关性，提升模型在中文及其他特定领域的性能。针对8B大小的Llama-3模型，我们进行了深入研究，确定了实验设置中的关键超参数，并通过精细调整，显著提升了模型在中文相关的基准测试以及数学、编程和情绪智能等特定领域的能力。最终，我们将70B大小的LLM部署到实际聊天系统中，并取得了令人满意的效果。
2024-09-10	Alleviating Hallucinations in Large Language Models with Scepticism Modeling	Yetao Wu et.al.	2409.06601	null	大型语言模型（LLM）面临的主要挑战是幻觉现象，这阻碍了其在多个领域的应用。不确定性估计可以被用于缓解幻觉带来的损害。人类的怀疑情绪被认为能增强自我评估的能力。基于这一观察，我们提出了一种名为“质疑建模”（SM）的新方法。这一方法通过结合词元和logits信息来进行自我评估而得到形式化。我们构建了包含怀疑情绪意识的数据集，并进行连续预训练，然后对LLM进行微调，从而提升它们自我评估的能力。实验结果证明了这种方法有效增强了模型估算不确定性的能力，并通过跨领域实验验证了其在其他任务中的泛化能力。
2024-09-10	GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering	Sacha Muller et.al.	2409.06595	link	本文探讨了使用大型语言模型（LLMs）与私有且更新至最新的知识库相结合的检索增强生成（RAG）范式时面临的挑战。我们特别关注评估由RAG系统生成的基于现实的答案时，作为裁判的LLM所遇到的问题。为了评估裁判模型的校准和区分能力，我们识别了7种生成器失败模式，并引入了GroUSE（基于问题解答的元评估基准），这是一个包含144个单元测试的元评估基准。这个基准揭示了现有的自动化RAG评估框架往往忽视了重要失败模式，即使在使用GPT-4作为裁判的情况下也是如此。为了改进当前自动化RAG评估框架的设计，我们提出了一种新的管道，并发现封闭模型在GroUSE上表现良好，而最先进的开源裁判模型在我们的提议标准下并未表现出良好的泛化能力，尽管它们与GPT-4的判断高度相关。我们的研究结果表明，与GPT-4的相关性是一个不完整的代理指标，用于衡量裁判模型的实际性能，并应该通过对参考情况的精确失败模式检测进行补充评估。进一步的研究显示，通过在GPT-4的推理痕迹上对Llama-3进行微调，显著提升了其评估能力，不仅提高了与GPT-4评价的相关性和参考情况的校准度。
2024-09-10	MAPS: Energy-Reliability Tradeoff Management in Autonomous Vehicles Through LLMs Penetrated Science	Mahdieh Aliazam et.al.	2409.06558	null	随着自动驾驶车辆的日益普及，对高度精确和高效的系统的需求也在不断增长，以提升安全性能、操作效率和能源消耗。在管理能源与可靠性之间的权衡时，预测车辆运行期间的各种条件变得尤为重要。近年来，大型语言模型（LLMs）的改进以及知名模型如ChatGPT的出现，为自动驾驶相关预测提供了独特的机会。本文提出了一种名为MAPS的方法，利用LLMs作为地图阅读辅助驾驶员，预测在自动驾驶车辆操作过程中设置的关键参数，以平衡能源与可靠性之间的权衡。MAPS方法在导航精度方面相较于最佳基线方法提高了20%。此外，MAPS还显示了在计算单元上节省了11%的能源，并在机械和计算单元上最高节省了54%。
2024-09-10	Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games	Juhwan Choi et.al.	2409.06518	link	大型语言模型（LLM）在自然语言处理领域已经成为主导性方法，然而它们的内部知识结构仍然未被充分探索。本文通过分析奥林匹克运动会的历史奖牌统计情况，研究了LLM的内部知识结构。我们要求模型提供各队的奖牌数量，并确定哪些队伍获得了特定排名。我们的结果表明，尽管最先进的LLM在报告单个队伍的奖牌数量方面表现得非常出色，但在回答关于特定排名的问题时却遇到显著困难。这暗示了LLM的内部知识结构与人类的根本不同，人类能够轻松地从已知的奖牌数量推断出排名。为了支持进一步的研究，我们公开发布了代码、数据集和模型输出。
2024-09-09	MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct	Run Luo et.al.	2409.05840	null	在多模态大型语言模型（MLLMs）的发展过程中，我们已经取得了显著的进步。然而，在数据量和数据质量方面仍然存在关键瓶颈。手动创建多模态指令数据既耗时又低效，尤其是在生成高复杂性的指令时。此外，从“黑盒”商业模型（例如GPT-4o、GPT-4V）中提取指令数据往往导致生成的指令数据过于简单，这限制了模型性能仅与其自身水平相当。构建多样性和复杂性指令数据的挑战依然巨大。为解决这一问题，我们提出了一种名为MMEvol的新颖多模态指令数据进化框架，该框架结合了精细感知演化、认知推理演化以及互动演化。这一迭代方法突破了数据质量瓶颈，生成了一个复杂且多样化的图像-文本指令数据集，从而增强了MLLMs的能力。我们以初始指令集合SEED-163K为基础，利用MMEvol系统地扩展了指令类型的多样性，融入了增强认知能力的推理步骤，并从图像中提取了详细信息以提高视觉理解和鲁棒性。为了全面评估我们数据的有效性，我们使用进化的数据训练了LLaVA-NeXT，并在13个视觉语言任务上进行了实验。与基于原始数据训练的基线相比，我们的方法平均提高了3.1点准确率，并在9个任务上达到了最先进的性能水平。
2024-09-09	Are Large Language Models a Threat to Programming Platforms? An Exploratory Study	Md Mustakim Billah et.al.	2409.05824	null	本文研究了大型语言模型（LLM）如ChatGPT、Gemini和Meta AI在LeetCode、Codeforces和HackerRank等竞赛编程平台上的问题解决能力。这些平台常被招聘人员用来筛选编程技能。随着LLM能力的提升，对其在不同难度级别、各类别的编程挑战中的表现进行评估变得尤为重要。研究团队从LeetCode选取了98个问题，从Codeforces选取了126个问题，覆盖了15个类别。通过九场在线Codeforces和LeetCode竞赛以及HackerRank的两项认证测试，对LLM的实时性能进行了评估。研究过程中使用了提示和反馈机制来引导LLM，并探索了不同场景之间的相关性。结果显示，ChatGPT等LLM在LeetCode和HackerRank的认证测试中表现出色（成功率为71.43%），但在虚拟竞赛中，特别是在Codeforces的高难度比赛中，它们的表现不尽如人意。尽管在LeetCode档案库中的用户中表现优于部分用户，但LLM在时间效率和内存效率上表现突出，而在更困难的Codeforces竞赛中则处于劣势。尽管当前情况并未立即构成威胁，但LLM在这些平台上的表现令人担忧，未来需要改进以提高其性能。
2024-09-09	Benchmarking Chinese Knowledge Rectification in Large Language Models	Tianhe Lu et.al.	2409.05806	link	大型语言模型（LLM）展现出惊人的生成能力，但它们并非没有缺陷，特别是存在幻觉的问题。当LLM应用于特定语言和领域时，这一问题尤为突出。例如，在处理中国古代诗歌、谚语或成语时，LLM可能会生成毫无意义的信息，这是由于缺乏特定知识造成的。为此，本文提出了一种针对LLM的基准，通过知识编辑来纠正中文知识。具体来说，我们通过从各种来源收集七种类型的知识，包括古典文本、成语以及来自百度贴吧“求诸家”的内容，构建了一个新的中文数据集CKnowEdit，以应对中文语言特有的复调性、反讽性和逻辑结构。通过对这个数据集的分析，我们揭示了当前LLM在掌握中文方面的挑战。此外，我们在该数据集上对现有的知识编辑技术进行评估，发现对中文知识的修正仍存在巨大的提升空间。代码和数据集可访问：https://github.com/zjunlp/EasyEdit。
2024-09-09	Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models	Emily Cheng et.al.	2409.05771	null	研究已反复证明，从大型语言模型中提取的中间隐藏状态能够预测对自然语言刺激的测量大脑反应。然而，关于使这一高预测性能成为可能的表示特性的了解非常有限。为什么是中间层而不是输出层在这一独特且高度通用的转移任务中最为有效？在这项工作中，我们展示了功能性磁共振成像中的语言编码模型证据支持大型语言模型内存在两个阶段抽象过程的存在。我们使用流形学习方法表明，这种抽象过程自然地在语言模型训练过程中产生，并且随着训练继续进行，这个抽象过程的第一个“组合”阶段被压缩到更少的层中。最后，我们证明了层次编码性能与大型语言模型表示的内在维度之间存在强烈的对应关系。我们初步证据表明，这种对应关系主要来源于大型语言模型的内在组合性，而非其下一个单词预测属性。
2024-09-09	Model Input Verification of Large Scale Simulations	Rumyana Neykova et.al.	2409.05768	null	本文提出了一种用于验证模拟输入数据有效性的方法论，我们将其称为模型输入验证（MIV）。我们通过设计特定于模拟建模需求的数据模式和验证工具在名为FabGuard的工具集中实现了这一方法。本文引入了MIV模式的正式分类，并提供了一个集成到现有模拟工作流程中的简化验证管道。FabGuard在三个不同领域——冲突驱动的人口迁移、灾害疏散以及疾病传播模型——的应用得到了展示。我们还探讨了大型语言模型（LLMs）在自动化约束生成和推理方面的应用。在对一个移民模拟案例的研究中，LLMs不仅正确推断出了23个开发者定义的约束中的22个，而且还发现了现有约束中的错误，并提出了新的有效约束。我们的评估表明，对于大型数据集，MIV是可行的，FabGuard能够在140秒内高效处理12,000个输入文件，并且其性能在不同文件大小下保持一致。
2024-09-09	A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System	B. Sankar et.al.	2409.05747	null	本文提出了一种新型的、基于对话的人工智能激活创新界面，作为创意生成工具，旨在帮助初学者设计者缓解通常存在的初始延迟和创新瓶颈问题。这是一个动态、互动且上下文响应式的解决方案，积极地利用人工智能领域自然语言处理（NLP）中的大型语言模型（LLM），以生成针对不同设计问题的多个潜在想法表述。将此类AI模型与创新过程结合，我们称之为“激活创新”情景，旨在促进基于对话的连续互动、上下文相关的对话以及大量的想法生成。为了验证这一工具的有效性，我们对30名初学者设计师进行了试点研究，让他们使用传统方法和新的基于CAI的界面来为给定问题生成想法。通过专家小组对结果进行的定性比较，我们采用了流畅度、新颖性和多样性作为关键参数。研究发现，所提出的工具能够有效地产生大量、多样且新颖的想法。为了提高界面的可用性，我们引入了结构化的对话模式，为每个创新阶段设计了提示工程化结构，使其更加统一和方便设计师操作。采用这种结构化的CAI界面后，得到的响应更加简洁，并且与随后的设计阶段，即概念化阶段，更加紧密相关。综上所述，本文证明了生成式人工智能（Gen-AI）在创意产品设计过程的早期、结构不明确阶段的应用潜力。
2024-09-09	LLMs Will Always Hallucinate, and We Need to Live With This	Sourav Banerjee et.al.	2409.05746	null	随着大型语言模型在各个领域的广泛应用，深入探讨它们内在局限性变得至关重要。本文提出，语言模型中的幻觉并非偶然错误，而是这些系统固有的特征。我们通过计算理论和哥德尔第一不完全性定理的引用（涉及Halting、Emptiness和Acceptance问题的不可判定性），展示了幻觉源于LLM的基本数学和逻辑结构。因此，通过架构改进、数据集增强或事实核查机制消除幻觉是不可能的。我们的分析表明，从训练数据编译到事实检索、意图分类和文本生成的每个阶段，都存在产生幻觉的非零概率。由此，我们引入了结构性幻觉的概念，作为这些系统的固有特性。通过建立幻觉的数学确定性，本文挑战了幻觉可以完全避免的传统观点。
2024-09-09	A System and Benchmark for LLM-based Q&A on Heterogeneous Data	Achille Fokoue et.al.	2409.05735	null	在许多工业环境中，用户希望以自然语言形式提出问题，并从结构化数据源（如电子表格、数据库、API或它们的组合）中获取答案。通常情况下，用户并不知道如何识别或访问正确的数据源。如果需要组装多个（甚至可能是隔离的）数据源来得出答案，这个问题会变得更加复杂。最近，一些依赖大型语言模型（LLMs）的文本到SQL应用已解决了一些这些问题，通过使用户能够用自然语言提出问题。然而，在现实的工业场景中，这些应用仍然不实用，因为它们无法应对典型环境中数据源的异质性。本文旨在通过引入siwarex平台解决异质性问题，该平台允许无缝地使用自然语言访问数据库和API。为了展示siwarex的有效性，我们扩展了流行的Spider数据集并进行基准测试，通过替换其中的一些表格为数据检索API。我们发现siwarex很好地应对了数据源异质性的问题。我们修改后的Spider基准很快将对研究社区开放。
2024-09-09	Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach	Meng Zhou et.al.	2409.05732	null	## 上文背景多语言开源医疗大型语言模型（LLMs）具有服务于不同地区语言多样性的潜力。将通用LLMs适应于医疗领域通常需要持续预训练，但这在计算上成本高昂且有时不可行。仅通过指令微调特定任务可能无法保证最佳性能，因为缺乏广泛领域知识使得模型难以在各种场景下理解和推理。为解决这些挑战，我们引入了两个多语言指令微调数据集：MMed-IFT和MMed-IFT-MC，这两个数据集分别包含了超过20万条高质量的多语种医疗样本，在六种语言中。我们提出了一种两阶段训练范式：第一阶段利用MMed-IFT注入通用医学知识，第二阶段则使用MMed-IFT-MC微调针对特定任务的多项选择题。我们的方法在英语和多语言基准测试中均取得了竞争力的结果，实现了高效性和性能之间的平衡。我们计划在未来将我们的数据集和模型权重公开在\url{https://github.com/SpassMed/Med-Llama3}。 ## 任务请将上述论文摘要翻译为中文，避免输出其他任何无关内容，并确保输出内容中不包含","字符。
2024-09-09	The Influence of Task and Group Disparities over Users' Attitudes Toward Using Large Language Models for Psychotherapy	Qihang He et.al.	2409.05703	null	近年来，心理健康障碍患者的数量持续增长，而大型语言模型（LLM）在不同领域的进步也使得基于LLM的心理治疗引起了越来越多的关注。然而，影响用户对基于LLM心理治疗工具态度的因素鲜有探讨。本文作为首次尝试，旨在研究任务差异和群体差异对用户对基于LLM心理治疗工具的态度的影响。通过运用技术接受模型（TAM）和自动化接受模型（AAM），结合在线问卷调查，我们收集并分析了来自中国大陆222名基于LLM心理治疗工具用户的反馈。研究结果表明，群体差异（即心理健康状况）可以影响用户对LLM工具的态度。进一步地，作为典型任务差异之一的隐私顾虑，并未发现对信任度和使用意图产生显著影响。这些发现可指导未来基于LLM心理治疗服务的设计工作。
2024-09-06	RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs	Jiaxing Wu et.al.	2409.04421	null	本文引入了一种名为“基于预测反馈的强化学习（Reinforcement Learning from Prediction Feedback，RLPF）”的方法，旨在解决大型语言模型（Large Language Models，LLMs）在个人化系统中应用时面临的问题。具体而言，当LLMs从用户的过往活动预测行为时，它们的有效性往往取决于能否有效地利用大量、长篇的用户历史数据，而这些数据通常含有噪音且长度过长。现有预训练的LLMs可能生成的摘要虽短小精悍，但缺乏对下游任务至关重要的上下文信息，从而限制了其在个人化系统中的应用。为了克服这一挑战，RLPF方法通过微调LLMs来生成精炼、人类可读的用户概要，这些概要能够优化下游任务的表现。通过最大化生成概要的有用性，RLPF能够有效提取大量用户历史数据的关键信息，同时保持对下游任务至关重要的信息。实验结果表明，与基线方法相比，RLPF在下游任务性能上显著提升了22%，在事实性、抽象性和可读性等指标上的表现分别达到了84.59%的胜率，同时实现了74%的上下文长度减少，且在16个未见的任务和/或数据集上均有性能提升，这表明其具有良好的泛化能力。总之，RLPF提供了一种增强LLMs在个人化领域应用的有前景的解决方案，通过将长篇、噪音丰富的用户历史转化为信息丰富、易于理解的表示，从而提高LLMs的个人化能力。
2024-09-06	Question-Answering Dense Video Events	Hangyu Qin et.al.	2409.04388	null	在本文中，我们提出了一项新的任务——针对长视频中的密集事件进行问题回答与定位，这要求模型能够准确理解并推理持续时间较长的多个事件。为了支持这一研究，我们构建了一个名为DeVE-QA的数据集，其中包含关于10600个长视频中26000个事件的78000个问题。现有在单事件问答上表现出色的大型多模态语言模型（MLLMs）在面对DeVE-QA时遇到挑战，这表明它们在处理长时间段内发生的多个事件的理解和推理方面存在局限性。为此，我们提出了一种名为DeVi的新方法，这是一种无需训练即可提升MLLM性能的方法。DeVi通过引入三个关键模块来改进现有的MLLMs：层级描述模块、时间事件记忆模块和自我一致性检查模块。这三个模块分别用于检测、上下文化和记忆长视频中的密集事件，以及定位相关视频片段以进行问题回答。实验结果表明，与现有MLLMs相比，DeVi在回答密集事件问题和定位相关视频片段方面表现更优。具体而言，在DeVE-QA数据集上，DeVi的G(round)QA准确率提高了4.1%，在NExT-GQA数据集上的准确率提高了3.7%。
2024-09-06	Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs	Aliakbar Nafar et.al.	2409.04318	link	本文提出了一种评估生成大型语言模型（LLMs）内在学习机制的框架。我们声称，这些机制是通过检索内部知识和通过关注回归任务从上下文中的示例进行学习的组合。首先，我们展示了LLMs在真实世界数据集上执行回归的能力，并设计实验来衡量模型在多大程度上通过检索其内部知识而不是从上下文示例中学习来进行内在学习。我们认为这个过程位于这两个极端之间的连续体上。我们深入分析了根据各种因素（如任务的先验知识以及提供给上下文示例的信息类型和丰富度）这些机制被触发的程度。我们使用三种LLMs并利用多个数据集来验证我们的发现的稳健性。我们的结果揭示了如何根据所解决的问题利用上下文示例中的元学习和促进知识检索的方法。
2024-09-06	An optically accelerated extreme learning machine using hot atomic vapors	Pierre Azam et.al.	2409.04312	null	机器学习正逐渐成为一种广泛应用的技术，其增长速度令人印象深刻，原因在于它能够提供解决社会关注问题的实用解决方案的多样性。然而，随着应用和所需资源的增加，当前的硬件技术开始受限。特别是对于大型语言模型或高分辨率图像识别等新型机器学习领域，计算时间与能源成本成为了关键问题。在此背景下，多年来已经设计出了光学平台，旨在开发更高效的机器学习硬件。其中，自由空间传播平台具有多种优势：并行性、低能耗与计算速度。本文介绍了一种结合光束在热原子蒸气中传播的强烈且可调非线性特性的新设计，并与极端学习机模型相结合。通过数值模拟与实验验证，我们展示了在MNIST图像分类任务中使用此类自由空间非线性传播增强训练的效果。此外，我们指出了实验中的多个超参数，这些参数进一步优化后可以提高平台的准确性。
2024-09-06	Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets	Desiree Heim et.al.	2409.04286	null	当前公开的知识工作数据集在多样性、详尽注释以及用户和文档的上下文信息方面存在不足，这阻碍了对知识工作辅助系统进行客观和可比较的数据驱动评估与优化。由于在真实环境中收集此类数据所需的资源巨大，以及数据审查的必要性，因此构建这样的数据集几乎不可能实现。鉴于此，我们提出了一种可配置的多代理知识工作数据集生成器。该系统模拟了由生成大型语言模型的文档并相互协作的代理之间的知识工作，并记录了伴随的数据轨迹。此外，生成器在其配置中捕获或在模拟过程中创建的所有背景信息，并以知识图谱的形式存储。最后，产生的数据集可以用于利用和共享，而无需涉及隐私或机密问题。本文介绍了我们方法的设计愿景，并专注于使用大型语言模型生成真实的知识工作文档。我们的研究中，人类评估者评估了生成文档的53%和真实文档的74%，认为它们具有真实性，这表明了我们方法的潜力。此外，我们分析了参与者评论中提到的真实性标准，并对已识别的常见问题进行了详细说明，提出了改进措施。
2024-09-06	Advancing Automated Knowledge Transfer in Evolutionary Multitasking via Large Language Models	Yuxiao Huang et.al.	2409.04270	null	本文引入了一种基于大型语言模型（LLM）的优化范式，以建立一个自主模型工厂，用于生成适用于不同优化任务的知识转移模型。这一方法旨在通过自动化设计过程，实现高效且有效的知识转移。为了评估所提出方法的性能，我们进行了全面的实验研究，将生成的知识转移模型与现有的最佳知识转移方法进行了比较。结果表明，生成的模型在效率和有效性方面均表现出优于或与手工设计的知识转移模型相当的性能。
2024-09-06	GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding	Ziyin Zhang et.al.	2409.04183	null	在本工作中，我们提出了GALLa - 图形对齐大型语言模型。GALLa 利用图神经网络和跨模态对齐技术，在微调过程中向LLM注入代码的结构信息作为辅助任务。这种框架既无模型依赖性也无任务依赖性，它可以应用于任何代码LLM用于任何代码下游任务，并仅在训练时从与微调数据无关的语料库中获取结构化图形数据，而在推理阶段无需额外成本。通过四种不同基线LLM（参数量从3.5亿到80亿不等）在五个代码任务上的实验验证了GALLa的有效性，即使对于强大的模型如LLaMA3，也证明了其一致性改进。
2024-09-06	Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering	Larissa Pusch et.al.	2409.04181	null	自然语言处理领域的进步极大地改变了我们与数据库等信息系统的交互方式，使其变得更加便捷。然而，在关键准确性领域，如生物医学领域，仍存在挑战。其中一个重要问题是幻觉问题，即模型生成了数据支持之外的信息，这可能导致危险的错误信息。本文提出了一种新颖的方法，旨在通过结合大型语言模型（LLM）和知识图谱（KG）来改善问答系统的准确性和可靠性，以生物医学KG为例。该方法基于LangChain框架构建，通过引入查询检查器确保LLM生成的查询在语法和语义上的有效性，然后使用这些查询从知识图谱中提取信息，大幅减少了错误如幻觉的发生。我们使用了一个包含50个生物医学问题的新基准数据集对整体性能进行了评估，测试了包括GPT-4 Turbo和llama3:70b在内的几种LLM。结果显示，虽然GPT-4 Turbo在生成准确查询方面表现出色，但开源模型如llama3:70b在适当的问题提示工程下也显示出潜力。为了使这种方法易于访问，我们开发了一个用户友好的Web界面，允许用户输入自然语言查询，查看生成和修正的Cypher查询，并验证结果路径的准确性。总体而言，这种混合方法有效地解决了数据缺口和幻觉等常见问题，提供了一个可靠且直观的解决方案来改进问答系统。生成本文结果和用户界面所需源代码的Git仓库链接如下：https://git.zib.de/lpusch/cyphergenkg-gui
2024-09-06	From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks	Andreas Stephan et.al.	2409.04168	null	为了减少对人工标注的需求，提出了大型语言模型（LLM）作为候选模型质量的评判者。这些LLM评判者通常通过在摘要或机器翻译等生成任务上与人类判断的相关性来评估。相比之下，我们研究了在数学推理任务上的LLM评判者。这类任务需要多步推理，其解答的正确性可以验证，从而提供了一种更客观的评估方式。我们进行了详细的表现分析，并发现使用的评判者大多无法提高任务性能，但能够选择更好的模型。我们的分析揭示了评判表现与候选模型任务表现之间的强相关性。观察到评判者倾向于选择更高质量的模型，即使其答案是错误的。进一步地，我们展示了可以通过统计措施，如候选模型的任务性能，来预测评判表现。在消融实验中，我们交换或屏蔽候选答案，并观察到评判者经常保持原始判断，这提供了证据表明评判者在判断中融入了写作风格。总之，我们发现使用统计指标量化判断中的规律性，并提供了利用它们的各种角度。
2024-09-06	Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation	Luis Mayer et.al.	2409.04164	null	近年来，大型语言模型（LLMs）作为一种强大的工具，在多个领域展现出潜力，包括软件工程。在本研究中，我们评估了五款最先进的LLM——Bard、BingChat、ChatGPT、Llama2和Code Llama——在文本到代码生成任务上的能力。我们通过向模型提供来自编程网站LeetCode的编码问题描述文本提示，要求它们用Python编写解决方案。随后，我们使用LeetCode的测试功能来评估生成输出的质量。研究结果表明，这些模型在性能上存在显著差异。ChatGPT在处理这类编程挑战方面表现最为有效，甚至超过了专门针对代码的模型，如Code Llama。为了进一步了解情况，我们测量了生成代码的运行时间和内存使用情况，并将其与LeetCode上的其他代码提交进行了比较。详细错误分析包括比较生成代码中的正确缩进和形式差异，以及将未解决的任务归类到特定错误类别，有助于我们更深入地理解结果并找到改进空间。研究结果还显示，当模型面临大量上下文信息时，即较长提示时，生成的代码越来越不准确。
2024-09-05	Attention Heads of Large Language Models: A Survey	Zifan Zheng et.al.	2409.03752	link	自ChatGPT问世以来，大型语言模型在各种任务上表现出色，但它们仍然作为黑盒系统存在。因此，其发展主要依赖于数据驱动的方法，限制了通过改变内部架构和推理路径来提升性能的可能性。许多研究者开始探索大型语言模型的内部机制，旨在识别推理瓶颈的本质，大多数研究集中在注意力头部上。我们的综述旨在通过聚焦于大型语言模型的可解释性和注意力头部的内在机制，揭示其内部推理过程。首先，我们将人类思考过程提炼为四个阶段框架：知识回忆、情境内识别、潜在推理和表达准备。利用这一框架，我们系统地回顾现有研究，识别并分类特定注意力头部的功能。此外，我们总结了发现这些特殊头部所使用的实验方法，分为无模型方法和有模型方法两大类。我们也概述了相关评估方法和基准。最后，我们讨论当前研究的局限性，并提出几个潜在的发展方向。我们的参考文献列表开源于https://github.com/IAAR-Shanghai/Awesome-Attention-Heads。
2024-09-05	LLM-CI: Assessing Contextual Integrity Norms in Language Models	Yan Shvartzshnaider et.al.	2409.03735	null	大型语言模型（LLM）在从互联网上收集的数据中记忆部分训练数据的同时，也可能无意中编码了社会偏好和规范。随着这些模型被整合到社会技术系统中，确保它们编码的规范符合社会期望至关重要。这些规范可能因模型、超参数、优化技术以及数据集的不同而不同。由于提示敏感性的问题——微小的提示变化会导致不同的响应，现有的评估方法变得不可靠。需要一个全面的框架来涵盖各种模型、优化和数据集，并提供可靠的方法来评估编码的规范。我们提出了LLM-CI，这是第一个用于评估LLM中编码隐私规范的开源框架。LLM-CI使用基于上下文完整性因素的情境叙述方法来评估不同上下文中和不同LLM中的编码规范。我们提出了一种多提示评估方法来解决提示敏感性问题，通过仅从导致多个变体一致响应的提示中评估规范，以全面评估使用先前工作中的IoT和COPPA情景数据集的LLM。通过使用LLM-CI和我们提出的这种方法，我们全面地评估了LLM，研究了模型属性（如超参数、容量）和优化策略（如对齐、量化）的影响。
2024-09-05	Safety vs. Performance: How Multi-Objective Learning Reduces Barriers to Market Entry	Meena Jagadeesan et.al.	2409.03734	null	本文从经济和算法两个角度研究大型语言模型等大规模机器学习（ML）模型市场中的集中问题，以及是否存在进入此类市场的不可克服障碍。我们通过正式定义一个多目标高维回归框架来探讨降低进入壁垒的问题，该框架捕捉到了声誉损害的特征，并分析了新公司进入市场所需的样本数量。我们的结果表明，多目标考虑能够从根本上降低进入壁垒——所需样本数量可能远小于现有公司的数据集大小。在证明这些结果的过程中，我们还发展了多目标环境中高维线性回归的缩放定律，展示了当数据集规模较大时，缩放率会变得较慢，这一发现可能具有独立的研究价值。
2024-09-05	Planning In Natural Language Improves LLM Search For Code Generation	Evan Wang et.al.	2409.03733	null	在大规模提升训练计算能力的同时，推理计算的规模扩展并未带来类似的进步。我们假设，这一领域缺乏关键性的突破在于生成模型的输出多样性不足，导致搜索效率低下，因为模型不断产生高度相似但错误的结果。通过实证研究，我们发现提高输出多样性可以有效缓解这一问题。基于这一发现，我们提出了一种名为PLANSEARCH的新颖搜索算法，它在人类评价、MBPP+和LiveCodeBench（一个用于竞争性编程的无污染基准）等任务上表现出色。该算法通过生成关于问题的多样观察，并利用这些观察构建解决策略，来探索比传统方法更广泛的潜在解决方案空间。在使用PLANSEARCH结合Claude 3.5 Sonnet进行优化后，我们实现了LiveCodeBench上77.0%的通过率（pass@200），这不仅超越了不使用搜索方法（pass@1=41.4%）的结果，也优于仅依赖重复采样的方法（pass@200=60.6%）。此外，我们还展示了能够准确预测搜索带来的性能提升，其关键因素是生成想法的多样性。
2024-09-06	RAG based Question-Answering for Contextual Response Prediction System	Sriram Veturi et.al.	2409.03708	null	本文介绍了一种端到端的框架，利用大型语言模型（LLMs）的检索增强生成（RAG）能力，针对实际工业应用中的问题回答场景。给定客户查询，该系统会检索相关知识文档，并结合之前的聊天历史，为零售公司的客服中心提供客户服务代表生成响应建议。通过全面的自动化和人工评估，结果显示，这种解决方案在准确性和相关性上优于当前基于BERT的算法。我们的研究结果表明，基于RAG的LLMs可以作为人类客户服务代表的优秀辅助工具，减轻他们的工作负担。
2024-09-05	TRACE-cs: Trustworthy Reasoning for Contrastive Explanations in Course Scheduling Problems	Stylianos Loukas Vasileiou et.al.	2409.03671	null	我们提出了一种名为TRACE-cs的新型混合系统，它结合了符号推理与大型语言模型（LLM），以解决排程问题中的对比查询。TRACE-cs利用SAT求解技术编码排程约束，并生成用户查询的解释，同时通过大型语言模型将用户的查询转换为逻辑条目，并细化符号求解器生成的解释为自然语言句子。通过整合这些组件，我们的方法展示了将符号方法与LLM相结合，创建具有正确性保证的可解释AI代理的潜力。
2024-09-05	A Fused Large Language Model for Predicting Startup Success	Abdurahman Maarouf et.al.	2409.03668	null	为了帮助投资者做出有效的决策并持续寻找盈利的创业投资机会，需要预测初创公司的成功率。如今，投资者不仅可以利用有关初创公司的各种基本面信息（如公司的成立时间、创始人数量以及所处行业），还可以通过在线风险投资（VC）平台获取关于公司创新和业务模式的文本描述信息，例如Crunchbase。为了支持投资者的决策，我们开发了一种机器学习方法，旨在在VC平台上定位成功的初创公司。具体而言，我们开发、训练并评估了一个专门的融合大型语言模型，用于预测初创公司的成功率。我们的工作旨在评估VC平台上公司的自我描述在多大程度上能够预测其成功性。使用来自Crunchbase的20,172个在线资料档案，我们发现我们的融合大型语言模型可以预测初创公司的成功率，其中文本自我描述对预测能力贡献了显著部分。我们的工作提供了一个决策支持工具，帮助投资者找到盈利的投资机会。
2024-09-05	The representation landscape of few-shot learning and fine-tuning in large language models	Diego Doimo et.al.	2409.03662	link	本文探讨了在特定任务上改进现代大型语言模型（LLM）性能的两种常见策略：上下文学习（ICL）和监督微调（SFT）。尽管这两种方法的本质不同，但它们往往能产生相似的性能提升。然而，我们对它们是否在LLM内部诱导出相似的表示结构知之甚少。我们通过分析这两种情况下隐藏表示的概率景观来解决这个问题。具体来说，我们在相同的问答任务上比较了LLM的表现，发现ICL和SFT产生了非常不同的内部结构，两者都在网络的中间部分经历了一个明显的转变。在模型的前半部分，ICL塑造了分层组织的可解释表示，按照其语义内容进行排序。相比之下，SFT得到的概率景观更加模糊且语义混杂。在网络的后半部分，微调后的表示发展出了更有利于编码答案身份的概率模式，而ICL表示的概率峰则不太明确。我们的方法揭示了LLM在不同条件下解决相同任务时所采用的多样化计算策略，这有助于我们朝着设计出从语言模型中提取信息的最佳方法迈进。
2024-09-06	LLM-based multi-agent poetry generation in non-cooperative environments	Ran Zhang et.al.	2409.03659	link	尽管大型语言模型（LLM）在自动诗歌生成领域取得了显著进展，但生成的诗歌在多样性方面存在不足，且训练过程与人类学习方式大相径庭。基于这样的考虑，我们提出了一种基于社会学习的框架，在此框架下，我们强调非合作互动，以鼓励多样性，同时除了合作互动外还强调非合作互动。我们的实验是首次尝试在非合作环境中使用基于训练的多智能体系统（GPT-2）和基于提示的系统（GPT-3 和 GPT-4）进行诗歌生成。根据对生成的96,000首诗歌的评估，我们的框架对基于训练的智能体的诗歌生成过程产生了积极影响，导致以下结果：1）多样性增加了3.0-3.7个百分点（pp），新颖性增加了5.6-11.3个百分点，根据独特和新颖的n-grams评估。生成的诗歌在词汇、风格和语义方面也表现出群体差异。基于提示的智能体在我们的框架中也从非合作环境中获益，具有非同质智能体的多样化的模型组合有可能进一步提高多样性，实验结果显示多样性增加了7.0-17.5个百分点。然而，基于提示的智能体显示了随着时间推移词汇多样性的下降，并没有展现出旨在在社交网络中实现的群体间分化。本文认为，在诸如自动诗歌生成等创意任务中，需要进行范式转变，引入类似于人类交互的社会学习过程（通过基于LLM的智能体建模），以促进更加多样性和创新的生成。
2024-09-05	From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents	Jifan Yu et.al.	2409.03512	null	自最早的在线教育实例出现，课程被上传至可访问并共享的在线平台以来，这种扩大知识传播范围、触及更广泛受众的形式引发了广泛讨论和普遍采纳。认识到个性化学习仍存在改进空间，人工智能技术不断融入这一学习模式，由此产生了多种教育AI应用，如教育推荐和智能辅导。大型语言模型（LLMs）智能的涌现，使得这些教育增强功能得以基于统一的基础模型构建，实现更深层面的整合。在此背景下，我们提出MAIC（大规模AI赋能课程），这是一种新的在线教育形式，利用LLM驱动的多代理系统构建AI辅助课堂，平衡了规模性和适应性。除了探索概念框架和技术创新外，我们在清华大学——中国顶尖大学之一——进行了初步实验。通过超过10万条学习记录和500多名学生的数据，我们获得了宝贵观察和初步分析。这个项目将持续发展，最终目标是建立一个全面开放的平台，支持和统一研究、技术和应用，在大模型AI时代探索在线教育的可能性。我们设想这个平台是一个合作枢纽，汇集教育者、研究人员和创新者共同探索AI驱动在线教育的未来。
2024-09-04	RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)	Yao Mu et.al.	2409.02920	null	本篇论文介绍了一种名为RoboTwin的新型基准数据集，它结合了现实世界中的遥控数据与通过数字孪生生成的合成数据。RoboTwin旨在为双臂机器人场景提供支持，特别关注工具使用能力和人机交互能力。我们利用COBOT Magic平台收集了丰富的数据，涵盖工具操作和人机互动的多样性。论文提出了一种创新的方法来创建数字孪生体，利用AI生成的内容将二维图像转换为详细的三维模型。同时，我们借助大型语言模型生成专家级训练数据和面向功能性的任务特定姿态序列。我们的主要贡献包括： 1. RoboTwin基准数据集， 2. 高效的现实到模拟管道，以及 3. 利用语言模型进行自动专家级数据生成。这些进展旨在解决机器人训练数据稀缺的问题，有望加速开发更多功能强大、适应性广泛的机器人系统，应用于广泛的现实世界场景。项目页面可访问：https://robotwin-benchmark.github.io/early-version/
2024-09-05	LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA	Jiajie Zhang et.al.	2409.02897	link	尽管当前的长文本大语言模型在基于大量文本回答用户问题方面表现出令人印象深刻的性能，但它们缺乏引用使得用户难以验证答案的准确性，从而引发了对其可靠性的担忧，因为它们可能产生错误的信息。我们的工作旨在使这些长文本大语言模型能够生成包含精细句级引用的响应，以提高它们的忠实度和可验证性。我们首先引入了LongBench-Cite，一个自动评估当前大语言模型在长文本上下文问题回答中的表现的基准，揭示了在句级引用方面存在巨大的改进空间。为了实现这一目标，我们提出了CoF（粗到细）这一新颖的管道，利用现成的大语言模型自动生成包含精确句级引用的长文本问答实例，并以此管道构建了LongCite-45k，一个用于句级引用问题的大型自监督训练数据集。最后，我们使用LongCite-45k数据集训练了LongCite-8B和LongCite-9B模型，成功地使它们能够在单个输出中生成准确的响应和精细的句级引用。在LongBench-Cite上的评估结果显示，我们的训练模型在引用质量方面达到了最先进的水平，超越了包括GPT-4在内的高级专有模型。
2024-09-04	LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture	Xidong Wang et.al.	2409.02889	link	扩展多模态大语言模型（MLLMs）的长期上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化，包括模型架构、数据构造和训练策略，尤其是解决随着更多图像引入而出现的性能下降以及高昂计算成本等问题。本文通过将模型架构调整为Mamba和Transformer块的混合体、采用既能考虑多个图像间时间依赖性又能考虑空间依赖性的数据构造方法，并实施渐进式训练策略，对这些挑战进行了应对。发布的模型“LongLLaVA”（长期语言与视觉助手）是首个混合型MLLM，实现了效率与效果之间的良好平衡。LongLLaVA不仅在各种基准测试中取得了竞争力的结果，而且保持了高吞吐量和低内存消耗的特点。特别地，它能够在单个A100 80GB GPU上处理近一千张图片，展示了广泛任务应用前景的潜力。
2024-09-04	Historical German Text Normalization Using Type- and Token-Based Language Modeling	Anton Ehrmanntraut et.al.	2409.02841	null	本文提出了一种针对1700年至1900年德国文学文本的正词法规范化系统，该系统基于平行语料库训练。所提出的系统利用机器学习方法和Transformer语言模型，结合编码器-解码器模型对单个词汇类型进行规范化，并通过预训练的因果语言模型在上下文中调整这些规范化结果。广泛评估表明，该提出的系统提供了最先进的准确性，与完全端到端的句子级规范化系统相当，该系统是通过对预训练的Transformer大型语言模型进行微调而实现的。然而，由于模型难以泛化以及缺乏大量高质量平行数据，历史文本的规范化仍是一个挑战。
2024-09-04	Exploring Sentiment Dynamics and Predictive Behaviors in Cryptocurrency Discussions by Few-Shot Learning with Large Language Models	Moein Shahiki Tash et.al.	2409.02836	null	本文通过运用高级自然语言处理技术，对加密货币相关讨论中的预测陈述、希望演讲及悔恨检测行为进行分析。我们提出了一种新的分类方法——“预测陈述”，将其细分为预测增加、预测减少、预测中立或非预测类别。利用GPT-4o这一前沿大规模语言模型，我们在五大主流加密货币（Cardano、Binance、Matic、Fantom、Ripple）的讨论中探索了情绪动态。研究发现，Matic在乐观预测方面显示出特别高的倾向性。此外，我们还探讨了希望与悔恨情绪之间的相互作用，揭示了这些情感与预测行为之间复杂的互动模式。尽管面临数据量和资源可用性方面的限制，我们的研究仍揭示了加密货币市场投资者行为和情绪趋势的重要发现，为战略决策和未来研究提供了信息。
2024-09-04	CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models	Wentao Liu et.al.	2409.02834	null	本文发布了一个名为CMM-Math的中文多模态数学数据集，包含基准和训练部分，旨在评估和增强大型多模态模型（LMM）在数学推理方面的表现。CMM-Math包含了超过28,000个高质量样本，涵盖了从小学到高中的中国12个年级的多种问题类型（例如选择题、填空题等），并提供了详细的解决方案。特别地，问题或观点中可能包含视觉上下文，使得这个数据集更具挑战性。通过全面分析，我们发现当前最先进的LMM在CMM-Math数据集上面临挑战，这强调了在LMM开发方面进一步改进的必要性。为此，我们提出了一种名为Multimodal Mathematical LMM（Math-LMM）的模型来处理混合输入的多个图像和文本段落的问题。我们采用三个阶段进行模型训练：基础预训练、基础微调和数学微调。广泛的实验表明，我们的模型在与三个多模态数学数据集上的SOTA LMM进行比较时，有效地提高了数学推理性能。
2024-09-04	ExpLLM: Towards Chain of Thought for Facial Expression Recognition	Xing Lan et.al.	2409.02828	null	面部表情识别（FER）在多媒体领域至关重要，对各种应用具有重大影响。然而，理解面部表情的原因对于准确识别表情至关重要。目前的方法，如基于面部动作单位（AUs）的方法，通常提供AU名称和强度，但缺乏关于AU之间的互动以及整体表情之间关系的洞察。本文提出了一种名为ExpLLM的新方法，利用大型语言模型生成面部表情识别的准确思维链（CoT）。我们从三个关键视角设计了CoT机制：关键观察、总体情感解释和结论。关键观察描述了AU的名称、强度及其相关情感。总体情感解释基于多个AU及其互动进行分析，确定主导情感及其关系。最后，结论基于前一分析得出最终的表情标签。此外，我们还引入了Exp-CoT引擎，用于构建此表情CoT并生成指令描述数据以训练我们的ExpLLM。在RAF-DB和AffectNet数据集上的大量实验表明，ExpLLM优于当前最先进的面部表情识别方法。在微表情识别方面，ExpLLM也超越了最新的GPT-4o，尤其是在GPT-4o经常失败的情况下。
2024-09-04	Design Contradictions: Help or Hindrance?	Aron E. Owen et.al.	2409.02823	null	在数据可视化领域，创新思维的迫切需求促使我们探索新的创意方法。通过组合两个或更多具有对立性质的创造性词汇，

Name		Name	Last commit message	Last commit date
Latest commit History 2,098 Commits
.github/workflows		.github/workflows
assets		assets
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.yaml		config.yaml
daily_arxiv.py		daily_arxiv.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Updated on 2024.10.05

agent

llm

About

Releases

Packages

Languages

License

limafang/agent-arxiv-daily

Folders and files

Latest commit

History

Repository files navigation

Updated on 2024.10.05

agent

llm

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages