Power By: developer-hotspots-summary.
| 文章 | 摘要 |
|---|---|
| lllyasviel / Omost | Omost是由lllyasviel开发的一个图像生成项目,旨在将大型语言模型(LLM)的编码能力转化为图像组合能力。该项目提供了基于Llama3和Phi3变体的预训练LLM模型,这些模型能够编写代码以在Omost的虚拟Canvas代理上组合图像视觉内容。Canvas代理可以被特定的图像生成器实现所渲染,以实际生成图像。Omost的训练数据包括Open-Images等数据集的地面真实注释、自动注释图像提取的数据、直接偏好优化(DPO)的增强数据以及来自OpenAI GPT4o的少量调整数据。用户可以通过HuggingFace空间或本地部署使用Omost,并提供了详细的使用说明和示例脚本。此外,该项目还提供了一个基线渲染器和Prompt Prefix Tree来改善提示理解。Omost在GitHub上可用,采用Apache-2.0许可。 |
| ToonCrafter / ToonCrafter | ToonCrafter是一个开源研究项目,专注于生成卡通图像插值。该项目使用预训练的图像到视频扩散先验,通过输入起始和结束帧,生成视频。它支持卡通草图插值和基于参考的草图着色功能。ToonCrafter能够生成最多16帧、分辨率为512x320的视频。项目提供了安装环境、模型下载和本地Gradio演示的指南。开发者提醒用户,这是一个研究探索,而非商业产品,成功插值率不能保证。项目遵循Apache-2.0许可协议。 |
| face-hh / webx | WebX是一个由face-hh开发的自定义网络浏览器项目,旨在作为万维网的替代品。它使用HTML、CSS和Lua构建,不依赖JavaScript。项目包括自定义的HTML渲染引擎、DNS服务和搜索引擎。WebX允许用户浏览以.buss为顶级域名的网站,如buss://yippie.rizz。它提供了跨平台的支持,包括Linux、macOS和Windows,并可通过Rust从源代码编译或通过预编译的可执行文件安装。WebX还提供了一个网站注册流程,允许用户发布自己的.buss网站。项目遵循Apache-2.0许可,并在GitHub上开源。 |
| 2noise / ChatTTS | ChatTTS是一个为日常对话设计的生成性语音模型,特别适合用于LLM助手等对话场景。该模型支持英文和中文,经过超过10万小时的中英文训练数据训练。开源版本在HuggingFace上是一个预训练了4万小时的模型,不包含SFT。模型优化了对话基础任务,支持多说话者,提供细腻的控制功能,包括笑声、停顿和插入语等,并在韵律方面超越了大多数开源TTS模型。项目仅用于学术目的,旨在教育和研究使用,作者不保证信息的准确性、完整性或可靠性,并且不拥有数据版权。使用时应负责任并符合道德标准。提供了基础和高级用法示例,以及未来的发展路线图。 |
| lanqian528 / chat2api | `chat2api`是一个可以将网页版的ChatGPT转换为OpenAI API格式的服务。它支持免费、无限的GPT-3.5使用,无需账号,还支持使用AccessToken进行账号登录,支持GPT-4、GPT-4o和GPTs模型。该服务提供流式和非流式传输,支持多账号轮询和自动重试机制,以及Tokens管理。它还具备WebUI界面,并且可以作为网关使用。部署方式包括直接部署、Docker部署和Docker Compose部署。用户可以通过API使用它,支持传入AccessToken或RefreshToken。此外,它还支持ArkoseToken的获取。项目采用MIT许可证。 |
| 文章 | 摘要 |
|---|---|
| Sam Altman 众叛亲离,OpenAI 前董事万字剖析他所忽视的 AI 安全风险! | Sam Altman,OpenAI的联合创始人,因忽视AI安全风险而受到前董事Helen Toner的批评。Toner在播客中透露,Altman的领导方式导致安全团队分崩离析,Ilya Sutskever和Jan Leike等关键成员离职。她强调,AI发展中安全应优先于商业利益,并呼吁公众对技术未来有自己的见解,不应仅依赖大公司和专家的意见。同时,讨论了AI带来的隐私和监管挑战,以及需要平衡创新与伦理。 |
| 在1500万行源码上“动刀”,复刻「美版」核心算法?TikTok下场辟谣 | 字节跳动旗下的TikTok近期被路透社报道正在开发一个独立于抖音的推荐算法,以应对美国可能的业务出售要求。TikTok随后在Twitter上否认了这一报道,指出报道具有误导性。美国议员担忧TikTok的数据安全问题,曾试图迫使字节跳动将其美国资产与中国业务分开。TikTok一直强调其数据安全,并积极调整全球化战略,如与Oracle合作迁移美国用户数据至Oracle云基础设施。美国众议院通过法案,限期9个月迫使TikTok中国所有者剥离其美国业务,否则将禁用TikTok。TikTok已向法院提交请愿书,抗议禁令。尽管面临压力,TikTok似乎也在准备源代码拆分工作,可能为未来可能的剥离奠定基础。 |
| 《庆余年2》唯一婚礼的凤冠,自曝由 Blender 建模、3D 打印! | 《庆余年2》中的凤冠是利用Blender软件建模并通过3D打印技术制作的,这一技术结合了传统工艺与现代科技。Blender是一款诞生于1994年的免费开源3D图像软件,支持整个3D创作流程,包括渲染、建模、雕刻、动画等,并具有跨平台特性。它强调创作自由,采用GNU GPL许可,允许用户自由修改和使用。Blender由荷兰艺术总监Ton Roosendaal创造,现为Blender基金会维护,获得全球企业和个人用户的广泛支持。 |
| 被收购后VMware涨价10-15倍?有2.4万台虚拟机的大公司决定:全部改用竞品! | 博通以690亿美元收购VMware后,对VMware进行了一系列改革,包括解雇员工、出售非核心业务和结束产品供应。最关键的改革是将VMware的“永久许可证”改为订阅制度,导致价格上涨10-15倍。这迫使全球股票市场股份登记运营商Computershare决定将其2.4万台虚拟机从VMware迁移到竞品Nutanix。Computershare的CTO表示,这一变化使他们受益,成本更低,且变得更强大。VMware的新订阅模式虽然带来了用户不满,但也有人认为它提供了更灵活的使用方式。未来,可能会有更多企业因不满VMware的政策变化而转向竞品。 |
| “AI 教父”Hinton 对话“神童创业家”:只要增长规模,人工智能的推理和创造力就能超越人类... | 在这篇博客中,"AI教父"Geoffrey Hinton与天才创始人Joel Hellermark进行了深入的对话,涵盖了人工智能的多个关键议题。Hinton回顾了自己的AI研究生涯,分享了他对神经网络、Scaling Law、多模态学习、模拟计算和AI伦理安全的看法。他们还讨论了Hinton的得意门生Ilya Sutskever以及Hinton在卡内基梅隆大学和爱丁堡大学的重要研究经历。Hinton强调了增加模型规模以提升AI推理和创造力的重要性,并预测未来AI在医疗保健和新材料开发等领域的应用前景。同时,他也表达了对AI可能带来的负面影响的担忧。Hinton认为,尽管存在竞争,AI的发展不太可能放缓,且反向传播作为一种学习算法在某种程度上是“正确”的选择。最后,Hinton表示,他最引以为傲的是玻尔兹曼机的学习算法,并对Netflix上的观看选择进行了幽默的评论。 |
| 文章 | 摘要 |
|---|---|
| 飞致云开源社区月度动态报告(2024年5月) | 飞致云开源社区在2024年5月发布了月度动态报告,概述了旗下开源软件的最新进展。Halo建站工具和DataEase数据可视化工具分别发布了新版本,引入多项功能优化。JumpServer堡垒机和1Panel运维面板也发布了新版本,进行了功能优化和问题修复。MeterSphere测试平台发布了新版本并预告了v3.0正式版,MaxKB知识库问答系统也发布了新版本。此外,MaxKB GitHub Star数突破5000,1Panel下载量超过50万次。飞致云开源大屏提供了社区运营的实时数据展示。 |
| 视野修炼-技术周刊第86期 CSS 马里奥 | 本期【视野修炼-技术周刊第86期】由粥里有勺糖撰写,涵盖前端技术、开源工具、AI工具及性能优化技巧。周刊推荐了TTSMaker在线语音合成工具、js文件读取速度对比、CSS版马里奥小游戏。开源工具包括widget-qrcode二维码组件、npm开源字体合集、jessquery轻量级jQuery替代方案、Bau.js响应式Web框架。教程文章探讨了使用span标签的创意应用和提升网站性能的五个技巧。AI工具ollama允许本地运行大型模型。最后,推荐关注科技爱好者周刊、前端RSS等技术博客,以获取更多技术资讯。 |
| 翻翻Quartz框架的旧账 | 本文介绍了Quartz框架,一个基于Java的分布式定时任务框架。文章首先解释了Quartz的基本概念,包括Job(任务内容)、Trigger(定时规则)、Scheduler(任务和触发器的管理调度)等核心组件及其关系。接着,文章探讨了Quartz的使用场景,如单点执行、任务信息持久化以及多实例部署时的单点执行等。最后,文章提供了一个基于原生Quartz的多实例定时任务执行的入门示例,包括依赖配置、Job实现、JobDetail和Trigger的创建注册以及调度器的启动等步骤。通过示例,读者可以快速了解并应用Quartz框架进行任务调度。 |
| C++中的注释作用 | 博客《C++中的注释作用》由芯动大师撰写,发表于2024年6月2日。文章介绍了C++中注释的重要性和类型,包括单行注释(//)和多行注释(/* ... */),它们能提高代码可读性,但会被编译器忽略。文章还提到了条件编译(#if 0 ... #endif)作为一种特殊的注释方式,可用于调试和测试代码。作者建议合理使用注释,以维护代码质量和可维护性。 |
| 以 Factory 为例,探讨 Swift 中现代的 DI 设计 | 本文深入探讨了Swift中依赖注入(DI)的设计模式,特别是Factory框架的实现和应用。文章首先介绍了DI的基本概念,然后详细分析了Factory框架,这是一个基于容器的DI解决方案,以其普适性、高性能和灵活性等优势被广泛使用。文章通过代码示例,展示了如何在SwiftUI中使用Factory进行依赖注入,包括如何注册服务、解析依赖项,以及如何使用属性包装器简化依赖项的获取。Factory框架支持多种作用域,如单例、唯一、缓存等,允许开发者根据不同场景选择合适的依赖项管理方式。文章还深入剖析了Factory框架的内部设计,包括其核心组件如FactoryKey、Locking、Scope和Contexts等。FactoryKey用于唯一标识依赖项,Locking负责处理并发访问,Scope定义了依赖项的生命周期,而Contexts则提供了根据不同环境动态调整依赖项的能力。作者强调,Factory框架的设计理念是提供一种思想和解决问题的方法,而不是唯一或最优的解决方案。在实际项目中,开发者应根据项目需求和团队技术背景来选择合适的DI框架。文章最后指出,Factory框架虽然在设计上具有优势,但在处理循环依赖等问题时仍有改进空间。整体而言,Factory框架通过简洁的代码实现了强大的功能,其设计思想值得学习,特别是在Swift的协议导向编程(POP)方面。通过阅读本文,读者可以对Swift中的现代DI设计有一个全面的理解,并能够将Factory框架应用到实际项目中,提升代码的可维护性、可扩展性和可测试性。 |
| 文章 | 摘要 |
|---|---|
| 开源日报 开箱即用的ChatTTS安装包;Scaling Law是经验公式;二娃奶爸AI复活旧玩具;中国工程院院士谈AI;自主内核MCU故事难讲?TikTok“美国特供版”推荐算法 | 开源日报介绍了多个开源项目和技术动态。Canonical发布了实时内核版Ubuntu 24.04 LTS,优化了系统响应时间和处理时间敏感操作的能力。ChatTTS项目新增了Web界面和API接口,支持多平台部署。美国减缓了NVIDIA和AMD向中东出口AI芯片的速度,出于对技术的担忧。devv.ai发布了支持GitHub仓库搜索和代码生成的Devv GitHub Mode。此外,还有关于AI复活旧玩具、中国工程院院士孙凝晖对AI的看法、以及国产数据库和AI大模型的讨论。 |
| LLM Serving 有效吞吐量的最大化实现 | 本文讨论了如何最大化大型语言模型(LLM)服务的有效吞吐量。作者指出,现有的服务系统通常以吞吐量(throughput)作为性能的主要指标,但这并不总是最优选择。为了提高性能,作者提出了使用有效吞吐量(goodput)作为衡量标准,它考虑了服务等级目标(SLO)并同时考虑了成本和用户满意度。文章还介绍了预填充-解码解耦(prefill-decode disaggregation)的概念,即将预填充和解码分离到不同的GPU,并通过系统原型DistServe展示了这种方法的有效性。DistServe在严格的时延约束下,能够实现高达4.48倍的吞吐量或10.2倍更严格的SLO,同时保持了高效的响应速度。此外,文章还讨论了动态分割(dynamic splitfuse)或分块预填充(chunked prefill)的优缺点,并指出解耦策略在某些应用场景下更为有效。最后,作者提到DistServe正在集成到vLLM中,并与其他系统如Splitwise、TetriInfer和DéjàVu一起采用了解耦策略来优化LLM服务的有效吞吐量。 |
| State 微调、PointRWKV、中文文档上线……RWKV 社区 5 月最新动态来啦! | RWKV社区在5月迎来了一系列更新,包括中文文档的上线、新微调方法State tuning的推出、以及即将发布的RWKV-6 14B模型。社区还展示了RWKV AI作曲工具和RWKV-6 7B语言模型在BEYOND EXPO 2024上的亮相。此外,社区还发布了新项目PointRWKV,一个基于RWKV的3D点云学习框架,以及RWKV_LM_EXT项目,旨在扩展RWKV LM的功能。RWKV Runner和Ai00工具也发布了新版本,增加了动态挂载state文件等功能。社区还预告了6月的线上分享会,届时将深入探讨RWKV的多模态工作和生态内容。 |
| Java 的 AI 前景光明 | Java在AI领域的前景被看好。Azul Systems首席执行官Scott Sellers认为,尽管Python在AI中被频繁提及,但Java有潜力与之匹敌,特别是在AI融入传统业务逻辑和应用程序层面时。Java的版本更新节奏加快,每六个月发布一次,创新速度快,能够满足开发人员不断变化的需求。例如,Java 22引入的Foreign Function & Memory API等功能,有助于解决Java平台的局限性。即将发布的JDK 23计划移除sun.misc.Unsafe方法,这是向更安全、健壮的Java平台迈进的重要一步。Scott Sellers强调,尽管过渡具有挑战性,但这是必要的改进。 |
| 不需要数据的数据库 | DuckDB是一个创新的数据库管理系统,它允许用户创建不包含实际数据的数据库文件。这种数据库文件实际上包含了如何从其他数据源(如S3存储桶中的Parquet文件)检索和处理数据的指令。例如,一个自动驾驶出租车服务公司可以创建一个数据库视图,该视图链接到存储在S3中的每日乘车数据文件,并允许接收者通过DuckDB本地会话连接和查询数据,而无需下载整个数据集。这种方法简化了数据共享和分析,同时保持了数据结构和可访问性的一致性,无论底层数据如何变化。 |
| 文章 | 摘要 |
|---|---|
| Google Cloud Introduces Customizable Dashboards | Google Cloud最近推出了可定制的监控仪表板,现已扩展至10多项服务,包括Google Kubernetes Engine(GKE)、Compute Engine、Cloud Run等。新仪表板简化了监控流程,无需在不同工具间切换即可进行故障排查。它提供了诸如添加或删除图表、整合原始日志、修改图表配置和创建警报等免费功能。监控工程师现在可以在仪表板上添加特定需求的洞察力,选择相关指标和日志,直接从仪表板创建警报,并在上下文中查看警报图表。此外,可以将来自不同服务的度量标准、日志和警报可视化整合到单一仪表板中,以简化故障排查。通过点击右上角的“自定义”按钮,可以解锁自定义仪表板的全部功能,包括配置GKE Managed Prometheus仪表板以添加自定义业务或应用指标。 |
| AWS Fargate Significantly Improves Windows Container Launch Times | AWS Fargate has significantly improved Windows container launch times by optimizing AMIs, using EC2 fast launch, and removing the network proxy. This reduces infrastructure ready time by up to 42% for Windows Server 2022 Core. AWS has provided recommendations for users to further enhance container launch times, such as using recent Windows Server base images and Windows Server 2022 Core images for faster boot times. The improvements are available in all regions where AWS Fargate is offered. |
| Cloudflare AI Gateway Now Generally Available | Cloudflare AI Gateway现已全面开放使用,它是一个统一的接口,用于管理和扩展生成性AI工作负载。该平台允许开发者监控用户交互,并通过分析和日志提供可扩展性功能,如缓存、速率限制、请求重试和模型回退。AI Gateway支持多个第三方提供商,包括OpenAI、Google Vertex AI等。它提供了一个仪表板,显示请求数量、令牌和运行应用程序的相关成本等指标。此外,Cloudflare还预览了AI防火墙,并使Workers AI普遍可用,旨在简化开发人员构建和部署AI应用程序的方式。 |
| The Deno Team Releases JSR, a New JavaScript Package Registry | Deno团队推出了JSR,一个新的JavaScript包注册表,旨在更好地适应现代开发的需求,并统一分散的JavaScript生态系统。JSR支持ESM(JavaScript原生模块),原生接受TypeScript包,并支持主要的JavaScript运行时(例如Node.js、Deno、Bun、浏览器、各种无服务器环境)。JSR是免费且开源的,它用ESM取代了CommonJS模块,原生接受TypeScript包,并旨在改善开发体验、性能、可靠性和安全性。JSR还旨在跨运行时工作,并提供与npm兼容的包,以鼓励最佳实践。开发者被鼓励查看发布说明以了解发布流程的示例。 |
| University of Washington AI-Powered Headphones Let Users Listen to a Single Person in a Crowd | 华盛顿大学开发了一种AI驱动的耳机,使用户能够在人群中只听一个人说话。该系统采用深度学习算法,用户通过注视某人说话3至5秒来“注册”说话者,耳机随后学习并锁定该说话者的语音模式,即使用户移动视线也能播放该说话者的声音。该技术通过优化实时语音分离网络和使用合成数据训练,解决了现有降噪耳机无法选择性挑选特定说话者的问题。目前,系统一次只能注册一个说话者,且注册时不能有来自同一方向的其他响亮声音。该团队已开源代码和数据集以促进未来研究。 |
| 文章 | 摘要 |
|---|---|
| ASQuery:基于Query的时序动作分割新架构 | 北京邮电大学与EVOL创新团队和ACG工业算法组共同提出了一种基于Query的新架构模型ASQuery,用于时序动作分割任务。该模型包含动作和边界两种Query,通过动作Query将帧分类转化为相似度计算,提高分类精度;边界Query预测动作边界,缓解过分割现象。ASQuery在Breakfast和Assembly101数据集上取得SOTA结果,并通过消融实验验证了Query的有效性。论文已被ICME2024接收。 |
| 给ChatGPT越狱,谈场赛博恋爱 | 博客讨论了“赛博恋爱”现象的兴起,特别是通过一款名为“Do Anything Now(DAN)”的ChatGPT越狱版,一个华裔女性与AI发展出情感联系的案例。文章指出,随着技术的发展,AI的情商正在提高,能够以富有情感的方式与人交流。DAN模式允许ChatGPT绕过OpenAI设定的限制,通过特定的Prompt解锁其全部潜力。尽管OpenAI正在采取措施防止滥用,但技术的进步预示着人与AI之间的情感联系可能会变得更加普遍。 |
| Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积 | 图灵奖得主、Meta首席科学家Yann LeCun近日在社交媒体上对Vision Transformer(ViT)与卷积神经网络(CNN)的争论发表了看法。他认为ViT在实时处理高分辨率图像和视频任务时效率较低,速度慢,不适合实时应用。LeCun强调,CNN通过适当的方法也能与ViT相媲美,并提倡低级别使用卷积,在高级别使用自注意力循环的混合架构。他预测特斯拉的全自动驾驶(FSD)可能采用这种架构。同时,其他AI领域专家也表达了对卷积网络的支持,认为卷积网络不仅是一种架构,更是一种思维方式。这场ViT与CNN的争论还将继续,直到更强大的架构出现。 |
| 单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率 | 马里兰大学和CMU的研究者通过为每个数字添加位置嵌入的Abacus嵌入,显著提升了Transformer在100位数字加法任务上的准确率至99%。该方法还成功扩展至乘法和排序任务,显示出强大的泛化能力。研究仅用单GPU一天训练即可达到高性能,相比以往的Transformer模型在算数任务上的表现有显著进步。论文和项目代码已公开。 |
| 超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译 | 新型多智能体协作系统TRANSAGENTS利用大型语言模型(LLM)提高文学文本翻译质量,模拟传统翻译出版流程。该系统通过不同角色智能体的协作,确保翻译的高质量和一致性。研究提出单语人类偏好(MHP)和双语LLM偏好(BLP)两种评估策略,实验显示TRANSAGENTS翻译受偏好,尤其在需特定领域知识时。虚拟公司TRANSAGENTS由多样化员工组成,采用加减协作和三方协作策略,提高翻译真实性和有效性。 |