目的

本系列文章主要是用于持续跟踪最新的AI产业情况，让你减少知识焦虑。

看点

谷歌在AI领域的下一个大事件-模型Gemini超越了ChatGPT 😲
OpenAI“宫斗”正酝酿第二季：Ilya已一周未去公司，且聘请了律师 🤨
Gemini多模态时代开启！DeepMind CEO揭秘超进化体融进AlphaGo，明年面世 🚀
Pika 1.0首测秒杀Gen-2！网友抢先体验电影级炸裂效果，背后技术细节首次公开 🎬
谷歌OpenAI大模型巅峰对决！Gemini激战GPT-4，数学代码却惨遭碾压 ⚔️
Gemini AI演示是假的：不是实时的，也没有语音命令 🤥
Gemini驱动的Google Bard实地评测 🕵️‍♂️
首个开源MoE大模型发布！GPT-4同款架构，来自欧洲的OpenAI 🌐
谷歌Gemini被曝夸大营销？碾压GPT4纯靠“一张嘴” 🤭
揭秘OpenAI CEO被开除的真实原因，奥特曼做错了什么？ 🕵️‍♂️

产业资讯

极智芯 | 解读国产AI算力灵汐产品矩阵

灵汐是全球首个成功研发异构融合类脑芯片的AI芯片公司，兼容冯诺依曼和类脑计算模型。类脑计算以人脑神经元结构为基础，追求在芯片架构上接近人脑，具有在功耗和学习能力上的优势。灵汐产品矩阵包括处理器、模组、板卡和服务器，涵盖云、边和端多个算力场景。
领启 KA200(-S)是灵汐类脑芯片的代表，集成异构融合架构，支持深度学习、生物神经网络和大规模脑仿真。模组级的HM100基于KA200(-S)，在边缘系统中提供48 TOPS@INT8；24 TFLOPS@FP16的算力。灵汐的推理板卡分为HP100、HP201和HP300，根据芯片数量和性能差异，适用于不同的推理场景。
边缘计算设备如HS100-L、HS100、HS110和HS140基于领启KA200(-S)，在边缘场景中超越英伟达Jetson AGX Xavier的算力。产品形态和外设配置区分不同级别，满足各种应用场景需求。

原文链接:https://juejin.cn/post/7310101033635905599

传NVIDIA与马来西亚YTL就数据中心交易进行谈判，在大马建设AI基础设施

英伟达与马来西亚企业YTL深入谈判，计划合作涉及云基础设施，可能以YTL在柔佛州的数据中心为基础。该州与新加坡相邻，成为英伟达东南亚业务的关键枢纽。
英伟达首席执行官黄仁勋访马期间透露，YTL在东南亚计算基础设施方面发挥关键作用，强调可能在新加坡或马来西亚进行人工智能基础设施项目，并暗示公司将在新加坡宣布重大投资。该公司在新加坡的营收在最近季度同比增长401%，显示东南亚对英伟达的重要性正在提升。
黄仁勋还指出英伟达正与马来西亚80家初创公司合作，突显了公司在该地区的全面布局和对技术创新的扶持。

原文链接:https://m.cnbeta.com.tw/view/1403147.htm

美国联邦贸易委员会正在调查微软与OpenAI的财务合作关系

美国联邦贸易委员会初步调查微软与OpenAI的财务合作关系，涉及可能违反反垄断法。微软曾数次与FTC打官司，包括阻止动视暴雪收购。英国竞争和市场管理局也在考虑调查此事，关注合作是否影响人工智能领域竞争。
微软投资数十亿美元于OpenAI，最近成为其无投票权董事。合作关系备受关注，FTC试图就微软收购动视暴雪提出竞争威胁，法庭裁决仍未定。调查将探究这两家公司是否保持独立性，不损害人工智能领域竞争。
调查的焦点在于美国反垄断法是否被违反，微软与OpenAI的财务合作是否威胁人工智能领域竞争。此次联邦贸易委员会的初步调查或许会影响两家公司未来的合作动向，也引发了英国竞争和市场管理局的审视。

原文链接:https://m.cnbeta.com.tw/view/1403085.htm

德国出版巨头阿克塞尔-施普林格将关闭Upday，转向AI新闻发布形态

德国出版巨头阿克塞尔-施普林格计划关闭新闻媒体Upday，将其打造成人工智能驱动的"趋势新闻生成器"。该转型计划将在今年年底完成，新服务预计于2024年夏季推出。此举导致Upday的员工岗位减少，由150人减至70人，公司表示这一转型是为了探索人工智能为新闻业带来的机遇。
Upday曾在三星手机等设备上预装，业务扩展到34个欧洲国家。阿克塞尔-施普林格旗下拥有《图片报》、《世界报》和Politico等媒体，计划从印刷媒体向数字新闻转型。公司发言人表示在转型过程中，将研究员工是否能在集团其他地方继续工作。
该转型引发关注，探讨人工智能在新闻行业的前景。阿克塞尔-施普林格着眼于新机遇，将Upday重新定位为更具未来感的趋势新闻生成器，成为人工智能与新闻行业融合的一次尝试。

原文链接:https://m.cnbeta.com.tw/view/1403149.htm

OpenAI内斗第二季：Ilya一周没去办公室，还请了私人律师

OpenAI内部动荡，前首席科学家Ilya的去留未定，引发业界瞩目。奥特曼被指心理“虐待”员工，公司混乱不堪。尽管奥特曼表示对Ilya零恶意，但Ilya已连续一周未去办公室，聘请了私人律师。
奥特曼被解雇前，董事会收到员工投诉，指责奥特曼在心理上“虐待”员工，制造公司混乱。投诉触发了对奥特曼行为的审查，董事会考虑了员工的担忧，其中一位员工称担心遭到奥特曼的报复。
公司内部团结瓦解，奥特曼支持者破坏董事会决定，员工面临同行压力签署辞职信。奥特曼回归的未定因素引发投资协议的不确定性，可能影响员工的股权出售计划。

原文链接:http://www.qbitai.com/?p=105132

1204 - 1208 早早聊 AI 资讯｜Gemini 超越 GPT-4 问鼎最强大模型、谷歌 Gemini 刚发就惹质疑、斥资 5100 万美元...

OpenAI前CEO萨姆·阿尔特曼因协议可从Rain AI购买AI芯片，涉及5100万美元交易，旨在购买NPU芯片，首批将于明年10月上市。同时，OpenAI推迟GPT商店上线至明年初，强调ChatGPT改进和定制GPT平台功能提升。OpenAI首席执行官山姆·奥尔特曼透露公司正在重新考虑混合盈利和非营利结构，董事会认真评估公司最适合使命的结构。
谷歌推出Gemini大模型，超越GPT-4，Gemini Ultra在多领域性能上超越，Gemini Pro将整合到Google产品中，Gemini Nano将进入Pixel手机。AMD发布Instinct MI300X GPU，性能超越英伟达H100，2024年AI芯片市场竞争激烈。TCL华星发布半导体显示大模型星智X-Intelligence，超越GPT-4，服务于内部员工。
腾讯混元大模型升级，全面超过GPT3.5，文生图功能对外开放，180个腾讯业务接入。QQ浏览器推出基于腾讯混元的PDF阅读助手。腾讯在算法、框架到AI基础设施全链路自研，模型稳定性和可靠性稳步提升。

原文链接:https://juejin.cn/post/7310034974425186356

Avail希望说服好莱坞使用AI来整理剧本

一家新创公司Avail宣布其剧本摘要平台的beta版正式上线，基于OpenAI的GPT-4构建。Avail声称其AI工具经过精细调整，几乎没有错觉，并提供轻松文档扫描，无需先在用户数据上进行训练，无长度限制，具有高安全性。经过30天的免费试用，订阅费用为每月250美元。
Avail的AI工具旨在给剧本读者提供超强的10倍输出能力，类似于上世纪80年代Excel为会计所取得的成就。该解决方案提供了显著的生产力提升。然而，即使使用Avail，剧本分析仍然需要人类判断，使剧本读者有更多时间进行评估创意质量和提交的潜力等深思熟虑的工作。
随着越来越多的项目面向电影、电视和视频游戏公司，致力于帮助娱乐行业工作者在更短的时间内以更低的成本完成更多工作，形成了一个小型产业。Avail正在与合作伙伴合作，包括Range Media Group，开发面向娱乐行业执行层的“全面工具套件”。

原文链接:https://decrypt.co/209135/ai-to-sort-summarize-movie-tv-scripts-avail

AMD宣布推出AI芯片，与Nvidia竞争

AMD正式宣布MI300X，专为面向人工智能服务器设计，将在明年迎来重要里程碑。该芯片集成了190GB的超先进内存HDM3，已得到Microsoft、OpenAI和Meta等公司的承诺用于AI训练和处理。
在AI领域，NVIDIA长期以来一直领先云服务，而许多科技公司寻求成本更低、灵活性更大的替代方案。AMD的MI300被认为是NVIDIA的明显挑战者，OpenAI在其编程系统Triton 3.0中利用MI300，Meta在数据中心中使用，Microsoft则在云计算领域Azure中使用。
MI300X被称为加速生成式AI的内存带宽，并在LLM训练和推理方面再次取得领先性能。AMD的新一代AI-SoCs旨在处理AI应用程序中的大量工作负载，直接挑战目前市场领导地位的H100 AI芯片。预计美国AI市场在2032年将达到5940亿美元，年复合增长率为19.1%。

原文链接:https://openaimaster.com/?p=28237

消息称FTC正调查微软和OpenAI关系，评估其是否违反美国反垄断法

美国联邦贸易委员会(FTC)正在初步调查微软和OpenAI之间的金融伙伴关系，评估是否违反美国反垄断法。尚未展开正式调查。
英国竞争和市场管理局(CMA)宣布调查微软和OpenAI的合作伙伴关系，旨在评估其对英国AI领域竞争的影响，征求公司和第三方意见。
微软回应CMA称，在保持公司独立性的前提下，与OpenAI的关系促进了AI领域的竞争。OpenAI首席执行官阿尔特曼已回归，微软在非营利董事会中将获得观察员席位。

原文链接:https://www.ithome.com/0/738/092.htm

谷歌趁OpenAI内讧重组AI团队，挖来硅谷最高华人高管Bill Jia

Google最近进行AI团队的内部重组，创建了代号为“Core AI”的新部门，并成功挖来了华人高管Bill Jia，目前是Meta的工程高级副总裁。Bill Jia在Meta主导了AI/ML基础设施的发展，尤其以开源架构为重要方向。
Bill Jia的加盟可能是Google对OpenAI的战略反击的一部分。他强调开源在AI模型发展中的关键作用，并预测未来大模型将注重新的架构，特别是对时间关联性的处理。这或许意味着Google将以开源架构为侧重，对抗竞争对手，可能首当其冲的是Meta。
此次AI团队的调整和Bill Jia的加入引起了业界广泛关注，特别是在当前AI领域竞争激烈的背景下，公司之间的人才争夺变得尤为重要。

原文链接:http://www.qbitai.com/?p=105117

Gemini AI演示是假的：不是实时的，也没有语音命令

谷歌宣布推出最新的多模态AI模型Gemini，但在YouTube发布的演示视频中引起了争议。该公司的母公司Alphabet宣布Gemini AI后股价上涨5.3%，承诺通过超越微软支持的OpenAI GPT-4 AI模型，在AI领域取得重大突破。然而，Gemini的演示视频引发了许多质疑，让人怀疑其中的真实性。
Gemini由谷歌DeepMind的Brain部门开发，与Meta AI LLaMA 2和GPT 3.5相近，甚至在特定任务上表现更好。Gemini在30项最受欢迎的行业基准测试中超越其他AI，包括OpenAI的GPT-4模型。谷歌发布了三个不同规模的Gemini版本，分别是Ultra、Pro和Neo，适用于不同的任务和需求。
然而，Gemini的演示视频被指出是虚假的，不是实时或使用语音命令。谷歌承认在演示中对延迟进行了处理，并缩短了Gemini的输出。演示引发了关于Gemini能力的成本和实际效果的担忧，以及对AI技术可能带来的社会和经济影响的忧虑。

原文链接:https://openaimaster.com/?p=28231

AI如何改变健身行业

作为体育行业的初创创始人，了解过去十年人工智能在健身软件中的潜力是很有必要的。然而，将人工智能融入健身应用仍然可能令人困惑，尤其是如果你之前没有接触过人工智能。今天，我们想总结一下人工智能技术对健身应用的潜在贡献，并通过一些实际案例说明其应用。
虚拟教练应用通过实时分析运动记录，利用计算机视觉和运动分析。用户使用智能手机或可穿戴设备记录他们的锻炼，捕捉视频或运动数据。人工智能算法提取关键点并跟踪动作，评估形式和生物力学。通过与专家意见或数据集基准的比较，应用提供个性化、实时的反馈。这有利于那些无法亲自接触教练的用户，提高了锻炼技巧和指导水平。
由体育科技初创公司BeONE Sports 开发的应用是为运动员提供先进专业培训的典型代表。其中一个创新功能是“比较训练”，允许运动员将其身体力学和姿势与理想训练的代理进行比较。通过使用这个应用，运动员可以学习和提高他们的技术，以获得更好的表现。

原文链接:https://hackernoon.com/how-ai-transforms-the-fitness-industry?source=rss

英国调查Microsoft-OpenAI，欧盟就AI法案达成一致

英国竞争与市场管理局（CMA）正在考虑对微软和OpenAI的合作进行反垄断调查，截至1月3日接受意见。微软将在OpenAI董事会拥有一个非投票观察员，与Google收购DeepMind的方式有本质区别。
美国联邦贸易委员会正在审查微软对OpenAI的投资性质，可能涉及反垄断法违规，但尚未正式调查。欧盟已达成AI法案协议，旨在限制技术使用，但仍需通过几个步骤获得批准。
OpenAI领导人之间的投诉，指控Sam Altman存在心理虐待行为，成为OpenAI董事会解雇Altman的重要因素。

原文链接:https://www.ofweek.com/ai/2023-12/ART-201717-8420-30619250.html

欧盟就监管生成式AI工具达成初步协议：迄今为止同类“最全面”规则

欧盟官员达成了《人工智能法案》临时协议，成为全球最全面监管 AI 的法案。该法案将对生成式AI如ChatGPT和Bard进行管控，标志着欧盟在机器学习领域迈出关键一步，规定了AI在教育、就业、医疗等领域的应用。
该法案将AI发展分为四类，从最小风险到禁止，涵盖了对用户意愿的规避、针对受保护群体或实时生物特征跟踪的禁止行为。高风险应用包括用作产品安全组件、关键基础设施、教育、法律/司法事务和员工招聘等特定领域。聊天机器人如ChatGPT和Bard属于“有限风险”。
欧盟强调AI应为人类服务，法规应“以人为本”，确保技术使用安全合法，为人类谋求福祉。

原文链接:https://www.ithome.com/0/738/093.htm

欧盟就AI发展达成历史性的监管协议

欧盟立法者历经72小时辩论，达成历史性的AI安全法规协议，成为迄今为止最广泛和深远的协议。该法规将规定未来机器学习模型在贸易联盟内的开发和分发方式，涵盖教育、就业和医疗等领域的应用。根据潜在社会风险的程度，AI开发将分为四个类别：最小、有限、高风险和禁止。
禁止使用包括绕过用户意愿、针对受保护群体或提供实时生物识别追踪（如面部识别）的任何内容。高风险使用包括任何“旨在用作产品安全组成部分”的内容，或用于关键基础设施、教育、法律/司法事务和雇佣等特定应用。ChatGPT等聊天机器人属于“有限风险”范畴。
欧盟委员会通过风险导向的方式着手处理新兴技术，类似于加拿大提出的AI监管框架。法规起草强调人本主义，将人置于中心，追求安全、合法使用技术，同时保持平衡、比例适当，不不必要地限制或阻碍技术发展。

原文链接:https://www.theverge.com/2023/12/8/23991850/eu-ai-act-artificial-intelligence-regulation-provisional-deal-law-brussels

揭秘OpenAI CEO被开除的真实原因，奥特曼做错了什么？

OpenAI董事会经过深思熟虑决定开除奥特曼，原因并非单一事件，而是长期紧张的关系、策略性行动和缺乏透明度等问题的积累。这一决定经过几个月的讨论，而非突发事件。
今年10月，奥特曼试图解除海伦·托纳的董事身份，因其对OpenAI安全做法提出批评。奥特曼在与董事的讨论中歪曲了观点，暗示其他董事同意他的看法，展现出操纵行为模式。最终，董事会认为奥特曼在沟通中不够坦诚，解雇决定产生了一场权力斗争。
在宣布解雇奥特曼时，OpenAI董事会未透露具体原因，引发了一场幕后权力斗争。奥特曼曾提出公开道歉并承认歪曲董事观点，但董事会认为问题更为严重，担心公开道歉可能让解雇原因变得模糊。董事会表示期待独立审查结果。

原文链接:https://m.cnbeta.com.tw/view/1403163.htm

斯坦福和Meta朝着表现人类的AI迈进，采用新的‘CHOIS’交互模型

斯坦福大学和脸书人工智能研究实验室（FAIR）的研究人员开发了一款突破性的人工智能系统，能够仅基于文本描述在虚拟人和物体之间生成自然同步的动作。这个名为CHOIS（Controllable Human-Object Interaction Synthesis）的新系统采用了最新的条件扩散模型技术，可以产生如“将桌子举过头部，行走，然后放下桌子”等无缝而精确的交互。
CHOIS系统以其在三维环境中合成人物-物体交互的独特方法脱颖而出。CHOIS核心采用条件扩散模型，这是一种能够模拟详细运动序列的生成模型。给定人和物体位置的初始状态以及所需任务的语言描述，CHOIS生成一系列动作，最终完成任务。
CHOIS的独特之处在于其使用稀疏物体路标和语言描述来引导这些动画。这些路标充当物体轨迹中关键点的标记，确保动作不仅在物理上可行，而且与语言输入所概述的高层目标一致。CHOIS的独特之处还在于它在语言理解和物理模拟方面的先进整合，通过解释语言描述背后的意图和风格，将其转化为符合人体和涉及物体约束的物理运动序列。

原文链接:https://venturebeat.com/ai/stanford-and-meta-inch-towards-ai-that-acts-human-with-new-chois-interaction-model/

OpenAI“宫斗”正酝酿第二季：Ilya已一周未去公司，且聘请了律师

OpenAI "宫斗大戏"第一季告一段落，阿尔特曼回归后，关键人物苏茨克维未现身办公室，暗示不确定因素。阿尔特曼未安排苏茨克维职位，员工团结动荡，可能面临内部不满与分歧。
苏茨克维持续一周多未现身OpenAI，雇佣律师担任诉讼主席，员工分裂，一部分不满其在罢免事件中角色，另一部分支持。公司内部氛围紧张，员工甚至签署联名辞职信。
"宫斗"第二季或即将上演，OpenAI面临领导层动荡，阿尔特曼的回归并未带来统一，而是带来了内部的困扰与裂痕。

原文链接:https://www.ithome.com/0/738/142.htm

产品介绍

Microsoft的Edge Copilot AI无法真正总结每段YouTube视频

微软Edge浏览器的AI Copilot最新加入的功能之一是能够生成视频的文本摘要。然而，该功能相对有限，仅适用于经过预处理的视频或带有字幕的视频，需要注意的是，它实际上更注重于生成视频的文本转录的摘要。
Edge Copilot不仅可以在Microsoft 365中执行类似功能，还可以为Teams视频会议和客服呼叫进行摘要，但在这两种情况下，需要先由Microsoft转录音频。而在Microsoft Stream上，Copilot同样可以为任何视频生成摘要，但同样需要用户生成书面转录。
设计师Pietro Schirano发布了一段Edge Copilot摘要YouTube视频的屏幕录制后引起了关注。在这个案例中，Copilot似乎完美地完成了其工作。用户在录制中按下Copilot边栏的“生成视频摘要”按钮，仅几秒钟后，Copilot生成了一个完整的摘要，包括亮点和时间戳。

原文链接:https://www.theverge.com/2023/12/8/23994303/microsoft-copilot-ai-edge-video-summary-youtube-transcript

谷歌OpenAI大模型巅峰对决！Gemini激战GPT-4，数学代码却惨遭碾压

在Gemini和GPT-4的对决中，Gemini Pro在编程水平方面表现出巨大进步，但在笑话创作上，GPT-4显露出更多原创性。在数学问题上，GPT-4的逻辑清晰、准确度更高。Gemini和GPT-4在事实检索和创意写作上都有各自闪光点，但ChatGPT整体性能依然领先。
对于电子游戏发明者的问题，Gemini Pro提供了更详细、准确的信息，但在创意写作中，GPT-4在故事情节的构建和细节上表现更为生动，通过对比可以看到模型之间的特长和局限性。
由Gemini Pro和GPT-4展开的模型对比，表明Gemini在多个领域迎头赶上，但ChatGPT依然在综合表现上保持领先地位，两者之间的差距在缩小。

原文链接:http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+%E8%B0%B7%E6%AD%8COpenAI%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%B7%85%E5%B3%B0%E5%AF%B9%E5%86%B3%EF%BC%81Gemini%E6%BF%80%E6%88%98GPT-4%EF%BC%8C%E6%95%B0%E5%AD%A6%E4%BB%A3%E7%A0%81%E5%8D%B4%E6%83%A8%E9%81%AD%E7%A2%BE%E5%8E%8B

首个开源MoE大模型发布！GPT-4同款架构，来自欧洲的OpenAI

Mistral AI发布了首个开源MoE大模型，采用专家混合架构（MoE），成为GPT-4预演。模型名为Mistral-7Bx8 MoE，基于Mistral-7B，使用Apache-2.0开源协议。该模型通过选择每个token的前两个最相关专家处理，成为深度学习会议NeurIPS前的燃点话题。MoE对本地运行不友好，但在云端部署可为公司处理并发需求带来成本优势。
Mistral AI创始人来自DeepMind和Meta，最新融资4.87亿美元，估值近20亿美元。CEO Arthur Mensch提到，小模型支持更多有趣应用，而降低计算成本则是构建更多有趣应用的关键。公司于5月成立，通过磁力链接发布的开源模型Mistral-7B和MoE模型引发广泛关注，成为深度学习领域的新宠。
Mistral AI的开源模型引发了AI社区的活跃讨论，成为NeurIPS前的热点。模型采用MoE架构，对比单体Mistral-7B展现更强性能。公司积极推动深度学习技术发展，为AI领域带来新思路。MoE模型的推出标志着大型模型进入新阶段，同时也引发了对计算成本和应用场景的思考。

原文链接:http://www.qbitai.com/?p=105154

Pika 1.0首测秒杀Gen-2！网友抢先体验电影级炸裂效果，背后技术细节首次公开

Pika 1.0是一款引人惊喜的AI视频生成工具，通过文本创作，用户可轻松制作出高质量的动漫、卡通和电影效果。其最新研究介绍了DreamPropeller方法，将文本到3D生成速度提升4.7倍，彰显了其技术创新实力。
该工具不仅擅长动漫风格，还能实现真人变身、AI魔法棒一键替换和画布扩展等强大功能。用户可在短时间内创作出电影级效果，展现了Pika 1.0在图像生成领域的领先地位。其技术细节中，DreamPropeller方法的应用为文本到3D生成提供了更高效的解决方案。
Pika 1.0在人工智能应用排名中位列前茅，显示了其在图片生成和视频生成领域的巨大影响。其成为下一个视频生成的顶流，为用户提供了强大而创新的创作工具。

原文链接:http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+Pika%201.0%E9%A6%96%E6%B5%8B%E7%A7%92%E6%9D%80Gen-2%EF%BC%81%E7%BD%91%E5%8F%8B%E6%8A%A2%E5%85%88%E4%BD%93%E9%AA%8C%E7%94%B5%E5%BD%B1%E7%BA%A7%E7%82%B8%E8%A3%82%E6%95%88%E6%9E%9C%EF%BC%8C%E8%83%8C%E5%90%8E%E6%8A%80%E6%9C%AF%E7%BB%86%E8%8A%82%E9%A6%96%E5%85%AC%E5%BC%80

Gemini驱动的Google Bard实地评测

谷歌发布了Gemini Pro，GPT-4的竞争对手。Gemini Pro相比先前的PaLM 2提供更好的性能，虽然并非GPT-4杀手。
在事实准确性测试中，Google Bard超过ChatGPT，提供更准确的回答和支持信息。然而，在逻辑推理中，Gemini Pro与GPT-3.5和GPT-4水平相当。
社交媒体责任问题上，Gemini Pro呈现更全面、深入的观点，考虑言论自由、平台责任、用户教育等多个方面。与ChatGPT相比，Gemini Pro在对待复杂问题上表现更为出色。

原文链接:https://ilikekillnerds.com/?p=11716

Gemini多模态时代开启！DeepMind CEO揭秘超进化体融进AlphaGo，明年面世

谷歌Gemini模型，即将于2024年推出，展示了惊人的多模态能力。结合AlphaGo深度强化学习技术，Gemini在文本、图像、语音等多领域表现出色。Gemini Ultra版本在YouTube数据上深度训练，可从视频中推断静态图像，并以交错文本和图像生成的方式作出响应。
Gemini在多种应用场景下展现卓越表现，包括语音识别、图像理解、甚至能看懂魔术。Gemini Nano版本更是将大模型能力拓展到移动端，为Pixel 8 Pro手机提供智能功能，如AI总结录音和智能回复。Gemini的发布被认为是人工智能领域迈向多模态、物理互动的重大进展。
谷歌DeepMind的领导人Demis Hassabis表示，Gemini是迈向多模态模型的一大步，与传统模型不同，Gemini能够处理不同形式的数据，包括文本之外的信息。该模型的未来版本将迎来超强进化，标志着人工智能领域的新一轮突破。

原文链接:http://weixin.sogou.com/weixin?type=2&query=%E6%96%B0%E6%99%BA%E5%85%83+Gemini%E5%A4%9A%E6%A8%A1%E6%80%81%E6%97%B6%E4%BB%A3%E5%BC%80%E5%90%AF%EF%BC%81DeepMind%20CEO%E6%8F%AD%E7%A7%98%E8%B6%85%E8%BF%9B%E5%8C%96%E4%BD%93%E8%9E%8D%E8%BF%9BAlphaGo%EF%BC%8C%E6%98%8E%E5%B9%B4%E9%9D%A2%E4%B8%96

谷歌在AI领域的下一个大事件-模型Gemini超越了ChatGPT

谷歌宣布推出最新的AI模型Gemini，具备人类般的行为，引发对技术如何潜在影响人类任务的讨论。Gemini是谷歌迈出的一大步，是一款多模态模型，能处理混合输入，在关键基准测试中超过了人类专家。它不仅在特定任务上超越了OpenAI的GPT 3和Meta的LlaMA 2等基础AI模型，还驱动着谷歌的各种AI功能和服务，包括Google助手。Gemini相比前一代AI模型更先进，能够处理复杂情境。
Gemini是一款先进的生成型AI模型，训练成能模仿人类且胜过GPT-4的模型。它将驱动谷歌的AI服务和功能。与其他专为特定任务构建和训练的AI模型（如OpenAI的DALL-E用于图像生成，GPT用于文本生成，Whisper用于音频）不同，Gemini是从零开始构建的，能够同时处理文本、照片和视频，实现多模态。
Gemini系列包括三个版本：Ultra、Pro和Nano，分别优化用于不同任务。Ultra是最先进的AI模型之一，计划于明年初发布，在处理复杂任务方面表现出色。Gemini Ultra能够同时理解文本、照片和视频，提供多模态聊天机器人体验，具有出色的图像基准、本地多模态和复杂推理能力。Gemini将通过Gemini API提供给开发者和企业，以及通过Google云许可Gemini Ultra用于付费的AI服务。

原文链接:https://openaimaster.com/?p=28221

谷歌Gemini被曝夸大营销？碾压GPT4纯靠“一张嘴”

谷歌Gemini被指夸大宣传，交互非实时感知。Gemini在短时间内涉嫌虚假宣传，视频交互存在后期制作和剪辑，引发质疑。Gemini无法直接理解动作视频，只能处理静态图片，实际操作依赖多张图片和良好提示词。
Gemini宣传跑分优势，但测试标准不一致。Gemini声称在32项标准中碾压GPT-4，但实际比较存在问题。Gemini Ultra得分90%是基于思维链的方式，而GPT-4的86.4%得分基于不同标准，引发公平性疑虑。
谷歌Gemini似乎仓促发布，是否为应对OpenAI GPT-4的挑战？Gemini发布前后谷歌市值大幅增加，与OpenAI形成竞争态势。Gemini的推出或许是在利用OpenAI内部动荡时期寻求市场突破。

原文链接:https://www.ofweek.com/ai/2023-12/ART-201717-8420-30619250.html

OpenAI称已收到GPT-4“变懒”的反馈，但一个月还没修好

OpenAI的GPT-4大语言模型近期面临用户投诉，部分用户反映在使用ChatGPT或GPT-4 API时，遇到高峰期速度极慢，出现敷衍回答、拒绝回答和中断会话等问题。这种问题常常表现为用户请求输入代码，模型只提供部分信息，然后指示用户自行完成剩余部分，甚至建议用户自行完成工作。
据外媒报道，ChatGPT官方承认GPT-4存在变得懒惰的问题，自11月11日以来未更新模型，但并未公开解决方案。用户在使用AI语言模型时，可能面临其行为的不可预测性，OpenAI承诺持续修复GPT-4的问题，但截至目前尚未解决。
IT之家将继续关注GPT-4的修复进展，目前尚不清楚问题的具体原因和解决时间。

原文链接:https://www.ithome.com/0/738/089.htm

技术教程

搭建私有GPT-4 Turbo无需代理（Azure OpenAI）

申请 Azure OpenAI API 使用资格的关键步骤包括使用企业邮箱、准备订阅 ID，并填写申请表。注意企业邮箱需为个人域名，订阅 ID 可以通过 Azure 搜索获取。
部署 Azure Open AI 包括创建实例、部署模型和获取 API 信息。在创建实例时，需关注实例区域的选择，因为不同区域对应不同的 Open AI 模型。通过 Chat --> View Code 获取 API 信息。
部署客户端涉及选择开源客户端、配置必要环境变量、选择部署方式，如部署到私人服务器。使用 ChatGPT-Next-Web 时，配置 Azure OpenAI 的环境变量，注意保护 API Key 和设置访问密码。

原文链接:https://juejin.cn/post/7310147188251279379

谷歌发言人承认：Gemini AI演示视频内容和语音提示均非实时录制

谷歌承认Gemini演示视频非实时录制，利用静止图像和文字提示拼凑。Gemini只对输入提示和静态图像做出反应，视频中的语音互动是后期配音。
视频中的人物说话、绘画、展示物品、魔术都是为了演示目的而特意安排的，Gemini的输出实际响应时间更长。谷歌官方说明视频已缩短输出以求简洁。
Gemini Ultra在广泛学术测试中表现出色，获得超越人类专家的成绩。谷歌计划推出Bard Advanced，提供更好的模型和功能体验。

原文链接:https://www.ithome.com/0/738/137.htm

为什么AI是科技领域的瑞士军刀

为什么人们如此热衷于人工智能和神经网络，就像它是城里最热门音乐会一样？嗯，把人工智能想象成科技的瑞士军刀吧——它多才多艺，聪明，几乎是数字化一切的首选解决方案。
程序员如同飞蛾扑火般被吸引，因为这不仅仅是又一个时尚潮流；这是创新的黄金入场券。想象一下：你是人工智能交响乐团的指挥，创作算法预测股市趋势或诊断疾病比经验丰富的医生还要快。

\

这不仅仅是编码；这就像是成为明天世界的建筑师。拥有人工智能巫师的需求在就业市场上如火如荼。公司们几乎在争夺顶级人工智能人才上搞得像举办烘焙比赛一样。

\

为什么？因为人工智能不仅仅是一个流行词；它是横扫各行各业的变革者。需要优化供应链吗？人工智能助你一臂之力。想要通过比普通人更聪明的聊天机器人彻底改变客户服务？人工智能是你的得力助手。但在人工智能领域，不全是正经事。

\

有时，人工智能可能像一盒巧克力一样不可预测。还记得你的虚拟助手曾听错“播放一些爵士乐”以为你说“追逐猫”吗？是的，人工智能有它的瞬间——有些是无意中滑稽的，有些是十足古怪的。简而言之，人工智能和神经网络不仅仅是职业选择；它们是推动我们进入一个充满创新的时代的火箭燃料。

\

曾经发现自己哼着一支感觉就像为你谱写的曲调吗？好吧，惊喜！人工智能可能是你最喜爱播放列表背后的秘密DJ。谁知道在每个动听旋律的背后，都有一个狡猾的算法偷偷尝试让你上头？这就像有一个你从未知道需要的音乐伴侣。还有农业——不是你奶奶的农业，注意了。

\

如今的农场已经升级；它们有了像小型科幻卫士一样巡逻的无人机。这是农业的未来：由人工智能驱动的庄稼抚摸，确保每个番茄都感受到了关爱。谁能想到技术和农业竟然是在收获天堂搭建的一对完美组合？

\

艺术鉴定是人工智能成为艺术界福尔摩斯的地方。分析笔触，仔细研究画布质地——说真的，这些算法可能让侦探都望尘莫及。下次你欣赏一幅杰作时，想象一下人工智能在耳语，“元素，我亲爱的艺术爱好者。”时尚达人们，准备好迎接吧！人工智能不仅仅是预测潮流；它正在设计服装。

\

很快，我们会说，“Alexa，你能给我设计一条与我今天心情相匹配的裙子吗？”然后，啪！你的人工智能设计师会让你像T台模特一样走路。谁能想到我们对美食的热爱会受到人工智能的影响？智能烹饪应用程序是新的厨房伴侣，指导我们完成食谱并提出口味搭配建议。

\

如果你的晚餐突然悄悄说，“嘿，多亏了人工智能，我又美味又有营养！”那就别惊讶了。还有体育？人工智能不仅仅是分析数据；它是幕后的MVP，预测比赛并保持运动员处于最佳状态。

\

这就像有一个虚拟教练在喊，“来吧，你能做到！”——只是所有都在代码中。在这个被人工智能渗透的世界里，这些意想不到的领域不仅给我们带来了惊喜，还逗笑了我们。

\

谁知道，在每一拍，每一笔和每一个决定性的走位背后，都有一点点人工智能的魔法让一切发生？

原文链接:https://hackernoon.com/why-ai-is-the-swiss-army-knife-of-tech?source=rss

OpenAI承认GPT-4变懒：暂时无法修复

OpenAI正式回应GPT-4偷懒问题，自11月11日无模型更新。行为不可预测，模型差异微妙，导致部分任务劣化，员工和用户需时注意修复。
网友创造力自救，采用“我没有手指”大法、金钱诱惑等。GPT-4写代码偷懒，Denis Shiryaev成功通过请求完整代码解决问题。学术讨论涉及时间变化、温度设置、稀疏MoE架构等。
修复前使用ChatGPT的正确姿势：深呼吸、思考步骤、创造性提示，结合技巧。a16z合伙人Justine Moore总结了正确姿势。

原文链接:http://www.qbitai.com/?p=105204

实测微软Edge Copilot AI无法真正总结每段YouTube视频

微软 Edge 浏览器的 AI Copilot 新功能引起关注，它能生成视频文本摘要。然而，功能仍有限，仅适用于预处理过的或带字幕的视频。根据首席执行官的解释，若视频没有字幕且未经预处理，功能将受限。
Edge Copilot更像是对视频文本稿的总结，需对视频进行预处理或含字幕。它在Microsoft 365中同样适用，能总结Teams视频会议和客户服务通话内容，但需要音频转录。此外，在YouTube等平台中，大多数视频没有经过预处理，Copilot对它们有效。
在设计师发布的视频演示中，Copilot成功生成了YouTube视频《GTA VI》预告片的摘要，显示其潜力。然而，此功能的适用性仍受到限制，需要用户生成书面文字记录。

原文链接:https://m.cnbeta.com.tw/view/1403127.htm

其他

AI圣诞节：十二天的（生成式）圣诞

作者进行了有趣的实验，将《圣诞颂歌》中的礼物描述输入不同的AI图像生成器，得到了一系列有趣的结果。从Meta AI到Google搜索，再到Adobe Firefly和ChatGPT的DALL-E版本，以及Bing的Image Creator，每个生成器都呈现了独特的视觉呈现。作者强调了一些使用上的注意事项，并展示了每个生成器的部分结果。
实验中作者未对文本进行大幅度修改，仅在需要时替换了数字。有些服务对特定短语表现不佳，比如"eight maids a-milking"。作者选择了每个生成器中最好的图像，展示了它们的创造性和趣味性。
通过实验，作者展示了AI图像生成在不同服务下的表现差异，强调了创意实验的乐趣和探索性质。

原文链接:https://hackernoon.com/ai-yuletide-the-twelve-generative-days-of-christmas?source=rss

Files

20231210.md

Latest commit

History