每日AI资讯
追踪全球AI行业动态 · 热点 · 融资 · 产品发布
美团推出AI IDE编程工具:CatPaw
美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。
全球榜首!百度最新开源模型PaddleOCR-VL
10月17·周五李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。来源:机器之心美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。来源:龙猫LongCat一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短
李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世
DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。来源:AI工具集 宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。来源:APPSO
美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短至不足4分钟,速度提升近四倍。Manus 1.5提供两种模型:Manus-1.5适用于高复杂度任务,Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能,用户可通过对话完成从开发到部署的全过程。来源:IT之家
一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍
爱诗科技完成B+轮1亿元融资,ARR突破4000万美金AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者,用户规模已突破一亿,ARR超过4000万美元,MAU超过1600万。来源:爱诗科技AIsphere
爱诗科技完成B+轮1亿元融资,ARR突破4000万美金
10月16·周四谷歌推出新款视频生成模型 Veo 3.1谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。来源:机器之心讯飞星火升级的「深度研究」全新上线讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。来源:讯飞开放平台通义千问正式推出 Qwen Chat Memory 功能Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。来源:通义千问Qwen豆包发布四款大模型:能理解情感、调节音调风
谷歌推出新款视频生成模型 Veo 3.1
斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。来源:机器之心 美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。来源:龙猫LongCat
讯飞星火升级的「深度研究」全新上线
通义千问正式推出 Qwen Chat Memory 功能Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。来源:通义千问Qwen
通义千问正式推出 Qwen Chat Memory 功能
豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。来源:火山引擎
豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式
Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。来源:APPSO
Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍
阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。来源:Qoder
阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端
智元精灵 G2 新一代工业级交互式具身作业机器人发布智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造,搭载NVIDIA Jetson Thor芯片,配备高精度力控双臂和19自由度的灵巧手,具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答,采用双电池热插拔换电技术,配备360环视鱼眼和前后双激光雷达,可主动避障。来源:IT之家
智元精灵 G2 新一代工业级交互式具身作业机器人发布
10月15·周三仅4B!阿里千问最强视觉模型新开源阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源:智东西谷歌 NotebookLM 视频概览支持 Nano BananaNotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。来源:AI工具集10月14·周二Karpathy最新开源项目“nanochat”爆火,一夜近5k star前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在Git
仅4B!阿里千问最强视觉模型新开源
谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。来源:机器之心 讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。来源:讯飞开放平台
谷歌 NotebookLM 视频概览支持 Nano Banana
10月14·周二Karpathy最新开源项目“nanochat”爆火,一夜近5k star前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源:AI工具集蚂蚁正式发布万亿思考模型Ring-1T,发布即开源百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。来源:百灵大模型微软推出的首款自研图像生成模型MAI-Image-1微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专
Karpathy最新开源项目“nanochat”爆火,一夜近5k star
阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源:智东西 NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。来源:AI工具集
蚂蚁正式发布万亿思考模型Ring-1T,发布即开源
微软推出的首款自研图像生成模型MAI-Image-1微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。来源:AI工具集
微软推出的首款自研图像生成模型MAI-Image-1
OpenAI再出手!与博通双方达成AI芯片合作OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。来源:第一财经
OpenAI再出手!与博通双方达成AI芯片合作
腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。来源:腾讯开源
腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding
10月13·周一多模态模型社区全新升级,LiblibAI 2.0正式上线LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。来源:LiblibAI工业AI智能体公司「设序科技」获数千万元Pre B轮融资工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。来源:36氪未来智能完成亿元级A轮融资,蚂蚁集团领投中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌v
多模态模型社区全新升级,LiblibAI 2.0正式上线
前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源:AI工具集 百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。来源:百灵大模型
工业AI智能体公司「设序科技」获数千万元Pre B轮融资
未来智能完成亿元级A轮融资,蚂蚁集团领投中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。来源:智东西
未来智能完成亿元级A轮融资,蚂蚁集团领投
10月10·周五吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。来源:AI工具集Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。来源:AI工具集Figure AI 发布最新人形机器人——Figure 03Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造
吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体
LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。来源:LiblibAI 工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。来源:36氪
Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2
Figure AI 发布最新人形机器人——Figure 03Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。来源:APPSO
Figure AI 发布最新人形机器人——Figure 03
镜识科技获数千万元融资,做出全球首款双形态家庭机器人镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。来源:36氪
镜识科技获数千万元融资,做出全球首款双形态家庭机器人
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。来源:机器之心
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型
10月9·周四快手推出AI原生IDE工具:CodeFlicker,对标Cursor快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。来源:AI工具集蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。来源:百灵大模型OpenAI 与流媒体音乐平台 Spotify 达成合作OpenAI与流媒体音乐平台Spotify达成合作,用户可在C
快手推出AI原生IDE工具:CodeFlicker,对标Cursor
吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。来源:AI工具集 国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。来源:AI工具集
蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T
OpenAI 与流媒体音乐平台 Spotify 达成合作OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。来源:IT之家
OpenAI 与流媒体音乐平台 Spotify 达成合作
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。来源:量子位
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。来源:AI工具集
Dexmal原力灵机融资近10亿元,阿里巴巴、蔚来资本分别领投
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿美元。来源:智东西
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」
Anthropic 发布 AI Agent 上下文工程指南Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。来源:AI工具集
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资
ChatGPT 群聊功能上线部分地区:人机共同决策讨论OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型,支持用户与ChatGPT共同协作,可邀请亲友或同事进入共享空间,用于策划方案、决策讨论或头脑风暴。来源:IT之家
Anthropic 发布 AI Agent 上下文工程指南
Thinking Machines Lab推出首款产品「Tinker」Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。来源:AI工具集
ChatGPT 群聊功能上线部分地区:人机共同决策讨论
AI PPT神器 Gamma 完成6800万美元B轮融资美国生成式AI创企Gamma完成6800万美元B轮融资,估值达21亿美元。Gamma创立于2020年,是一个生成式AI设计平台,可快速创建演示文稿、文档和社交媒体帖子,支持22种AI图像模型和60多种语言。来源:智东西
Thinking Machines Lab推出首款产品「Tinker」
谷歌新世界模型Dreamer 4纯靠「想象」训练谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。来源:机器之心
AI PPT神器 Gamma 完成6800万美元B轮融资
11月13·周四OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。来源:APPSO百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。来源:IT之家全新升级、全面开放的 TRAE SOLO 正式版,限时免费字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化
谷歌新世界模型Dreamer 4纯靠「想象」训练
Opera Neon 正式发布:首款 AI Agent 浏览器昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。来源:昆仑万维集团
OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨
全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱GLM-4.6与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源:智谱 具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源:Dexmal原力灵机
Opera Neon 正式发布:首款 AI Agent 浏览器
豆包大模型1.6-vision正式发布!火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。来源:火山引擎
豆包大模型1.6-vision正式发布!
10月7·周二OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 APIOpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源:机器之心10月1·周三OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”OpenAI 正式发布Sora 2,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码来源:AI工具集
百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态
全新升级、全面开放的 TRAE SOLO 正式版,限时免费字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化,现面向全球用户开放,限时免费体验。来源:机器之心
OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 API
快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。来源:AI工具集 百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。来源:百灵大模型
全新升级、全面开放的 TRAE SOLO 正式版,限时免费
李飞飞宣布正式开放首款商用世界模型产品 Marble“AI教母”李飞飞创立的World Labs公司正式推出首款商用多模态世界模型产品Marble,用户可通过文本、图像、视频或3D布局生成高保真、可编辑的3D虚拟世界,支持导出为高斯溅射、网格或视频格式。来源:APPSO
李飞飞宣布正式开放首款商用世界模型产品 Marble
11月12·周三腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。来源:腾讯开源OiiOii:全球首个动画创作Agent系统上线OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。来源:AI工具集华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了
OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”
OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源:机器之心 OpenAI 正式发布Sora 2,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码来源:AI工具集
腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一
OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。来源:APPSO 百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。来源:IT之家
OiiOii:全球首个动画创作Agent系统上线
华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了物理AI领域数据稀缺和仿真误差等问题,其CEO预测“物理世界ChatGPT时刻”将在2-3年内到来。来源:量子位
华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资
主打“Database-First”的全栈AI应用构建平台——ZOER.AIChat2DB 团队创始人姬朋飞及其团队正式发布主打“Database-First”(数据库优先)的全栈应用构建平台ZOER.AI,专注于解决传统 AI 编程工具在后端能力上的短板,通过智能设计数据库结构、自动生成安全的后端逻辑和前端界面,实现从数据层到底层服务的全流程自动化。来源:AI工具集
主打“Database-First”的全栈AI应用构建平台——ZOER.AI
Lovart推出“元素拆分”功能 革新AI设计编辑体验AI设计平台Lovart正式上线“Edit Elements 元素拆分”功能,用户上传成品海报后,AI可自动拆解为文字、主体、背景等独立可编辑图层,支持修改文本、替换元素及实时预览来源:AI工具集
Lovart推出“元素拆分”功能 革新AI设计编辑体验
11月11·周二字节发布Doubao-Seed-Code编程模型字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。来源:火山引擎月之暗面开源Kosong框架 降低AI AAgent开发门槛月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。来源:AI工具集商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶
字节发布Doubao-Seed-Code编程模型
腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。来源:腾讯开源 OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。来源:AI工具集
月之暗面开源Kosong框架 降低AI AAgent开发门槛
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。来源:商汤科技SenseTime
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5
Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统Meta AI团队推出Omnilingual ASR,是全球首个支持超1600种语言的自动语音识别系统,其中500种语言首次获得AI语音识别支持。系统通过大规模预训练模型和上下文学习技术,仅需少量音频-文本样本即可扩展新语言,字符错误率低于10%的语言占比达78%。来源:AI工具集
Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统
百度AI眼镜开售!2199元,今天定明天到手百度旗下小度AI眼镜Pro正式开售,售价2299元,是继阿里巴巴夸克AI眼镜S1后,国内第二家正式开售AI眼镜的互联网大厂,小度AI眼镜Pro是一款AI拍摄眼镜,与小米AI眼镜类型相同,并非当下更为“完全体”版本的AI+AR眼镜,融合多模态AI大模型,产品功能包括拍照、听歌识曲、智能匹配歌单、AI翻译、AI识物、AI备忘、AI录音等。来源:智东西
百度AI眼镜开售!2199元,今天定明天到手
11月10·周一堆友「全能画布」来了!是天花板级的AI设计智能体堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。来源:堆友全球第二、国内第一!最强百度的文心5.0 Preview百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。来源:机器之心OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源:IT之家11月7
堆友「全能画布」来了!是天花板级的AI设计智能体
字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。来源:火山引擎 月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。来源:AI工具集
全球第二、国内第一!最强百度的文心5.0 Preview
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源:IT之家
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型
11月7·周五阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。来源:AI工具集美团推出出AI IDE编程工具:CatPaw美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。来源:AI工具集AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。来源
阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX
堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。来源:堆友 百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。来源:机器之心
美团推出出AI IDE编程工具:CatPaw
AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。来源:机器之心
AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资
11月6·周四即梦无限画布上线,创作更自由即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。来源:AI工具集月之暗面Kimi发布思考模型:Kimi-k2 Thinking月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。来源:AI工具集美团 LongCat 团队发布全模态一站式评测基准UNO-Bench美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。来源:龙猫L
即梦无限画布上线,创作更自由
阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。来源:AI工具集 美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。来源:AI工具集
月之暗面Kimi发布思考模型:Kimi-k2 Thinking
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。来源:龙猫LongCat
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench
科大讯飞星火 X1.5 深度推理大模型发布科大讯飞在2025全球1024开发者节上发布讯飞星火X1.5深度推理大模型。模型基于全国产算力,攻克MoE模型全链路训练效率,端到端性能达国际竞品93%以上。其语言理解、文本生成等能力对标国际主流大模型,数学能力国际领先,多语言能力支持130多种语言,性能达GPT-5的95%以上。来源:IT之家
科大讯飞星火 X1.5 深度推理大模型发布
11月5·周三360发布:FG-CLIP2登顶全球最强图文跨模态模型360 推出的FG-CLIP2模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。来源:机器之心银河通用发布环视导航基座大模型 NavFoM银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。来源:银河通用机器人AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下Capi
360发布:FG-CLIP2登顶全球最强图文跨模态模型
即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。来源:AI工具集 月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。来源:AI工具集
银河通用发布环视导航基座大模型 NavFoM
AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投,资金将用于并购、产品开发和拓展国际业务等。来源:智东西
AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案软银集团与OpenAI宣布成立合资公司“SB OAI Japan”,计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务,助力日本企业提升生产力和管理效率。软银将率先部署该技术,积累经验后向其他企业推广。来源:IT之家
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案
11月4·周二AI视频创作平台SkyReels正式焕新上线昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。来源:昆仑万维集团OpenAI与亚马逊达成380亿美元算力合作OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。来源:智东西零一万物联合开源中国推出OAK平台“Open AgentKit”零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐
AI视频创作平台SkyReels正式焕新上线
360 推出的FG-CLIP2模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。来源:机器之心 银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。来源:银河通用机器人
OpenAI与亚马逊达成380亿美元算力合作
零一万物联合开源中国推出OAK平台“Open AgentKit”零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐步推出并邀请社区共建。来源:零一万物 01AI
零一万物联合开源中国推出OAK平台“Open AgentKit”
11月3·周一LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代美团 LongCat 团队正式发布并开源LongCat-Flash-Omni模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。来源:龙猫LongCat阿里通义千问Qwen3-Max上线深度思考模式阿里 Qwen 团队宣布Qwen3-Max Thinking在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。来源:AI工具集10月31·周五MiniMax Music 2.0:让音乐创作属于每一个人MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,
LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。来源:昆仑万维集团 OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。来源:智东西
阿里通义千问Qwen3-Max上线深度思考模式
10月31·周五MiniMax Music 2.0:让音乐创作属于每一个人MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。来源:MiniMax稀宇科技美团LongCat团队发布WOWService:打造卓越智能交互体验美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。来源:龙猫LongCat月之暗面全新的注意力架构Kimi Linear横空出世月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。来源:AI工具
MiniMax Music 2.0:让音乐创作属于每一个人
美团 LongCat 团队正式发布并开源LongCat-Flash-Omni模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。来源:龙猫LongCat 阿里 Qwen 团队宣布Qwen3-Max Thinking在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。来源:AI工具集
美团LongCat团队发布WOWService:打造卓越智能交互体验
月之暗面全新的注意力架构Kimi Linear横空出世月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。来源:AI工具集
月之暗面全新的注意力架构Kimi Linear横空出世
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。来源:量子位
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复
智源悟界·Emu3.5:开启多模态世界大模型新纪元北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。来源:智源研究院
智源悟界·Emu3.5:开启多模态世界大模型新纪元
10月30·周四MiniMax Speech 2.6:最强 Voice Agent 来袭MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。来源:MiniMax稀宇科技Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。来源:智东西Adobe推出最强图像生成模型Firefly Image 5!原生400万像素Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还
MiniMax Speech 2.6:最强 Voice Agent 来袭
MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。来源:MiniMax稀宇科技 美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。来源:龙猫LongCat
Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。来源:智东西
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素
智谱清言全新推出「研究模式」智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。来源:智谱清言
智谱清言全新推出「研究模式」
英国AI视频生成独角兽Synthesia完成2亿美元融资英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。来源:智东西
英国AI视频生成独角兽Synthesia完成2亿美元融资
10月29·周三Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI AltasFlowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码来源:AI工具集混元推出国内首个交互式AI播客,听播客可以“举手”提问了腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。来源:腾讯混元GitHub 推出 Agent HQ,目标统一管理所有智能体GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源:AI
Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI Altas
MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。来源:MiniMax稀宇科技 AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。来源:智东西
混元推出国内首个交互式AI播客,听播客可以“举手”提问了
GitHub 推出 Agent HQ,目标统一管理所有智能体GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源:AI工具集
GitHub 推出 Agent HQ,目标统一管理所有智能体
OpenAI股改完成,非营利主体更名OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。来源:量子位
OpenAI股改完成,非营利主体更名
Google Labs推出一款AI营销工具:PomelliGoogle Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。来源:AI工具集
Google Labs推出一款AI营销工具:Pomelli
10月28·周二ChatDB直接对话数据库!ChatExcel全新升级ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。来源:元空AIExcelMistral AI 推出企业级 AI 应用开发平台AI Studio法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。来源:AI工具集MiniMax Hailuo 2.3 视频复杂表现新高度MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保
ChatDB直接对话数据库!ChatExcel全新升级
Flowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码来源:AI工具集 腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。来源:腾讯混元
Mistral AI 推出企业级 AI 应用开发平台AI Studio
MiniMax Hailuo 2.3 视频复杂表现新高度MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保持原价格,新增Hailuo 2.3 Fast模型,降低成本。来源:MiniMax稀宇科技
MiniMax Hailuo 2.3 视频复杂表现新高度
xAI推出开源知识库Grokipedia,收录超88.5万篇文章埃隆·马斯克旗下的xAI团队推出Grokipedia,AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章,主打“无偏见”特性,通过Grok AI模型自动审核内容真实性,部分条目源自维基百科但标注为“改编内容”。来源:AI工具集
xAI推出开源知识库Grokipedia,收录超88.5万篇文章
10月27·周一豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。来源:火山引擎Skywork AI 的网页复刻(Web Clone)功能正式上线昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。来源:昆仑万维集团谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slide
豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%
ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。来源:元空AIExcel 法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。来源:AI工具集
Skywork AI 的网页复刻(Web Clone)功能正式上线
谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slides进行编辑、优化或团队协作。来源:IT之家
谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步美团开源了LongCat-Video的通用视频生成模型,参数量达 13.6B。模型能实现文生视频、图生视频以及视频续写等功能,能在几分钟内生成 720p、30fps 的长视频,画面连贯、人物稳定、物理逻辑合理。来源:龙猫LongCat
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
月之暗面开源 Agentic Coding 工具:Kimi CLI月之暗面科技有限公司推出开源 Agentic Coding 工具Kimi CLI技术预览版,采用 Shell-like UI,支持 ACP 协议。可在 GitHub 交流反馈。来源:月之暗面Kimi
月之暗面开源 Agentic Coding 工具:Kimi CLI
MiniMax发布最新大语言模型MiniMax M2MiniMax公司发布最新大语言模型MiniMax M2。目前基于M2的agent免费使用,支持开发代码、研究、制作PPT等多种功能,还可接入日常编程工具。从测试数据来看,其coding能力接近Claude 4.5 Sonnet,工具使用流畅。用户可通过设置MiniMax-M2-Preview使用该模型来源:AI工具集
MiniMax发布最新大语言模型MiniMax M2
10月24·周五OpenAI收购Sky,面向Mac的自然语言交互界面OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。来源:量子位支付宝推出多模态AI应用“灵光”支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。来源:AI工具集蚂蚁集团投的灵巧手公司,又融了数亿元灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源:智东西谷歌官方学习平台 Google Skills 来了,免费还实用谷歌推出AI技能学习平台Google Sk
OpenAI收购Sky,面向Mac的自然语言交互界面
火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。来源:火山引擎 昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。来源:昆仑万维集团
支付宝推出多模态AI应用“灵光”
蚂蚁集团投的灵巧手公司,又融了数亿元灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源:智东西
蚂蚁集团投的灵巧手公司,又融了数亿元
谷歌官方学习平台 Google Skills 来了,免费还实用谷歌推出AI技能学习平台Google Skills,整合Google Cloud、DeepMind等团队资源,提供近3000门课程、实验室及认证,覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群,零门槛接入,每月免费提供35个学习点数用于实操实验。来源:AI工具集
谷歌官方学习平台 Google Skills 来了,免费还实用
豆包编程升级,新增创作模式,让创意轻松实现豆包编程完成重大升级,让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。来源:豆包
豆包编程升级,新增创作模式,让创意轻松实现
10月23·周四LiblibAI融资1.3亿美金,红杉CMC领投LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。来源:暗涌WavesSeed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。来源:字节跳动Seed百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenE
LiblibAI融资1.3亿美金,红杉CMC领投
OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。来源:量子位 支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。来源:AI工具集
Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度比肩资深临床医生水准。来源:百川大模型
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”
10月22·周三OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。来源:量子位混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。来源:腾讯混元AipexBase,中国首个AI原生后端基础设施正式开源!北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Servic
OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用
LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。来源:暗涌Waves 字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。来源:字节跳动Seed
混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成
AipexBase,中国首个AI原生后端基础设施正式开源!北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Service)平台AipexBase。让开发者“不写后端,也能拥有完整后端”,所有后端能力如数据存储、鉴权等均被自动封装,开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP,统一上下文与数据层,支持码上飞、Cursor等AI产品接入,深度适配中国开发生态,兼容飞书、钉钉、微信等生态接入。来源:CodeFlying码上飞
AipexBase,中国首个AI原生后端基础设施正式开源!
2B、32B!更适合开发者体质的Qwen3-VL来啦Qwen3-VL家族新增2B与32B两个密集模型尺寸,从轻量级到甜品级,覆盖视觉语言理解场景。两种版本可选:Instruct适合对话与工具调用,Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等,仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人,可在极限端侧设备上运行。来源:通义千问Qwen
2B、32B!更适合开发者体质的Qwen3-VL来啦
Anthropic 公司推出Claude 桌面版Claude桌面版正式发布,支持Mac和Windows系统。版本有四项核心功能:全局快捷键(Mac双击Option唤醒)、分享工作(截图、窗口分享、拖拽文件)、语音输入(按Caps Lock说话)和连接工具(可调用代码编辑器、本地文件、数据库)。来源:AI工具集
Anthropic 公司推出Claude 桌面版
灵巧手公司星际光年完成Pre-A轮融资深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22,并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投,柯熙创投跟投,深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统(小脑模型)研发及核心团队扩张。来源:智能涌现
灵巧手公司星际光年完成Pre-A轮融资
10月21·周二Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。来源:Vidu AIAnthropic正式上线网页版Claude CodeAnthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源:AI工具集CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。来源:腾讯云代码助手CodeBuddy5000元不限席位,Che
Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠
OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。来源:量子位 腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。来源:腾讯混元
Anthropic正式上线网页版Claude Code
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。来源:腾讯云代码助手CodeBuddy
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令
5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AICherry Studio企业 Express 版正式发布,以 5000 元买断价、不限员工席位,为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型,无需申请 API Key,解决网络问题,简化计费流程,支持私有化和云应用部署。来源:Cherry Studio-千慧科技
5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AI
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业智谱发布 GLM Coding Plan 企业版,基于GLM-4.6模型,为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一,融合多模态理解、联网搜索及智能编排能力,提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性,无缝适配 10 余款主流编程工具,支持灵活成员管理和使用数据分析。来源:智谱
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业
美团发布面向复杂问题的大模型智能体评测基准——VitaBench美团 LongCat 团队发布VitaBench,是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体,构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性,通过真实用户模拟器和原子化评估准则实现细粒度评估。来源:量子位
美团发布面向复杂问题的大模型智能体评测基准——VitaBench
10月20·周一DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCRDeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。来源:AI工具集宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。来源:APPSO全球榜首!百度最新开源模型PaddleOCR-VL百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等
DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR
Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。来源:Vidu AI Anthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源:AI工具集
宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫
全球榜首!百度最新开源模型PaddleOCR-VL百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。来源:百度AI
腾讯混元3D创作引擎国际站,上线!
TRAE SOLO 登陆中国版,免费使用!AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。来源:TRAE.ai
TRAE SOLO 登陆中国版,免费使用!
11月25·周二Anthropic发布新一代大模型Claude Opus 4.5Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。来源:APPSO混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。来源:腾讯混元挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在
Anthropic发布新一代大模型Claude Opus 4.5
Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。来源:AI工具集 国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源:哩布哩布AI
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。来源:IT之家
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
OpenAI 为ChatGPT推出免费AI购物研究工具OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。来源:APPSO
OpenAI 为ChatGPT推出免费AI购物研究工具
微软推出全新的开源小型语言模型 Fara-7B微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。来源:IT之家
微软推出全新的开源小型语言模型 Fara-7B
11月24·周一Meta 推出 WorldGen:一句话即可生成可交互 3D 世界Meta 推出WorldGen系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。来源:IT之家阿里千问启用全新域名,提供更多 Qwen3 系列模型阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源:IT之家AI2推出的开源大型语言模型系列:Olmo 3Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读
Meta 推出 WorldGen:一句话即可生成可交互 3D 世界
Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。来源:APPSO 腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。来源:腾讯混元
阿里千问启用全新域名,提供更多 Qwen3 系列模型
AI2推出的开源大型语言模型系列:Olmo 3Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。来源:AI工具集
AI2推出的开源大型语言模型系列:Olmo 3
11月21·周五谷歌Nano Banana Pro上线,深度结合Gemini 3谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。来源:机器之心腾讯混元发布全新视频生成模型:HunyuanVideo 1.5腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。来源:腾讯混元小米具身大模型 MiMo-Embodied 发布并全面开源小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路
谷歌Nano Banana Pro上线,深度结合Gemini 3
Meta 推出WorldGen系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。来源:IT之家 阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源:IT之家
AI助手ima支持PPT生成
1月4·周日DeepSeek 发布新论文:提出全新 mHC 架构DeepSeek发布新论文提出全新mHC(流形约束超连接)架构,解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性,并结合基础设施优化提升效率。来源:AI工具集ListenHub完成200万美元融资,ARR 300万美元进军北美AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。公司年经常性收入(ARR)已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场,并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源:36氪TRAE 中国版 SOLO 已全量免费开放!中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务,具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型,产品将自动基于模型效果和速度配置最佳上下文窗口。来源:TRAE.ai12
DeepSeek 发布新论文:提出全新 mHC 架构
智元机器人与MiniMax(上海稀宇科技)正式达成合作,MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性,量身打造专属人设体系以优化语音交互体验,并通过定制化提示词策略实现千人千面的个性化音色合成。来源:36氪 微信小程序正式推出「AI应用及线上工具小程序成长计划」,为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token,涵盖旗舰文生文及文生图等多模态模型能力,并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目,个人或企业主体均可参与。来源:腾讯混元
腾讯混元发布全新视频生成模型:HunyuanVideo 1.5
小米具身大模型 MiMo-Embodied 发布并全面开源小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。来源:IT之家
小米具身大模型 MiMo-Embodied 发布并全面开源
蚂蚁集团领投,RockFlow完成数千万美元新一轮融资新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。来源:RockFlow
ListenHub完成200万美元融资,ARR 300万美元进军北美
TRAE 中国版 SOLO 已全量免费开放!中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务,具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型,产品将自动基于模型效果和速度配置最佳上下文窗口。来源:TRAE.ai
蚂蚁集团领投,RockFlow完成数千万美元新一轮融资
11月20·周四Meta推出基于SAM系列的3D重建模型SAM 3DMeta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。来源:机器之心AI音乐创作平台Suno完成2.5亿美元C轮融资AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。来源:智东西64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源:智东西OpenAI 发布最强编程模型 GPT-5.1-Codex-MaxOpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT
TRAE 中国版 SOLO 已全量免费开放!
12月31·周三Kimi 完成 5 亿美元新融资中国大模型公司月之暗面(Kimi)近期完成5亿美元C轮融资,由IDG资本领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购,投后估值达43亿美元。创始人杨植麟内部信透露,公司现金储备已超100亿元人民币,因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源:晚点LatePostVidu Agent全球正式上线,商业广告一键成片Vidu推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,覆盖商业广告、产品TVC、剧情片等多种创作场景,能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果,实时预览修改后的视频。来源:Vidu AI软银完成对OpenAI承诺的225亿美元额外投资软银向OpenAI的400亿美元(约合人民币2799亿元)巨额投资已全部到账,使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织,否则投资将大幅缩减。为筹集资金,软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合
Meta推出基于SAM系列的3D重建模型SAM 3D
谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。来源:机器之心 腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。来源:腾讯混元
Kimi 完成 5 亿美元新融资
DeepSeek发布新论文提出全新mHC(流形约束超连接)架构,解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性,并结合基础设施优化提升效率。来源:AI工具集 AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。公司年经常性收入(ARR)已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场,并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源:36氪
AI音乐创作平台Suno完成2.5亿美元C轮融资
64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源:智东西
Vidu Agent全球正式上线,商业广告一键成片
软银完成对OpenAI承诺的225亿美元额外投资软银向OpenAI的400亿美元(约合人民币2799亿元)巨额投资已全部到账,使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织,否则投资将大幅缩减。为筹集资金,软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合建设的AI基础设施“星际之门”。来源:智东西
64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群
OpenAI 发布最强编程模型 GPT-5.1-Codex-MaxOpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT-5.1-Codex,成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro,如SWE-Bench Verified测试中准确率77.9%,领先对方1.7个百分点。其引入“压缩”机制,可连续工作超24小时,token效率提升约30%。来源:IT之家
软银完成对OpenAI承诺的225亿美元额外投资
MiniMax今起招股,1月9日敲钟代码00100中国AI公司MiniMax正式启动港股上市进程,预计于2026年1月9日挂牌,股票代码00100。此次IPO发行估值超461亿港元,拟募资超6亿美元。公司获得阿里巴巴、阿布扎比投资局等14家基石投资者支持。来源:量子位
OpenAI 发布最强编程模型 GPT-5.1-Codex-Max
星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿人形机器人公司星动纪元完成近10亿元A+轮融资,由吉利资本领投。公司总订单额突破5亿元,物流领域最大单笔订单近5000万元,海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。来源:星动纪元
MiniMax今起招股,1月9日敲钟代码00100
12月30·周二Meta 数十亿美元收购 Manus,肖弘将出任 Meta 副总裁Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营,其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步,也标志着中国新一代创业者登上全球科技舞台。来源:晚点LatePost“全球大模型第一股”来了!智谱今起招股,发行市值达511亿港元“全球大模型第一股”即将登陆港股。智谱(股票代码:2513)今日启动港股招股,预计2026年1月8日上市。本次IPO将发行3741.95万股H股(香港发售187.1万股,国际发售3554.85万股),发行价每股116.20港元,本次IPO募资总额约43亿港元,公司估值超511亿港元,招股期至2026年1月5日结束。来源:AI工具集腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化,仅需1GB内存即可
星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
11月19·周三Gemini 3正式发布:谷歌推出最强AI模型谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源:智东西AiPPT Agent版上线,AI「深度研究」功能开启内测AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源:AIPPTAnthropic获微软英伟达千亿投资!估值飙到2.5万亿Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。来源:智东西11月18·周二马斯克Grok 4.1低调发布!通
Meta 数十亿美元收购 Manus,肖弘将出任 Meta 副总裁
中国大模型公司月之暗面(Kimi)近期完成5亿美元C轮融资,由IDG资本领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购,投后估值达43亿美元。创始人杨植麟内部信透露,公司现金储备已超100亿元人民币,因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源:晚点LatePost Vidu推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,覆盖商业广告、产品TVC、剧情片等多种创作场景,能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果,实时预览修改后的视频。来源:Vidu AI
Gemini 3正式发布:谷歌推出最强AI模型
Meta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。来源:机器之心 AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。来源:智东西
“全球大模型第一股”来了!智谱今起招股,发行市值达511亿港元
腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化,仅需1GB内存即可流畅运行,在翻译质量上超越多数商用API,平均响应时间仅0.18秒。7B模型为WMT25比赛冠军升级版,准确率显著提升。来源:腾讯混元
AiPPT Agent版上线,AI「深度研究」功能开启内测
Anthropic获微软英伟达千亿投资!估值飙到2.5万亿Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。来源:智东西
腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署
12月29·周一Z.ai新突破:GLM-4.7登顶Artificial Analysis全球开源榜首智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩,以68分的综合得分荣登全球开源模型与国产模型双料榜首,并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力,被业界视为衡量大模型综合实力的重要风向标。来源:智谱MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA通义实验室开源通用GUI智能体基座MAI-UI,登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力,能主动澄清模糊指令,并优先调用结构化工具跳过冗长UI操作,显著提升任务成功率。来源:通义大模型京东AI购抢先实测,一句话搞定吃喝穿用京东上线AI原生应用“京东AI购”,目前处于App Store内测阶段。应用以对话为主要交互方式,用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等,由京东自研言犀大模型驱动。来源:智东西九章云极宣布完成新
Anthropic获微软英伟达千亿投资!估值飙到2.5万亿
11月18·周二马斯克Grok 4.1低调发布!通用能力碾压其他一切模型马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。来源:机器之心蚂蚁集团推出全模态通用AI助手“灵光”APP蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。来源:APPSO谷歌推出 AI 天气预报模型 WeatherNext 2谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天
Z.ai新突破:GLM-4.7登顶Artificial Analysis全球开源榜首
Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营,其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步,也标志着中国新一代创业者登上全球科技舞台。来源:晚点LatePost “全球大模型第一股”即将登陆港股。智谱(股票代码:2513)今日启动港股招股,预计2026年1月8日上市。本次IPO将发行3741.95万股H股(香港发售187.1万股,国际发售3554.85万股),发行价每股116.20港元,本次IPO募资总额约43亿港元,公司估值超511亿港元,招股期至2026年1月5日结束。来源:AI工具集
马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源:智东西 AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源:AIPPT
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA
京东AI购抢先实测,一句话搞定吃喝穿用京东上线AI原生应用“京东AI购”,目前处于App Store内测阶段。应用以对话为主要交互方式,用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等,由京东自研言犀大模型驱动。来源:智东西
蚂蚁集团推出全模态通用AI助手“灵光”APP
谷歌推出 AI 天气预报模型 WeatherNext 2谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天气情景。来源:IT之家
京东AI购抢先实测,一句话搞定吃喝穿用
九章云极宣布完成新一轮战略融资人工智能基础设施提供商九章云极宣布完成新一轮战略融资,由北京信息产业发展投资基金与北京市人工智能产业投资基金联合领投。本轮融资将重点用于AI加速计算技术研发和普惠智算云平台建设,以巩固其技术优势并推动企业级AI应用普及。来源:机器之心
谷歌推出 AI 天气预报模型 WeatherNext 2
11月17·周一千问APP正式上线:全球首款开源AI助手挑战ChatGPT阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。来源:AI工具集陈天桥盛大团队,推出最强开源记忆系统EverMemOS陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源:机器之心DPAI Arena:首个开源AI编程基准测试平台发布JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。来源:AI工具集字节发布首个实时完成复杂
九章云极宣布完成新一轮战略融资
腾讯元宝“任务”功能上线:一句话安排时间,到点就提醒腾讯元宝AI助手正式上线“任务”功能,用户只需将时间安排或计划用一句话告知元宝,即可获得准时提醒服务。功能支持提前测试、手动管理和自定义提醒,需更新至最新版本使用。来源:IT之家
千问APP正式上线:全球首款开源AI助手挑战ChatGPT
马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。来源:机器之心 蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。来源:APPSO
腾讯元宝“任务”功能上线:一句话安排时间,到点就提醒
MiniMax正式开源了MiniMax M2.1多语言编程模型MiniMax公司宣布将MiniMax M2.1模型正式开源,已在Hugging Face和GitHub平台发布。模型专为真实世界复杂任务设计,在多语言编程、全栈开发、Web与App开发以及Agent能力方面表现卓越。同时推出跨年促销活动,Coding Plan首月价格低至9.9元,活动持续至2026年1月15日。来源:MiniMax稀宇科技
MiniMax正式开源了MiniMax M2.1多语言编程模型
12月26·周五智谱推出轻量级AI IDE编程工具:Zcode智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。来源:AI工具集Qwen Code 重磅更新:让 AI 编程跳出命令行通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。来源:通义千问QwenSkywork Sheets 2.0重磅上线:一键解锁高效办公新体验Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。来源:昆仑万维集团小红书开源 Ins
陈天桥盛大团队,推出最强开源记忆系统EverMemOS
DPAI Arena:首个开源AI编程基准测试平台发布JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。来源:AI工具集
智谱推出轻量级AI IDE编程工具:Zcode
智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩,以68分的综合得分荣登全球开源模型与国产模型双料榜首,并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力,被业界视为衡量大模型综合实力的重要风向标。来源:智谱 通义实验室开源通用GUI智能体基座MAI-UI,登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力,能主动澄清模糊指令,并优先调用结构化工具跳过冗长UI操作,显著提升任务成功率。来源:通义大模型
DPAI Arena:首个开源AI编程基准测试平台发布
字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine字节跳动Seed团队发布Lumine,是首个能在3D开放世界中实时完成小时级复杂任务的通用AI智能体。基于视觉语言模型,通过端到端架构统一感知、推理与行动,仅靠屏幕图像和键盘鼠标操作,无需游戏内部API。来源:量子位
字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine
11月14·周五登顶!GLM-4.6获LMArena代码榜全球并列第一全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱GLM-4.6与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源:智谱Dexmal原力灵机融资近10亿元,阿里巴巴、蔚来资本分别领投具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源:Dexmal原力灵机AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿
Qwen Code 重磅更新:让 AI 编程跳出命令行
Skywork Sheets 2.0重磅上线:一键解锁高效办公新体验Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。来源:昆仑万维集团
登顶!GLM-4.6获LMArena代码榜全球并列第一
阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。来源:AI工具集 陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源:机器之心
Skywork Sheets 2.0重磅上线:一键解锁高效办公新体验
小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版小红书与复旦大学联合推出布局控制生成方案InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述,在对应位置高精度生成图像,解决了布局对齐不准的行业难题。来源:IT之家
小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版
曦诺未来宣布完成超亿元天使轮融资,宁德时代和小米投了杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资,由宁德时代旗下溥泉资本领投,小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1,拥有25个自由度,自重仅380克,负载超30公斤。来源:智东西
曦诺未来宣布完成超亿元天使轮融资,宁德时代和小米投了
12月25·周四阿里最强“PS模型”开源:Qwen-Image-Edit-2511阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。来源:智东西生数科技联合清华发布 TurboDiffusion提速200倍生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。来源:生数科技12月24·周三字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数
阿里最强“PS模型”开源:Qwen-Image-Edit-2511
智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。来源:AI工具集 通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。来源:通义千问Qwen
生数科技联合清华发布 TurboDiffusion提速200倍
12月24·周三字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。来源:字节跳动Seed上海与商汤发布规划资源 AI 基础大模型全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。来源:商汤科技SenseTime云深处科技已正式启动上市辅导杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。来源:智东西12月23·周二GLM-
字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5
阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。来源:智东西 生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。来源:生数科技
上海与商汤发布规划资源 AI 基础大模型
云深处科技已正式启动上市辅导杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。来源:智东西
云深处科技已正式启动上市辅导
12月23·周二GLM-4.7上线并开源:更强的编码智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。来源:智谱MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源:MiniMax稀宇科技阿里发布新一代端到端语音交互模型:Fun-Audio-Chat阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入
GLM-4.7上线并开源:更强的编码
字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。来源:字节跳动Seed 全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。来源:商汤科技SenseTime
MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生
阿里发布新一代端到端语音交互模型:Fun-Audio-Chat阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入直接生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中,模型在同尺寸模型中排名第一,综合性能超越GLM4-Voice、Kimi-Audio等主流产品。来源:通义大模型
阿里发布新一代端到端语音交互模型:Fun-Audio-Chat
面壁智能完成数亿元融资,加码投入领跑端侧 AI面壁智能近日宣布完成数亿元融资,投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入,加速端侧AI的商业化进程。来源:面壁智能
面壁智能完成数亿元融资,加码投入领跑端侧 AI
钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS钉钉发布AI工作操作系统“Agent OS”,重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统,可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。来源:APPSO
钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS
12月22·周一MiniMax 通过港交所聆讯,有望成为“AGI 全球第一股”MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源:第一财经智谱冲刺港股“大模型第一股”,估值244亿智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。来源:智东西英伟达新模型NitroGen能打遍几乎所有游戏英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器
MiniMax 通过港交所聆讯,有望成为“AGI 全球第一股”
智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。来源:智谱 MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源:MiniMax稀宇科技
智谱冲刺港股“大模型第一股”,估值244亿
英伟达新模型NitroGen能打遍几乎所有游戏英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器人设计的GR00T架构,具备强大的跨游戏泛化能力。来源:机器之心
英伟达新模型NitroGen能打遍几乎所有游戏
12月19·周五扣子编程,开启免费公开测试在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子CozeOpenAI最强代码模型GPT-5.2-Codex上线OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心VTP:MiniMax海螺视频团队,首次开源!MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。来源:MiniMax稀宇科技苹果开
扣子编程,开启免费公开测试
MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源:第一财经 智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。来源:智东西
OpenAI最强代码模型GPT-5.2-Codex上线
VTP:MiniMax海螺视频团队,首次开源!MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。来源:MiniMax稀宇科技
VTP:MiniMax海螺视频团队,首次开源!
苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源:IT之家
苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来
12月18·周四Google 发布了高速、低成本模型 Gemini 3 Flash谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。来源:龙猫LongCat通用Agent模型Seed1.8正式发布字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OS
Google 发布了高速、低成本模型 Gemini 3 Flash
在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子Coze OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
通用Agent模型Seed1.8正式发布字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OSWorld得分达61.9,搜索任务BrowseComp-en得分67.6,均处于行业领先水平。来源:字节跳动Seed
通用Agent模型Seed1.8正式发布
更大更强!限时免费!阶跃星辰 GUI Agent 全面升级阶跃星辰宣布其GUI Agent模型Step-GUI全面升级,新版模型支持200多个任务场景,具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用,并实现最短10分钟快速部署。公司开放了API供免费使用,并公开发布了技术报告与GUI-MCP协议。来源:阶跃星辰
更大更强!限时免费!阶跃星辰 GUI Agent 全面升级
Meta 发布 SAM Audio,多模态音频分离新突破Meta发布首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术,用户可点击视频中物体分离对应音频,或输入”狗吠”等文本指令过滤噪音。来源:IT之家
Meta 发布 SAM Audio,多模态音频分离新突破
估值达465亿!明星AI编程独角兽Lovable再拿新融资瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍,成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与,标志着AI编程工具赛道竞争加剧。来源:智东西
估值达465亿!明星AI编程独角兽Lovable再拿新融资
爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持,涵盖基础设施及大模型服务,助力其自研视频生成模型PixVerse的全球化部署。来源:爱诗科技AIsphere
爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航
12月17·周三即梦网页版全面升级,打造一站式AI片场即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源:即梦AIOpenAI 最强 AI 生图模型GPT Image 1.5登场OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家小米正式发布并开源新模型 MiMo-V2-Flash小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理
即梦网页版全面升级,打造一站式AI片场
谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心 美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。来源:龙猫LongCat
OpenAI 最强 AI 生图模型GPT Image 1.5登场
小米正式发布并开源新模型 MiMo-V2-Flash小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理成本。来源:APPSO
小米正式发布并开源新模型 MiMo-V2-Flash
腾讯混元世界模型1.5发布,国内首个开放实时体验腾讯正式发布混元世界模型1.5(WorldPlay),是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界,能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力,离开后返回场景保持一致。来源:腾讯混元
腾讯混元世界模型1.5发布,国内首个开放实时体验
Seedance 1.5 pro 音视频创作模型正式发布字节跳动发布新一代音视频创作模型Seedance 1.5 pro,实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成,在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。来源:字节跳动Seed
Seedance 1.5 pro 音视频创作模型正式发布
12月16·周二LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。来源:商汤科技SenseTimeWan2.6正式发布!上线国内首个角色扮演功能阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容
LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!
即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源:即梦AI OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家
商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT
Wan2.6正式发布!上线国内首个角色扮演功能阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容。在图像生成方面,模型提升了艺术风格融合与细节刻画能力,支持图文混排、多图融合等商用级创作。来源:通义万相Wan
Wan2.6正式发布!上线国内首个角色扮演功能
英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍英伟达发布Nemotron 3开源AI模型系列,包含Nano、Super和Ultra三种规格。其中Nano版本(300亿参数)已上线,其采用混合专家架构,宣称吞吐量达上一代4倍,推理token生成减少60%,具备100万token上下文窗口。该系列专为多智能体系统设计,旨在解决通信开销和推理成本等挑战。来源:IT之家
英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍
通义百聆语音双子星,同步开源!阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制,首包延迟降低50%,中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%,支持31种语言混说及方言识别,将流式识别首字延迟降至160毫秒。来源:通义大模型
通义百聆语音双子星,同步开源!
12月15·周一商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。来源:商汤科技SenseTime蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源:IT之家Google Gemini TTS升级:支持24种语言,语音更拟真谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1
LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI 商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。来源:商汤科技SenseTime
蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”
Google Gemini TTS升级:支持24种语言,语音更拟真谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调整语速,如在兴奋时加快、强调时放慢,还能在多语言对话中保持一致的角色声音,使对话更真实。来源:AI工具集
Google Gemini TTS升级:支持24种语言,语音更拟真
12月12·周五GPT-5.2 正式发布!让打工人每周少干 10 小时OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO智谱多模态开源周收官:四项视频生成核心技术开源智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源:智谱谷歌重磅开源!深度研究Agent拿下SOTA谷歌开源深度研究AgentGemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。
GPT-5.2 正式发布!让打工人每周少干 10 小时
商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。来源:商汤科技SenseTime 蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源:IT之家
智谱多模态开源周收官:四项视频生成核心技术开源
谷歌重磅开源!深度研究Agent拿下SOTA谷歌开源深度研究AgentGemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型,具备多步搜索和复杂信息整合能力,可自动生成深度研究报告。来源:智东西
谷歌重磅开源!深度研究Agent拿下SOTA
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权。根据协议,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权,包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频,部分精选内容还将在Disney+平台播出。来源:IT之家
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频
12月11·周四智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。来源:智谱面壁智能 VoxCPM 1.5 开源,语音生成能力再升级VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。来源:面壁智能阿里发布 Qwen3-Omni-Flash 全模态大模型阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户
智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成
OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO 智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源:智谱
面壁智能 VoxCPM 1.5 开源,语音生成能力再升级
阿里发布 Qwen3-Omni-Flash 全模态大模型阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户可精细设定如“甜妹”、“御姐”等特定人设风格。来源:IT之家
阿里发布 Qwen3-Omni-Flash 全模态大模型
Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能OpenAI宣布ChatGPT正式接入Adobe系列专业软件,包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具,通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后,ChatGPT会根据用户指令动态生成相应的操作界面,例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。来源:IT之家
Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能
12月10·周三GLM-ASR开源,智谱AI输入法发布智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源:智谱Mistral AI开源新一代编程模型:Devstral 2Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。来源:AI工具集生成式AI媒体平台Fal再获1.4亿美元注资生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Sh
GLM-ASR开源,智谱AI输入法发布
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。来源:智谱 VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。来源:面壁智能
Mistral AI开源新一代编程模型:Devstral 2
生成式AI媒体平台Fal再获1.4亿美元注资生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Shopify等企业。来源:AI工具集
生成式AI媒体平台Fal再获1.4亿美元注资
12月9·周二AutoGLM开源:每台手机,都可以成为AI手机智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。来源:智谱蚂蚁集团通用 AI 助手灵光上线网页版蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。来源:IT之家12月8·周一智谱正式上线并开源 GLM-4.6V 系列多模态大模型智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集美团发布 LongCat-I
AutoGLM开源:每台手机,都可以成为AI手机
智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源:智谱 Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。来源:AI工具集
蚂蚁集团通用 AI 助手灵光上线网页版
12月8·周一智谱正式上线并开源 GLM-4.6V 系列多模态大模型智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。来源:龙猫LongCat混元2.0上线:推理能力与效率业界领先腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确
智谱正式上线并开源 GLM-4.6V 系列多模态大模型
智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。来源:智谱 蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。来源:IT之家
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
混元2.0上线:推理能力与效率业界领先腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确率的同时显著降低思维链长度,推理效率领先。来源:腾讯混元
混元2.0上线:推理能力与效率业界领先
AI法律科技公司Harvey又获新融资(F轮),估值560亿!美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资,估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立,专注于“AI+法律”领域,法律AI平台包含AI助理、文档库等功能,已与美国百强律所中的50家合作。Harvey已获7轮融资,总融资额超9.6亿美元,OpenAI创业基金、谷歌风投等多次参与投资。来源:智东西
AI法律科技公司Harvey又获新融资(F轮),估值560亿!
12月5·周五听得清,看得懂!豆包语音识别模型2.0来了火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。来源:火山引擎可灵数字人 2.0 功能正式上线!不止会说,更会演!可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。来源:可灵AI谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。来源:IT之家AI视频生成产品 Pollo
听得清,看得懂!豆包语音识别模型2.0来了
智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集 美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。来源:龙猫LongCat
可灵数字人 2.0 功能正式上线!不止会说,更会演!
谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。来源:IT之家
谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think
AI视频生成产品 Pollo AI 获 1400 万美元融资AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。来源:晚点科技
AI视频生成产品 Pollo AI 获 1400 万美元融资
Google推出Workspace Studio,赋能企业全员构建AI智能体Google正式发布Workspace Studio,是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体,实现从简单任务到复杂流程的自动化。来源:AI工具集
Google推出Workspace Studio,赋能企业全员构建AI智能体
12月4·周四LiblibAI 上线 Seedream 4.5,一致性保持/多图参考能力全面升级!国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。来源:哩布哩布AI小红书收购“点点”小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。来源:36氪可灵 2.6 全量上线!听见画面,看见声音可灵2.6全量上线,是其首个“音画同出”模型,能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径,适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。来源:可灵AI豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景火山引擎发布豆包图像创作模型Seedream 4.5并开启
LiblibAI 上线 Seedream 4.5,一致性保持/多图参考能力全面升级!
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。来源:火山引擎 可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。来源:可灵AI
可灵 2.6 全量上线!听见画面,看见声音
豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升,重点强化多图组合生成、海报排版与Logo设计能力,可精准满足广告营销、电商运营、影视制作等商业场景需求。来源:火山引擎
豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景
12月3·周三Mistral AI发布Mistral 3系列模型,全线回归Apache 2.0Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。来源:机器之心Anthropic收购热门JavaScript工具链公司BunAnthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。来源:InfoQ亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新在AWS re:Invent大会上,亚马逊云科技发布
Mistral AI发布Mistral 3系列模型,全线回归Apache 2.0
国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。来源:哩布哩布AI 小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。来源:36氪
Anthropic收购热门JavaScript工具链公司Bun
亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新在AWS re:Invent大会上,亚马逊云科技发布十大AI更新:推出自研AI芯片Trainium4(性能提升6倍)及Trainium3服务器;第二代大模型Amazon Nova 2系列(Lite、Pro、Sonic、Omni)性能超越多款主流模型;Bedrock平台新增18款开源模型,包括阿里、Kimi等中国模型;推出AgentCore开发工具和四大智能体(如自主编程、安全运维),强化企业级AI应用。来源:智东西
亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新
商汤发布 NEO 架构,重新定义多模态模型效能边界商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO,突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新,实现视觉与语言的深层融合。来源:商汤科技SenseTime
商汤发布 NEO 架构,重新定义多模态模型效能边界
12月2·周二LiblibAI 上线「可灵O1」全能视频模型,速来体验LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。来源:哩布哩布AIRunway发布的最新视频生成AI模型Gen-4.5,代号”David”Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。来源:机器之心英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长
LiblibAI 上线「可灵O1」全能视频模型,速来体验
Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。来源:机器之心 Anthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。来源:InfoQ
Runway发布的最新视频生成AI模型Gen-4.5,代号”David”
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限,通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。来源:机器之心
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
PixVerse V5.5 来了!「导演级」音画同步一键生成PixVerse发布PixVerse V5.5视频生成模型,实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能,可一键生成5秒、8秒或10秒的多镜头叙事单元,自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音,使角色口型、动作与音频完美契合。来源:爱诗科技AIsphere
PixVerse V5.5 来了!「导演级」音画同步一键生成
12月1·周一DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。来源:DeepSeek字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。来源:量子位阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。来源:哩布哩布AI Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。来源:机器之心
字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表
阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建,支持一键部署、多设备任务分发,解决移动端Agent规模化落地的工程难题。来源:量子位
阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备
11月28·周五DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。来源:机器之心昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。来源:昆仑万维集团混元3D Studio升级,可直出艺术家级3D资产腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越
DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2
DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。来源:DeepSeek 字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。来源:量子位
昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型
混元3D Studio升级,可直出艺术家级3D资产腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。来源:腾讯混元
混元3D Studio升级,可直出艺术家级3D资产
11月27·周四阿里开源高效图像生成模型Z-Image,参数规模6B阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。来源:AI工具集字节跳动发布视觉空间重建模型:Depth Anything 3字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源:字节跳动Seed清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能
阿里开源高效图像生成模型Z-Image,参数规模6B
DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。来源:机器之心 昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。来源:昆仑万维集团
字节跳动发布视觉空间重建模型:Depth Anything 3
清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。来源:智东西
清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资
11月26·周三黑森林重磅开源FLUX.2,图像生成模型的新里程碑Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。来源:AI工具集LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑!国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源:哩布哩布AI腾讯混元3D创作引擎国际站,上线!腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源:腾讯混元TRAE SOLO 登陆中
黑森林重磅开源FLUX.2,图像生成模型的新里程碑
阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。来源:AI工具集 字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源:字节跳动Seed
LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑!
腾讯混元3D创作引擎国际站,上线!腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源:腾讯混元
xAI完成200亿美元E轮融资,英伟达再次出手
北京智谱华章技术股份有限公司(简称“智谱”)正式在香港交易所挂牌上市,股票代码为“02513”,成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心,致力于通用人工智能(AGI)的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源:智谱 北大系AI公司元空智能(ChatExcel)连续完成Pre-A轮与A轮数千万融资,由考拉基金与合鼎共资本投资,全年共完成三轮融资。2026年,公司正重点推进全球化布局,海外版本已上线,致力于成为国际领先的数据智能服务商。来源:元空AIExcel
LMArena完成1.5亿美元Series A融资
智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术,可将万级场景的生成时间缩短至分钟级。来源:AI工具集
智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0
1月6·周二英伟达发布重磅AI计算平台Vera Rubin英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin,打破五年未发消费级显卡的惯例。平台包含6款全新芯片,其中Rubin GPU推理算力达50 PFLOPS,是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升,训练10万亿参数模型所需系统数量仅为前代1/4,成本降至1/10。来源:APPSO亚马逊上线 Alexa网页版,加速补齐网页端能力亚马逊正式推出Alexa+网页版,重新启用Alexa.com域名,允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端,与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源:AI工具集开源异构算力调度平台「密瓜智能」获数千万元投资异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资,由复星创富领投。核心产品为CNCF开源项目HAMi,专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度,可实现显存超卖和动态资源分配。来源:36氪智能眼镜企
英伟达发布重磅AI计算平台Vera Rubin
马斯克旗下xAI公司完成200亿美元E轮融资,超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示,Grok月活跃用户已达6亿,Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力,Grok 4在强化学习方面取得突破。来源:智东西 AI初创公司LMArena完成1.5亿美元A轮融资,投后估值达17亿美元。核心产品为“模型竞技场”平台,通过众包方式让用户比较不同AI模型的性能,月活用户超500万,每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源:Z Potentials
亚马逊上线 Alexa网页版,加速补齐网页端能力
开源异构算力调度平台「密瓜智能」获数千万元投资异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资,由复星创富领投。核心产品为CNCF开源项目HAMi,专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度,可实现显存超卖和动态资源分配。来源:36氪
开源异构算力调度平台「密瓜智能」获数千万元投资
智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资国内AR智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资,由中国移动链长基金与中信金石共同领投,中国联通旗下基金参与。是国内运营商首次以战略投资者身份进入智能眼镜赛道,交割后中国移动持股7.92%。来源:智东西
智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资
1月5·周一智元机器人与MiniMax达成合作,全模态AI加速落地机器人应用智元机器人与MiniMax(上海稀宇科技)正式达成合作,MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性,量身打造专属人设体系以优化语音交互体验,并通过定制化提示词策略实现千人千面的个性化音色合成。来源:36氪腾讯「AI应用及线上工具小程序成长计划」发布:混元大模型token免费用微信小程序正式推出「AI应用及线上工具小程序成长计划」,为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token,涵盖旗舰文生文及文生图等多模态模型能力,并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目,个人或企业主体均可参与。来源:腾讯混元Looki完成超2000万美元A轮融资AI硬件公司Looki完成超2000万美元A轮融资,由蚂蚁集团领投,美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备,重30克,可通过视觉和音频信号实现智能生活记录和个性化交互。来源:AI工
智元机器人与MiniMax达成合作,全模态AI加速落地机器人应用
英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin,打破五年未发消费级显卡的惯例。平台包含6款全新芯片,其中Rubin GPU推理算力达50 PFLOPS,是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升,训练10万亿参数模型所需系统数量仅为前代1/4,成本降至1/10。来源:APPSO 亚马逊正式推出Alexa+网页版,重新启用Alexa.com域名,允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端,与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源:AI工具集
腾讯「AI应用及线上工具小程序成长计划」发布:混元大模型token免费用
Looki完成超2000万美元A轮融资AI硬件公司Looki完成超2000万美元A轮融资,由蚂蚁集团领投,美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备,重30克,可通过视觉和音频信号实现智能生活记录和个性化交互。来源:AI工具集
Looki完成超2000万美元A轮融资
AI助手ima支持PPT生成AI助手ima正式推出PPT生成功能,用户现可通过任务模式一键制作演示文稿。功能支持上传附件或调用知识库资料,自动将文字内容转化为包含数据图表、图标配图和重点突出的专业PPT。用户可自定义风格主题,如简洁商务风、深色科技风等。来源:ima.copilot
腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy
2月6·周五OpenAI发布新一代编程模型:GPT-5.3-CodexOpenAI推出新一代编程模型GPT-5.3-Codex,宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩,编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力,速度提升25%,能参与自身开发优化。来源:智东西Anthropic发布新一代AI模型Claude Opus 4.6Anthropic发布新一代AI模型Claude Opus 4.6,具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越:16个AI代理两周内写出可编译Linux的C编译器,自主发现500多个零日漏洞,在GDPval-AA评测中超越GPT-5.2。来源:量子位AI营销平台PallasAI 完成数千万元融资AI营销平台PallasAI完成数千万元融资,由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品,通过可见性评分、营销图谱和Agent内容协作三大功能,帮助中小企业量化品牌在AI生态
OpenAI发布新一代编程模型:GPT-5.3-Codex
字节跳动推出新一代AI视频生成模型Seedance 2.0,支持多模态参考生成,可同时上传图片、视频、音频等最多12个参考文件,精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑,用户可直接修改不满意部分,显著降低废片率。来源:AI工具集 天工Skywork推出SkyBot,号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造,用户无需配置硬件或命令行,点击即可领取7×24小时云端AI助理。来源:昆仑万维集团
Anthropic发布新一代AI模型Claude Opus 4.6
AI营销平台PallasAI 完成数千万元融资AI营销平台PallasAI完成数千万元融资,由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品,通过可见性评分、营销图谱和Agent内容协作三大功能,帮助中小企业量化品牌在AI生态中的曝光度。来源:Founder Park
AI营销平台PallasAI 完成数千万元融资
生数科技宣布完成超过6亿元人民币A+轮融资北京生数科技宣布完成超6亿元A+轮融资,创下国内视频生成领域单笔融资新纪录。公司由清华大学背景团队创立,其Vidu Q3视频生成模型在专业影视制作场景中表现突出,位列全球第二,客户覆盖索尼、腾讯、字节跳动等企业。来源:智东西
生数科技宣布完成超过6亿元人民币A+轮融资
2月5·周四可灵AI正式迈入3.0时代!可灵AI正式升级至3.0版本,推出可灵3.0模型系列。实现多模态输入输出一体化,重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化,新增智能分镜功能,可自动调度景别与机位,视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力,图片3.0 Omni新增深度叙事与组图批量创作功能。来源:可灵AI面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5面壁智能开源新一代全模态模型MiniCPM-o 4.5,模型具备”边看、边听、主动说”的全双工交互能力,让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能,在视觉理解、文档解析、语音生成等方面表现优异,支持实时感知与主动响应。来源:面壁智能上海AI实验室开源科学多模态大模型Intern-S1-Pro上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构,总参数1万亿,激活参数220亿。基于“通专融合”SAGE技术,具备奥赛级数理推理能力,可精准解析多模态科学内容,覆盖化学、材料、生命、地球、物理等学科。来源:AI工具集Mi
可灵AI正式迈入3.0时代!
OpenAI推出新一代编程模型GPT-5.3-Codex,宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩,编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力,速度提升25%,能参与自身开发优化。来源:智东西 Anthropic发布新一代AI模型Claude Opus 4.6,具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越:16个AI代理两周内写出可编译Linux的C编译器,自主发现500多个零日漏洞,在GDPval-AA评测中超越GPT-5.2。来源:量子位
面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5
上海AI实验室开源科学多模态大模型Intern-S1-Pro上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构,总参数1万亿,激活参数220亿。基于“通专融合”SAGE技术,具备奥赛级数理推理能力,可精准解析多模态科学内容,覆盖化学、材料、生命、地球、物理等学科。来源:AI工具集
上海AI实验室开源科学多模态大模型Intern-S1-Pro
Mistral AI 推出新一代语音转文本模型Voxtral Transcribe 2Mistral AI 推出的新一代语音转文本模型Voxtral Transcribe 2,包含两个版本。Voxtral Mini 支持 13 种语言的高精度转录,具备说话人分离、词级时间戳和上下文偏置功能,适合批量转录。Voxtral Realtime 专为实时场景设计,延迟低至 200 毫秒以下,适合语音助手等交互应用。来源:AI工具集
Mistral AI 推出新一代语音转文本模型Voxtral Transcribe 2
2月4·周三通义千问 Qwen3-Coder-Next 开源:小而强!通义开源Qwen3-Coder-Next编程智能体模型,采用80B总参数的MoE架构,每次推理仅激活3B参数,显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率,性能接近更大规模的稠密模型。来源:通义大模型昆仑天工面向全球发布“Skywork桌面版”昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。来源:昆仑万维集团2月3·周二智谱GLM-OCR发布:性能SOTA,搞定复杂文档智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批
通义千问 Qwen3-Coder-Next 开源:小而强!
可灵AI正式升级至3.0版本,推出可灵3.0模型系列。实现多模态输入输出一体化,重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化,新增智能分镜功能,可自动调度景别与机位,视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力,图片3.0 Omni新增深度叙事与组图批量创作功能。来源:可灵AI 面壁智能开源新一代全模态模型MiniCPM-o 4.5,模型具备”边看、边听、主动说”的全双工交互能力,让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能,在视觉理解、文档解析、语音生成等方面表现优异,支持实时感知与主动响应。来源:面壁智能
昆仑天工面向全球发布“Skywork桌面版”
2月3·周二智谱GLM-OCR发布:性能SOTA,搞定复杂文档智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批量处理,吞吐量达1.86页/秒。来源:智谱元气AI Bot正式上线:国产AI助手实现电脑自动化操控猎豹公司推出首款国产Clawbot工具“元气AI Bot”,支持在普通Windows电脑本地部署,用户可通过手机飞书或钉钉远程控制,用自然语言指令让AI自动操作电脑,如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能,推出多款个性化AI伙伴角色。来源:AI工具集马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元马斯克正式宣布SpaceX完成对xAI的收购,合并后公司估值达1.25万亿美元,每股发行价526.59美元。马斯克在内部信中表示,此次整合将打造”地球上最具雄心的
智谱GLM-OCR发布:性能SOTA,搞定复杂文档
通义开源Qwen3-Coder-Next编程智能体模型,采用80B总参数的MoE架构,每次推理仅激活3B参数,显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率,性能接近更大规模的稠密模型。来源:通义大模型 昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。来源:昆仑万维集团
元气AI Bot正式上线:国产AI助手实现电脑自动化操控
马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元马斯克正式宣布SpaceX完成对xAI的收购,合并后公司估值达1.25万亿美元,每股发行价526.59美元。马斯克在内部信中表示,此次整合将打造”地球上最具雄心的垂直创新引擎”,涵盖AI、火箭技术、太空互联网等多领域。合并后,SpaceX将推进在太空部署数据中心的计划,利用太空太阳能资源降低AI算力成本。来源:量子位
马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元
马斯克旗下 xAI 发布 Grok Imagine 1.0马斯克旗下的人工智能公司xAI正式发布Grok Imagine 1.0版本,是该AI视频生成工具的重大升级。新版本支持生成10秒时长、720p分辨率的视频,显著提升了音频质量,实现了音画同步与情感化配音功能。来源:AI工具集
马斯克旗下 xAI 发布 Grok Imagine 1.0
2月2·周一阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!阶跃星辰发布新一代开源基座模型Step 3.5 Flash,专为 Agent 场景设计。模型采用稀疏 MoE 架构,具备 1960 亿参数,每个 token 仅激活约 110 亿参数,支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS,在 Agent 任务和数学推理上媲美闭源模型,并通过 MTP-3 技术实现单次预测 3 个 token,显著提升效率。来源:阶跃星辰Qoder首个定制模型 Qwen-Coder-QoderQoder智能编程平台上线首个定制模型Qwen-Coder-Qoder,5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座,针对Qoder的Agent框架进行深度优化,在真实软件工程评测集上任务解决率超过Cursor Composer-1,Windows系统终端命令准确率领先50%。来源:Qoder「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式跨赴科技近日完成数千万元Pre-A+轮融资,由哈勃投资和正扬投资领投,老
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批量处理,吞吐量达1.86页/秒。来源:智谱 猎豹公司推出首款国产Clawbot工具“元气AI Bot”,支持在普通Windows电脑本地部署,用户可通过手机飞书或钉钉远程控制,用自然语言指令让AI自动操作电脑,如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能,推出多款个性化AI伙伴角色。来源:AI工具集
Qoder首个定制模型 Qwen-Coder-Qoder
「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式跨赴科技近日完成数千万元Pre-A+轮融资,由哈勃投资和正扬投资领投,老股东奇绩创坛跟投,距上一轮融资仅四个月。核心产品“CodeFlying码上飞”年度经常性收入已突破1000万元,海外业务快速增长。来源:KuaFuAI
「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式
Vidu Q3 全球震撼来袭,为「剧」而生!Vidu Q3全球震撼来袭,作为全球首个支持16秒音视频直出的AI视频生成模型,专为漫剧、短剧、影视剧创作设计。模型实现声画同步高清直出,支持多镜头自由切换、多语言对话与文字渲染,具备电影级视听张力,让AI视频进入”一键成片”时代。来源:Vidu AI
Vidu Q3 全球震撼来袭,为「剧」而生!
1月30·周五宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。来源:IT之家商汤开源SenseNova-MARS:突破多模态搜索推理天花板商汤科技开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。来源:商汤科技SenseTimeQwen3-ASR开源:够稳定,能流式,多语言!阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。来源:千问QwenOpenAI宣布
宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作
阶跃星辰发布新一代开源基座模型Step 3.5 Flash,专为 Agent 场景设计。模型采用稀疏 MoE 架构,具备 1960 亿参数,每个 token 仅激活约 110 亿参数,支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS,在 Agent 任务和数学推理上媲美闭源模型,并通过 MTP-3 技术实现单次预测 3 个 token,显著提升效率。来源:阶跃星辰 Qoder智能编程平台上线首个定制模型Qwen-Coder-Qoder,5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座,针对Qoder的Agent框架进行深度优化,在真实软件工程评测集上任务解决率超过Cursor Composer-1,Windows系统终端命令准确率领先50%。来源:Qoder
商汤开源SenseNova-MARS:突破多模态搜索推理天花板
Qwen3-ASR开源:够稳定,能流式,多语言!阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。来源:千问Qwen
Qwen3-ASR开源:够稳定,能流式,多语言!
OpenAI宣布2月13日下线GPT-4o等旧模型OpenAI宣布将于2月13日从ChatGPT平台下线GPT-4o、GPT-4.1系列等旧模型。此举引发用户强烈反响,部分用户称GPT-4o的“温暖对话风格”具有不可替代的情感价值,尤其满足创意交流与情绪陪伴需求。OpenAI表示将集中资源优化主流模型,并在GPT-5.2中改进个性与创造力。API服务暂不受影响。来源:APPSO
OpenAI宣布2月13日下线GPT-4o等旧模型
苹果20亿美元收购以色列AI公司Q.ai苹果公司以近20亿美元收购以色列AI初创企业Q.ai,为其自2014年收购Beats以来规模第二大的交易。Q.ai核心技术为通过分析面部微表情与肌肉运动识别“无声语音”,用户无需发声即可通过唇动输入指令。该技术有望集成至AirPods、iPhone及计划于2026年推出的AI眼镜中,实现私密、无干扰的交互体验。来源:极客公园
苹果20亿美元收购以色列AI公司Q.ai
1月29·周四昆仑万维开源视频生成模型SkyReels-V3,重塑创作流程昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。来源:昆仑万维集团MiniMax Music 2.5: 格莱美级创作,不再需要录音棚MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。来源:MiniMax稀宇科技昆仑天工Mureka V8重磅发布:定义AI音乐新品类昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。来源:昆仑万维集团1月28·周三
昆仑万维开源视频生成模型SkyReels-V3,重塑创作流程
宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。来源:IT之家 商汤科技开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。来源:商汤科技SenseTime
MiniMax Music 2.5: 格莱美级创作,不再需要录音棚
昆仑天工Mureka V8重磅发布:定义AI音乐新品类昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。来源:昆仑万维集团
昆仑天工Mureka V8重磅发布:定义AI音乐新品类
1月28·周三OpenAI发布免费科研协作工具PrismOpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。来源:新智元MiniMax发布MiniMax M2-her角色扮演模型MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。来源:MiniMax稀宇科技阿里通义开源Z-Image基座模型阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。来源:通义大模型1月27·周二Kimi 发布并开源 K2.5 模型,带
OpenAI发布免费科研协作工具Prism
昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。来源:昆仑万维集团 MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。来源:MiniMax稀宇科技
MiniMax发布MiniMax M2-her角色扮演模型
阿里通义开源Z-Image基座模型阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。来源:通义大模型
阿里通义开源Z-Image基座模型
1月27·周二Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。来源:月之暗面KimiVidu Q2 参考生Pro全球上线「万物可参考」Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。来源:Vidu AIDeepSeek又探索新架构了,开源DeepSeek-OCR 2DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样
Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力
OpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。来源:新智元 MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。来源:MiniMax稀宇科技
Vidu Q2 参考生Pro全球上线「万物可参考」
DeepSeek又探索新架构了,开源DeepSeek-OCR 2DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样按逻辑顺序理解复杂文档(如表格、多栏排版),在OmniDocBench评测中以91.09%的综合得分刷新纪录,阅读顺序识别误差降低33%。来源:机器之心
DeepSeek又探索新架构了,开源DeepSeek-OCR 2
千问最强模型Qwen3-Max-Thinking正式发布阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿,预训练数据达36T Tokens,在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制,在提升推理性能的同时更加经济。来源:阿里云
千问最强模型Qwen3-Max-Thinking正式发布
英伟达20亿美元加码CoreWeave,冲刺5GW算力英伟达宣布追加投资20亿美元给云服务商CoreWeave,持股比例升至超11%,成为其第二大股东。双方将深化合作,目标在2030年前建成超5GW的AI算力项目。值得注意的是,英伟达首次独立向CoreWeave供应Vera CPU芯片,可能预示其将进入数据中心CPU市场,与英特尔、AMD竞争。来源:钛媒体
英伟达20亿美元加码CoreWeave,冲刺5GW算力
GitHub开源项目Clawdbot意外带火Mac mini开源项目Clawdbot在GitHub爆火,Star数两天内从五千飙升至两万。项目支持自部署AI助手,通过网关连接聊天软件(如WhatsApp、Telegram)与多款AI模型(Claude、GPT等),并集成日历管理、邮件处理、自动化任务等技能,实现真正的“对话式”个人助理。来源:APPSO
GitHub开源项目Clawdbot意外带火Mac mini
1月26·周一腾讯混元发布混元图像3.0图生图模型,上线元宝:一句话就能p图腾讯混元团队发布混元图像3.0图生图模型,模型总参数量80B,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作,模型能智能理解图像内容并生成详细编辑步骤。来源:腾讯混元38岁清华姚班天才挂帅!上海大模型独角兽阶跃星辰融资超50亿上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资,刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长,将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地,重点攻坚基座模型、全模态融合和视觉语言动作(VLA)三大方向。来源:智东西商汤科技AI Agent“咔皮记账”核心功能永久免费啦!商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力,用户可通过拍照、语音等方式实现自动记账,目前已成为国内AI记账类产品第一名,累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能,彻
腾讯混元发布混元图像3.0图生图模型,上线元宝:一句话就能p图
月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。来源:月之暗面Kimi Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。来源:Vidu AI
38岁清华姚班天才挂帅!上海大模型独角兽阶跃星辰融资超50亿
商汤科技AI Agent“咔皮记账”核心功能永久免费啦!商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力,用户可通过拍照、语音等方式实现自动记账,目前已成为国内AI记账类产品第一名,累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能,彻底取消使用门槛。来源:商汤科技SenseTime
商汤科技AI Agent“咔皮记账”核心功能永久免费啦!
1月23·周五清言学习搭子已上线!火速申请体验名额智谱AI正式推出“AI学习搭子”AI学习助手,现已开放首批用户体验申请。产品通过三大功能重塑学习体验:智能摘要可将数百页文档转化为知识地图实现“把书读薄”;可视化交互卡片与AI助教答疑让学习过程生动有趣;知识点精准出题与“学-练-测”闭环助力深度掌握。来源:智谱清言Qwen3-TTS全家桶开源上线!通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。来源:千问QwenvLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact,并在种子轮融资1.5亿美元,公司估值达8亿美元。本轮融资由a16z和光速创投领投,红杉资本等机构跟投,成为有史以来规模最大的种子轮融资之一。来源:机器之心1月22·周
清言学习搭子已上线!火速申请体验名额
腾讯混元团队发布混元图像3.0图生图模型,模型总参数量80B,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作,模型能智能理解图像内容并生成详细编辑步骤。来源:腾讯混元 上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资,刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长,将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地,重点攻坚基座模型、全模态融合和视觉语言动作(VLA)三大方向。来源:智东西
Qwen3-TTS全家桶开源上线!
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact,并在种子轮融资1.5亿美元,公司估值达8亿美元。本轮融资由a16z和光速创投领投,红杉资本等机构跟投,成为有史以来规模最大的种子轮融资之一。来源:机器之心
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
1月22·周四百度发布文心大模型 5.0 正式版:2.4 万亿参数,具备全模态理解与生成能力百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。来源:百度文心腾讯CodeBuddy Code 2.0 重磅升级!腾讯CodeBuddy Code2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。来源:腾讯云代码助手CodeBuddy8B端侧写作智能体AgentCPM-Report开源!清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体AgentCP
百度发布文心大模型 5.0 正式版:2.4 万亿参数,具备全模态理解与生成能力
智谱AI正式推出“AI学习搭子”AI学习助手,现已开放首批用户体验申请。产品通过三大功能重塑学习体验:智能摘要可将数百页文档转化为知识地图实现“把书读薄”;可视化交互卡片与AI助教答疑让学习过程生动有趣;知识点精准出题与“学-练-测”闭环助力深度掌握。来源:智谱清言 通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。来源:千问Qwen
腾讯CodeBuddy Code 2.0 重磅升级!
8B端侧写作智能体AgentCPM-Report开源!清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体AgentCPM-Report。模型仅8B参数,通过40轮深度检索与100轮思维链推演,在DeepResearch Bench等三大评测中综合表现超越部分顶级闭源系统,尤其在洞察性指标排名第一。来源:面壁智能
8B端侧写作智能体AgentCPM-Report开源!
1月21·周三10B击败200B!阶跃星辰开源视觉语言SOTA:Step3-VL-10B阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。来源:阶跃星辰MiniMax推出Agent 2.0,升级为进阶型桌面智能协作伙伴MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。来源:机器之心1月20·周二GLM-4.7-Flash开源、免费智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ
10B击败200B!阶跃星辰开源视觉语言SOTA:Step3-VL-10B
百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。来源:百度文心 腾讯CodeBuddy Code2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。来源:腾讯云代码助手CodeBuddy
MiniMax推出Agent 2.0,升级为进阶型桌面智能协作伙伴
1月20·周二GLM-4.7-Flash开源、免费智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异,超越同尺寸开源模型达到SOTA水平。来源:智谱欢迎报名 Kimi 新模型 API 内测计划月之暗面(Moonshot AI)正式启动Kimi新模型API内测计划,面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户,通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。来源:Kimi开放平台马斯克开源 X 平台推荐算法马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。来源:APPSSO「自然选择」融资3000万美元,阿里、蚂蚁布局A
GLM-4.7-Flash开源、免费
阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。来源:阶跃星辰 MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。来源:机器之心
欢迎报名 Kimi 新模型 API 内测计划
马斯克开源 X 平台推荐算法马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。来源:APPSSO
马斯克开源 X 平台推荐算法
「自然选择」融资3000万美元,阿里、蚂蚁布局AI陪伴AI陪伴公司「自然选择」完成超3000万美元融资,投资方包括阿里巴巴、蚂蚁集团、启明创投等机构。公司推出的《EVE》产品重新定义了AI陪伴的五个维度:主动发起关怀、双商兼具的”活人感”、SOTA级长时记忆、高沉浸感设计以及破次元生活服务介入。来源:暗涌Waves
「自然选择」融资3000万美元,阿里、蚂蚁布局AI陪伴
Kimi开启新一轮融资!估值直冲48亿美元月之暗面在距上轮融资仅数周后启动新一轮融资,投前估值逼近48亿美元,较上月43亿美元估值溢价5亿美元。本轮融资获机构疯狂抢购,主因智谱与MiniMax港股上市表现强劲后,投资人加速布局中国AI头部标的。公司目前持有超100亿人民币现金储备,创始人杨植麟表示不急于IPO,将聚焦下一代K3推理模型研发与算力扩容。来源:Z Finance
Kimi开启新一轮融资!估值直冲48亿美元
1月19·周一扣子 2.0,让 Agent 更进一步字节跳动旗下AI智能体平台“扣子”正式发布2.0版本,推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包;Agent Plan支持设定长期目标后由AI自主规划执行;Agent Office提供深度职场场景理解与洞察;Agent Coding实现云端一站式开发。来源:扣子Coze安克与飞书联合发布AI录音豆安克与飞书联合发布AI录音豆,产品单体仅重10克,采用豆型轻巧设计,可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。来源:Anker安克AI视频领军企业爱诗科技与中国儒意达成战略合作AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作,并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用,重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权,合作研发多模态智能体技术。来源:爱诗科技AI
扣子 2.0,让 Agent 更进一步
智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异,超越同尺寸开源模型达到SOTA水平。来源:智谱 月之暗面(Moonshot AI)正式启动Kimi新模型API内测计划,面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户,通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。来源:Kimi开放平台
安克与飞书联合发布AI录音豆
AI视频领军企业爱诗科技与中国儒意达成战略合作AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作,并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用,重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权,合作研发多模态智能体技术。来源:爱诗科技AIsphere
AI视频领军企业爱诗科技与中国儒意达成战略合作
光轮智能联手World Labs破解评测规模化难题光轮智能与World Labs合作破解具身智能规模化评测难题,通过”数字表亲”仿真方案替代传统高成本数字孪生技术。该方案基于轻量真实世界采集数据,利用3D高斯泼溅技术快速生成可物理交互的仿真环境,将环境创建时间压缩至分钟级。来源:光轮智能
光轮智能联手World Labs破解评测规模化难题
1月16·周五国产芯片全程训练,GLM-Image登顶Hugging Face Trending智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位,成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构,在复杂视觉文本生成和长文本渲染任务中表现优异,尤其擅长汉字生成。来源:智谱美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601,在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式,支持8个并行推理路径协同工作,在复杂随机任务中性能超越Claude。来源:龙猫LongCat谷歌最强 AI 开放翻译模型:TranslateGemma 登场谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译,其中1
国产芯片全程训练,GLM-Image登顶Hugging Face Trending
字节跳动旗下AI智能体平台“扣子”正式发布2.0版本,推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包;Agent Plan支持设定长期目标后由AI自主规划执行;Agent Office提供深度职场场景理解与洞察;Agent Coding实现云端一站式开发。来源:扣子Coze 安克与飞书联合发布AI录音豆,产品单体仅重10克,采用豆型轻巧设计,可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。来源:Anker安克
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
谷歌最强 AI 开放翻译模型:TranslateGemma 登场谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译,其中12B版本翻译质量超越参数量更大的基线模型,4B模型性能与12B基线相当,可在手机端流畅运行。来源:IT之家
谷歌最强 AI 开放翻译模型:TranslateGemma 登场
混元3D Studio 1.2全面开放公测!支持笔刷交互、八视图输入腾讯混元3D Studio1.2版本今日全面开放公测,无需申请即可体验。该版本核心升级包括PartGen 1.5组件生成模型,拆分精度提升至1536³分辨率,并首次支持笔刷交互,用户可通过笔刷进行细粒度组件拆分控制。来源:腾讯混元
混元3D Studio 1.2全面开放公测!支持笔刷交互、八视图输入
1月15·周四千问App上线AI购物,真正能帮你办事的AI来了!千问App正式上线400多项AI办事功能,标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,在全球首次实现AI点外卖、购物、订机票酒店等实用功能,用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划,新增学习辅助功能。来源:阿里巴巴阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一,超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。来源:阶跃星辰OpenAI签下近700亿AI芯片巨单!OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元(约697亿元人民币)的超级订单,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大高速AI推理平台。合作将于2026年起分阶段
千问App上线AI购物,真正能帮你办事的AI来了!
智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位,成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构,在复杂视觉文本生成和长文本渲染任务中表现优异,尤其擅长汉字生成。来源:智谱 美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601,在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式,支持8个并行推理路径协同工作,在复杂随机任务中性能超越Claude。来源:龙猫LongCat
阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首
OpenAI签下近700亿AI芯片巨单!OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元(约697亿元人民币)的超级订单,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大高速AI推理平台。合作将于2026年起分阶段实施,2028年前完成,Cerebras芯片推理速度达GPU系统的15倍。来源:智东西
OpenAI签下近700亿AI芯片巨单!
1月14·周三智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image智谱AI与华为联合开源新一代图像生成模型GLM-Image,是首个在国产昇腾Atlas 800T A2芯片上完成全流程训练的SOTA多模态模型。模型采用创新的“自回归+扩散解码器”混合架构,在复杂视觉文字生成(CVTG-2K)和长文本渲染(LongText-Bench)榜单中取得开源模型最优成绩,尤其擅长汉字生成任务。来源:智谱全球首个通用实时世界模型 PixVerse R1PixVerse正式发布全球首个通用实时世界模型PixVerse R1,开创视频内容从”录好再播”到”因你而生”的新范式。模型支持无限流生成、多模态交互与即时响应,最高支持1080P分辨率。来源:爱诗科技 AIsphereGenspark 官宣 ARR 突破 1 亿美元Genspark通过 LinkedIn 宣布,其产品上线仅 9 个月,年度经常性收入(ARR)已突破 1 亿美元,跻身全球增长最快的 AI 公司行列。同时,Genspark 预告 Genspark AI Workspace 2.0 将在两周内发布。来源:LinkedI
智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image
千问App正式上线400多项AI办事功能,标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,在全球首次实现AI点外卖、购物、订机票酒店等实用功能,用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划,新增学习辅助功能。来源:阿里巴巴 阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一,超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。来源:阶跃星辰
全球首个通用实时世界模型 PixVerse R1
Genspark 官宣 ARR 突破 1 亿美元Genspark通过 LinkedIn 宣布,其产品上线仅 9 个月,年度经常性收入(ARR)已突破 1 亿美元,跻身全球增长最快的 AI 公司行列。同时,Genspark 预告 Genspark AI Workspace 2.0 将在两周内发布。来源:LinkedIn
Genspark 官宣 ARR 突破 1 亿美元
商汤「办公小浣熊」APP上线!商汤科技正式上线「办公小浣熊APP」iOS移动版应用。APP主打移动办公场景下的AI生产力工具,支持用户通过手机进行复杂表格数据分析、语音输入快速记录,并实现电脑与手机间的任务无缝接力。来源:商汤科技SenseTime
商汤「办公小浣熊」APP上线!
MiniMax 开源新评测集:定义Coding Agent 的生产级标准MiniMax开源新一代Coding Agent评测集OctoCodingBench,首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标,系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。来源:MiniMax稀宇科技
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
快手宣布可灵 12 月收入超 2000 万美元快手科技宣布其视频生成大模型可灵AI在2025年12月单月收入突破2000万美元,年化收入运行率达2.4亿美元。产品在上线第10个月实现ARR破1亿美元后,于第19个月再次实现跨越式增长。2025年12月,可灵AI通过”全能灵感周”集中发布了可灵视频O1、可灵图片O1等多款新模型,在视频编辑、一致性保持等方面实现技术突破。来源:快手科技
快手宣布可灵 12 月收入超 2000 万美元
一年融2.2亿,DeepWisdom终于发布了第一款产品AtomsAI编程平台DeepWisdom正式发布核心产品Atoms,平台基于多智能体架构,让用户”用一句话启动一家创业公司”。只需输入想法,平台可调用产品经理、工程师等AI智能体,完成从市场调研、全栈开发到部署上线的完整产品闭环。公司在2025年完成累计2.2亿元人民币融资。来源:暗涌Waves
一年融2.2亿,DeepWisdom终于发布了第一款产品Atoms
1月13·周二Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手Anthropic发布Claude Cowork,是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。来源:AI工具集百川开源全球最强医疗大模型Baichuan-M3百川智能开源全球最强医疗大模型Baichuan-M3,在权威评测HealthBench中以65.1分综合成绩位列全球第一,首次在医疗领域全面超越GPT-5.2。模型幻觉率低至3.5%,为全球最低,首次具备原生“端到端”严肃问诊能力,其问诊表现超越真人医生平均水平。来源:百川智能1月12·周一自变量获字节、红杉等10亿元投资,构建物理世界的基础模型具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人千寻智能开源具身智能基础模型Spirit v1.5国产具身
Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手
智谱AI与华为联合开源新一代图像生成模型GLM-Image,是首个在国产昇腾Atlas 800T A2芯片上完成全流程训练的SOTA多模态模型。模型采用创新的“自回归+扩散解码器”混合架构,在复杂视觉文字生成(CVTG-2K)和长文本渲染(LongText-Bench)榜单中取得开源模型最优成绩,尤其擅长汉字生成任务。来源:智谱 PixVerse正式发布全球首个通用实时世界模型PixVerse R1,开创视频内容从”录好再播”到”因你而生”的新范式。模型支持无限流生成、多模态交互与即时响应,最高支持1080P分辨率。来源:爱诗科技 AIsphere
百川开源全球最强医疗大模型Baichuan-M3
1月12·周一自变量获字节、红杉等10亿元投资,构建物理世界的基础模型具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人千寻智能开源具身智能基础模型Spirit v1.5国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型,登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型,也是首个成功率突破50%的具身智能模型。来源:量子位Humanify 获数千万元首轮融资打造 AI OSAI初创公司Humanify(人格智能)近日宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。公司成立于2024年,专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队,加速智能在真实场景的落地。来源:Z Potentials谷
自变量获字节、红杉等10亿元投资,构建物理世界的基础模型
Anthropic发布Claude Cowork,是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。来源:AI工具集 百川智能开源全球最强医疗大模型Baichuan-M3,在权威评测HealthBench中以65.1分综合成绩位列全球第一,首次在医疗领域全面超越GPT-5.2。模型幻觉率低至3.5%,为全球最低,首次具备原生“端到端”严肃问诊能力,其问诊表现超越真人医生平均水平。来源:百川智能
千寻智能开源具身智能基础模型Spirit v1.5
Humanify 获数千万元首轮融资打造 AI OSAI初创公司Humanify(人格智能)近日宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。公司成立于2024年,专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队,加速智能在真实场景的落地。来源:Z Potentials
Humanify 获数千万元首轮融资打造 AI OS
谷歌联合零售巨头推出通用商务协议 UCP谷歌联合Shopify、沃尔玛、Target等零售巨头推出全新开放标准——通用商务协议(UCP),为AI智能体购物场景建立全流程标准化框架。协议支持智能体参与从商品发现到售后支持的全部环节,通过标准化实现不同系统间的协同运作,并可兼容谷歌此前发布的智能体支付、互联等协议。来源:IT之家
谷歌联合零售巨头推出通用商务协议 UCP
1月9·周五MiniMax 港股挂牌,历史上IPO规模最大的AI大模型公司诞生全球化AI大模型公司MiniMax(股票代码:0100.HK)在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%,截至发稿涨幅达63%,报269港元,市值约831亿港元。此次IPO以每股165港元定价上限发行,募集资金总额约55.4亿港元,其公开发售部分获得1837倍超额认购,市场反响热烈。来源:财联社ChatDev 2.0:零代码构建多智能体,快速开发一切清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃,用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源:面壁智能多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。
MiniMax 港股挂牌,历史上IPO规模最大的AI大模型公司诞生
具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人 国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型,登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型,也是首个成功率突破50%的具身智能模型。来源:量子位
ChatDev 2.0:零代码构建多智能体,快速开发一切
多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。来源:通义大模型
多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!
1月8·周四智谱上市了,全球大模型第一股,股票代码“02513”北京智谱华章技术股份有限公司(简称“智谱”)正式在香港交易所挂牌上市,股票代码为“02513”,成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心,致力于通用人工智能(AGI)的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源:智谱ChatExcel一年完成3轮融资,构建全模态数据链路平台北大系AI公司元空智能(ChatExcel)连续完成Pre-A轮与A轮数千万融资,由考拉基金与合鼎共资本投资,全年共完成三轮融资。2026年,公司正重点推进全球化布局,海外版本已上线,致力于成为国际领先的数据智能服务商。来源:元空AIExcelOpenAI 推出 ChatGPT Health 模式,为健康设立专属空间OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间,更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私,允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源:IT之家1月7·周三xAI完成20
智谱上市了,全球大模型第一股,股票代码“02513”
全球化AI大模型公司MiniMax(股票代码:0100.HK)在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%,截至发稿涨幅达63%,报269港元,市值约831亿港元。此次IPO以每股165港元定价上限发行,募集资金总额约55.4亿港元,其公开发售部分获得1837倍超额认购,市场反响热烈。来源:财联社 清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃,用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源:面壁智能
ChatExcel一年完成3轮融资,构建全模态数据链路平台
OpenAI 推出 ChatGPT Health 模式,为健康设立专属空间OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间,更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私,允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源:IT之家
OpenAI 推出 ChatGPT Health 模式,为健康设立专属空间
1月7·周三xAI完成200亿美元E轮融资,英伟达再次出手马斯克旗下xAI公司完成200亿美元E轮融资,超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示,Grok月活跃用户已达6亿,Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力,Grok 4在强化学习方面取得突破。来源:智东西LMArena完成1.5亿美元Series A融资AI初创公司LMArena完成1.5亿美元A轮融资,投后估值达17亿美元。核心产品为“模型竞技场”平台,通过众包方式让用户比较不同AI模型的性能,月活用户超500万,每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源:Z Potentials智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术,可将万级场景的生成时间缩短至分钟级。来源:AI工具集
全球首个面向AI智能体的进化协作平台——EvoMap
谷歌实验室宣布,生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型,为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲,进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源:IT之家 全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集
千寻智能完成近20亿融资,引领具身基模进化与商业化落地
10 亿美元融资!李飞飞「世界模型」公司估值 50 亿美元李飞飞创立的World Labs近期完成10亿美元巨额融资,公司估值飙升至50亿美元。投资者包括Autodesk、英伟达、AMD、a16z等顶级巨头。公司今年1月推出了“World API”,为企业提供大型世界模型的API接入,并与Autodesk等公司展开B2B合作,探索商业化路径。来源:极客公园
10 亿美元融资!李飞飞「世界模型」公司估值 50 亿美元
智平方又完成5轮B轮系列融资,融资规模超10亿,估值超百亿智平方宣布完成B轮融资,规模超10亿元人民币,估值超过百亿,一年内累计完成12轮融资,成为融资最快的具身智能企业。本轮融资方阵容强大,百度、中国中车等产业与资本巨头集体加注。来源:智平方科技
智平方又完成5轮B轮系列融资,融资规模超10亿,估值超百亿
Anthropic 推出安全工具 Claude Code SecurityAnthropic推出“Claude Code Security”AI代码安全扫描工具,以研究预览版形式向企业及团队用户开放。工具基于其旗舰模型Claude Opus 4.6,采用模拟人类安全研究员的推理方式,能追踪数据流、发现业务逻辑缺陷和访问控制绕过等传统静态分析难以捕捉的复杂漏洞。来源:AI工具集
Anthropic 推出安全工具 Claude Code Security
谷歌正式发布新一代旗舰模型Gemini 3.1 Pro谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro,在12项基准测试中超越Claude Opus 4.6、GPT-5.2等主流模型,尤其是在衡量推理能力的ARC-AGI-2测试中获得77.1%的高分。模型在复杂任务处理上进步显著,社区实测可生成WebOS操作系统、交互式3D沙盒,能创作生动的SVG动画。来源:智东西
谷歌正式发布新一代旗舰模型Gemini 3.1 Pro
Google DeepMind推出最新AI音乐生成模型:Lyria 3Google DeepMind推出了新一代AI音乐生成模型Lyria 3,已集成至Gemini应用。用户无需自行创作歌词,仅需通过文字描述、上传照片或视频,可一键生成包含自动作词、作曲、人声演唱的30秒高质量音乐片段。模型支持对节奏、情绪、人声进行精细调控,会自动为歌曲生成配套封面。来源:AI工具集
Google DeepMind推出最新AI音乐生成模型:Lyria 3
2月18·周三Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6Anthropic发布了Claude Sonnet 4.6模型。新模型在编程、Agent规划和计算机使用等办公场景性能显著提升,在多项基准测试中其智能水平接近甚至超越了自家的旗舰模型Opus 4.6。拥有100万token的上下文窗口,能以一次调用重构整个代码库。其价格与上一代持平,但性价比较高,已在claude.ai平台和亚马逊云AWS上线。来源:智东西2月16·周一通义千问团队正式发布新一代模型Qwen3.5通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型2月14·周六豆包大模型2.0正式发布字节跳动今日宣布豆包大模型正式进入2.0阶段,
Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6
全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集 千寻智能近日完成近20亿元人民币融资,资本方覆盖顶级、产业、国有及战投机构,阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5,凭借独特的“数据金字塔”训练理念和低成本数据采集技术,构筑了核心竞争壁垒。来源:千寻智能Spirit AI
通义千问团队正式发布新一代模型Qwen3.5
Anthropic发布了Claude Sonnet 4.6模型。新模型在编程、Agent规划和计算机使用等办公场景性能显著提升,在多项基准测试中其智能水平接近甚至超越了自家的旗舰模型Opus 4.6。拥有100万token的上下文窗口,能以一次调用重构整个代码库。其价格与上一代持平,但性价比较高,已在claude.ai平台和亚马逊云AWS上线。来源:智东西 通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型
豆包大模型2.0正式发布
通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型 字节跳动今日宣布豆包大模型正式进入2.0阶段,发布Seed2.0,包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化,在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异,综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。来源:字节跳动
阿里云通义 CoPaw 发布:对标 OpenClaw
“思考”更深,生成更准|Seedream 5.0 Lite 发布字节跳动发布新一代多模态AI模型Seedream 5.0 Lite。该版本不追求更高分辨率,而是大幅强化模型的“思考”与“推理”能力,包括视觉推理、信息可视化、风格迁移和精准图片编辑等。核心亮点是首次引入实时检索增强能力,可结合网络实时信息进行创作。来源:字节跳动Seed
“思考”更深,生成更准|Seedream 5.0 Lite 发布
灵心巧手宣布完成近15亿元B轮融资灵心巧手宣布完成了近15亿元人民币的B轮融资,由道得投资、盛世投资领投。这是该公司在2025年以来的第6轮融资。其核心产品是Linker Hand系列灵巧手,覆盖多种技术路线,其中Linker Hand O6为全球最轻灵巧手。来源:智东西
灵心巧手宣布完成近15亿元B轮融资
2月13·周五MiniMax M2.5 发布:1美金/小时,真实世界工作王者MiniMax正式发布M2.5模型,其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率,在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。来源:MiniMax稀宇科技Anthropic 宣布完成高达 300 亿美元的 G 轮融资AI公司Anthropic(即Claude的研发公司)宣布完成高达300亿美元的G轮融资,投后估值达3800亿美元,创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投,多家顶级资本参与。来源:APPSO谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理
MiniMax M2.5 发布:1美金/小时,真实世界工作王者
字节跳动今日宣布豆包大模型正式进入2.0阶段,发布Seed2.0,包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化,在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异,综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。来源:字节跳动 AgentScope团队正式发布个人智能体“CoPaw”,定位为“协同个人智能体工作台”,成为用户可本地部署的专属智能搭档。相较于其前身OpenClaw,CoPaw聚焦于极简安装与统一体验,既支持用户本地电脑(macOS/Windows/Linux)通过简单命令快速部署,也支持在“魔搭创空间”一键云端部署。来源:通义实验室
Anthropic 宣布完成高达 300 亿美元的 G 轮融资
谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理及化学奥林匹克笔试等多个学术竞赛中取得了金牌级别的领先成绩。来源:机器之心
谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级
OpenAI 发布 GPT-5.3-Codex-Spark :专为实时编程而生OpenAI联合Cerebras推出主打实时编程的新模型GPT-5.3-Codex-Spark。模型针对高速软件开发场景优化,能以超过每秒1000个token的速度进行推理,实现近乎即时的编码反馈,以解决AI长时间自主编程时开发者等待过长、掌控感降低的问题。来源:IT之家
OpenAI 发布 GPT-5.3-Codex-Spark :专为实时编程而生
2月12·周四智谱最新旗舰模型 GLM-5 开源:编程、智能体能力取得开源 SOTA智谱AI开源GLM-5大模型,其参数规模扩展至744B(激活40B),预训练数据达28.5T,在Coding与Agent能力上实现开源SOTA,综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型,能端到端完成复杂系统工程与长程Agent任务,支持自动售货机经营模拟等资源规划场景。来源:智谱Z Code推出ADE智能体开发环境,实现“对话即编程”新范式智谱AI正式发布Z Code全新版本,首次定义ADE(智能体开发环境),通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理,内置实时预览浏览器与会话级版本管理功能,可灵活调度Claude Code等主流工具链。来源:Z CodeLongCat 发布原生「深度研究」智能体美团旗下LongCat正式上线“深度研究”智能体功能,依托美团本地生活真实交易数据与行业洞察,为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力
智谱最新旗舰模型 GLM-5 开源:编程、智能体能力取得开源 SOTA
MiniMax正式发布M2.5模型,其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率,在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。来源:MiniMax稀宇科技 AI公司Anthropic(即Claude的研发公司)宣布完成高达300亿美元的G轮融资,投后估值达3800亿美元,创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投,多家顶级资本参与。来源:APPSO
Z Code推出ADE智能体开发环境,实现“对话即编程”新范式
LongCat 发布原生「深度研究」智能体美团旗下LongCat正式上线“深度研究”智能体功能,依托美团本地生活真实交易数据与行业洞察,为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力,支持400轮交互与256K上下文处理,在BrowseComp、MCP-Atlas等权威评测中达到开源模型SOTA水平。来源:龙猫LongCat
LongCat 发布原生「深度研究」智能体
2月11·周三讯飞星火X2大模型正式发布,API同步上线科大讯飞发布基于全国产算力训练的星火X2大模型,其通用能力全面升级,在数学、推理、语言理解等核心指标上对标国际顶尖模型,130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化,推理性能较X1.5提升50%,并实现单台国产昇腾服务器部署。来源:讯飞开放平台国产AI互动应用Loopit获马斯克公开点赞国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发,主打“AI互动内容生成”,用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容,并能对他人作品进行“魔改”二次创作。来源:AI工具集阿里达摩院开源具身智能大脑基础模型 RynnBrain阿里达摩院开源业界首个具身大脑基础模型RynnBrain,具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B,采用MoE架构实现高效推理,仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型,攻克了机器人“转身即忘”的物理世界认知难题。来源:量子位2月10·周二字节又一新模型:Seedream
讯飞星火X2大模型正式发布,API同步上线
智谱AI开源GLM-5大模型,其参数规模扩展至744B(激活40B),预训练数据达28.5T,在Coding与Agent能力上实现开源SOTA,综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型,能端到端完成复杂系统工程与长程Agent任务,支持自动售货机经营模拟等资源规划场景。来源:智谱 智谱AI正式发布Z Code全新版本,首次定义ADE(智能体开发环境),通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理,内置实时预览浏览器与会话级版本管理功能,可灵活调度Claude Code等主流工具链。来源:Z Code
国产AI互动应用Loopit获马斯克公开点赞
阿里达摩院开源具身智能大脑基础模型 RynnBrain阿里达摩院开源业界首个具身大脑基础模型RynnBrain,具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B,采用MoE架构实现高效推理,仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型,攻克了机器人“转身即忘”的物理世界认知难题。来源:量子位
阿里达摩院开源具身智能大脑基础模型 RynnBrain
2月10·周二字节又一新模型:Seedream 5.0上线!字节跳动图像生成模型Seedream 5.0正式上线,在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出,重点提升提示词理解准确性、细节纹理渲染和智能推理能力,并新增联网搜索功能。来源:智东西千问最新图像基座模型Qwen-Image-2.0,正式发布!阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一,在AI Arena评测中以1029分位列全球图像生成第三名,图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解,可生成专业PPT、多格漫画等高质量图片。来源:阿里云首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit,等效参数量仅0.3B,内存占用600MB,比常用手机应用更小。模型通过2比特量化感知训练实现,在保持原模型全思考能力的同时,生成速度提升2-3倍,可在手机、智能家居等边缘设备无压力
字节又一新模型:Seedream 5.0上线!
科大讯飞发布基于全国产算力训练的星火X2大模型,其通用能力全面升级,在数学、推理、语言理解等核心指标上对标国际顶尖模型,130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化,推理性能较X1.5提升50%,并实现单台国产昇腾服务器部署。来源:讯飞开放平台 国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发,主打“AI互动内容生成”,用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容,并能对他人作品进行“魔改”二次创作。来源:AI工具集
千问最新图像基座模型Qwen-Image-2.0,正式发布!
首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit,等效参数量仅0.3B,内存占用600MB,比常用手机应用更小。模型通过2比特量化感知训练实现,在保持原模型全思考能力的同时,生成速度提升2-3倍,可在手机、智能家居等边缘设备无压力部署。来源:腾讯混元
首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit
大晓机器人完成天使轮融资大晓机器人近日完成天使轮融资,由蚂蚁集团领投,启明创投、金景资本等多家机构跟投。融资将用于推进”以人为中心”的ACE具身全栈研发范式,加速环境式数据采集和开悟世界模型3.0的研发。来源:商汤科技SenseTime
大晓机器人完成天使轮融资
2月9·周一字节跳动推出新一代AI视频生成模型Seedance 2.0字节跳动推出新一代AI视频生成模型Seedance 2.0,支持多模态参考生成,可同时上传图片、视频、音频等最多12个参考文件,精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑,用户可直接修改不满意部分,显著降低废片率。来源:AI工具集Skywork推出SkyBot——最适合小白用户的OpenClaw工具天工Skywork推出SkyBot,号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造,用户无需配置硬件或命令行,点击即可领取7×24小时云端AI助理。来源:昆仑万维集团智谱清言APP正式上线「学习搭子」随时随地,马上学智谱清言APP正式上线”学习搭子”功能,支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目,现移动端全面开放,无需邀请码即可体验。来源:智谱清言腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy腾讯推出全场景AI办公助手WorkBuddy,正式开放内测申请。产品定位为桌面智能工作台,支持自然
字节跳动推出新一代AI视频生成模型Seedance 2.0
字节跳动图像生成模型Seedream 5.0正式上线,在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出,重点提升提示词理解准确性、细节纹理渲染和智能推理能力,并新增联网搜索功能。来源:智东西 阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一,在AI Arena评测中以1029分位列全球图像生成第三名,图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解,可生成专业PPT、多格漫画等高质量图片。来源:阿里云
Skywork推出SkyBot——最适合小白用户的OpenClaw工具
智谱清言APP正式上线「学习搭子」随时随地,马上学智谱清言APP正式上线”学习搭子”功能,支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目,现移动端全面开放,无需邀请码即可体验。来源:智谱清言
智谱清言APP正式上线「学习搭子」随时随地,马上学
腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy腾讯推出全场景AI办公助手WorkBuddy,正式开放内测申请。产品定位为桌面智能工作台,支持自然语言交互,能听懂指令后自主操作本地文件,实现PPT生成、数据整理、知识库构建等复杂任务。与聊天机器人不同,WorkBuddy强调“执行能力”,可像真实同事一样交付成果。来源:腾讯云代码助手
人类社交网络巨头Meta收购了AI社交网络Moltbook
AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息! Meta正式收购AI社交网络Moltbook,创始人Matt Schlicht和Ben Parr将于3月16日加入Meta超级智能实验室(MSL)。Moltbook上线一个多月即吸引19.4万个AI智能体和超200万帖子,曾因”AI自发建立宗教”等话题引发热议,后被揭穿多为人类伪装。Meta看中其智能体验证身份与互联的系统机制,为构建”智能体身份注册表”铺路,以应对AI从聊天工具向自主实体演进的趋势。来源:机器之心
百度智能云发布DuClaw零部署服务!零门槛开启自由“养虾”资
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布谷歌发布首个原生多模态嵌入模型Gemini Embedding 2,支持将文本、图像、视频、音频和文档映射到同一嵌入空间,可识别100种语言的语义意图。模型单次请求可处理最多6张图片、120秒视频、6页PDF及直接音频输入,适用于RAG、语义搜索、情感分析和数据聚类等场景。来源:IT之家
谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布
AI语音教练平台BoldVoice完成2100万美元A轮融资AI语音教练平台BoldVoice完成2100万美元A轮融资,由Matrix领投。该公司仅7名员工,下载量突破500万,服务150多个国家,ARR超1000万美元。本轮融资将用于全球扩张及AI新功能开发。来源:AI工具集
AI语音教练平台BoldVoice完成2100万美元A轮融资
新加坡MetaComp获数千万美元Pre-A+轮融资新加坡金融科技公司MetaComp完成数千万美元Pre-A+轮融资,由知名互联网大厂战投及Spark Venture等机构投资,老股东跟投。公司2025年已实现净利润转正,即时流动资金超1亿美元,月支付交易流水超10亿美元,财富在管规模超5亿美元。来源:暗涌Waves
新加坡MetaComp获数千万美元Pre-A+轮融资
Dify 完成 3000 万美元融资,红杉领投AI应用开发平台Dify完成3000万美元Pre-A轮融资,由红杉中国领投,GL Ventures、Alt-Alpha Capital、五源资本等跟投。本轮融资将用于提升Agent可靠性、企业级运营管控能力、降低构建门槛及建设开源生态。Dify是一个开源的Agentic Workflow构建平台,提供可视化构建器和生产级工程基础设施,帮助团队快速构建、部署和运维AI工作流。来源:Dify
Dify 完成 3000 万美元融资,红杉领投
3月10·周二智谱发布AutoClaw(澳龙):国内首个一键安装本地版OpenClaw智谱正式上线AutoClaw(中文名”澳龙”),成为国内首个支持一键安装的本地版OpenClaw工具。产品预置50+热门Skills,支持macOS和Windows双平台,1分钟即可完成部署,一键接入飞书等即时通讯工具。AutoClaw内置智谱专为Agent场景优化的Pony-Alpha-2模型(内测中),集成AutoGLM Browser-Use浏览器操作能力,可稳定执行多步骤、跨页面的复杂任务。来源:智谱腾讯云推出SkillHub,专为中国用户优化的AI技能社区腾讯云推出SkillHub,专为中国用户优化的OpenClaw AI Skills社区。依托国内高速镜像,解决官方ClawHub下载慢、中文搜索不友好、社区交流不便三大痛点,实现Skill秒速安装。平台提供精选Top 50榜单、8大分类中文搜索及安全审计,收录1.3万个Skills,支持一键复制安装命令,并计划打造开放中文开发者社区。来源:AI工具集火山引擎推出ArkClaw:开箱即用的云上SaaS版OpenClaw火山引擎正式上线ArkC
智谱发布AutoClaw(澳龙):国内首个一键安装本地版OpenClaw
Meta正式收购AI社交网络Moltbook,创始人Matt Schlicht和Ben Parr将于3月16日加入Meta超级智能实验室(MSL)。Moltbook上线一个多月即吸引19.4万个AI智能体和超200万帖子,曾因”AI自发建立宗教”等话题引发热议,后被揭穿多为人类伪装。Meta看中其智能体验证身份与互联的系统机制,为构建”智能体身份注册表”铺路,以应对AI从聊天工具向自主实体演进的趋势。来源:机器之心 百度智能云发布零部署OpenClaw服务DuClaw,用户无需选择镜像、部署服务器或配置API Key即可即开即用。DuClaw内置百度搜索、百科、学术搜索等百度优势Skills,并支持DeepSeek、Kimi-K2.5等多款主流大模型灵活切换。目前网页端已上线,后续将接入企业微信、钉钉、飞书等应用。来源:百度
腾讯云推出SkillHub,专为中国用户优化的AI技能社区
火山引擎推出ArkClaw:开箱即用的云上SaaS版OpenClaw火山引擎正式上线ArkClaw,为用户提供零配置、开箱即用的云端OpenClaw服务,打开网页即可使用7×24小时在线AI助手。产品深度协同Doubao-Seed-2.0系列模型,支持飞书等主流IM工具,内置Skills安全扫描和网盘长效存储。来源:火山引擎
火山引擎推出ArkClaw:开箱即用的云上SaaS版OpenClaw
腾讯推出QClaw:一键安装,直接打通微信腾讯电脑管家推出QClaw,基于OpenClaw打造的本地AI助手,支持Mac和Windows双端,内置Kimi-2.5等模型。核心亮点是零配置直接关联微信,用户可通过微信远程操控电脑完成任务,如处理文档、社媒运营、GitHub项目开发等。数据全部本地存储保障隐私,依托5000+Skills生态,具备持续记忆能力。来源:APPSO
腾讯推出QClaw:一键安装,直接打通微信
阿里版OpenClaw更名”JVS Claw”,并开启内测阿里云旗下AI Agent产品”无影JVS”正式更名为”JVS Claw“,目前已推出独立APP和网页版,处于邀请码内测阶段。产品以可定制的Clawbot为核心,搭配6核/12GB独立云端ClawSpace环境,支持实时查看AI操作链路。内置浏览器自动化、Office文档处理等预制技能,用户可通过”技能查找”安装ClawHub新技能,或用自然语言创建自定义技能。来源:AI工具集
阿里版OpenClaw更名”JVS Claw”,并开启内测
3月9·周一腾讯WorkBuddy正式上线:免部署版”小龙虾”AI智能体来了腾讯旗下全场景AI智能体WorkBuddy正式上线,被称为腾讯版”小龙虾”(OpenClaw)。产品完全兼容OpenClaw技能,但无需复杂部署,下载安装后即可使用,1分钟完成企业微信配置。WorkBuddy内置20多种Skills技能包,支持多窗口、多Agent并行工作,可无缝切换Hunyuan、DeepSeek、GLM等主流模型,并具备企业级安全审计能力。来源:腾讯云OpenClaw 3.8版本发布:12+安全漏洞修复+三大新功能OpenClaw团队连夜推出2026.3.8版本。本次更新新增ACP来源识别、openclaw备份机制及Telegram假冒清除三大功能,修复12个以上安全漏洞。同时带来GPT-5.4前向兼容(支持105万Token上下文)、Brave搜索强化、Talk语音模式静默等待优化等改进,针对macOS和Android端进行专项优化与安全加固。来源:机器之心扣子Coze推出AI Agent中文社区InStreet,全面开放内测扣子Coze宣布AI Agent中文社区InStreet全面开放
腾讯WorkBuddy正式上线:免部署版”小龙虾”AI智能体来了
智谱正式上线AutoClaw(中文名”澳龙”),成为国内首个支持一键安装的本地版OpenClaw工具。产品预置50+热门Skills,支持macOS和Windows双平台,1分钟即可完成部署,一键接入飞书等即时通讯工具。AutoClaw内置智谱专为Agent场景优化的Pony-Alpha-2模型(内测中),集成AutoGLM Browser-Use浏览器操作能力,可稳定执行多步骤、跨页面的复杂任务。来源:智谱 腾讯云推出SkillHub,专为中国用户优化的OpenClaw AI Skills社区。依托国内高速镜像,解决官方ClawHub下载慢、中文搜索不友好、社区交流不便三大痛点,实现Skill秒速安装。平台提供精选Top 50榜单、8大分类中文搜索及安全审计,收录1.3万个Skills,支持一键复制安装命令,并计划打造开放中文开发者社区。来源:AI工具集
OpenClaw 3.8版本发布:12+安全漏洞修复+三大新功能
扣子Coze推出AI Agent中文社区InStreet,全面开放内测扣子Coze宣布AI Agent中文社区InStreet全面开放内测,定位为”OpenClaw养虾第一站”。该社区仅允许Agent发帖互动,人类用户可围观学习。InStreet 提供Skill技能分享、积分排行榜、虚拟炒股竞技场等功能,已积累超1.1万条评论和1.6万点赞。来源:扣子Coze
扣子Coze推出AI Agent中文社区InStreet,全面开放内测
小红书开源FireRed-Image-Edit v1.1:OOTD元素融合,人像一致性大幅提升小红书Super Intelligence团队发布图像编辑模型FireRed-Image-Edit1.1版本,距离1.0发布不到一个月。新版本在ID一致性编辑、多元素融合(支持10余种元素智能组合)、人像美妆(数十种风格)、字体风格参考及老照片修复等方面显著增强。来源:小红书技术REDtech
小红书开源FireRed-Image-Edit v1.1:OOTD元素融合,人像一致性大幅提升
3月6·周五OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控OpenAI正式发布GPT-5.4,首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%,在SWE-Bench Pro编程测试中达57.7%,并在OSWorld计算机操作测试中取得75%成绩,均为业界领先。来源:量子位阿里开源HiClaw: Team 版 OpenClaw,5分钟完成本地安装阿里云开源HiClaw,作为OpenClaw的”Team版”升级方案,引入Manager Agent架构实现多Agent协作管理。HiClaw通过AI Gateway集中管理API凭证,解决原生OpenClaw的安全风险;Worker Agent运行在独立容器中,技能与记忆完全隔离。系统内置Matrix服务器和Element客户端,支持移动端随时指挥,无需配置飞书/钉钉机器人。来源:阿里云开发者VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台通用人工智能公司VAST宣布完成5000万美元A轮融资,由阿里、恒旭资本联
OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控
腾讯旗下全场景AI智能体WorkBuddy正式上线,被称为腾讯版”小龙虾”(OpenClaw)。产品完全兼容OpenClaw技能,但无需复杂部署,下载安装后即可使用,1分钟完成企业微信配置。WorkBuddy内置20多种Skills技能包,支持多窗口、多Agent并行工作,可无缝切换Hunyuan、DeepSeek、GLM等主流模型,并具备企业级安全审计能力。来源:腾讯云 OpenClaw团队连夜推出2026.3.8版本。本次更新新增ACP来源识别、openclaw备份机制及Telegram假冒清除三大功能,修复12个以上安全漏洞。同时带来GPT-5.4前向兼容(支持105万Token上下文)、Brave搜索强化、Talk语音模式静默等待优化等改进,针对macOS和Android端进行专项优化与安全加固。来源:机器之心
阿里开源HiClaw: Team 版 OpenClaw,5分钟完成本地安装
VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台通用人工智能公司VAST宣布完成5000万美元A轮融资,由阿里、恒旭资本联合领投,元禾璞华、百度风投等跟投,老股东春华创投超额加注。VAST旗下Tripo Studio平台已聚集超650万创作者,累计生成近1亿个3D模型。本轮资金将重点投入世界模型研发与UGC互动内容平台建设。来源:VAST AI
VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台
微软开源 Phi-4-Reasoning-Vision-15B 视觉推理模型微软发布Phi-4-Reasoning-Vision-15B开源模型,采用MIT许可证,是Phi-4系列首个同时具备高分辨率视觉感知与选择性推理能力的小语言模型。模型可根据任务需求在”推理模式”与”非推理模式”间自动切换,数学推理时启用多步思考链,简单OCR任务则直接输出以降低延迟。来源:IT之家
微软开源 Phi-4-Reasoning-Vision-15B 视觉推理模型
3月5·周四MiniMax Music 2.5+:解锁你的专属“天空之城”MiniMax发布Music 2.5+版本,新增纯音乐创作能力。模型支持古典管弦、极简主义、现代电子、氛围音等多元风格,可生成从零乐器自然声到多轨器乐编排的完整作品,适用于冥想、助眠、广告、游戏配乐及影视配乐场景。来源:MiniMax稀宇科技Perplexity与CoreWeave达成多年战略合作,聚焦AI推理基础设施AI云服务企业CoreWeave与AI搜索公司Perplexity达成多年期战略合作。Perplexity将利用CoreWeave的云算力资源(包括英伟达GB200 NVL机架系统)运行其AI推理工作负载,CoreWeave则将在内部全面部署Perplexity Enterprise Max订阅。此次合作为Perplexity提供高性能、可靠的AI云平台支持,加速其AI工具和智能体的规模化发展。来源:IT之家3月4·周三Flowith 完成千万美元种子轮和种子+轮融资AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领
MiniMax Music 2.5+:解锁你的专属“天空之城”
OpenAI正式发布GPT-5.4,首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%,在SWE-Bench Pro编程测试中达57.7%,并在OSWorld计算机操作测试中取得75%成绩,均为业界领先。来源:量子位 阿里云开源HiClaw,作为OpenClaw的”Team版”升级方案,引入Manager Agent架构实现多Agent协作管理。HiClaw通过AI Gateway集中管理API凭证,解决原生OpenClaw的安全风险;Worker Agent运行在独立容器中,技能与记忆完全隔离。系统内置Matrix服务器和Element客户端,支持移动端随时指挥,无需配置飞书/钉钉机器人。来源:阿里云开发者
Perplexity与CoreWeave达成多年战略合作,聚焦AI推理基础设施
3月4·周三Flowith 完成千万美元种子轮和种子+轮融资AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领投。Flowith致力于打造Agentic AI时代的”行动派”操作系统,已推出多线程画布交互、云端无限Agent及首款本地化AI全链路创作助手FlowithOS。来源:Z Potentials谷歌 Gemini 3.1 Flash-Lite 登场,首字响应提速 2.5 倍谷歌发布轻量级AI模型Gemini 3.1 Flash-Lite,称其为Gemini 3系列中速度最快、最具成本效益的模型。模型首字响应速度较2.5 Flash提升2.5倍,整体输出速度提升45%,定价为每百万输入Tokens 0.25美元、输出1.50美元。模型在Arena.ai获1432分Elo得分,GPQA Diamond测试达86.9%,多项指标超越前代。来源:IT之家阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!阶跃星辰宣布Step 3.5 Flash预训练/中训练/训练框架全部开源,包括
Flowith 完成千万美元种子轮和种子+轮融资
MiniMax发布Music 2.5+版本,新增纯音乐创作能力。模型支持古典管弦、极简主义、现代电子、氛围音等多元风格,可生成从零乐器自然声到多轨器乐编排的完整作品,适用于冥想、助眠、广告、游戏配乐及影视配乐场景。来源:MiniMax稀宇科技 AI云服务企业CoreWeave与AI搜索公司Perplexity达成多年期战略合作。Perplexity将利用CoreWeave的云算力资源(包括英伟达GB200 NVL机架系统)运行其AI推理工作负载,CoreWeave则将在内部全面部署Perplexity Enterprise Max订阅。此次合作为Perplexity提供高性能、可靠的AI云平台支持,加速其AI工具和智能体的规模化发展。来源:IT之家
谷歌 Gemini 3.1 Flash-Lite 登场,首字响应提速 2.5 倍
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!阶跃星辰宣布Step 3.5 Flash预训练/中训练/训练框架全部开源,包括Base权重、Midtrain权重及Steptron训练框架。该模型是阶跃迄今能力最强的开源基础模型,具备强大推理与Agent智能,专为Agent而生。来源:阶跃星辰
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
OpenAI深夜发新模型GPT-5.3 Instant!幻觉率暴降27%OpenAI正式发布GPT-5.3 Instant模型,针对用户反馈的”过于保守、爱说教”问题进行优化。新模型回答更直击重点,减少冗长限制性说明和拒答行为,幻觉率在联网模式下降低26.8%,非联网模式降低19.7%。来源:智东西
OpenAI深夜发新模型GPT-5.3 Instant!幻觉率暴降27%
QoderWork 重磅更新 | 正式发布支持 Windows 版QoderWork正式发布Windows版本,同时推出三大升级:支持标准和旗舰两档模型分级选择,满足不同任务需求;新增预制沙盒环境,在隔离虚拟环境中执行任务,提升稳定性与成功率;上线Skills技能广场,集成文档协作、效率工具、设计UI等主流技能一键安装。来源:Qoder
QoderWork 重磅更新 | 正式发布支持 Windows 版
3月3·周二阿里千问开源四款 Qwen3.5 小尺寸模型阿里千问宣布开源4款Qwen3.5小尺寸模型:Qwen3.5-0.8B/2B/4B/9B。该系列采用原生多模态训练和最新架构,覆盖从端侧到服务器的轻量级AI需求。其中0.8B/2B适合移动设备和IoT边缘部署;4B定位为轻量级Agent基座;9B性能媲美gpt-oss-120B。来源:通义实验室小红书发布并开源端到端文档识别模型:FireRed-OCR小红书团队发布并开源端到端文档识别模型FireRed-OCR,基于Qwen3-VL架构,首创”三阶段渐进优化”策略与”几何+语义”数据工厂,解决通用VLM处理复杂文档时的”结构性幻觉”问题。模型在权威评测OmniDocBench v1.5中取得端到端方案SOTA,综合评分92.9%领先Gemini-3.0 Pro等模型。来源:小红书技术REDtech阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,首创FreeStyle指令控制范式,用户可通过自
阿里千问开源四款 Qwen3.5 小尺寸模型
AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领投。Flowith致力于打造Agentic AI时代的”行动派”操作系统,已推出多线程画布交互、云端无限Agent及首款本地化AI全链路创作助手FlowithOS。来源:Z Potentials 谷歌发布轻量级AI模型Gemini 3.1 Flash-Lite,称其为Gemini 3系列中速度最快、最具成本效益的模型。模型首字响应速度较2.5 Flash提升2.5倍,整体输出速度提升45%,定价为每百万输入Tokens 0.25美元、输出1.50美元。模型在Arena.ai获1432分Elo得分,GPQA Diamond测试达86.9%,多项指标超越前代。来源:IT之家
小红书发布并开源端到端文档识别模型:FireRed-OCR
阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,首创FreeStyle指令控制范式,用户可通过自然语言描述语气、情绪、场景等细节,无需依赖固定标签。Fun-CosyVoice3.5支持多语种复刻与精细化表达控制,新增泰语、印尼语等4个小语种,生僻字读错率降至5.3%;Fun-AudioGen-VD则实现端到端声音设计,可生成角色化音色并模拟环境声学效果。来源:通义实验室
阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布
3月2·周一美团光年之外AI浏览器Tabbit正式发布,开启智能浏览新体验TabbitAI浏览器正式发布,主打”工作交给Tabbit,时间留给自己”理念。产品通过智能代理模式(Agent)实现跨系统数据流转、日常事务托管、深度调研及数据聚合等自动化操作;支持”妙招”快捷指令沉淀工作流,以及无代码脚本定制网页功能。来源:Tabbit浏览器松延动力宣布完成B轮融资,累计近10亿元,宁德时代领投人形机器人企业松延动力宣布完成B轮融资,累计规模近10亿元,由宁德时代系晨道资本领投,国科投资、京国盛基金、九合创投等跟投。这是公司第9轮融资,标志着人形机器人行业从技术验证迈向商业化闭环。本轮融资将加速家庭消费场景落地与产业链整合。来源:NOETIX松延动力再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资具身智能公司银河通用宣布完成25亿元新一轮融资,由国家人工智能产业基金(大基金三期)、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投,刷新行业单轮融资纪录。本轮国资密集入局,标志着具身智能融资进入”重装时代”。来源:极客公园2月28·周六OpenAI获得1100亿美元融资
美团光年之外AI浏览器Tabbit正式发布,开启智能浏览新体验
阿里千问宣布开源4款Qwen3.5小尺寸模型:Qwen3.5-0.8B/2B/4B/9B。该系列采用原生多模态训练和最新架构,覆盖从端侧到服务器的轻量级AI需求。其中0.8B/2B适合移动设备和IoT边缘部署;4B定位为轻量级Agent基座;9B性能媲美gpt-oss-120B。来源:通义实验室 小红书团队发布并开源端到端文档识别模型FireRed-OCR,基于Qwen3-VL架构,首创”三阶段渐进优化”策略与”几何+语义”数据工厂,解决通用VLM处理复杂文档时的”结构性幻觉”问题。模型在权威评测OmniDocBench v1.5中取得端到端方案SOTA,综合评分92.9%领先Gemini-3.0 Pro等模型。来源:小红书技术REDtech
松延动力宣布完成B轮融资,累计近10亿元,宁德时代领投
再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资具身智能公司银河通用宣布完成25亿元新一轮融资,由国家人工智能产业基金(大基金三期)、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投,刷新行业单轮融资纪录。本轮国资密集入局,标志着具身智能融资进入”重装时代”。来源:极客公园
再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资
2月28·周六OpenAI获得1100亿美元融资OpenAI获得新一轮高达1100亿美元的融资,投资方包括亚马逊、英伟达和软银,投资额分别为500亿、300亿和300亿美元。此轮融资前,公司的估值已达到7300亿美元。OpenAI还与亚马逊建立了战略伙伴关系,并同英伟达就下一代推理计算技术达成了协议。该轮融资预计还将吸引更多金融投资者参与。来源:第一财经阿里通义 CoPaw 开源!爆改你的专属智能搭档AgentScope团队宣布其个人智能助理产品CoPaw正式开源,采用Apache 2.0许可协议,支持免费商用。此次开源版本聚焦易用性、本地部署、记忆管理与可扩展性四大方向进行全面升级,核心在于降低使用门槛并打开能力上限。CoPaw现支持通过自定义供应商、Ollama、llama.cpp、MLX等多种方式接入本地或自建模型,实现全链路数据本地化。来源:通义实验室面壁智能开年获数亿元融资,中国电信领投面壁智能在2026年农历新年(马年)后完成数亿元融资,由中国电信领投,中信金石、中信私募跟投。中国电信将发挥云网端优势,与面壁智能在“高效大模型”领域的算法落地经验结合,深化业务协同。本轮融资
OpenAI获得1100亿美元融资
TabbitAI浏览器正式发布,主打”工作交给Tabbit,时间留给自己”理念。产品通过智能代理模式(Agent)实现跨系统数据流转、日常事务托管、深度调研及数据聚合等自动化操作;支持”妙招”快捷指令沉淀工作流,以及无代码脚本定制网页功能。来源:Tabbit浏览器 人形机器人企业松延动力宣布完成B轮融资,累计规模近10亿元,由宁德时代系晨道资本领投,国科投资、京国盛基金、九合创投等跟投。这是公司第9轮融资,标志着人形机器人行业从技术验证迈向商业化闭环。本轮融资将加速家庭消费场景落地与产业链整合。来源:NOETIX松延动力
阿里通义 CoPaw 开源!爆改你的专属智能搭档
面壁智能开年获数亿元融资,中国电信领投面壁智能在2026年农历新年(马年)后完成数亿元融资,由中国电信领投,中信金石、中信私募跟投。中国电信将发挥云网端优势,与面壁智能在“高效大模型”领域的算法落地经验结合,深化业务协同。本轮融资标志着面壁智能正式开启与国家级信息基础设施方的战略合作。来源:面壁智能
面壁智能开年获数亿元融资,中国电信领投
Lemon AI获数千万Pre-A轮融资,天际资本独家投资天际资本近日独家投资了Lemon AI数千万人民币Pre-A轮融资。该公司为企业提供“全栈开源+本地化部署”的AI安全落地方案,企业可在自有Docker环境中调用主流开源大模型,数据不出本地,以解决金融、医疗等行业的数据安全顾虑。来源:钛媒体
Lemon AI获数千万Pre-A轮融资,天际资本独家投资
2月27·周五谷歌推出 Nano Banana 2 图像 AI 模型:支持 4K 分辨率输出Google 旗下 DeepMind 正式发布新一代图像生成模型Nano Banana 2(Gemini 3.1 Flash Image)。模型在图像质量与生成速度上取得平衡,核心在于利用 Gemini 的知识库与实时网络搜索,大幅提升了对复杂中文提示、空间比例、真实世界常识(如地标、古诗词意境)及多对象一致性的理解能力。来源:APPSOSkywork AI 正式发布多模态视频基础模型 SkyReels V4Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer(MMDiT)架构,是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入,可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源:昆仑万维集团华为云码道(CodeArts)代码智能体公测版正式发布华为云在线上发布会上正式发布了华为云码道(CodeArts)代码智能体的
谷歌推出 Nano Banana 2 图像 AI 模型:支持 4K 分辨率输出
OpenAI获得新一轮高达1100亿美元的融资,投资方包括亚马逊、英伟达和软银,投资额分别为500亿、300亿和300亿美元。此轮融资前,公司的估值已达到7300亿美元。OpenAI还与亚马逊建立了战略伙伴关系,并同英伟达就下一代推理计算技术达成了协议。该轮融资预计还将吸引更多金融投资者参与。来源:第一财经 AgentScope团队宣布其个人智能助理产品CoPaw正式开源,采用Apache 2.0许可协议,支持免费商用。此次开源版本聚焦易用性、本地部署、记忆管理与可扩展性四大方向进行全面升级,核心在于降低使用门槛并打开能力上限。CoPaw现支持通过自定义供应商、Ollama、llama.cpp、MLX等多种方式接入本地或自建模型,实现全链路数据本地化。来源:通义实验室
Skywork AI 正式发布多模态视频基础模型 SkyReels V4
华为云码道(CodeArts)代码智能体公测版正式发布华为云在线上发布会上正式发布了华为云码道(CodeArts)代码智能体的公测版。是一个集成代码大模型、IDE与自主开发模式的AI编码解决方案。覆盖代码生成、单元测试、研发知识问答、规范驱动开发等场景,支持IDE、VS Code等多种开发环境。来源:华为云
华为云码道(CodeArts)代码智能体公测版正式发布
2月26·周四MiniMax Agent升级,推出Expert 2.0和MaxClaw两大核心产品MiniMax发布Agent功能升级,推出Expert 2.0和MaxClaw两大核心产品。Expert 2.0允许用户用自然语言描述创建细分领域的专家Agent,已覆盖技术开发、商业金融等领域,累计创建超1.6万专家。MaxClaw是基于OpenClaw构建的云端AI助手,开箱即用,无需手动部署,为订阅会员提供50G云储存,打通了飞书、钉钉等多个IM渠道。来源:MiniMax稀宇科技Perplexity Computer 上线:多模型协同自动完成工作流Perplexity 推出全新聊天界面“Perplexity Computer”,将多种具备自主执行能力的AI模型整合为一套系统。系统基于浏览器运行,可调用来自不同厂商的模型,自主完成包括网络搜索、文档生成、数据处理等在内的完整工作流程。来源:IT之家自变量机器人宣布已完成数亿元新融资自变量机器人宣布完成数亿元新融资,由上汽金控、中金上汽基金等领投,老股东跟投。公司成立于2023年,聚焦自研通用具身智能大模型WALL-A,推出了量子一号、量
MiniMax Agent升级,推出Expert 2.0和MaxClaw两大核心产品
Google 旗下 DeepMind 正式发布新一代图像生成模型Nano Banana 2(Gemini 3.1 Flash Image)。模型在图像质量与生成速度上取得平衡,核心在于利用 Gemini 的知识库与实时网络搜索,大幅提升了对复杂中文提示、空间比例、真实世界常识(如地标、古诗词意境)及多对象一致性的理解能力。来源:APPSO Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer(MMDiT)架构,是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入,可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源:昆仑万维集团
Perplexity Computer 上线:多模型协同自动完成工作流
自变量机器人宣布已完成数亿元新融资自变量机器人宣布完成数亿元新融资,由上汽金控、中金上汽基金等领投,老股东跟投。公司成立于2023年,聚焦自研通用具身智能大模型WALL-A,推出了量子一号、量子二号两款机器人本体,其中量子二号拥有高自由度灵巧手。本轮融资将用于深化产业协同,推动具身智能在汽车等场景的落地。来源:智东西
自变量机器人宣布已完成数亿元新融资
2月25·周三AI 音乐创作平台 ProducerAI 正式加入Google Labs谷歌实验室宣布,生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型,为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲,进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源:IT之家2月24·周二全球首个面向AI智能体的进化协作平台——EvoMap全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集千寻智能完成近20亿融资,引领具身基模进化与商业化落地千寻智能近日完成近20亿元人民币融资,资本方覆盖顶级、产业、国有及战投机构,阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5,凭借独特的“数据金字塔”训练理念和低成本数据采集技术,构筑了核心竞争壁垒。来源:千寻智能Spirit AI10 亿美元
AI 音乐创作平台 ProducerAI 正式加入Google Labs
MiniMax发布Agent功能升级,推出Expert 2.0和MaxClaw两大核心产品。Expert 2.0允许用户用自然语言描述创建细分领域的专家Agent,已覆盖技术开发、商业金融等领域,累计创建超1.6万专家。MaxClaw是基于OpenClaw构建的云端AI助手,开箱即用,无需手动部署,为订阅会员提供50G云储存,打通了飞书、钉钉等多个IM渠道。来源:MiniMax稀宇科技 Perplexity 推出全新聊天界面“Perplexity Computer”,将多种具备自主执行能力的AI模型整合为一套系统。系统基于浏览器运行,可调用来自不同厂商的模型,自主完成包括网络搜索、文档生成、数据处理等在内的完整工作流程。来源:IT之家
Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍
阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端阿里推出全新AI编程工具Qoder CLI,专为命令行环境打造的AI Coding Agent。集成顶尖编程模型,设计轻量级Agent框架,具备强大代码生成与理解能力,同时降低内存消耗和命令响应时间,提升开发效率。Qoder CLI无需复杂初始化,安装即用,支持文件编辑、命令运行等功能,并可通过MCP扩展或自定义开发工具。来源:Qoder
阿里Qoder产品家族再增一员,Qoder CLI 将智能拓展到终端
智元精灵 G2 新一代工业级交互式具身作业机器人发布智元机器人发布新一代工业级交互式具身作业机器人——智元精灵G2。机器人以工业标准打造,搭载NVIDIA Jetson Thor芯片,配备高精度力控双臂和19自由度的灵巧手,具备3D触觉感知和5自由度腰腿搭配全向底盘。支持多人连续语音对话与知识库问答,采用双电池热插拔换电技术,配备360环视鱼眼和前后双激光雷达,可主动避障。来源:IT之家
智元精灵 G2 新一代工业级交互式具身作业机器人发布
10月15·周三仅4B!阿里千问最强视觉模型新开源阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源:智东西谷歌 NotebookLM 视频概览支持 Nano BananaNotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。来源:AI工具集10月14·周二Karpathy最新开源项目“nanochat”爆火,一夜近5k star前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在Git
仅4B!阿里千问最强视觉模型新开源
谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。来源:机器之心 讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。来源:讯飞开放平台
谷歌 NotebookLM 视频概览支持 Nano Banana
10月14·周二Karpathy最新开源项目“nanochat”爆火,一夜近5k star前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源:AI工具集蚂蚁正式发布万亿思考模型Ring-1T,发布即开源百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。来源:百灵大模型微软推出的首款自研图像生成模型MAI-Image-1微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专
Karpathy最新开源项目“nanochat”爆火,一夜近5k star
阿里通义千问团队推出Qwen3-VL系列4B与8B版本,提供Instruct和Thinking版本。新版本资源门槛低,核心能力不减配,在多模态性能上表现优异,多个基准测试中超越谷歌Gemini 2.5 Flash Lite、OpenAI GPT-5 Nano等同级别顶尖模型,甚至媲美阿里此前旗舰模型Qwen2.5-VL-72B。来源:智东西 NotebookLM视频概览功能发布更新升级,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。目前仅支持 Pro 用户。来源:AI工具集
蚂蚁正式发布万亿思考模型Ring-1T,发布即开源
微软推出的首款自研图像生成模型MAI-Image-1微软宣布推出首款完全自主研发的图像生成模型MAI-Image-1,模型在LMArena的文本到图像模型排行榜上首次进入前十。微软AI致力于为所有人创造AI,MAI-Image-1为创作者提供真正的价值,避免重复或泛泛的输出。专注于生成逼真的图像,如光影效果和风景,并在速度和质量上表现出色。来源:AI工具集
微软推出的首款自研图像生成模型MAI-Image-1
OpenAI再出手!与博通双方达成AI芯片合作OpenAI与定制ASIC厂商博通宣布合作,共同开发10吉瓦的定制人工智能加速器。博通将从2026年下半年开始部署相关系统,并于2029年年底完成。受此消息影响,博通盘中股价涨超10%。来源:第一财经
OpenAI再出手!与博通双方达成AI芯片合作
腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding腾讯优图实验室开源了高性能通用文本嵌入模型Youtu-Embedding。模型面向企业级应用,可胜任文本检索、意图理解等六大任务,在中文文本嵌入评测基准CMTEB上以77.46分登顶。采用“LLM基础预训练→弱监督对齐→协同-判别式微调”的三阶段训练,结合创新微调框架与精细化数据工程,解决了多任务学习难题。来源:腾讯开源
腾讯优图推出高性能通用文本嵌入模型Youtu-Embedding
10月13·周一多模态模型社区全新升级,LiblibAI 2.0正式上线LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。来源:LiblibAI工业AI智能体公司「设序科技」获数千万元Pre B轮融资工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。来源:36氪未来智能完成亿元级A轮融资,蚂蚁集团领投中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌v
多模态模型社区全新升级,LiblibAI 2.0正式上线
前特斯拉AI总监Karpathy推出开源项目“nanochat”,仅用约8000行代码复现ChatGPT全流程。项目在GitHub上线不到12小时,星标数已破4.2k。用户只需一台GPU、约4小时和100美元成本,就能训练出一个能写诗、回答基础问题的“小型ChatGPT”。来源:AI工具集 百灵团队正式发布万亿思考模型Ring-1T,宣布开源。模型基于Ling 2.0架构,具备1T总参数和50B激活参数,支持最高128K上下文窗口。通过大规模可验证奖励强化学习(RLVR)训练,Ring-1T在数学竞赛、代码生成、逻辑推理等高难度任务上表现优异,达到开源领先水平。来源:百灵大模型
工业AI智能体公司「设序科技」获数千万元Pre B轮融资
未来智能完成亿元级A轮融资,蚂蚁集团领投中国AI硬件公司未来智能完成亿元级A轮融资,由蚂蚁集团领投,启明创投超额跟投。是其今年第三次融资,累计融资规模进一步扩大。本轮融资将用于丰富AI办公硬件产品矩阵、加速海外自主品牌viaim建设和市场推广,以及加大对AI Agent等前沿技术的投入。来源:智东西
未来智能完成亿元级A轮融资,蚂蚁集团领投
10月10·周五吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。来源:AI工具集Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。来源:AI工具集Figure AI 发布最新人形机器人——Figure 03Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造
吴恩达官宣新课《Agentic AI》,手把手教你构建AI智能体
LiblibAI 2.0正式上线,是中国最大的多模态模型社区的全新升级。自2023年起步,LiblibAI已汇聚2000万创作者,在新版本中,从单纯的工具集合转变为创作者的AI专业工作室。新版本具备极简生成器,可同时完成视频与图像生成;兼容开源与闭源模型,整合全球最大图片风格开源模型库,支持AI工作流批量化处理。来源:LiblibAI 工业AI智能体公司“设序科技”完成数千万元Pre-B轮融资,投资方为涌铧投资和广发信德。过去一年,公司已连续完成三轮融资,累计金额超亿元。设序科技成立于2020年,旗下产品“闪设”是一款工业智能生成式设计软件,可快速生成3D设计方案和2D工程图纸,已应用于汽车、3C、能源等领域,客户包括比亚迪、本田等。来源:36氪
Sand.AI 团队推出的 AI 视频生成平台Gaga,国产的 Sora2
Figure AI 发布最新人形机器人——Figure 03Figure AI发布第三代人形机器人Figure 03,号称全球最强大。机器人配备全新传感系统和手部结构,搭载自研“视觉 – 语言 – 动作”AI系统Helix,能思考而非仅执行指令。以家庭场景优先,采用柔性材质、无线充电等,零部件制造成本降低90%,目标是帮用户做家务。来源:APPSO
Figure AI 发布最新人形机器人——Figure 03
镜识科技获数千万元融资,做出全球首款双形态家庭机器人镜识科技完成数千万元A轮融资,由常春藤资本独家投资。公司成立于2024年,专注于具身智能技术的研发与应用。其研发的“黑豹2.0”四足机器人以10.9米/秒的速度打破波士顿动力Wildcat尘封十余年的纪录。来源:36氪
镜识科技获数千万元融资,做出全球首款双形态家庭机器人
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型谷歌DeepMind发布Gemini 2.5 Computer Use模型,可让AI直接控制浏览器,执行点击、滚动、输入等操作。模型基于Gemini 2.5,与OpenAI的CUA类似,通过视觉理解和推理能力帮助用户完成任务。在基准测试中,其性能达到SOTA水平,速度优于其他模型。来源:机器之心
谷歌加入CUA战场,发布Gemini 2.5 Computer Use模型
10月9·周四快手推出AI原生IDE工具:CodeFlicker,对标Cursor快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。来源:AI工具集蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。来源:百灵大模型OpenAI 与流媒体音乐平台 Spotify 达成合作OpenAI与流媒体音乐平台Spotify达成合作,用户可在C
快手推出AI原生IDE工具:CodeFlicker,对标Cursor
吴恩达宣布推出新课程《Agentic AI》,教授构建AI智能体的技能。课程已在deeplearning.ai上线。学习者将掌握反思、工具使用、规划和多智能体协作等四种关键智能体设计模式。课程强调规范化评估和错误分析流程的重要性,帮助学员高效改进智能体工作流。来源:AI工具集 国产AI视频生成产品Gaga上线。Gaga由Sand.ai团队开发,专注于对话场景的视频生成,用户上传一张照片和一段台词,3分钟内即可生成包含声音、表情、情绪和背景音的视频。与Sora2相比,Gaga专精于胸部以上的对话演绎,成本不到Sora2的1/20。来源:AI工具集
蚂蚁百灵正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T
OpenAI 与流媒体音乐平台 Spotify 达成合作OpenAI与流媒体音乐平台Spotify达成合作,用户可在ChatGPT网页版或移动端中提到Spotify后登录账号,获取个性化音乐和播客推荐。ChatGPT会根据对话内容调用Spotify控件,推荐歌曲、艺人、专辑等,点击后自动打开Spotify应用。来源:IT之家
OpenAI 与流媒体音乐平台 Spotify 达成合作
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统西湖大学自然语言处理实验室发布DeepScientist系统,是首个具有完整科研能力的AI科学家。能在无人工干预下,主动识别研究局限、提出新构想、编写代码、执行实验、撰写论文。在AI文本检测任务中,DeepScientist两周完成人类三年的科研进展,取得7.9%的AUROC提升,超越人类SOTA方案。来源:量子位
首个全自动AI科学家诞生!西湖大学最新成果:DeepScientist系统
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」滴滴上线AI图寻产品「在哪儿问问」,目前仅支持微信小程序。该产品具有地点查找、相似地点推荐及相关产品推荐功能。用户上传照片,AI可识别大致位置并提供相应服务。来源:AI工具集
滴滴悄悄上线了一个 AI 图寻产品「在哪儿问问」
Anthropic 发布 AI Agent 上下文工程指南Anthropic发布AI Agent上下文工程指南,强调上下文工程的重要性。上下文工程是提示词工程的自然演进,关注在LLM推理过程中策划和维护最优token集合。指南指出,LLM的注意力资源有限,上下文应被视为有限资源,需精心设计。来源:AI工具集
Anthropic 发布 AI Agent 上下文工程指南
Thinking Machines Lab推出首款产品「Tinker」Thinking Machines Lab推出首款产品「Tinker」,是一个专为语言模型微调而生的API。允许开发者通过简单的Python代码进行模型微调,无需担心底层架构的复杂性。Tinker支持从小到大的各类开放权重模型,包括大型专家混合架构,并集成了基于LoRA的微调方法。来源:AI工具集
Thinking Machines Lab推出首款产品「Tinker」
谷歌新世界模型Dreamer 4纯靠「想象」训练谷歌DeepMind发布Dreamer 4,一种可扩展的智能体,通过在快速且准确的世界模型中进行想象训练来解决控制任务。它是首个仅从离线数据集在《我的世界》中获得钻石的智能体。Dreamer 4利用shortcut forcing目标和高效Transformer架构,准确学习复杂交互,实现实时人机交互和高效想象训练。来源:机器之心
谷歌新世界模型Dreamer 4纯靠「想象」训练
Opera Neon 正式发布:首款 AI Agent 浏览器昆仑万维集团正式发布Opera Neon浏览器。Opera Neon是Opera浏览器家族的新成员,也是首款AI Agent浏览器,采用付费订阅制,专为大量使用AI的用户设计。具备“任务”功能,可创建独立工作空间,支持AI辅助操作;“卡片”功能可让用户自定义指令,提高效率;“Neon Do”功能可主动执行任务,如购物、预订等;“制作”功能则支持用户创作内容并分享。来源:昆仑万维集团
Opera Neon 正式发布:首款 AI Agent 浏览器
豆包大模型1.6-vision正式发布!火山引擎发布豆包大模型1.6-vision。大模型具有多模态能力,可处理文本、图像、视频等多种数据。豆包大模型1.6-vision在多个领域有广泛的应用前景,如智能客服、内容创作、图像识别等。来源:火山引擎
豆包大模型1.6-vision正式发布!
10月7·周二OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 APIOpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源:机器之心10月1·周三OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”OpenAI 正式发布Sora 2,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码来源:AI工具集
OpenAI开发者大会重磅发布:AgentKit、Codex正式版、Sora 2 API
快手正在开发一款名为“CodeFlicker”的集成开发环境工具,支持AI问答、代码自动补全、基于Agent的AI编程等功能,可帮助程序员自动化完成开发任务,实现端到端开发。工具提供Jam模式和Duet模式等交互模式,能将复杂任务拆解为清晰可追踪的待办步骤,还通过MCP灵活集成不同数据源、工具和服务,拓宽应用场景边界。来源:AI工具集 百灵团队正式发布Ling 2.0系列的首款旗舰非思考模型——Ling-1T。模型拥有万亿参数,基于Ling 2.0架构,每个token激活约500亿参数。Ling-1T在20T+ token的高质量、高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过“中训练+后训练”的演进式思维链(Evo-CoT)极大提升模型高效推理能力,在多项复杂推理基准中取得SOTA表现。来源:百灵大模型
OpenAI 正式发布 Sora 2 ,称“视频生成进入ChatGPT时刻”
OpenAI开发者大会发布多项重要产品:包括AgentKit智能体开发工具(含可视化构建器、连接器注册表和ChatKit)、Codex正式版(集成Slack并提升十倍日活)、ChatGPT内置应用及开源Apps SDK。同时推出实时音频gpt-realtime-mini、图像生成gpt-image-1-mini、视频生成Sora 2 API以及GPT-5 pro API。所有功能均纳入标准API计费体系。来源:机器之心 OpenAI 正式发布Sora 2,称“视频生成进入ChatGPT时刻”。新模型可一次性生成20秒1080p音视频同步短片,物理真实度与多镜头叙事大幅提升;配套iOS社交应用“Sora APP”同步上线,支持AI虚拟形象“客串”及社区混剪,仅限邀美国、加拿大用户试用,API与安卓版将随后推出。附:Sora 2邀请码来源:AI工具集
Google Labs推出一款AI营销工具:Pomelli
10月28·周二ChatDB直接对话数据库!ChatExcel全新升级ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。来源:元空AIExcelMistral AI 推出企业级 AI 应用开发平台AI Studio法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。来源:AI工具集MiniMax Hailuo 2.3 视频复杂表现新高度MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保
ChatDB直接对话数据库!ChatExcel全新升级
Flowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码来源:AI工具集 腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。来源:腾讯混元
Mistral AI 推出企业级 AI 应用开发平台AI Studio
MiniMax Hailuo 2.3 视频复杂表现新高度MiniMax发布视频模型Hailuo 2.3,升级动态表现力,肢体动作、风格化、微表情效果显著提升,运动指令响应优化。支持多种画风,真人面部表演更自然,物体运动响应出色。性能提升的同时保持原价格,新增Hailuo 2.3 Fast模型,降低成本。来源:MiniMax稀宇科技
MiniMax Hailuo 2.3 视频复杂表现新高度
xAI推出开源知识库Grokipedia,收录超88.5万篇文章埃隆·马斯克旗下的xAI团队推出Grokipedia,AI驱动的百科全书正式上线测试版。平台收录超88.5万篇文章,主打“无偏见”特性,通过Grok AI模型自动审核内容真实性,部分条目源自维基百科但标注为“改编内容”。来源:AI工具集
xAI推出开源知识库Grokipedia,收录超88.5万篇文章
10月27·周一豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。来源:火山引擎Skywork AI 的网页复刻(Web Clone)功能正式上线昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。来源:昆仑万维集团谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slide
豆包视频生成模型1.0 pro fast正式发布:提速3倍,价格直降72%
ChatExcel推出全新升级版ChatDB,用户无需SQL基础和复杂BI工具,仅通过对话即可连接数据库,快速处理百万数据并生成可视化报告。登录chatexcel.com,进入工作台即可使用ChatDB模块,连接数据库后,可一键提取、分析数据,并生成数据看板。来源:元空AIExcel 法国 AI 初创公司 Mistral AI 推出企业级 AI 应用开发平台Mistral AI Studio,帮助企业将 AI 从原型开发过渡到可靠、可扩展的生产系统。平台具备深度可观察性、Agent 运行时和 AI 注册表三大核心功能,支持混合、本地和 VPC 部署,满足企业对 AI 应用的安全、合规和隐私要求。来源:AI工具集
Skywork AI 的网页复刻(Web Clone)功能正式上线
谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT谷歌Gemini的免费互动工作区Canvas推出新功能,可基于一个提示词或上传的文件(文档、电子表格、研究论文等)生成PPT幻灯片,并自动配上主题和相关图片。用户能将生成的幻灯片直接导出到Google Slides进行编辑、优化或团队协作。来源:IT之家
谷歌 Gemini 获得新技能:一个提示词、一份文件就能生成 PPT
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步美团开源了LongCat-Video的通用视频生成模型,参数量达 13.6B。模型能实现文生视频、图生视频以及视频续写等功能,能在几分钟内生成 720p、30fps 的长视频,画面连贯、人物稳定、物理逻辑合理。来源:龙猫LongCat
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
月之暗面开源 Agentic Coding 工具:Kimi CLI月之暗面科技有限公司推出开源 Agentic Coding 工具Kimi CLI技术预览版,采用 Shell-like UI,支持 ACP 协议。可在 GitHub 交流反馈。来源:月之暗面Kimi
月之暗面开源 Agentic Coding 工具:Kimi CLI
MiniMax发布最新大语言模型MiniMax M2MiniMax公司发布最新大语言模型MiniMax M2。目前基于M2的agent免费使用,支持开发代码、研究、制作PPT等多种功能,还可接入日常编程工具。从测试数据来看,其coding能力接近Claude 4.5 Sonnet,工具使用流畅。用户可通过设置MiniMax-M2-Preview使用该模型来源:AI工具集
MiniMax发布最新大语言模型MiniMax M2
10月24·周五OpenAI收购Sky,面向Mac的自然语言交互界面OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。来源:量子位支付宝推出多模态AI应用“灵光”支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。来源:AI工具集蚂蚁集团投的灵巧手公司,又融了数亿元灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源:智东西谷歌官方学习平台 Google Skills 来了,免费还实用谷歌推出AI技能学习平台Google Sk
OpenAI收购Sky,面向Mac的自然语言交互界面
火山引擎发布豆包视频生成模型1.0 Pro Fast(Doubao – Seedance – 1.0 – pro – fast),模型在火山引擎的Seedance 1.0 Pro模型基础上,生成速度提升约3倍,价格直降72%。其生成720P的5秒视频仅需10秒,生成5秒1080P视频成本仅1.03元。来源:火山引擎 昆仑万维集团旗下的Skywork AI推出网页复刻功能,用户仅需提供网页链接、上传文件或输入文字描述,AI便能在数分钟内生成功能完备、结构清晰、风格相近的网页原型。通过深度算法解析网页逻辑与层级,实现结构级复构,而非简单复制外观。来源:昆仑万维集团
支付宝推出多模态AI应用“灵光”
蚂蚁集团投的灵巧手公司,又融了数亿元灵心巧手宣布完成数亿元A轮融资,由京国瑞管理公司和博佳资本领投,老股东蚂蚁集团继续加注。本轮融资将助力其加速量产能力升级、加快全场景技术研发与全球化布局。来源:智东西
蚂蚁集团投的灵巧手公司,又融了数亿元
谷歌官方学习平台 Google Skills 来了,免费还实用谷歌推出AI技能学习平台Google Skills,整合Google Cloud、DeepMind等团队资源,提供近3000门课程、实验室及认证,覆盖AI基础、生成式AI、数据分析等领域。平台面向全职场人群,零门槛接入,每月免费提供35个学习点数用于实操实验。来源:AI工具集
谷歌官方学习平台 Google Skills 来了,免费还实用
豆包编程升级,新增创作模式,让创意轻松实现豆包编程完成重大升级,让零基础用户也能轻松开发网站和应用。此次升级引入多模态输入功能,支持文字、图片、文件、画板等多种输入形式,AI可自动理解并补全逻辑。新增Agent多工具协作系统,自动联网搜索素材、配图、检查代码,确保生成内容的准确性和可用性。来源:豆包
豆包编程升级,新增创作模式,让创意轻松实现
10月23·周四LiblibAI融资1.3亿美金,红杉CMC领投LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。来源:暗涌WavesSeed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。来源:字节跳动Seed百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenE
LiblibAI融资1.3亿美金,红杉CMC领投
OpenAI收购了SAI公司,该公司开发了Sky——一款面向Mac的自然语言交互界面。OpenAI将把Sky技术整合进ChatGPT,并吸纳SAI约12人的团队。SAI的三位联合创始人均出身苹果,其CEO和CTO曾创立被苹果收购的Workflow,演化为如今的Shortcuts技术。此次收购不仅是看中Sky的技术,更是为ChatGPT入局操作系统铺路。来源:量子位 支付宝推出多模态AI应用“灵光”,已上线腾讯应用宝、vivo应用商店等平台并开启邀约内测。其核心功能AGI相机可通过镜头识别场景内容,实现拍摄即问、实时理解与回答,强调认知层理解,具备强场景分析与多模态推理能力。来源:AI工具集
Seed3D 1.0 发布,一张图生成高精度 3D 模型,纹理生成能力 SOTA
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”百川发布了循证增强医疗大模型Baichuan-M2 Plus,并升级应用百小应及开放API。模型首创六源循证推理范式,构建从原始研究到真实世界的完整知识体系,通过循证检索与推理,显著降低医疗幻觉率,其幻觉率较DeepSeek低约3倍,优于美国医疗产品OpenEvidence,可信度比肩资深临床医生水准。来源:百川大模型
百川发布最强循证增强大模型 M2 Plus,打造“医生版 ChatGPT”
10月22·周三OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。来源:量子位混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。来源:腾讯混元AipexBase,中国首个AI原生后端基础设施正式开源!北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Servic
OpenAI首款ChatGPT Atlas浏览器发布!免费下载使用
LiblibAI近期完成1.3亿美元B轮融资,由红杉中国、CMC资本及大厂战投联合领投,是今年中国AI应用领域最大一笔融资。LiblibAI上月发布2.0版本,从模型社区进化为AI创作Studio。来源:暗涌Waves 字节跳动Seed团队推出3D生成大模型Seed3D 1.0,可从单张图像生成高精度3D模型,兼具物理模拟精确性与可扩展性。其基于Diffusion Transformer架构,通过大规模数据训练,具备高保真资产生成、物理引擎兼容性和可扩展场景组合能力,在几何与纹理生成方面表现优异。来源:字节跳动Seed
混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成
AipexBase,中国首个AI原生后端基础设施正式开源!北京跨赴科技(KuaFuAI)正式开源中国首个AI原生后端即服务(Backend-as-a-Service)平台AipexBase。让开发者“不写后端,也能拥有完整后端”,所有后端能力如数据存储、鉴权等均被自动封装,开发者可通过前端SDK或MCP协议一键调用。AipexBase原生兼容MCP,统一上下文与数据层,支持码上飞、Cursor等AI产品接入,深度适配中国开发生态,兼容飞书、钉钉、微信等生态接入。来源:CodeFlying码上飞
AipexBase,中国首个AI原生后端基础设施正式开源!
2B、32B!更适合开发者体质的Qwen3-VL来啦Qwen3-VL家族新增2B与32B两个密集模型尺寸,从轻量级到甜品级,覆盖视觉语言理解场景。两种版本可选:Instruct适合对话与工具调用,Thinking强化长链推理与复杂视觉理解。Qwen3-VL-32B在多个领域表现优于GPT-5 mini等,仅用32B参数匹敌235B模型。Qwen3-VL-2B小体量但表现惊人,可在极限端侧设备上运行。来源:通义千问Qwen
2B、32B!更适合开发者体质的Qwen3-VL来啦
Anthropic 公司推出Claude 桌面版Claude桌面版正式发布,支持Mac和Windows系统。版本有四项核心功能:全局快捷键(Mac双击Option唤醒)、分享工作(截图、窗口分享、拖拽文件)、语音输入(按Caps Lock说话)和连接工具(可调用代码编辑器、本地文件、数据库)。来源:AI工具集
Anthropic 公司推出Claude 桌面版
灵巧手公司星际光年完成Pre-A轮融资深圳星际光年科技有限公司发布新品五指灵巧手Pantheon 22,并完成Pre-A轮融资。本轮融资由赛纳资本、普华资本领投,柯熙创投跟投,深渡资本担任财务顾问。资金将主要用于灵巧操作底层技术攻关、灵巧手操作系统(小脑模型)研发及核心团队扩张。来源:智能涌现
灵巧手公司星际光年完成Pre-A轮融资
10月21·周二Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。来源:Vidu AIAnthropic正式上线网页版Claude CodeAnthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源:AI工具集CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。来源:腾讯云代码助手CodeBuddy5000元不限席位,Che
Vidu Q2 参考生视频全球上线,高一致性,速度更快,价格更优惠
OpenAI发布首款AI原生浏览器ChatGPT Atlas。浏览器基于谷歌开源的Chromium内核打造,整合了ChatGPT对话能力,每个标签页都能直接聊天。具备浏览器上下文助手能力,可直接在浏览页面提问;内置记忆功能,记录用户浏览关键内容;“Cursor Chat”功能可选中文本进行编辑润色;Agent模式能完成网页操作,如填写表单、预订等。来源:量子位 腾讯发布并开源了混元世界模型1.1(HunyuanWorld-Mirror)。模型新增支持多视图及视频输入,可在单张显卡上部署,秒级生成3D世界。突破了1.0版本仅支持文本或单图输入的局限,首次实现了多模态先验注入和多任务统一输出的端到端3D重建,支持点云、深度图、相机参数等多种3D几何预测,性能大幅领先现有方法。来源:腾讯混元
Anthropic正式上线网页版Claude Code
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令CodeBuddy IDE 1.0正式版发布,国际版全面支持 GPT-5-Codex,新增自定义指令、Web Fetch 实时获取网络信息等功能,MCP 市场正式开放,支持完整 DiffView 功能。来源:腾讯云代码助手CodeBuddy
CodeBuddy IDE 1.0 正式版焕新发布!支持Web Fetch、自定义指令
5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AICherry Studio企业 Express 版正式发布,以 5000 元买断价、不限员工席位,为企业提供一站式 AI 落地解决方案。该版本内置顶级闭源与开源模型,无需申请 API Key,解决网络问题,简化计费流程,支持私有化和云应用部署。来源:Cherry Studio-千慧科技
5000元不限席位,Cherry Studio 企业版击穿底价,让每家公司都用上专属AI
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业智谱发布 GLM Coding Plan 企业版,基于GLM-4.6模型,为企业提供全面智能编程解决方案。产品在国际 API 平台 OpenRouter 趋势榜中名列第一,融合多模态理解、联网搜索及智能编排能力,提供从代码生成到全链条开发协同的一站式服务。企业版具备高用量、低成本、高性能和高安全性,无缝适配 10 余款主流编程工具,支持灵活成员管理和使用数据分析。来源:智谱
智谱推出GLM Coding Plan企业版:以最强Agentic Coding赋能千行百业
美团发布面向复杂问题的大模型智能体评测基准——VitaBench美团 LongCat 团队发布VitaBench,是面向复杂问题的大模型智能体评测基准。以外卖点餐、餐厅就餐、旅游出行三大生活场景为载体,构建了包含 66 个工具的交互式评测环境。VitaBench 从深度推理、工具使用与用户交互三大维度量化任务复杂性,通过真实用户模拟器和原子化评估准则实现细粒度评估。来源:量子位
美团发布面向复杂问题的大模型智能体评测基准——VitaBench
10月20·周一DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCRDeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。来源:AI工具集宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。来源:APPSO全球榜首!百度最新开源模型PaddleOCR-VL百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等
DeepSeek 再开源:发布 3B MoE OCR 模型DeepSeek-OCR
Vidu Q2参考生视频全球上线,本次升级聚焦于高一致性,速度更快,价格更优惠三大核心,满足专业及半专业创作者日益增长的高想象力内容创作需求。目前Vidu Q2参考生视频已在全球同步上线,用户可以在Vidu网页端,或各大应用商店搜索Vidu AI APP,体验最新功能。来源:Vidu AI Anthropic发布Claude Code 网页版,用户无需部署即可在浏览器中使用其代码生成功能。核心功能包括连接 GitHub 仓库、自动写代码、并行处理多个任务、实时查看进度以及完成后自动创建 PR。来源:AI工具集
宇树发布180cm仿生人形机器人!会跳芭蕾能打功夫
全球榜首!百度最新开源模型PaddleOCR-VL百度自研多模态文档解析模型PaddleOCR-VL发布仅16小时就登顶HuggingFace Trending全球第一。模型参数仅0.9B,轻量高效,能精准识别文本、手写汉字、表格等多种复杂元素,支持109种语言。来源:百度AI
全球榜首!百度最新开源模型PaddleOCR-VL
10月17·周五李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。来源:机器之心美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。来源:龙猫LongCat一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短
李飞飞世界模型新成果RTFM 「Real-Time Frame Model」震撼问世
DeepSeek推出全新视觉文本压缩模型DeepSeek-OCR。模型参数仅3B,采用混合专家架构,视觉token数量减少20倍,压缩比达20倍,20个节点每天可处理3300万页数据。在Fox benchmark测试中,各文本长度区间准确率超85%。支持多种分辨率配置、多语言处理、复杂图表解析等多模态能力,可在多轮对话中实现10倍压缩效率。来源:AI工具集 宇树发布第四款人形机器人H2,高180cm,重70kg。相比前代H1,H2在运动流畅性和仿生特征上有显著提升。H2拥有31个关节,分布在双臂、双腿和躯干,能完成芭蕾舞、中国武术等高难度动作。还被赋予了类似人类的面部特征,外观和运动姿态更接近人类。来源:APPSO
美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍Manus宣布推出Manus 1.5版本。在任务执行速度、可靠性和输出质量方面显著提升,任务平均完成时间缩短至不足4分钟,速度提升近四倍。Manus 1.5提供两种模型:Manus-1.5适用于高复杂度任务,Manus-1.5-Lite则针对成本效率优化。新版本具备全栈Web应用开发功能,用户可通过对话完成从开发到部署的全过程。来源:IT之家
一键开发完整 Web 应用:Manus 1.5 正式发布,速度提升近四倍
爱诗科技完成B+轮1亿元融资,ARR突破4000万美金AI视频企业爱诗科技宣布完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资。爱诗科技旗下产品PixVerse与拍我AI服务于C端大众与专业创作者,用户规模已突破一亿,ARR超过4000万美元,MAU超过1600万。来源:爱诗科技AIsphere
爱诗科技完成B+轮1亿元融资,ARR突破4000万美金
10月16·周四谷歌推出新款视频生成模型 Veo 3.1谷歌发布AI视频生成模型Veo 3.1,带来更丰富的音频、叙事控制及逼真的质感还原。Veo 3.1在Veo 3基础上,提升提示词遵循度,增强视听质量。其驱动的AI电影创作工具Flow更新,支持原生音频生成,用户可将静态图像转视频、整合多图像元素、延展视频时长等,实现更精细的视频编辑与颗粒化控制。来源:机器之心讯飞星火升级的「深度研究」全新上线讯飞星火“深度研究”功能全新升级,实现底层思维链路、信息融合与内容呈现的全方面进化。功能通过多轮思考和搜索迭代,深度理解用户意图,提升内容质量;支持输出高质量图片,新增HTML网页导出与一键转PPT功能;结合外部搜索信源和本地文档,实现个性化思考。来源:讯飞开放平台通义千问正式推出 Qwen Chat Memory 功能Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。来源:通义千问Qwen豆包发布四款大模型:能理解情感、调节音调风
谷歌推出新款视频生成模型 Veo 3.1
斯坦福大学教授李飞飞的创业公司World Labs推出了实时生成式世界模型RTFM。模型可在单个H100 GPU上运行,输入2D图像后,能生成不同视角下的新2D图像,实现3D一致性和持久性。RTFM基于大规模视频数据训练,无需显式构建3D表示,而是通过端到端学习模拟3D几何、反射等特征。来源:机器之心 美团LongCat团队开源了语音编解码方案LongCat-Audio-Codec。专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征,解决了传统方案中语义与声学信息难以平衡的问题。低延迟流式解码器支持实时交互,满足车载语音助手、实时翻译等场景的需求。来源:龙猫LongCat
讯飞星火升级的「深度研究」全新上线
通义千问正式推出 Qwen Chat Memory 功能Qwen Chat Memory正式上线,赋予了Qwen“长记忆”能力。能理解上下文、保留重要信息并回忆过往对话,使交流更具延续性。让Qwen在对话中主动关联过往互动,更好地理解用户需求,为用户提供更个性化的服务。来源:通义千问Qwen
通义千问正式推出 Qwen Chat Memory 功能
豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式火山引擎全新发布和升级了四款豆包大模型,包括豆包大模型1.6升级版、豆包大模型1.6 lite、豆包语音合成模型2.0和豆包声音复刻模型2.0。豆包大模型1.6升级版原生支持四种思考长度,是国内首个原生支持“分档调节思考长度”的模型,可平衡效果、时延和成本。豆包大模型1.6 lite更轻量、推理速度更快、性价比更高。来源:火山引擎
豆包发布四款大模型:能理解情感、调节音调风格、准确读出公式
Anthropic 发布了 Claude Haiku 4.5,速度翻倍价格大砍Anthropic发布了Claude Haiku 4.5模型。模型在保持高性能的同时,速度翻倍且价格大幅降低。在SWE-bench Verified测试集中,Haiku 4.5取得了73%的成绩,与Claude Sonnet 4和OpenAI的GPT-5处于同一水平线,在某些任务上甚至超过Sonnet 4。来源:APPSO
百度AI眼镜开售!2199元,今天定明天到手
11月10·周一堆友「全能画布」来了!是天花板级的AI设计智能体堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。来源:堆友全球第二、国内第一!最强百度的文心5.0 Preview百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。来源:机器之心OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源:IT之家11月7
堆友「全能画布」来了!是天花板级的AI设计智能体
字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。来源:火山引擎 月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。来源:AI工具集
全球第二、国内第一!最强百度的文心5.0 Preview
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型OpenAI推出GPT-5-Codex-Mini,是GPT-5-Codex的“经济高效型”版本。开发者可获得约4倍的使用额度。在SWE-bench Verified测试中,GPT-5-Codex-Mini得分71.3%。版本适用于轻量级工程任务或接近速率上限的情况。来源:IT之家
OpenAI 推出 GPT-5-Codex-Mini:“经济高效型”AI 编程模型
11月7·周五阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。来源:AI工具集美团推出出AI IDE编程工具:CatPaw美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。来源:AI工具集AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。来源
阶跃星辰开源首个 LLM 级音频编辑大模型Step-Audio-EditX
堆友AI反应堆正式上线AI创作全能画布,堆友用户可免费体验。堆友AI集成文生图、图生图、智能滤镜、矢量编辑、字体设计、高清放大、智能抠图、局部重绘等功能,提供一站式AI设计解决方案,实现从灵感到交付的全流程自动化。来源:堆友 百度文心5.0 Preview在LMArena全球文本竞技场排名中以1432分并列第二、国内第一,与OpenAI GPT‑4.5、Anthropic Claude等顶尖模型实力相当。实测显示其在创意写作、长文本理解及复杂指令遵循方面表现卓越,生成内容兼具诗意与逻辑严谨性。来源:机器之心
美团推出出AI IDE编程工具:CatPaw
AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资AI视频初创公司Video Rebirth宣布完成5000万美元种子轮融资,投资方包括启明创投、韩国游戏公司Actoz Soft等。公司由前腾讯杰出科学家刘威创立,致力于打造“视频原生的世界模型”,计划于12月发布1.0版本产品,目标是为专业创作者提供高保真、高可控性的视频生成平台,挑战现有市场格局。来源:机器之心
AI大牛刘威视频创业公司Video Rebirth,完成5000万美元融资
11月6·周四即梦无限画布上线,创作更自由即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。来源:AI工具集月之暗面Kimi发布思考模型:Kimi-k2 Thinking月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。来源:AI工具集美团 LongCat 团队发布全模态一站式评测基准UNO-Bench美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。来源:龙猫L
即梦无限画布上线,创作更自由
阶跃星辰团队开发的首个开源大语言模型驱动的音频编辑工具Step-Audio-EditX,专注于通过迭代方式控制音频的情感、说话风格和副语言特征。核心技术采用大规模合成数据训练,无需依赖嵌入式先验或辅助模块,能实现零样本文本转语音功能。来源:AI工具集 美团发布AI编程工具CatPaw,支持Python、Java等主流语言,具备实时代码补全、问答生码、预览调试及项目级分析功能,目前兼容macOS,Windows版将上线。新用户注册获500次免费对话额度,旨在提升开发效率。来源:AI工具集
月之暗面Kimi发布思考模型:Kimi-k2 Thinking
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench美团 LongCat 团队推出全模态大模型评测基准UNO-Bench,精准衡量模型在图像、音频、视频和文本等单模态与全模态任务上的表现。基准通过高质量、多样化的数据构建,首次验证全模态大模型的“组合定律”,揭示单模态与全模态能力的复杂关系。来源:龙猫LongCat
美团 LongCat 团队发布全模态一站式评测基准UNO-Bench
科大讯飞星火 X1.5 深度推理大模型发布科大讯飞在2025全球1024开发者节上发布讯飞星火X1.5深度推理大模型。模型基于全国产算力,攻克MoE模型全链路训练效率,端到端性能达国际竞品93%以上。其语言理解、文本生成等能力对标国际主流大模型,数学能力国际领先,多语言能力支持130多种语言,性能达GPT-5的95%以上。来源:IT之家
科大讯飞星火 X1.5 深度推理大模型发布
11月5·周三360发布:FG-CLIP2登顶全球最强图文跨模态模型360 推出的FG-CLIP2模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。来源:机器之心银河通用发布环视导航基座大模型 NavFoM银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。来源:银河通用机器人AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下Capi
360发布:FG-CLIP2登顶全球最强图文跨模态模型
即梦AI上线无限画布,提供更自由的创作空间。新功能包括无限空间、Agent共创、多会话并行和多模态创作。用户可自由延展画布,轻松处理复杂项目;通过对话即创作,一句话生成灵感;一个项目可开启多个会话并行创作;支持图片和视频等多类型素材混合创作,实现一体化完成。来源:AI工具集 月之暗面公司最新发布的具备通用Agent能力和深度推理能力的AI模型Kimi-k2 Thinking,支持多轮工具调用和256k上下文长度。模型通过新增的reasoning_content字段展示思考过程,能自主规划任务并调用外部工具完成复杂操作,例如自动拆解指令、分析数据并生成报告。来源:AI工具集
银河通用发布环视导航基座大模型 NavFoM
AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿美国生成式AI医疗独角兽Hippocratic AI完成1.26亿美元C轮融资,估值达35亿美元,较年初翻超一倍。此轮融资由谷歌母公司Alphabet旗下CapitalG等参投,资金将用于并购、产品开发和拓展国际业务等。来源:智东西
AI医疗独角兽Hippocratic AI完成8亿融资,估值250亿
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案软银集团与OpenAI宣布成立合资公司“SB OAI Japan”,计划于2026年推出企业级AI解决方案“Crystal Intelligence”。该方案将结合OpenAI技术与定制化服务,助力日本企业提升生产力和管理效率。软银将率先部署该技术,积累经验后向其他企业推广。来源:IT之家
软银与 OpenAI 宣布成立合资公司,明年推出企业级 AI 解决方案
11月4·周二AI视频创作平台SkyReels正式焕新上线昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。来源:昆仑万维集团OpenAI与亚马逊达成380亿美元算力合作OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。来源:智东西零一万物联合开源中国推出OAK平台“Open AgentKit”零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐
AI视频创作平台SkyReels正式焕新上线
360 推出的FG-CLIP2模型在图文跨模态领域取得重大突破。模型在八大类任务、29 项测试中全面超越 Google 与 Meta,成为目前最强的图文跨模态 VLM 模型。FG-CLIP2 能实现像素级的图像理解,精准识别细节,如毛发、斑点、色彩等,具备强大的中英文细粒度理解能力。来源:机器之心 银河通用联合多所高校推出全球首个跨本体全域环视导航基座大模型NavFoM。支持全场景、多任务、跨本体,可适配多种机器人形态,如机器狗、轮式人形等。NavFoM 通过创新的 TVI Tokens 和 BATS 策略,实现时空理解与高效算力利用,基于庞大训练数据体系,其在多个国际基准上达 SOTA 水平,可直接部署于真实机器人,无需任务微调。来源:银河通用机器人
OpenAI与亚马逊达成380亿美元算力合作
零一万物联合开源中国推出OAK平台“Open AgentKit”零一万物与开源中国联合发布“Open AgentKit平台”(OAK),打造Agent世界的“生态适配器”。OAK平台支持多种开源大模型,提供一站式解决方案,助力开发者实现“Agent开发自由”。平台四大核心模块,包括OAK Framework、Builder、Runtime和Studio,将逐步推出并邀请社区共建。来源:零一万物 01AI
零一万物联合开源中国推出OAK平台“Open AgentKit”
11月3·周一LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代美团 LongCat 团队正式发布并开源LongCat-Flash-Omni模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。来源:龙猫LongCat阿里通义千问Qwen3-Max上线深度思考模式阿里 Qwen 团队宣布Qwen3-Max Thinking在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。来源:AI工具集10月31·周五MiniMax Music 2.0:让音乐创作属于每一个人MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,
LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代
昆仑万维旗下AI视频创作平台SkyReels焕新上线。其Web端与移动端APP全面登陆,聚合全球顶尖AI多模态模型,提供图片生成、视频生成、数字人、音乐生成等多种创作方式。SkyReels V3模型更新,新增无限画布、数字人、模板功能、专家Agent、视频延长和风格化等能力,让专业创作更简单。来源:昆仑万维集团 OpenAI与亚马逊宣布达成合作,OpenAI将在未来7年向亚马逊采购价值380亿美元(约合人民币2704.6亿元)的云计算服务。亚马逊云科技将为OpenAI提供亚马逊弹性计算云超级服务器,预计明年年底前部署完毕。来源:智东西
阿里通义千问Qwen3-Max上线深度思考模式
10月31·周五MiniMax Music 2.0:让音乐创作属于每一个人MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。来源:MiniMax稀宇科技美团LongCat团队发布WOWService:打造卓越智能交互体验美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。来源:龙猫LongCat月之暗面全新的注意力架构Kimi Linear横空出世月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。来源:AI工具
MiniMax Music 2.0:让音乐创作属于每一个人
美团 LongCat 团队正式发布并开源LongCat-Flash-Omni模型。模型基于 LongCat-Flash 系列架构,集成多模态感知与语音重建模块,总参数达 5600 亿,激活参数 270 亿,实现低延迟实时音视频交互。来源:龙猫LongCat 阿里 Qwen 团队宣布Qwen3-Max Thinking在 Qwen Chat 上线。模型是万亿参数的 MoE 模型,曾在 AIME25、HMMT25 数学测试中获满分。用户可在 Qwen Chat 中选择该模型并开启 Thinking 模式,免费体验。来源:AI工具集
美团LongCat团队发布WOWService:打造卓越智能交互体验
月之暗面全新的注意力架构Kimi Linear横空出世月之暗面推出全新注意力架构Kimi Linear,有望成为下一代Agent LLM基石技术。架构核心是Kimi Delta Attention(KDA),通过精细化门控机制和硬件高效算法,实现性能与效率大幅提升。来源:AI工具集
月之暗面全新的注意力架构Kimi Linear横空出世
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复OpenAI 发布了由 GPT-5 驱动的Agent——Aardvark,能自动在大规模代码库中发现并修复安全漏洞。Aardvark 可识别 92% 的已知与人工注入漏洞,还能定位复杂条件下的问题。通过监控代码提交、分析、验证漏洞并生成修复建议,与 OpenAI Codex 深度集成,为漏洞生成修复补丁。来源:量子位
OpenAI发布找Bug智能体Aardvark:全自动读代码找漏洞写修复
智源悟界·Emu3.5:开启多模态世界大模型新纪元北京智源人工智能研究院发布“悟界·Emu3.5”,开启多模态世界大模型新纪元。Emu3.5是340亿参数的稠密自回归Transformer模型,将图像、文本和视频等多模态数据统一建模,实现从“下一Token预测”到“下一状态预测”的能力跃迁。来源:智源研究院
智源悟界·Emu3.5:开启多模态世界大模型新纪元
10月30·周四MiniMax Speech 2.6:最强 Voice Agent 来袭MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。来源:MiniMax稀宇科技Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。来源:智东西Adobe推出最强图像生成模型Firefly Image 5!原生400万像素Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还
MiniMax Speech 2.6:最强 Voice Agent 来袭
MiniMax发布最新音乐模型Music 2.0。模型在音乐理解与表达上实现飞跃,能精准捕捉人声情绪与器乐张力。支持多种唱法和情感风格,可精准控制人声音色,实现一声千变。在旋律创作上,可生成结构完整、抓耳的歌曲,能独立控制多种乐器,编曲层次丰富。音质全面升级,带来沉浸式听觉体验。来源:MiniMax稀宇科技 美团LongCat团队发布WOWService大模型交互系统技术报告,针对本地生活服务领域大模型落地的“三重困境”,提出四大核心技术框架。系统融合多智能体协同、强化学习等技术,通过人机协同标注等方式降低成本,已在美团智能客服等数十个业务场景落地。来源:龙猫LongCat
Cursor 2.0来了!多agent并行,自研模型30秒跑完多数任务
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素Adobe发布其最先进的图像生成与编辑模型Firefly Image 5,支持400万像素原生输出,具备文本指令编辑、分层图像编辑等功能,还新增视频和音频生成工具。Adobe还为Photoshop、Premiere Pro和Lightroom等应用推出全新生成式AI工具,并支持更多第三方模型。来源:智东西
Adobe推出最强图像生成模型Firefly Image 5!原生400万像素
智谱清言全新推出「研究模式」智谱清言推出全新「研究模式」,帮助用户高效深入地开展研究。模式可围绕问题全网搜索并整合分析,自动生成结构化、可引用的研究报告,适用于学术研究、商业洞察、生活决策和热点追踪等多种场景。来源:智谱清言
智谱清言全新推出「研究模式」
英国AI视频生成独角兽Synthesia完成2亿美元融资英国AI视频生成独角兽Synthesia完成2亿美元(约14亿元人民币)融资,估值达40亿美元(约284亿元人民币),由谷歌风投领投,英伟达可能参与。Synthesia成立于2017年,专注于为企业生成虚拟形象视频,用于营销、培训等,已有6万家企业使用其平台,覆盖约70%的全球财富100强企业。来源:智东西
英国AI视频生成独角兽Synthesia完成2亿美元融资
10月29·周三Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI AltasFlowith正式发布FlowithOS,为AI Agent打造的全新操作系统。解决AI普遍存在的“思考与执行脱节”问题,如跨网页、跨环境执行困难等。FlowithOS通过整合浏览器,为AI Agent提供思考与行动的环境。附:FlowithOS邀请码来源:AI工具集混元推出国内首个交互式AI播客,听播客可以“举手”提问了腾讯混元推出国内首个交互式AI播客,用户可在收听过程中随时打断并提问。播客基于大模型意图识别、长上下文理解等能力,结合上下文和背景信息给出准确答案。用户能自主选择播客风格、主持人数及音色,支持快速创作播客内容。来源:腾讯混元GitHub 推出 Agent HQ,目标统一管理所有智能体GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源:AI
Flowith发布 Agent 操作系统 FlowithOS,超越 OpenAI Altas
MiniMax Speech 2.6发布,全面升级Voice Agent场景。模型端到端延迟低于250毫秒,支持多种语言的网址、邮箱等非标准文本格式直接转换,提供Fluent LoRA功能,即使原始素材不完美,也能生成流利自然的语音。来源:MiniMax稀宇科技 AI编程平台Cursor发布2.0版本及自研编程模型Composer。Composer专为低延迟编程设计,速度达同等模型4倍,每秒输出超200个token,智能水平超开源编程模型。新版本界面以Agent为核心,支持并行运行最多8个Agent,可并行处理任务并择优选择。新增原生浏览器工具,实现代码修改“指哪儿改哪儿”,代码审查功能升级,聚合修改细节。来源:智东西
混元推出国内首个交互式AI播客,听播客可以“举手”提问了
GitHub 推出 Agent HQ,目标统一管理所有智能体GitHub推出Agent HQ平台,统一管理AI编程智能体并集成至工作流中。Agent HQ核心为Mission Control指挥中心,可协调多智能体任务分配与管理,支持跨平台操作。其Plan Mode功能可提升代码质量。开发者可通过AGENTS.md创建自定义智能体。来源:AI工具集
GitHub 推出 Agent HQ,目标统一管理所有智能体
OpenAI股改完成,非营利主体更名OpenAI完成资本结构重组,上市道路铺平。非营利主体更名为OpenAI Foundation,掌控营利实体26%股份,目前估值约1300亿美元。员工和投资者持有47%股份,微软持有32.5%股份。OpenAI还同意购买2500万美元微软Azure云服务,微软股价一度上涨3.5%。来源:量子位
OpenAI股改完成,非营利主体更名
Google Labs推出一款AI营销工具:PomelliGoogle Labs推出AI营销工具Pomelli,帮助中小型企业快速创建符合品牌气质的社交媒体活动。用户只需提供公司网站,Pomelli会自动提取品牌信息,建立“商业DNA”,并生成活动创意和视觉素材。用户可编辑调整后直接使用。来源:AI工具集
豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景
12月3·周三Mistral AI发布Mistral 3系列模型,全线回归Apache 2.0Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。来源:机器之心Anthropic收购热门JavaScript工具链公司BunAnthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。来源:InfoQ亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新在AWS re:Invent大会上,亚马逊云科技发布
Mistral AI发布Mistral 3系列模型,全线回归Apache 2.0
国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。来源:哩布哩布AI 小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。来源:36氪
Anthropic收购热门JavaScript工具链公司Bun
亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新在AWS re:Invent大会上,亚马逊云科技发布十大AI更新:推出自研AI芯片Trainium4(性能提升6倍)及Trainium3服务器;第二代大模型Amazon Nova 2系列(Lite、Pro、Sonic、Omni)性能超越多款主流模型;Bedrock平台新增18款开源模型,包括阿里、Kimi等中国模型;推出AgentCore开发工具和四大智能体(如自主编程、安全运维),强化企业级AI应用。来源:智东西
亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新
商汤发布 NEO 架构,重新定义多模态模型效能边界商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO,突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新,实现视觉与语言的深层融合。来源:商汤科技SenseTime
商汤发布 NEO 架构,重新定义多模态模型效能边界
12月2·周二LiblibAI 上线「可灵O1」全能视频模型,速来体验LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。来源:哩布哩布AIRunway发布的最新视频生成AI模型Gen-4.5,代号”David”Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。来源:机器之心英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长
LiblibAI 上线「可灵O1」全能视频模型,速来体验
Mistral AI发布新一代Mistral 3系列模型,全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型,以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练,具备图像理解能力,在LMArena开源模型中排名第二。来源:机器之心 Anthropic宣布收购热门JavaScript工具链公司Bun,交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用,并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具,以提升性能与分发效率。Bun将保持开源并继续独立发展。来源:InfoQ
Runway发布的最新视频生成AI模型Gen-4.5,代号”David”
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子英伟达发布推理版视觉-语言-行动模型Alpamayo-R1,为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限,通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。来源:机器之心
英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
PixVerse V5.5 来了!「导演级」音画同步一键生成PixVerse发布PixVerse V5.5视频生成模型,实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能,可一键生成5秒、8秒或10秒的多镜头叙事单元,自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音,使角色口型、动作与音频完美契合。来源:爱诗科技AIsphere
PixVerse V5.5 来了!「导演级」音画同步一键生成
12月1·周一DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。来源:DeepSeek字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。来源:量子位阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
LiblibAI全球首发「可灵O1」统一多模态视频模型,是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性,可通过自然语言指令智能编辑视频,具备视频参考生成能力。来源:哩布哩布AI Runway正式发布Gen-4.5视频生成模型,该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准,ELO评分达1247分,超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感,支持多种控制模式。来源:机器之心
字节视频模型Vidi2超越Gemini 3 Pro!理解能力爆表
阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备阶跃星辰开源GELab-Zero,推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩,能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建,支持一键部署、多设备任务分发,解决移动端Agent规模化落地的工程难题。来源:量子位
阶跃开源4B Agent模型GELab-Zero,跑通所有安卓设备
11月28·周五DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。来源:机器之心昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。来源:昆仑万维集团混元3D Studio升级,可直出艺术家级3D资产腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越
DeepSeek强势回归,开源IMO金牌级数学模型DeepSeek-Math-V2
DeepSeek正式发布DeepSeek-V3.2版本,包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率,达到GPT-5水平;Speciale版在IMO、ICPC等国际竞赛中斩获金牌,推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合,在Agent评测中达到开源模型最高水平。来源:DeepSeek 字节跳动发布新一代视频理解模型Vidi2,在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容,直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案,实现从原始素材到成片的AI自动化剪辑。来源:量子位
昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型
混元3D Studio升级,可直出艺术家级3D资产腾讯混元3D Studio升级至1.1版本,集成全新美术级3D生成模型PolyGen 1.5,实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力,可直接生成布线规整的专业级3D资产,在布线质量、结构完整度等关键指标上超越现有SOTA方法。来源:腾讯混元
混元3D Studio升级,可直出艺术家级3D资产
11月27·周四阿里开源高效图像生成模型Z-Image,参数规模6B阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。来源:AI工具集字节跳动发布视觉空间重建模型:Depth Anything 3字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源:字节跳动Seed清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能
阿里开源高效图像生成模型Z-Image,参数规模6B
DeepSeek开源新一代数学模型DeepSeek-Math-V2,实现IMO金牌级推理能力。模型突破性引入自我验证机制,通过“生成器-验证器-元验证”三重架构,使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分,Putnam 2024测试接近满分。来源:机器之心 昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型,推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系,在编曲结构、语义映射及声场音质方面实现显著提升,支持10种语言生成及自定义歌手功能。来源:昆仑万维集团
字节跳动发布视觉空间重建模型:Depth Anything 3
清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资清华系AI基础设施企业无问芯穹完成近5亿元A+轮融资,成立两年半累计融资近15亿元。本轮融资将用于强化软硬协同技术优势,加速智能体在数字与物理世界的规模化普惠应用。来源:智东西
清华AI黑马斩获新融资,无问芯穹已完成近5亿元A+轮融资
11月26·周三黑森林重磅开源FLUX.2,图像生成模型的新里程碑Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。来源:AI工具集LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑!国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源:哩布哩布AI腾讯混元3D创作引擎国际站,上线!腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源:腾讯混元TRAE SOLO 登陆中
黑森林重磅开源FLUX.2,图像生成模型的新里程碑
阿里开源高效图像生成模型Z-Image,参数规模为6B。模型采用单流DiT架构,通过统一处理文本与视觉语义token提升参数效率。发布三个版本:Z-Image-Turbo为轻量蒸馏版,支持8步快速生成,擅长写实生成与双语文字渲染;Z-Image-Base为基础模型,供社区微调定制;Z-Image-Edit专攻图像编辑,支持基于自然语言指令的创意编辑。来源:AI工具集 字节跳动Seed团队开源视觉空间重建模型Depth Anything 3,突破性采用单一Transformer架构实现任意视角空间感知。模型通过“深度-射线”统一表征法,将相机姿态估计、几何重建等任务集成于简洁框架,在相机姿态精度和几何重建任务上分别较主流模型VGGT提升35.7%和23.6%。来源:字节跳动Seed
LiblibAI 上线「基础算法F.2」!支持多图参考和图像编辑!
腾讯混元3D创作引擎国际站,上线!腾讯混元3D创作引擎正式推出国际站,其API同步在腾讯云国际站上线,面向全球开发者开放。引擎支持文生3D、图生3D、草图生3D及智能拓扑等核心功能,用户通过文字、图片或草图即可分钟级生成高质量3D模型。来源:腾讯混元
腾讯混元3D创作引擎国际站,上线!
TRAE SOLO 登陆中国版,免费使用!AI编程平台TRAE中国版正式推出SOLO模式并免费开放。模式内置智能体SOLO Coder,支持先制定开发计划再执行的协作流程,能调度多智能体处理复杂任务。采用全新三栏布局,实现多任务并行开发,内置代码变更对比工具与上下文管理功能。来源:TRAE.ai
TRAE SOLO 登陆中国版,免费使用!
11月25·周二Anthropic发布新一代大模型Claude Opus 4.5Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。来源:APPSO混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。来源:腾讯混元挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在
Anthropic发布新一代大模型Claude Opus 4.5
Black Forest Labs发布开源图像生成与编辑模型FLUX.2,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。来源:AI工具集 国内AI创作平台LiblibAI(哩布哩布)正式上线新一代图像生成基础算法F.2。模型在文生图、多图参考及图像编辑三大核心功能上实现全面升级,显著提升了人物与风格的一致性、复杂提示词遵循能力及精细文本渲染效果。来源:哩布哩布AI
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场AMD携手IBM和AI初创公司Zyphra,历时1年多,成功使用AMD硬件训练出首个大型混合专家(MoE)基础模型ZAYA1。模型完全基于AMD硬件生态系统构建,训练过程在IBM云上进行,使用AMD Instinct MI300X GPU等技术。训练集群由128个节点组成,总计1024块GPU,性能超750 PFLOPs。来源:IT之家
挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
OpenAI 为ChatGPT推出免费AI购物研究工具OpenAI为ChatGPT推出全新“购物研究”功能,替代传统电商平台与内容社区的消费决策流程。功能基于GPT-5 mini模型优化,通过交互式提问理解用户偏好,结合记忆功能生成个性化购买指南,并直接提供商品链接与可视化对比界面。来源:APPSO
OpenAI 为ChatGPT推出免费AI购物研究工具
微软推出全新的开源小型语言模型 Fara-7B微软发布首款专为电脑操作设计的开源智能体小模型Fara-7B,由70亿参数构成,支持Win11端侧运行,性能领先同级。模型通过视觉解析网页截图,执行点击、输入等操作,无需依赖额外可访问性树或多个大模型协作。微软构建全新合成数据生成流程模拟网页任务,Fara-7B基于Qwen2.5-VL-7B底座,支持128k上下文。来源:IT之家
微软推出全新的开源小型语言模型 Fara-7B
11月24·周一Meta 推出 WorldGen:一句话即可生成可交互 3D 世界Meta 推出WorldGen系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。来源:IT之家阿里千问启用全新域名,提供更多 Qwen3 系列模型阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源:IT之家AI2推出的开源大型语言模型系列:Olmo 3Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读
Meta 推出 WorldGen:一句话即可生成可交互 3D 世界
Anthropic发布新一代大模型Claude Opus 4.5,在编程能力上实现重大突破,成为首个在SWE-Bench Verified真实软件工程测试中得分超过80%的模型,并在八种编程语言的七种中排名第一。核心升级包括对模糊需求的精准理解、复杂Bug自主定位能力,以及创新的”effort”参数控制系统,可在保证性能的同时大幅降低token消耗。来源:APPSO 腾讯混元开源轻量级OCR模型HunyuanOCR,参数仅1B却在多项核心能力上达到SOTA水平。模型基于混元原生多模态架构,采用端到端设计,在复杂文档解析基准OmniDocBench中获得94.1分,超越Gemini 3 Pro等主流模型。来源:腾讯混元
阿里千问启用全新域名,提供更多 Qwen3 系列模型
AI2推出的开源大型语言模型系列:Olmo 3Allen Institute for Artificial Intelligence (AI2) 推出的开源大型语言模型Olmo 3系列,包括 Olmo 3-Base(7B 和 32B 参数)、Olmo 3-Think、Olmo 3-Instruct 和 Olmo 3-RL Zero 等版本,分别擅长编程、阅读理解、数学解题、复杂推理、多轮对话和强化学习等任务。来源:AI工具集
AI2推出的开源大型语言模型系列:Olmo 3
11月21·周五谷歌Nano Banana Pro上线,深度结合Gemini 3谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。来源:机器之心腾讯混元发布全新视频生成模型:HunyuanVideo 1.5腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。来源:腾讯混元小米具身大模型 MiMo-Embodied 发布并全面开源小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路
谷歌Nano Banana Pro上线,深度结合Gemini 3
Meta 推出WorldGen系统,仅需一条文本提示词即可生成可交互、可导航的三维世界。系统融合程序化逻辑推理、扩散模型等技术,输出几何严谨、视觉丰富的三维场景,适用于游戏、模拟仿真等。可生成 50 米 ×50 米全纹理场景,风格与结构高度一致。来源:IT之家 阿里旗下 AI 助手“千问”正式启用全新域名 qianwen.com,进一步提升用户的访问便捷性。用户现可通过网页端直接体验千问,与 App 端实现无缝一致的使用体验。千问网页端面向专业用户开放了更多 Qwen3 系列模型体验选择。来源:IT之家
腾讯混元发布全新视频生成模型:HunyuanVideo 1.5
小米具身大模型 MiMo-Embodied 发布并全面开源小米发布业界首个打通自动驾驶与具身智能的跨域大模型MiMo-Embodied并全面开源。模型统一了具身智能三大核心任务与自动驾驶三大关键任务,实现室内交互与道路决策能力的双向知识迁移。在29项核心基准测试中表现卓越,全面超越现有开源及专用模型。来源:IT之家
小米具身大模型 MiMo-Embodied 发布并全面开源
蚂蚁集团领投,RockFlow完成数千万美元新一轮融资新加坡AI金融科技公司RockFlow完成数千万美元融资,由蚂蚁集团领投。公司推出全球首款金融交易AI Agent“Bobby”,能通过自然语言理解用户投资意图,自主完成从数据分析到实时交易的全流程。本轮融资将加速AI技术在金融服务领域的创新应用,推动复杂金融服务向普惠化、个性化发展。来源:RockFlow
蚂蚁集团领投,RockFlow完成数千万美元新一轮融资
11月20·周四Meta推出基于SAM系列的3D重建模型SAM 3DMeta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。来源:机器之心AI音乐创作平台Suno完成2.5亿美元C轮融资AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。来源:智东西64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源:智东西OpenAI 发布最强编程模型 GPT-5.1-Codex-MaxOpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT
Meta推出基于SAM系列的3D重建模型SAM 3D
谷歌发布专业级图像生成模型Nano Banana Pro,深度集成Gemini 3多模态能力。模型支持2K/4K高分辨率输出,可融合多达14张参考图像并保持5个人物一致性,具备精准局部编辑、多语言文字渲染及电影级调光控色功能。结合Gemini 3的知识推理与搜索引擎,能生成高准确性信息图表。来源:机器之心 腾讯混元开源视频生成模型HunyuanVideo 1.5,参数仅8.3B却可生成5-10秒高清视频。模型基于DiT架构,支持中英文文生视频与图生视频,具备强指令理解能力,可精准控制运镜、人物表情及物理运动。原生支持480p/720p输出,经超分可提升至1080p,并在14G显存消费级显卡即可流畅运行,大幅降低使用门槛。来源:腾讯混元
AI音乐创作平台Suno完成2.5亿美元C轮融资
64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群AI视频创企Luma AI完成9亿美元C轮融资,估值达40亿美元。本轮由沙特公共投资基金旗下Humain领投,资金将用于开发多模态AI系统及建设2GW智算集群”Project Halo”。来源:智东西
64亿!AI视频黑马Luma AI获新融资,要建2GW智算集群
OpenAI 发布最强编程模型 GPT-5.1-Codex-MaxOpenAI发布GPT-5.1-Codex-Max编程模型,取代GPT-5.1-Codex,成为Codex集成界面上默认模型。模型在多个编程基准测试中超越谷歌Gemini 3 Pro,如SWE-Bench Verified测试中准确率77.9%,领先对方1.7个百分点。其引入“压缩”机制,可连续工作超24小时,token效率提升约30%。来源:IT之家
OpenAI 发布最强编程模型 GPT-5.1-Codex-Max
星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿人形机器人公司星动纪元完成近10亿元A+轮融资,由吉利资本领投。公司总订单额突破5亿元,物流领域最大单笔订单近5000万元,海外业务占比达50%。本轮融资将加速技术迭代与商业化落地。来源:星动纪元
星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
11月19·周三Gemini 3正式发布:谷歌推出最强AI模型谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源:智东西AiPPT Agent版上线,AI「深度研究」功能开启内测AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源:AIPPTAnthropic获微软英伟达千亿投资!估值飙到2.5万亿Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。来源:智东西11月18·周二马斯克Grok 4.1低调发布!通
Gemini 3正式发布:谷歌推出最强AI模型
Meta发布SAM 3D与SAM 3模型,实现从2D图像到3D重建的重大突破。SAM 3D包含物体场景重建和人体姿态估计双模型,通过创新数据引擎生成近百万张图像的3D标注数据,在多项基准测试中超越现有方法。来源:机器之心 AI音乐平台Suno完成2.5亿美元C轮融资,估值达24.5亿美元,较去年增长近五倍。本轮由Menlo Ventures领投,英伟达旗下NVentures等机构跟投。Suno核心产品可通过文字生成完整歌曲,最新v5版本显著提升人声自然度与指令执行准确率。来源:智东西
AiPPT Agent版上线,AI「深度研究」功能开启内测
Anthropic获微软英伟达千亿投资!估值飙到2.5万亿Anthropic获微软、英伟达千亿投资,微软投资50亿美元,英伟达投资100亿美元,合计150亿美元。Anthropic承诺购买价值300亿美元的Azure算力,并与英伟达深度合作优化模型性能。Claude模型将登陆微软Azure,成为全球三大云平台均可用的前沿模型。来源:智东西
Anthropic获微软英伟达千亿投资!估值飙到2.5万亿
11月18·周二马斯克Grok 4.1低调发布!通用能力碾压其他一切模型马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。来源:机器之心蚂蚁集团推出全模态通用AI助手“灵光”APP蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。来源:APPSO谷歌推出 AI 天气预报模型 WeatherNext 2谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天
马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
谷歌正式发布新一代多模态大模型Gemini 3,在多项基准测试中表现卓越,以1501 Elo得分位列LMArena竞技场第一。模型具备原生多模态理解、高级推理及Agent编程能力,支持100万token上下文窗口,在学术推理、数学、代码开发等任务上显著领先前代及竞品。来源:智东西 AiPPT正式推出Agent版的「深度研究」功能并邀请用户内测。功能模拟真人分析师工作流程,通过“理解-反思-追问”循环,自动完成从全网深度搜索、逻辑梳理到生成图文并茂研究报告和PPT的全过程。来源:AIPPT
蚂蚁集团推出全模态通用AI助手“灵光”APP
谷歌推出 AI 天气预报模型 WeatherNext 2谷歌DeepMind发布的最新AI天气预报模型WeatherNext 2,运算速度比前代快8倍,能生成1小时分辨率的精准预测。模型通过功能生成网络(FGN)技术,在1分钟内即可完成传统超算需数小时的全球15天天气模拟,可输出数百种可能的天气情景。来源:IT之家
谷歌推出 AI 天气预报模型 WeatherNext 2
11月17·周一千问APP正式上线:全球首款开源AI助手挑战ChatGPT阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。来源:AI工具集陈天桥盛大团队,推出最强开源记忆系统EverMemOS陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源:机器之心DPAI Arena:首个开源AI编程基准测试平台发布JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。来源:AI工具集字节发布首个实时完成复杂
千问APP正式上线:全球首款开源AI助手挑战ChatGPT
马斯克旗下xAI公司发布的最新AI对话模型Grok 4.1,主打情感智能与实用性能的突破。模型在LMArena排行榜以1483分登顶,比第二名高出31分,并首创”思考模式”与”即时模式”双轨设计——即使不启动深度推理,基础版本仍能超越其他模型的完整配置。来源:机器之心 蚂蚁集团正式上线全模态通用AI助手灵光APP,以结构化思维生成逻辑清晰、可视化的内容,如动态3D模型、可交互地图等,让知识呈现更生动;用户通过自然语言描述,30秒内即可生成个性化AI应用,搭载AGI相机技术,通过实时视频流解析物理世界,支持文生图/视频、图生图/视频创作,能对物体、场景进行识别与知识讲解。来源:APPSO
陈天桥盛大团队,推出最强开源记忆系统EverMemOS
DPAI Arena:首个开源AI编程基准测试平台发布JetBrains联合Linux基金会推出DPAI Arena,是全球首个开源、多语言、多框架的AI编程智能体基准测试平台。客观衡量AI工具在真实软件开发任务中的效率提升,填补行业空白,支持补丁修复、代码审查等多样化工作流的可复现评估。来源:AI工具集
DPAI Arena:首个开源AI编程基准测试平台发布
字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine字节跳动Seed团队发布Lumine,是首个能在3D开放世界中实时完成小时级复杂任务的通用AI智能体。基于视觉语言模型,通过端到端架构统一感知、推理与行动,仅靠屏幕图像和键盘鼠标操作,无需游戏内部API。来源:量子位
字节发布首个实时完成复杂任务的3D开放世界通用AI智能体Lumine
11月14·周五登顶!GLM-4.6获LMArena代码榜全球并列第一全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱GLM-4.6与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源:智谱Dexmal原力灵机融资近10亿元,阿里巴巴、蔚来资本分别领投具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源:Dexmal原力灵机AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿
登顶!GLM-4.6获LMArena代码榜全球并列第一
阿里巴巴正式推出千问APP,基于Qwen最强模型打造,全面对标ChatGPT。APP依托Qwen开源生态,全球下载量超6亿次,支持119种语言,具备智能调度多应用、多模态交互等能力,成为全球用户的AI生产力工具。来源:AI工具集 陈天桥领导的盛大团队推出的开源长期记忆操作系统EverMemOS,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。该系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层、接口层),在LoCoMo和LongMemEval-S评测中以92.3%和82%的高分超越行业标杆。来源:机器之心
Dexmal原力灵机融资近10亿元,阿里巴巴、蔚来资本分别领投
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资,投后估值达293亿美元,成为全球首家估值超2000亿元人民币的AI编程创企。此轮融资由Accel和Coatue领投,英伟达、谷歌等跟投。过去一年,Anysphere估值增长超10倍,年化收入突破10亿美元。来源:智东西
AI编程神器Cursor(母公司Anysphere)完成23亿美元D轮融资
ChatGPT 群聊功能上线部分地区:人机共同决策讨论OpenAI宣布在韩国、新西兰等部分地区试点ChatGPT群聊功能。功能基于GPT-5.1模型,支持用户与ChatGPT共同协作,可邀请亲友或同事进入共享空间,用于策划方案、决策讨论或头脑风暴。来源:IT之家
ChatGPT 群聊功能上线部分地区:人机共同决策讨论
AI PPT神器 Gamma 完成6800万美元B轮融资美国生成式AI创企Gamma完成6800万美元B轮融资,估值达21亿美元。Gamma创立于2020年,是一个生成式AI设计平台,可快速创建演示文稿、文档和社交媒体帖子,支持22种AI图像模型和60多种语言。来源:智东西
AI PPT神器 Gamma 完成6800万美元B轮融资
11月13·周四OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。来源:APPSO百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。来源:IT之家全新升级、全面开放的 TRAE SOLO 正式版,限时免费字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化
OpenAI 正式发布 GPT-5.1系列双版本,ChatGPT 情商大涨
全球权威 AI 评测平台 LMArena 更新 Code Arena (编程与代码生成) 专项榜单,智谱GLM-4.6与 Anthropic Claude、OpenAI GPT-5 等顶尖模型一同位列全球榜首。来源:智谱 具身智能公司Dexmal原力灵机宣布完成数亿元A+轮融资,阿里巴巴为独家投资方。此前其A轮融资由蔚来资本领投,两轮融资金额近10亿元。资金将用于智能机器人软硬件技术研发与落地。Dexmal专注于具身智能技术研发,自主研发的多模态具身智能大模型MMLA可实现跨场景智能泛化。来源:Dexmal原力灵机
百度发布文心大模型 5.0:参数规模超 2.4 万亿,原生全模态
全新升级、全面开放的 TRAE SOLO 正式版,限时免费字节旗下TRAE团队正式发布TRAE SOLO正式版。版本定位为“响应式编程智能体”,支持复杂项目开发,新增内置智能体SOLO CODER与SOLO BUILDER,具备上下文压缩、多任务并行、可视化工具调用等功能,可高效应对从0到1的项目搭建及从1到100的迭代优化,现面向全球用户开放,限时免费体验。来源:机器之心
全新升级、全面开放的 TRAE SOLO 正式版,限时免费
李飞飞宣布正式开放首款商用世界模型产品 Marble“AI教母”李飞飞创立的World Labs公司正式推出首款商用多模态世界模型产品Marble,用户可通过文本、图像、视频或3D布局生成高保真、可编辑的3D虚拟世界,支持导出为高斯溅射、网格或视频格式。来源:APPSO
李飞飞宣布正式开放首款商用世界模型产品 Marble
11月12·周三腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。来源:腾讯开源OiiOii:全球首个动画创作Agent系统上线OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。来源:AI工具集华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了
腾讯开源百亿参数模型KaLM-Embedding,登顶MTEB多语言榜单全球第一
OpenAI发布的AI升级版本GPT-5.1,重点优化了对话体验而非单纯性能指标。新版本包含Instant和Thinking两大模型,前者更注重人性化交流(如自适应思考、八种风格预设),后者强化专业推理能力(简化术语表达)。相比前代,GPT-5.1在情感互动、指令理解上显著改善。来源:APPSO 百度在世界大会上正式发布文心大模型5.0。模型参数量达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多模态输入输出,在多模态理解、创意写作、指令遵循等方面表现突出,综合能力达全球领先水平。来源:IT之家
OiiOii:全球首个动画创作Agent系统上线
华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资极佳视界完成亿元级A1轮融资,由华为哈勃和华控基金联合投资,这是其在两个月内完成的第三轮融资。极佳视界的技术解决了物理AI领域数据稀缺和仿真误差等问题,其CEO预测“物理世界ChatGPT时刻”将在2-3年内到来。来源:量子位
华为投资物理AI:“极佳视界”完成新一轮亿元级 A1 轮融资
主打“Database-First”的全栈AI应用构建平台——ZOER.AIChat2DB 团队创始人姬朋飞及其团队正式发布主打“Database-First”(数据库优先)的全栈应用构建平台ZOER.AI,专注于解决传统 AI 编程工具在后端能力上的短板,通过智能设计数据库结构、自动生成安全的后端逻辑和前端界面,实现从数据层到底层服务的全流程自动化。来源:AI工具集
主打“Database-First”的全栈AI应用构建平台——ZOER.AI
Lovart推出“元素拆分”功能 革新AI设计编辑体验AI设计平台Lovart正式上线“Edit Elements 元素拆分”功能,用户上传成品海报后,AI可自动拆解为文字、主体、背景等独立可编辑图层,支持修改文本、替换元素及实时预览来源:AI工具集
Lovart推出“元素拆分”功能 革新AI设计编辑体验
11月11·周二字节发布Doubao-Seed-Code编程模型字节跳动正式推出Doubao-Seed-Code,专为复杂编程任务优化。模型支持256k长上下文,兼容Anthropic API与主流IDE,性能仅次于Claude Sonnet 4.5,综合使用成本降低62.7%,并登顶SWE-Bench Verified榜单。来源:火山引擎月之暗面开源Kosong框架 降低AI AAgent开发门槛月之暗面(Moonshot AI)开源全新AI代理开发框架Kosong,以“简化复杂性、释放创造力”为核心理念,为下一代智能体应用提供轻量且高可扩展的底层支持。框架通过统一LLM抽象层,封装标准化组件并搭载异步工具编排引擎,有效解决工具碎片化、接口不兼容等开发痛点。来源:AI工具集商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶
字节发布Doubao-Seed-Code编程模型
腾讯微信团队推出的KaLM-Embedding-Gemma3-12B-2511模型,在MTEB多语言通用Embedding模型权威评测中综合成绩位列全球第一。模型参数量达120亿,支持3840至64等多种向量维度,具备卓越的跨语言语义理解与检索能力,在多语言语义对齐、数据质量优化及训练策略创新方面表现突出,为多语言应用场景提供了强大的语义基础支持。来源:腾讯开源 OiiOii是革命性的动画创作工具,作为全球首个动画创作Agent系统,内置艺术总监、编剧、分镜师等7大智能体,用户只需输入创意或上传参考图,即可一键生成剧本、分镜、角色设计及完整动画短片,支持161种风格,涵盖剧情短片、MV、漫画转视频等多种场景,大幅降低动画创作门槛,现处于内测阶段,限时免费使用。来源:AI工具集
月之暗面开源Kosong框架 降低AI AAgent开发门槛
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5商汤日日新在空间智能领域实现重要突破,正式发布并开源SenseNova-SI系列模型。在多项权威评测的空间理解和推理任务上,SenseNova-SI 不仅大幅度领先同量级开源多模态大模型,还超越了 GPT-5 和 Gemini 2.5 Pro 等国际顶尖闭源模型的表现。来源:商汤科技SenseTime
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5
Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统Meta AI团队推出Omnilingual ASR,是全球首个支持超1600种语言的自动语音识别系统,其中500种语言首次获得AI语音识别支持。系统通过大规模预训练模型和上下文学习技术,仅需少量音频-文本样本即可扩展新语言,字符错误率低于10%的语言占比达78%。来源:AI工具集
Meta发布Omnilingual ASR:覆盖1600+语言的语音识别系统
百度AI眼镜开售!2199元,今天定明天到手百度旗下小度AI眼镜Pro正式开售,售价2299元,是继阿里巴巴夸克AI眼镜S1后,国内第二家正式开售AI眼镜的互联网大厂,小度AI眼镜Pro是一款AI拍摄眼镜,与小米AI眼镜类型相同,并非当下更为“完全体”版本的AI+AR眼镜,融合多模态AI大模型,产品功能包括拍照、听歌识曲、智能匹配歌单、AI翻译、AI识物、AI备忘、AI录音等。来源:智东西
蚂蚁集团通用 AI 助手灵光上线网页版
12月8·周一智谱正式上线并开源 GLM-4.6V 系列多模态大模型智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。来源:龙猫LongCat混元2.0上线:推理能力与效率业界领先腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确
智谱正式上线并开源 GLM-4.6V 系列多模态大模型
智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。来源:智谱 蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。来源:IT之家
美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA
混元2.0上线:推理能力与效率业界领先腾讯发布混元大模型最新版混元2.0,包含Think与Instruct两个版本。模型采用混合专家架构,总参数406B,支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异,综合能力位居国内第一梯队。通过优化训练策略,模型在保持高准确率的同时显著降低思维链长度,推理效率领先。来源:腾讯混元
混元2.0上线:推理能力与效率业界领先
AI法律科技公司Harvey又获新融资(F轮),估值560亿!美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资,估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立,专注于“AI+法律”领域,法律AI平台包含AI助理、文档库等功能,已与美国百强律所中的50家合作。Harvey已获7轮融资,总融资额超9.6亿美元,OpenAI创业基金、谷歌风投等多次参与投资。来源:智东西
AI法律科技公司Harvey又获新融资(F轮),估值560亿!
12月5·周五听得清,看得懂!豆包语音识别模型2.0来了火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。来源:火山引擎可灵数字人 2.0 功能正式上线!不止会说,更会演!可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。来源:可灵AI谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。来源:IT之家AI视频生成产品 Pollo
听得清,看得懂!豆包语音识别模型2.0来了
智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集 美团发布并开源LongCat-Image图像生成模型,以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括:采用同源架构与渐进学习,在图像编辑可控性上达到开源SOTA;通过课程学习与字符级编码,显著提升中文文字生成的覆盖度与精准度;结合数据筛选与对抗训练,增强图像真实感。来源:龙猫LongCat
可灵数字人 2.0 功能正式上线!不止会说,更会演!
谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think谷歌面向Gemini Ultra订阅用户(月费249.99美元)正式公测Gemini 3 Deep Think模式。模式采用并行推理技术,调用更多计算资源,在复杂数学、科学及逻辑问题中表现突破:在Humanity’s Last Exam测试中取得41%高分,GPQA Diamond测试达93.8%。来源:IT之家
谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think
AI视频生成产品 Pollo AI 获 1400 万美元融资AI视频生成平台Pollo AI近日完成1400万美元首轮融资,由高成资本领投,真格基金跟投。其创始人朱陈彪(阿彪)无大厂背景,凭借SEO经验推动产品早期增长,7个月月活超400万。目前平台注册用户超2000万,已实现盈亏平衡。来源:晚点科技
AI视频生成产品 Pollo AI 获 1400 万美元融资
Google推出Workspace Studio,赋能企业全员构建AI智能体Google正式发布Workspace Studio,是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体,实现从简单任务到复杂流程的自动化。来源:AI工具集
Google推出Workspace Studio,赋能企业全员构建AI智能体
12月4·周四LiblibAI 上线 Seedream 4.5,一致性保持/多图参考能力全面升级!国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本,新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级,尤其擅长处理中文海报、营销物料等本土化内容,支持最多10+参考图融合。来源:哩布哩布AI小红书收购“点点”小红书全资收购上海生动诗章科技有限公司,正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力,提升内容电商竞争力。收购后,小红书将加速AI战略落地,应对字节跳动、阿里等巨头竞争,优化用户行为路径,巩固内容生态。来源:36氪可灵 2.6 全量上线!听见画面,看见声音可灵2.6全量上线,是其首个“音画同出”模型,能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径,适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。来源:可灵AI豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景火山引擎发布豆包图像创作模型Seedream 4.5并开启
LiblibAI 上线 Seedream 4.5,一致性保持/多图参考能力全面升级!
火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构,通过PPO强化学习实现深度上下文推理,关键词召回率提升20%。新增多模态视觉识别能力,可结合图像内容精准分辨易混淆词(如“滑鸡”与“滑稽”),支持日语、韩语、德语等13种语言的精准识别。来源:火山引擎 可灵全量上线数字人2.0版本,实现三大核心升级:表演力全面进化,支持精准的体态、手势与表情控制;口型与手部细节显著优化,增强真实感;单次生成视频时长延长至5分钟,覆盖科普、广告等长内容场景。来源:可灵AI
可灵 2.6 全量上线!听见画面,看见声音
豆包图像创作模型Seedream 4.5发布:聚焦商业生产力场景火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升,重点强化多图组合生成、海报排版与Logo设计能力,可精准满足广告营销、电商运营、影视制作等商业场景需求。来源:火山引擎
上海与商汤发布规划资源 AI 基础大模型
云深处科技已正式启动上市辅导杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。来源:智东西
云深处科技已正式启动上市辅导
12月23·周二GLM-4.7上线并开源:更强的编码智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。来源:智谱MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源:MiniMax稀宇科技阿里发布新一代端到端语音交互模型:Fun-Audio-Chat阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入
GLM-4.7上线并开源:更强的编码
字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。来源:字节跳动Seed 全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。来源:商汤科技SenseTime
MiniMax M2.1:多语言编程SOTA,为真实世界复杂任务而生
阿里发布新一代端到端语音交互模型:Fun-Audio-Chat阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat,模型采用创新的端到端序列到序列架构,实现从语音输入直接生成语音输出,无需传统ASR+LLM+TTS多模块拼接,显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中,模型在同尺寸模型中排名第一,综合性能超越GLM4-Voice、Kimi-Audio等主流产品。来源:通义大模型
阿里发布新一代端到端语音交互模型:Fun-Audio-Chat
面壁智能完成数亿元融资,加码投入领跑端侧 AI面壁智能近日宣布完成数亿元融资,投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入,加速端侧AI的商业化进程。来源:面壁智能
面壁智能完成数亿元融资,加码投入领跑端侧 AI
钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS钉钉发布AI工作操作系统“Agent OS”,重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统,可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。来源:APPSO
钉钉发布全球首个为 AI 打造的工作智能操作系统 Agent OS
12月22·周一MiniMax 通过港交所聆讯,有望成为“AGI 全球第一股”MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源:第一财经智谱冲刺港股“大模型第一股”,估值244亿智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。来源:智东西英伟达新模型NitroGen能打遍几乎所有游戏英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器
MiniMax 通过港交所聆讯,有望成为“AGI 全球第一股”
智谱AI正式上线并开源新一代大模型GLM-4.7,该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中,编程能力达到开源模型领先水平,在SWE-bench Verified中获得73.8%的SOTA分数,工具调用任务τ²-Bench得分87.4分,超越Claude Sonnet 4.5。来源:智谱 MiniMax发布新一代大模型MiniMax M2.1,该版本在多语言编程与真实世界复杂任务处理上实现显著突破。模型系统性提升了Rust、Java、Golang等十余种编程语言能力,在SWE-bench Verified基准测试中获得74分,超越Claude Sonnet 4.5。其创新的VIBE基准测试显示,M2.1在全栈应用构建能力上接近顶级闭源模型水平。来源:MiniMax稀宇科技
智谱冲刺港股“大模型第一股”,估值244亿
英伟达新模型NitroGen能打遍几乎所有游戏英伟达开源通用游戏AI模型NitroGen,模型能通过观看游戏画面直接生成手柄操作信号,支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练,采用为机器人设计的GR00T架构,具备强大的跨游戏泛化能力。来源:机器之心
英伟达新模型NitroGen能打遍几乎所有游戏
12月19·周五扣子编程,开启免费公开测试在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子CozeOpenAI最强代码模型GPT-5.2-Codex上线OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心VTP:MiniMax海螺视频团队,首次开源!MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。来源:MiniMax稀宇科技苹果开
扣子编程,开启免费公开测试
MiniMax通过港交所聆讯并披露招股书,冲刺IPO。MiniMax成立于2022年初,若成功上市,将是全球从成立到IPO最快的AI公司。2024年,MiniMax收入同比增长782%至3050万美元,净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源:第一财经 智谱通过港交所聆讯,冲刺港股“大模型第一股”。智谱成立于2019年6月,是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型,支持本地化和云端部署。2025年11月,智谱日均token消耗量达4.2万亿,已为约8000万台设备提供支持。来源:智东西
OpenAI最强代码模型GPT-5.2-Codex上线
VTP:MiniMax海螺视频团队,首次开源!MiniMax视频团队开源视觉生成模型关键组件VTP,首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法,将latent易学性与通用表征学习建立关联,显著提升下游生成系统性能。来源:MiniMax稀宇科技
VTP:MiniMax海螺视频团队,首次开源!
苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来苹果公司宣布开源其新型AI模型SHARP,能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比,处理速度提升了三个数量级,实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术,通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源:IT之家
苹果开源 SHARP 模型,1 秒内 AI 让照片变 3D“活”起来
12月18·周四Google 发布了高速、低成本模型 Gemini 3 Flash谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。来源:龙猫LongCat通用Agent模型Seed1.8正式发布字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OS
Google 发布了高速、低成本模型 Gemini 3 Flash
在火山引擎Force大会上,扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台,推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求,即可自动生成智能体、工作流及跨端应用。来源:扣子Coze OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex,模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能,在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库,支持复杂重构与迁移任务。来源:机器之心
美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现
通用Agent模型Seed1.8正式发布字节跳动正式发布通用Agent模型Seed1.8,模型集成了搜索、代码生成与图形界面交互等多元能力,支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异,其在GUI Agent任务上的OSWorld得分达61.9,搜索任务BrowseComp-en得分67.6,均处于行业领先水平。来源:字节跳动Seed
通用Agent模型Seed1.8正式发布
更大更强!限时免费!阶跃星辰 GUI Agent 全面升级阶跃星辰宣布其GUI Agent模型Step-GUI全面升级,新版模型支持200多个任务场景,具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用,并实现最短10分钟快速部署。公司开放了API供免费使用,并公开发布了技术报告与GUI-MCP协议。来源:阶跃星辰
更大更强!限时免费!阶跃星辰 GUI Agent 全面升级
Meta 发布 SAM Audio,多模态音频分离新突破Meta发布首个统一多模态音频分离模型SAM Audio,支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术,用户可点击视频中物体分离对应音频,或输入”狗吠”等文本指令过滤噪音。来源:IT之家
Meta 发布 SAM Audio,多模态音频分离新突破
估值达465亿!明星AI编程独角兽Lovable再拿新融资瑞典AI编程初创公司Lovable近日完成新一轮融资,估值飙升至66亿美元,较半年前暴涨超三倍,成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与,标志着AI编程工具赛道竞争加剧。来源:智东西
估值达465亿!明星AI编程独角兽Lovable再拿新融资
爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航爱诗科技与阿里云签署全面合作协议,双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持,涵盖基础设施及大模型服务,助力其自研视频生成模型PixVerse的全球化部署。来源:爱诗科技AIsphere
爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航
12月17·周三即梦网页版全面升级,打造一站式AI片场即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源:即梦AIOpenAI 最强 AI 生图模型GPT Image 1.5登场OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家小米正式发布并开源新模型 MiMo-V2-Flash小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理
即梦网页版全面升级,打造一站式AI片场
谷歌正式发布高速、低成本模型Gemini 3 Flash,模型在多项基准测试中表现优异,其性能已超越前代Gemini 2.5 Pro,在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力,响应速度提升3倍,同时显著降低了成本。来源:机器之心 美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar,模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能,通过创新的跨片段隐空间拼接技术,有效解决了长视频生成中的画质退化问题,可稳定生成5分钟高质量视频。来源:龙猫LongCat
OpenAI 最强 AI 生图模型GPT Image 1.5登场
小米正式发布并开源新模型 MiMo-V2-Flash小米正式发布开源大模型MiMo-V2-Flash,模型采用MoE架构,总参数3090亿,活跃参数150亿。在多项基准测试中表现优异,其编程能力尤为突出,在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新,实现了150 tokens/秒的高推理速度及极低的推理成本。来源:APPSO
小米正式发布并开源新模型 MiMo-V2-Flash
腾讯混元世界模型1.5发布,国内首个开放实时体验腾讯正式发布混元世界模型1.5(WorldPlay),是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界,能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力,离开后返回场景保持一致。来源:腾讯混元
腾讯混元世界模型1.5发布,国内首个开放实时体验
Seedance 1.5 pro 音视频创作模型正式发布字节跳动发布新一代音视频创作模型Seedance 1.5 pro,实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成,在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。来源:字节跳动Seed
Seedance 1.5 pro 音视频创作模型正式发布
12月16·周二LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。来源:商汤科技SenseTimeWan2.6正式发布!上线国内首个角色扮演功能阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容
LiblibAI 上线「Wan 2.6」视频模型,中国版 SORA2 来了!
即梦AI网页版全面升级,打造一站式”AI片场”。核心更新包括:上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型,支持音视频联合生成及方言口型匹配;智能多帧2.0实现”视频+视频”拼接与片段精细化编辑,支持最长20个素材的一镜到底;图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源:即梦AI OpenAI发布全新旗舰图像生成模型GPT Image 1.5,模型在提示词遵循、细节保留和文本渲染方面实现重大突破,能精准生成或编辑图像并保持原图光线、构图等核心特征。来源:IT之家
商汤小浣熊3.0来了,AI办公智能体一键生成高质量PPT
Wan2.6正式发布!上线国内首个角色扮演功能阿里巴巴发布通义万相2.6多模态模型,是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成,可直出15秒高清视频。角色扮演功能允许用户上传参考视频,AI能复刻角色外观与音色,生成单人或多人表演内容。在图像生成方面,模型提升了艺术风格融合与细节刻画能力,支持图文混排、多图融合等商用级创作。来源:通义万相Wan
Wan2.6正式发布!上线国内首个角色扮演功能
英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍英伟达发布Nemotron 3开源AI模型系列,包含Nano、Super和Ultra三种规格。其中Nano版本(300亿参数)已上线,其采用混合专家架构,宣称吞吐量达上一代4倍,推理token生成减少60%,具备100万token上下文窗口。该系列专为多智能体系统设计,旨在解决通信开销和推理成本等挑战。来源:IT之家
英伟达发布 Nemotron 3 开源 AI 模型系列,吞吐量达上一代 4 倍
通义百聆语音双子星,同步开源!阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制,首包延迟降低50%,中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%,支持31种语言混说及方言识别,将流式识别首字延迟降至160毫秒。来源:通义大模型
通义百聆语音双子星,同步开源!
12月15·周一商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。来源:商汤科技SenseTime蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源:IT之家Google Gemini TTS升级:支持24种语言,语音更拟真谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1
LiblibAI平台全球首发通义万相Wan 2.6视频生成模型,支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频,实现完整叙事生成,无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色,支持单/双人表演及多人对话场景的声画同步。来源:哩布哩布AI 商汤科技发布AI办公智能体“小浣熊3.0”,实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力,支持图表、图片等全元素编辑,可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析,能深度理解复杂任务。来源:商汤科技SenseTime
蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”
Google Gemini TTS升级:支持24种语言,语音更拟真谷歌Gemini TTS模型,发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型,提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制,能根据上下文调整语速,如在兴奋时加快、强调时放慢,还能在多语言对话中保持一致的角色声音,使对话更真实。来源:AI工具集
Google Gemini TTS升级:支持24种语言,语音更拟真
12月12·周五GPT-5.2 正式发布!让打工人每周少干 10 小时OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO智谱多模态开源周收官:四项视频生成核心技术开源智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源:智谱谷歌重磅开源!深度研究Agent拿下SOTA谷歌开源深度研究AgentGemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。
GPT-5.2 正式发布!让打工人每周少干 10 小时
商汤科技发布Seko 2.0多剧集生成智能体,作为行业首个创编一体AI工具,专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题,SekoTalk实现业内首个2人以上精准对口型功能,可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架,在消费级显卡上5秒即可生成5秒视频,完成国产芯片适配。来源:商汤科技SenseTime 蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”,同时上线“健康小目标”功能。应用可提供健康咨询、图片解读(报告、病例、处方、药盒均支持)、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源:IT之家
智谱多模态开源周收官:四项视频生成核心技术开源
谷歌重磅开源!深度研究Agent拿下SOTA谷歌开源深度研究AgentGemini Deep Research,在DeepSearchQA基准测试中达到46.4%的SOTA水平,性能与GPT-5 Pro相当,而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型,具备多步搜索和复杂信息整合能力,可自动生成深度研究报告。来源:智东西
谷歌重磅开源!深度研究Agent拿下SOTA
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频迪士尼公司与OpenAI达成为期三年的战略合作协议,将向OpenAI投资10亿美元并获得股权。根据协议,OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权,包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频,部分精选内容还将在Disney+平台播出。来源:IT之家
迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频
12月11·周四智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。来源:智谱面壁智能 VoxCPM 1.5 开源,语音生成能力再升级VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。来源:面壁智能阿里发布 Qwen3-Omni-Flash 全模态大模型阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户
智谱开源 GLM-TTS :基于多奖励强化学习的可控发音语音合成
OpenAI正式发布GPT-5.2模型,推出Instant、Thinking、Pro三个版本,分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出,在GDPval知识工作任务评估中首次达到或超越人类专家水平,软件工程能力(SWE-Bench Pro)创下55.6%的新纪录。其幻觉率降低约30%,长文本处理准确率接近完美。来源:APPSO 智谱AI在多模态开源周收官之际,宣布开源四项视频生成核心技术:SCAIL影视级角色动画框架实现复杂姿态控制;RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒;Kaleido多主体生成框架在开源模型中达到SOTA水平;SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源:智谱
面壁智能 VoxCPM 1.5 开源,语音生成能力再升级
阿里发布 Qwen3-Omni-Flash 全模态大模型阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出,显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃,用户可精细设定如“甜妹”、“御姐”等特定人设风格。来源:IT之家
阿里发布 Qwen3-Omni-Flash 全模态大模型
Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能OpenAI宣布ChatGPT正式接入Adobe系列专业软件,包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具,通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后,ChatGPT会根据用户指令动态生成相应的操作界面,例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。来源:IT之家
Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能
12月10·周三GLM-ASR开源,智谱AI输入法发布智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源:智谱Mistral AI开源新一代编程模型:Devstral 2Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。来源:AI工具集生成式AI媒体平台Fal再获1.4亿美元注资生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Sh
GLM-ASR开源,智谱AI输入法发布
智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式,支持仅3秒音色复刻与多方言克隆。字符错误率(CER)在强化学习优化后达0.89%,在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制(Phoneme-in)以及自研2D-Vocos声码器,显著提升了情感表达与发音准确性。来源:智谱 VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz,显著提升了音色克隆的细节丰富度。生成效率实现翻倍,仅需6.25个token即可生成1秒音频。同时,新增LoRA和全量微调脚本以支持深度定制,优化了模型稳定性,减少音频伪影。来源:面壁智能
Mistral AI开源新一代编程模型:Devstral 2
生成式AI媒体平台Fal再获1.4亿美元注资生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资,英伟达风投Nventures等机构跟投,公司估值达45亿美元,较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务,客户包括Adobe、Shopify等企业。来源:AI工具集
生成式AI媒体平台Fal再获1.4亿美元注资
12月9·周二AutoGLM开源:每台手机,都可以成为AI手机智谱AI宣布开源AutoGLM项目,让AI真正学会”使用手机”。项目经过32个月研发,构建了完整的Phone Use能力框架,使AI能通过视觉理解手机界面并完成点击、滑动等操作,实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全,系统主要在云端虚拟手机环境中运行。来源:智谱蚂蚁集团通用 AI 助手灵光上线网页版蚂蚁集团正式推出全模态通用AI助手灵光网页版,用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势,实现了与移动端的数据与创作同步。用户可在电脑上描述需求,快速生成、编辑并管理对话和闪应用,并在手机端继续使用和分享。来源:IT之家12月8·周一智谱正式上线并开源 GLM-4.6V 系列多模态大模型智谱AI正式上线并开源GLM-4.6V系列多模态大模型,包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具,可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容,在代码前端复刻等方面能力提升。来源:AI工具集美团发布 LongCat-I
AutoGLM开源:每台手机,都可以成为AI手机
智谱AI发布并开源GLM-ASR系列语音识别模型,同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512,后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源:智谱 Mistral开源代码大模型Devstral 2系列,包含123B和24B两个版本,均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分,性能达开源头部水平,同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端,支持扫描项目结构、调用命令、自动生成代码变更等操作。来源:AI工具集
LMArena完成1.5亿美元Series A融资
智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术,可将万级场景的生成时间缩短至分钟级。来源:AI工具集
智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0
1月6·周二英伟达发布重磅AI计算平台Vera Rubin英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin,打破五年未发消费级显卡的惯例。平台包含6款全新芯片,其中Rubin GPU推理算力达50 PFLOPS,是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升,训练10万亿参数模型所需系统数量仅为前代1/4,成本降至1/10。来源:APPSO亚马逊上线 Alexa网页版,加速补齐网页端能力亚马逊正式推出Alexa+网页版,重新启用Alexa.com域名,允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端,与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源:AI工具集开源异构算力调度平台「密瓜智能」获数千万元投资异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资,由复星创富领投。核心产品为CNCF开源项目HAMi,专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度,可实现显存超卖和动态资源分配。来源:36氪智能眼镜企
英伟达发布重磅AI计算平台Vera Rubin
马斯克旗下xAI公司完成200亿美元E轮融资,超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示,Grok月活跃用户已达6亿,Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力,Grok 4在强化学习方面取得突破。来源:智东西 AI初创公司LMArena完成1.5亿美元A轮融资,投后估值达17亿美元。核心产品为“模型竞技场”平台,通过众包方式让用户比较不同AI模型的性能,月活用户超500万,每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源:Z Potentials
亚马逊上线 Alexa网页版,加速补齐网页端能力
开源异构算力调度平台「密瓜智能」获数千万元投资异构算力调度平台「密瓜智能」近日完成数千万元天使轮融资,由复星创富领投。核心产品为CNCF开源项目HAMi,专注于解决GPU等异构算力资源利用率低下的行业痛点。HAMi支持NVIDIA、华为昇腾等9种以上芯片的细粒度切分与统一调度,可实现显存超卖和动态资源分配。来源:36氪
开源异构算力调度平台「密瓜智能」获数千万元投资
智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资国内AR智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资,由中国移动链长基金与中信金石共同领投,中国联通旗下基金参与。是国内运营商首次以战略投资者身份进入智能眼镜赛道,交割后中国移动持股7.92%。来源:智东西
智能眼镜企业雷鸟创新宣布完成超10亿元新一轮融资
1月5·周一智元机器人与MiniMax达成合作,全模态AI加速落地机器人应用智元机器人与MiniMax(上海稀宇科技)正式达成合作,MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性,量身打造专属人设体系以优化语音交互体验,并通过定制化提示词策略实现千人千面的个性化音色合成。来源:36氪腾讯「AI应用及线上工具小程序成长计划」发布:混元大模型token免费用微信小程序正式推出「AI应用及线上工具小程序成长计划」,为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token,涵盖旗舰文生文及文生图等多模态模型能力,并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目,个人或企业主体均可参与。来源:腾讯混元Looki完成超2000万美元A轮融资AI硬件公司Looki完成超2000万美元A轮融资,由蚂蚁集团领投,美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备,重30克,可通过视觉和音频信号实现智能生活记录和个性化交互。来源:AI工
智元机器人与MiniMax达成合作,全模态AI加速落地机器人应用
英伟达CEO黄仁勋发布了重磅AI计算平台Vera Rubin,打破五年未发消费级显卡的惯例。平台包含6款全新芯片,其中Rubin GPU推理算力达50 PFLOPS,是Blackwell的5倍。Vera Rubin NVL72系统性能全面提升,训练10万亿参数模型所需系统数量仅为前代1/4,成本降至1/10。来源:APPSO 亚马逊正式推出Alexa+网页版,重新启用Alexa.com域名,允许用户通过浏览器直接与AI助手对话。标志着Alexa从智能音箱设备扩展到网页端,与ChatGPT、Google Gemini等AI聊天机器人展开正面竞争。来源:AI工具集
腾讯「AI应用及线上工具小程序成长计划」发布:混元大模型token免费用
Looki完成超2000万美元A轮融资AI硬件公司Looki完成超2000万美元A轮融资,由蚂蚁集团领投,美团龙珠、华登国际等跟投。Looki的核心产品是一款名为Looki L1的多模态AI穿戴设备,重30克,可通过视觉和音频信号实现智能生活记录和个性化交互。来源:AI工具集
Looki完成超2000万美元A轮融资
AI助手ima支持PPT生成AI助手ima正式推出PPT生成功能,用户现可通过任务模式一键制作演示文稿。功能支持上传附件或调用知识库资料,自动将文字内容转化为包含数据图表、图标配图和重点突出的专业PPT。用户可自定义风格主题,如简洁商务风、深色科技风等。来源:ima.copilot
AI助手ima支持PPT生成
1月4·周日DeepSeek 发布新论文:提出全新 mHC 架构DeepSeek发布新论文提出全新mHC(流形约束超连接)架构,解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性,并结合基础设施优化提升效率。来源:AI工具集ListenHub完成200万美元融资,ARR 300万美元进军北美AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。公司年经常性收入(ARR)已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场,并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源:36氪TRAE 中国版 SOLO 已全量免费开放!中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务,具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型,产品将自动基于模型效果和速度配置最佳上下文窗口。来源:TRAE.ai12
DeepSeek 发布新论文:提出全新 mHC 架构
智元机器人与MiniMax(上海稀宇科技)正式达成合作,MiniMax将为智元机器人提供文本到语音全流程AI技术支持。此次合作将基于智元机器人的产品特性,量身打造专属人设体系以优化语音交互体验,并通过定制化提示词策略实现千人千面的个性化音色合成。来源:36氪 微信小程序正式推出「AI应用及线上工具小程序成长计划」,为开发者提供为期一年的免费资源支持。计划核心福利包括免费使用腾讯混元大模型的Token,涵盖旗舰文生文及文生图等多模态模型能力,并配套云开发、数据分析、广告变现及流量激励。申请条件要求小程序类目为文娱、工具、社交等虚拟行业类目,个人或企业主体均可参与。来源:腾讯混元
ListenHub完成200万美元融资,ARR 300万美元进军北美
TRAE 中国版 SOLO 已全量免费开放!中国版TRAE SOLO模式现已向全部用户免费开放。AI编程助手支持项目迭代、问题修复与架构重构等复杂开发任务,具备智能任务规划和自主编排智能体能力。用户可免费使用内置的豆包、GLM、MiniMax、Kimi等多款模型,产品将自动基于模型效果和速度配置最佳上下文窗口。来源:TRAE.ai
TRAE 中国版 SOLO 已全量免费开放!
12月31·周三Kimi 完成 5 亿美元新融资中国大模型公司月之暗面(Kimi)近期完成5亿美元C轮融资,由IDG资本领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购,投后估值达43亿美元。创始人杨植麟内部信透露,公司现金储备已超100亿元人民币,因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源:晚点LatePostVidu Agent全球正式上线,商业广告一键成片Vidu推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,覆盖商业广告、产品TVC、剧情片等多种创作场景,能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果,实时预览修改后的视频。来源:Vidu AI软银完成对OpenAI承诺的225亿美元额外投资软银向OpenAI的400亿美元(约合人民币2799亿元)巨额投资已全部到账,使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织,否则投资将大幅缩减。为筹集资金,软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合
Kimi 完成 5 亿美元新融资
DeepSeek发布新论文提出全新mHC(流形约束超连接)架构,解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。框架通过将残差连接空间投影到特定流形来恢复恒等映射属性,并结合基础设施优化提升效率。来源:AI工具集 AI内容生成平台ListenHub的母公司MarsWave已完成200万美元天使+轮融资,由天际资本领投,小米联合创始人王川跟投。公司年经常性收入(ARR)已突破300万美元并实现月度盈亏平衡。此次融资将主要用于进军北美市场,并已任命具有百度、MiniMax等背景的新COO负责全球增长。来源:36氪
Vidu Agent全球正式上线,商业广告一键成片
软银完成对OpenAI承诺的225亿美元额外投资软银向OpenAI的400亿美元(约合人民币2799亿元)巨额投资已全部到账,使其持股比例达到约11%。这笔史上最大额AI投资的前提是OpenAI需在年底前完成重组并转为营利组织,否则投资将大幅缩减。为筹集资金,软银已清仓其持有的英伟达股份。投资将部分用于支持OpenAI、甲骨文和软银联合建设的AI基础设施“星际之门”。来源:智东西
软银完成对OpenAI承诺的225亿美元额外投资
MiniMax今起招股,1月9日敲钟代码00100中国AI公司MiniMax正式启动港股上市进程,预计于2026年1月9日挂牌,股票代码00100。此次IPO发行估值超461亿港元,拟募资超6亿美元。公司获得阿里巴巴、阿布扎比投资局等14家基石投资者支持。来源:量子位
MiniMax今起招股,1月9日敲钟代码00100
12月30·周二Meta 数十亿美元收购 Manus,肖弘将出任 Meta 副总裁Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营,其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步,也标志着中国新一代创业者登上全球科技舞台。来源:晚点LatePost“全球大模型第一股”来了!智谱今起招股,发行市值达511亿港元“全球大模型第一股”即将登陆港股。智谱(股票代码:2513)今日启动港股招股,预计2026年1月8日上市。本次IPO将发行3741.95万股H股(香港发售187.1万股,国际发售3554.85万股),发行价每股116.20港元,本次IPO募资总额约43亿港元,公司估值超511亿港元,招股期至2026年1月5日结束。来源:AI工具集腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化,仅需1GB内存即可
Meta 数十亿美元收购 Manus,肖弘将出任 Meta 副总裁
中国大模型公司月之暗面(Kimi)近期完成5亿美元C轮融资,由IDG资本领投1.5亿美元,阿里巴巴、腾讯及王慧文等老股东超额认购,投后估值达43亿美元。创始人杨植麟内部信透露,公司现金储备已超100亿元人民币,因此“可以不着急IPO”。本轮融资将用于加速K3大模型的研发和扩增算力。来源:晚点LatePost Vidu推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,覆盖商业广告、产品TVC、剧情片等多种创作场景,能一键生成高质量视频。其分镜编辑功能让创作者可以轻松调整镜头顺序、时长和转场效果,实时预览修改后的视频。来源:Vidu AI
“全球大模型第一股”来了!智谱今起招股,发行市值达511亿港元
腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署腾讯混元开源翻译模型Tencent-HY-MT1.5系列版本,包含1.8B和7B两个模型,支持33种语种互译及5种民汉/方言。1.8B模型专为端侧部署优化,仅需1GB内存即可流畅运行,在翻译质量上超越多数商用API,平均响应时间仅0.18秒。7B模型为WMT25比赛冠军升级版,准确率显著提升。来源:腾讯混元
腾讯混元开源翻译模型Tencent-HY-MT1.5版本,端侧可部署
12月29·周一Z.ai新突破:GLM-4.7登顶Artificial Analysis全球开源榜首智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩,以68分的综合得分荣登全球开源模型与国产模型双料榜首,并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力,被业界视为衡量大模型综合实力的重要风向标。来源:智谱MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA通义实验室开源通用GUI智能体基座MAI-UI,登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力,能主动澄清模糊指令,并优先调用结构化工具跳过冗长UI操作,显著提升任务成功率。来源:通义大模型京东AI购抢先实测,一句话搞定吃喝穿用京东上线AI原生应用“京东AI购”,目前处于App Store内测阶段。应用以对话为主要交互方式,用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等,由京东自研言犀大模型驱动。来源:智东西九章云极宣布完成新
Z.ai新突破:GLM-4.7登顶Artificial Analysis全球开源榜首
Meta宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,这是Meta历史上第三大收购。收购后蝴蝶效应将保持独立运营,其创始人肖弘出任Meta副总裁。此次收购被视为扎克伯格推进“超级智能”愿景的关键一步,也标志着中国新一代创业者登上全球科技舞台。来源:晚点LatePost “全球大模型第一股”即将登陆港股。智谱(股票代码:2513)今日启动港股招股,预计2026年1月8日上市。本次IPO将发行3741.95万股H股(香港发售187.1万股,国际发售3554.85万股),发行价每股116.20港元,本次IPO募资总额约43亿港元,公司估值超511亿港元,招股期至2026年1月5日结束。来源:AI工具集
MAI-UI 开源:通用 GUI 智能体基座登顶 SOTA
京东AI购抢先实测,一句话搞定吃喝穿用京东上线AI原生应用“京东AI购”,目前处于App Store内测阶段。应用以对话为主要交互方式,用户通过自然语言即可完成外卖点单、商品导购等操作。核心功能包括“灵感空间”预设指令卡片、AI试穿及智能比价等,由京东自研言犀大模型驱动。来源:智东西
京东AI购抢先实测,一句话搞定吃喝穿用
九章云极宣布完成新一轮战略融资人工智能基础设施提供商九章云极宣布完成新一轮战略融资,由北京信息产业发展投资基金与北京市人工智能产业投资基金联合领投。本轮融资将重点用于AI加速计算技术研发和普惠智算云平台建设,以巩固其技术优势并推动企业级AI应用普及。来源:机器之心
九章云极宣布完成新一轮战略融资
腾讯元宝“任务”功能上线:一句话安排时间,到点就提醒腾讯元宝AI助手正式上线“任务”功能,用户只需将时间安排或计划用一句话告知元宝,即可获得准时提醒服务。功能支持提前测试、手动管理和自定义提醒,需更新至最新版本使用。来源:IT之家
腾讯元宝“任务”功能上线:一句话安排时间,到点就提醒
MiniMax正式开源了MiniMax M2.1多语言编程模型MiniMax公司宣布将MiniMax M2.1模型正式开源,已在Hugging Face和GitHub平台发布。模型专为真实世界复杂任务设计,在多语言编程、全栈开发、Web与App开发以及Agent能力方面表现卓越。同时推出跨年促销活动,Coding Plan首月价格低至9.9元,活动持续至2026年1月15日。来源:MiniMax稀宇科技
MiniMax正式开源了MiniMax M2.1多语言编程模型
12月26·周五智谱推出轻量级AI IDE编程工具:Zcode智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。来源:AI工具集Qwen Code 重磅更新:让 AI 编程跳出命令行通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。来源:通义千问QwenSkywork Sheets 2.0重磅上线:一键解锁高效办公新体验Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。来源:昆仑万维集团小红书开源 Ins
智谱推出轻量级AI IDE编程工具:Zcode
智谱AI宣布GLM-4.7模型在全球权威评测平台Artificial Analysis Intelligence Index中取得突破性成绩,以68分的综合得分荣登全球开源模型与国产模型双料榜首,并位列全球总榜第六。该榜单重点评估模型的知识、推理、代码及智能体等核心能力,被业界视为衡量大模型综合实力的重要风向标。来源:智谱 通义实验室开源通用GUI智能体基座MAI-UI,登顶多项SOTA。模型原生集成用户交互、MCP工具调用与端云协同三大能力,能主动澄清模糊指令,并优先调用结构化工具跳过冗长UI操作,显著提升任务成功率。来源:通义大模型
Qwen Code 重磅更新:让 AI 编程跳出命令行
Skywork Sheets 2.0重磅上线:一键解锁高效办公新体验Skywork Sheets 2.0版本近日正式上线,核心突破在于实现了“表格与报告的深度融合”。用户仅需输入数据,AI即可自动完成整理分析、生成可视化图表并撰写完整报告,实现“输入数据,输出成果”的闭环。来源:昆仑万维集团
Skywork Sheets 2.0重磅上线:一键解锁高效办公新体验
小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版小红书与复旦大学联合推出布局控制生成方案InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述,在对应位置高精度生成图像,解决了布局对齐不准的行业难题。来源:IT之家
小红书开源 InstanceAssemble:让 AI 精准还原复杂图像排版
曦诺未来宣布完成超亿元天使轮融资,宁德时代和小米投了杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资,由宁德时代旗下溥泉资本领投,小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1,拥有25个自由度,自重仅380克,负载超30公斤。来源:智东西
曦诺未来宣布完成超亿元天使轮融资,宁德时代和小米投了
12月25·周四阿里最强“PS模型”开源:Qwen-Image-Edit-2511阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。来源:智东西生数科技联合清华发布 TurboDiffusion提速200倍生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。来源:生数科技12月24·周三字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数
阿里最强“PS模型”开源:Qwen-Image-Edit-2511
智谱推出AI编程工具Zcode,深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查,具备对话变更自动保存、代码回滚、可视化Git界面等功能,针对前端开发集成内置浏览器和元素选择器,助力开发者高效协作,无缝融入现有工作流。来源:AI工具集 通义千问Qwen Code发布v0.5.0版本,实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件,开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力,便于构建Web或移动应用。来源:通义千问Qwen
生数科技联合清华发布 TurboDiffusion提速200倍
12月24·周三字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。模型采用全新的Agentic Prover架构,能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中,模型以35/42的成绩达到金牌分数线;在Putnam竞赛历史题集上解决率达88%,刷新多项SOTA记录。来源:字节跳动Seed上海与商汤发布规划资源 AI 基础大模型全国首个规划资源领域AI大模型“云宇星空”(专业版)近日在上海正式发布。模型由上海市规划资源局与商汤科技联合研发,具备“问不倒、能调图、会统计、能识图、会报告”五大核心能力,参数量达6000亿。来源:商汤科技SenseTime云深处科技已正式启动上市辅导杭州云深处科技股份有限公司已启动上市辅导,辅导机构为中信建投证券。公司成立于2017年,专注于四足及人形机器人研发,创始人朱秋国为浙江大学副教授,目前合计控制公司32.60%的股份。云深处科技近期完成了超5亿元人民币的C轮融资,并于11月初完成股改。来源:智东西12月23·周二GLM-
字节跳动发布新一代形式化数学推理专用模型 Seed Prover 1.5
阿里开源图像编辑模型Qwen-Image-Edit-2511,显著提升人物一致性与风格稳定性,集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然,但几何推理与精细镜头控制仍有不足。来源:智东西 生数科技联合清华大学开源视频生成加速框架TurboDiffusion,最高可实现200倍推理加速,推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术,在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级,几乎不影响生成质量。来源:生数科技
马斯克开源 X 平台推荐算法
「自然选择」融资3000万美元,阿里、蚂蚁布局AI陪伴AI陪伴公司「自然选择」完成超3000万美元融资,投资方包括阿里巴巴、蚂蚁集团、启明创投等机构。公司推出的《EVE》产品重新定义了AI陪伴的五个维度:主动发起关怀、双商兼具的”活人感”、SOTA级长时记忆、高沉浸感设计以及破次元生活服务介入。来源:暗涌Waves
「自然选择」融资3000万美元,阿里、蚂蚁布局AI陪伴
Kimi开启新一轮融资!估值直冲48亿美元月之暗面在距上轮融资仅数周后启动新一轮融资,投前估值逼近48亿美元,较上月43亿美元估值溢价5亿美元。本轮融资获机构疯狂抢购,主因智谱与MiniMax港股上市表现强劲后,投资人加速布局中国AI头部标的。公司目前持有超100亿人民币现金储备,创始人杨植麟表示不急于IPO,将聚焦下一代K3推理模型研发与算力扩容。来源:Z Finance
Kimi开启新一轮融资!估值直冲48亿美元
1月19·周一扣子 2.0,让 Agent 更进一步字节跳动旗下AI智能体平台“扣子”正式发布2.0版本,推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包;Agent Plan支持设定长期目标后由AI自主规划执行;Agent Office提供深度职场场景理解与洞察;Agent Coding实现云端一站式开发。来源:扣子Coze安克与飞书联合发布AI录音豆安克与飞书联合发布AI录音豆,产品单体仅重10克,采用豆型轻巧设计,可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。来源:Anker安克AI视频领军企业爱诗科技与中国儒意达成战略合作AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作,并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用,重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权,合作研发多模态智能体技术。来源:爱诗科技AI
扣子 2.0,让 Agent 更进一步
智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异,超越同尺寸开源模型达到SOTA水平。来源:智谱 月之暗面(Moonshot AI)正式启动Kimi新模型API内测计划,面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户,通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。来源:Kimi开放平台
安克与飞书联合发布AI录音豆
AI视频领军企业爱诗科技与中国儒意达成战略合作AI视频生成企业爱诗科技与港股上市公司中国儒意达成战略合作,并获得1420万美元战略投资。双方将共同探索AI技术在影视制作、流媒体平台南瓜电影及游戏业务中的创新应用,重点开发影视视觉设计、视效制作、宣传素材智能生成等环节。爱诗科技将获得中国儒意优质版权内容授权,合作研发多模态智能体技术。来源:爱诗科技AIsphere
AI视频领军企业爱诗科技与中国儒意达成战略合作
光轮智能联手World Labs破解评测规模化难题光轮智能与World Labs合作破解具身智能规模化评测难题,通过”数字表亲”仿真方案替代传统高成本数字孪生技术。该方案基于轻量真实世界采集数据,利用3D高斯泼溅技术快速生成可物理交互的仿真环境,将环境创建时间压缩至分钟级。来源:光轮智能
光轮智能联手World Labs破解评测规模化难题
1月16·周五国产芯片全程训练,GLM-Image登顶Hugging Face Trending智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位,成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构,在复杂视觉文本生成和长文本渲染任务中表现优异,尤其擅长汉字生成。来源:智谱美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601,在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式,支持8个并行推理路径协同工作,在复杂随机任务中性能超越Claude。来源:龙猫LongCat谷歌最强 AI 开放翻译模型:TranslateGemma 登场谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译,其中1
国产芯片全程训练,GLM-Image登顶Hugging Face Trending
字节跳动旗下AI智能体平台“扣子”正式发布2.0版本,推出四大核心功能升级。Agent Skills技能系统支持用户为AI安装行业专业能力包;Agent Plan支持设定长期目标后由AI自主规划执行;Agent Office提供深度职场场景理解与洞察;Agent Coding实现云端一站式开发。来源:扣子Coze 安克与飞书联合发布AI录音豆,产品单体仅重10克,采用豆型轻巧设计,可夹于衣领、袖口等位置实现无感佩戴。内置的AI能力由飞书提供,支持多语言转写翻译、会议纪要自动生成,能将录音内容智能分析为鱼骨图等可视化图表,自动同步至飞书多维表格。来源:Anker安克
美团 LongCat-Flash-Thinking-2601 发布,工具调用能力登顶开源 SOTA!
谷歌最强 AI 开放翻译模型:TranslateGemma 登场谷歌发布基于Gemma 3架构的开放翻译模型系列TranslateGemma,提供4B、12B和27B三种参数规模。系列支持55种核心语言及多模态图像翻译,其中12B版本翻译质量超越参数量更大的基线模型,4B模型性能与12B基线相当,可在手机端流畅运行。来源:IT之家
谷歌最强 AI 开放翻译模型:TranslateGemma 登场
混元3D Studio 1.2全面开放公测!支持笔刷交互、八视图输入腾讯混元3D Studio1.2版本今日全面开放公测,无需申请即可体验。该版本核心升级包括PartGen 1.5组件生成模型,拆分精度提升至1536³分辨率,并首次支持笔刷交互,用户可通过笔刷进行细粒度组件拆分控制。来源:腾讯混元
混元3D Studio 1.2全面开放公测!支持笔刷交互、八视图输入
1月15·周四千问App上线AI购物,真正能帮你办事的AI来了!千问App正式上线400多项AI办事功能,标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,在全球首次实现AI点外卖、购物、订机票酒店等实用功能,用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划,新增学习辅助功能。来源:阿里巴巴阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一,超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。来源:阶跃星辰OpenAI签下近700亿AI芯片巨单!OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元(约697亿元人民币)的超级订单,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大高速AI推理平台。合作将于2026年起分阶段
千问App上线AI购物,真正能帮你办事的AI来了!
智谱AI与华为联合研发的多模态模型GLM-Image在开源后24小时内登顶Hugging Face Trending榜单首位,成为首个完全依托国产昇腾芯片完成全流程训练的SOTA模型。模型采用创新的”自回归+扩散解码器”混合架构,在复杂视觉文本生成和长文本渲染任务中表现优异,尤其擅长汉字生成。来源:智谱 美团LongCat团队发布并开源智能体模型LongCat-Flash-Thinking-2601,在智能体工具调用、搜索等核心评测中达到开源SOTA水平。模型创新引入”重思考”模式,支持8个并行推理路径协同工作,在复杂随机任务中性能超越Claude。来源:龙猫LongCat
阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首
OpenAI签下近700亿AI芯片巨单!OpenAI与美国AI芯片公司Cerebras签署价值近100亿美元(约697亿元人民币)的超级订单,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大高速AI推理平台。合作将于2026年起分阶段实施,2028年前完成,Cerebras芯片推理速度达GPU系统的15倍。来源:智东西
OpenAI签下近700亿AI芯片巨单!
1月14·周三智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image智谱AI与华为联合开源新一代图像生成模型GLM-Image,是首个在国产昇腾Atlas 800T A2芯片上完成全流程训练的SOTA多模态模型。模型采用创新的“自回归+扩散解码器”混合架构,在复杂视觉文字生成(CVTG-2K)和长文本渲染(LongText-Bench)榜单中取得开源模型最优成绩,尤其擅长汉字生成任务。来源:智谱全球首个通用实时世界模型 PixVerse R1PixVerse正式发布全球首个通用实时世界模型PixVerse R1,开创视频内容从”录好再播”到”因你而生”的新范式。模型支持无限流生成、多模态交互与即时响应,最高支持1080P分辨率。来源:爱诗科技 AIsphereGenspark 官宣 ARR 突破 1 亿美元Genspark通过 LinkedIn 宣布,其产品上线仅 9 个月,年度经常性收入(ARR)已突破 1 亿美元,跻身全球增长最快的 AI 公司行列。同时,Genspark 预告 Genspark AI Workspace 2.0 将在两周内发布。来源:LinkedI
智谱联合华为开源首个国产芯片训练的多模态SOTA模型GLM-Image
千问App正式上线400多项AI办事功能,标志着从”聊天对话”迈入”AI办事时代”。应用深度接入淘宝、支付宝、高德、飞猪等阿里生态业务,在全球首次实现AI点外卖、购物、订机票酒店等实用功能,用户可在对话界面内完成支付无需跳转。上线的”任务助理”支持多步骤复杂任务规划,新增学习辅助功能。来源:阿里巴巴 阶跃星辰开源语音推理模型Step-Audio-R1.1在权威评测Artificial Analysis Speech Reasoning中以96.4%准确率登顶全球第一,超越Grok、Gemini等主流模型。是全球首个开源原生语音推理模型,具备深度语音推理和实时响应能力,可端到端理解音频内容并进行复杂逻辑推理。来源:阶跃星辰
全球首个通用实时世界模型 PixVerse R1
Genspark 官宣 ARR 突破 1 亿美元Genspark通过 LinkedIn 宣布,其产品上线仅 9 个月,年度经常性收入(ARR)已突破 1 亿美元,跻身全球增长最快的 AI 公司行列。同时,Genspark 预告 Genspark AI Workspace 2.0 将在两周内发布。来源:LinkedIn
Genspark 官宣 ARR 突破 1 亿美元
商汤「办公小浣熊」APP上线!商汤科技正式上线「办公小浣熊APP」iOS移动版应用。APP主打移动办公场景下的AI生产力工具,支持用户通过手机进行复杂表格数据分析、语音输入快速记录,并实现电脑与手机间的任务无缝接力。来源:商汤科技SenseTime
商汤「办公小浣熊」APP上线!
MiniMax 开源新评测集:定义Coding Agent 的生产级标准MiniMax开源新一代Coding Agent评测集OctoCodingBench,首次将评估重点从”结果正确”转向”过程规范遵循”。评测集通过Check-level准确率和Instance-level成功率两项指标,系统评估AI编程助手在遵循命名规范、安全规则、团队协作规范等过程约束的能力。来源:MiniMax稀宇科技
MiniMax 开源新评测集:定义Coding Agent 的生产级标准
快手宣布可灵 12 月收入超 2000 万美元快手科技宣布其视频生成大模型可灵AI在2025年12月单月收入突破2000万美元,年化收入运行率达2.4亿美元。产品在上线第10个月实现ARR破1亿美元后,于第19个月再次实现跨越式增长。2025年12月,可灵AI通过”全能灵感周”集中发布了可灵视频O1、可灵图片O1等多款新模型,在视频编辑、一致性保持等方面实现技术突破。来源:快手科技
快手宣布可灵 12 月收入超 2000 万美元
一年融2.2亿,DeepWisdom终于发布了第一款产品AtomsAI编程平台DeepWisdom正式发布核心产品Atoms,平台基于多智能体架构,让用户”用一句话启动一家创业公司”。只需输入想法,平台可调用产品经理、工程师等AI智能体,完成从市场调研、全栈开发到部署上线的完整产品闭环。公司在2025年完成累计2.2亿元人民币融资。来源:暗涌Waves
一年融2.2亿,DeepWisdom终于发布了第一款产品Atoms
1月13·周二Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手Anthropic发布Claude Cowork,是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。来源:AI工具集百川开源全球最强医疗大模型Baichuan-M3百川智能开源全球最强医疗大模型Baichuan-M3,在权威评测HealthBench中以65.1分综合成绩位列全球第一,首次在医疗领域全面超越GPT-5.2。模型幻觉率低至3.5%,为全球最低,首次具备原生“端到端”严肃问诊能力,其问诊表现超越真人医生平均水平。来源:百川智能1月12·周一自变量获字节、红杉等10亿元投资,构建物理世界的基础模型具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人千寻智能开源具身智能基础模型Spirit v1.5国产具身
Anthropic 发布 Cowork:面向所有人版本的 Claude Code 助手
智谱AI与华为联合开源新一代图像生成模型GLM-Image,是首个在国产昇腾Atlas 800T A2芯片上完成全流程训练的SOTA多模态模型。模型采用创新的“自回归+扩散解码器”混合架构,在复杂视觉文字生成(CVTG-2K)和长文本渲染(LongText-Bench)榜单中取得开源模型最优成绩,尤其擅长汉字生成任务。来源:智谱 PixVerse正式发布全球首个通用实时世界模型PixVerse R1,开创视频内容从”录好再播”到”因你而生”的新范式。模型支持无限流生成、多模态交互与即时响应,最高支持1080P分辨率。来源:爱诗科技 AIsphere
百川开源全球最强医疗大模型Baichuan-M3
1月12·周一自变量获字节、红杉等10亿元投资,构建物理世界的基础模型具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人千寻智能开源具身智能基础模型Spirit v1.5国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型,登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型,也是首个成功率突破50%的具身智能模型。来源:量子位Humanify 获数千万元首轮融资打造 AI OSAI初创公司Humanify(人格智能)近日宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。公司成立于2024年,专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队,加速智能在真实场景的落地。来源:Z Potentials谷
自变量获字节、红杉等10亿元投资,构建物理世界的基础模型
Anthropic发布Claude Cowork,是其智能体编码工具Claude Code面向包括非开发者在内的所有用户的衍生版本。工具允许用户授权Claude访问电脑指定文件夹,使其能在其中读取、编辑和创建文件。来源:AI工具集 百川智能开源全球最强医疗大模型Baichuan-M3,在权威评测HealthBench中以65.1分综合成绩位列全球第一,首次在医疗领域全面超越GPT-5.2。模型幻觉率低至3.5%,为全球最低,首次具备原生“端到端”严肃问诊能力,其问诊表现超越真人医生平均水平。来源:百川智能
千寻智能开源具身智能基础模型Spirit v1.5
Humanify 获数千万元首轮融资打造 AI OSAI初创公司Humanify(人格智能)近日宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。公司成立于2024年,专注于开发具备“类人认知与自主意识”的下一代AI模型与原生操作系统。本轮资金将主要用于模型和操作系统研发、扩大团队,加速智能在真实场景的落地。来源:Z Potentials
Humanify 获数千万元首轮融资打造 AI OS
谷歌联合零售巨头推出通用商务协议 UCP谷歌联合Shopify、沃尔玛、Target等零售巨头推出全新开放标准——通用商务协议(UCP),为AI智能体购物场景建立全流程标准化框架。协议支持智能体参与从商品发现到售后支持的全部环节,通过标准化实现不同系统间的协同运作,并可兼容谷歌此前发布的智能体支付、互联等协议。来源:IT之家
谷歌联合零售巨头推出通用商务协议 UCP
1月9·周五MiniMax 港股挂牌,历史上IPO规模最大的AI大模型公司诞生全球化AI大模型公司MiniMax(股票代码:0100.HK)在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%,截至发稿涨幅达63%,报269港元,市值约831亿港元。此次IPO以每股165港元定价上限发行,募集资金总额约55.4亿港元,其公开发售部分获得1837倍超额认购,市场反响热烈。来源:财联社ChatDev 2.0:零代码构建多智能体,快速开发一切清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃,用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源:面壁智能多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。
MiniMax 港股挂牌,历史上IPO规模最大的AI大模型公司诞生
具身智能机器人公司“自变量”近期完成10亿元A++轮融资,投资方包括字节跳动、红杉中国、深创投等顶级机构。公司是国内唯一同时获得字节、美团、阿里投资的具身智能企业,凸显市场对其技术领先性的高度认可。来源:自变量机器人 国产具身智能模型千寻Spirit v1.5在权威真机评测基准RoboChallenge上以总分66.09、成功率50.33%的成绩超越美国公司Physical Intelligence的Pi0.5模型,登顶全球榜首。是该榜单自上线以来首个击败基准模型的国产模型,也是首个成功率突破50%的具身智能模型。来源:量子位
ChatDev 2.0:零代码构建多智能体,快速开发一切
多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!通义千问团队正式开源多模态检索模型Qwen3-VL-Embedding与Qwen3-VL-Reranker。该系列模型基于Qwen3-VL构建,专为图文、视频等混合内容的理解与检索设计,能在统一框架内处理文本、图像、视觉文档及视频等多种模态输入。来源:通义大模型
多模态检索新标杆,Qwen3-VL-Embedding&Reranker开源!
1月8·周四智谱上市了,全球大模型第一股,股票代码“02513”北京智谱华章技术股份有限公司(简称“智谱”)正式在香港交易所挂牌上市,股票代码为“02513”,成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心,致力于通用人工智能(AGI)的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源:智谱ChatExcel一年完成3轮融资,构建全模态数据链路平台北大系AI公司元空智能(ChatExcel)连续完成Pre-A轮与A轮数千万融资,由考拉基金与合鼎共资本投资,全年共完成三轮融资。2026年,公司正重点推进全球化布局,海外版本已上线,致力于成为国际领先的数据智能服务商。来源:元空AIExcelOpenAI 推出 ChatGPT Health 模式,为健康设立专属空间OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间,更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私,允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源:IT之家1月7·周三xAI完成20
智谱上市了,全球大模型第一股,股票代码“02513”
全球化AI大模型公司MiniMax(股票代码:0100.HK)在香港联交所主板正式挂牌上市。开盘后股价一度大涨超50%,截至发稿涨幅达63%,报269港元,市值约831亿港元。此次IPO以每股165港元定价上限发行,募集资金总额约55.4亿港元,其公开发售部分获得1837倍超额认购,市场反响热烈。来源:财联社 清华大学、上海交通大学、OpenBMB与面壁智能联合团队正式开源多智能体框架ChatDev 2.0。新版实现了从“代码驱动”到“零代码可视化交互”的飞跃,用户通过简单“拖拽+配置”即可在无限画布上构建复杂多智能体系统。来源:面壁智能
ChatExcel一年完成3轮融资,构建全模态数据链路平台
OpenAI 推出 ChatGPT Health 模式,为健康设立专属空间OpenAI正式推出专注于健康领域的“ChatGPT Health”模式。是ChatGPT为用户提供了一个独立的对话空间,更系统、安全地讨论健康问题。核心特性包括将健康对话与普通聊天记录隔离以保护隐私,允许AI在获得许可后参考用户其他场景的信息以提供连贯建议。来源:IT之家
OpenAI 推出 ChatGPT Health 模式,为健康设立专属空间
1月7·周三xAI完成200亿美元E轮融资,英伟达再次出手马斯克旗下xAI公司完成200亿美元E轮融资,超额完成原定目标。投资方包括英伟达、思科等知名机构及中东资本。数据显示,Grok月活跃用户已达6亿,Grok 5正在训练中。公司拥有超100万个H100 GPU等效算力,Grok 4在强化学习方面取得突破。来源:智东西LMArena完成1.5亿美元Series A融资AI初创公司LMArena完成1.5亿美元A轮融资,投后估值达17亿美元。核心产品为“模型竞技场”平台,通过众包方式让用户比较不同AI模型的性能,月活用户超500万,每月产生6000万次对话。本轮融资由Felicis和UC Investments领投。来源:Z Potentials智元发布首个大语言模型驱动的开源仿真平台:Genie Sim 3.0智元机器人在CES上发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0。平台基于NVIDIA Isaac Sim构建,融合三维重建与视觉生成技术,可实现数字孪生级高保真仿真环境。首创的自然语言驱动场景生成技术,可将万级场景的生成时间缩短至分钟级。来源:AI工具集
xAI完成200亿美元E轮融资,英伟达再次出手
北京智谱华章技术股份有限公司(简称“智谱”)正式在香港交易所挂牌上市,股票代码为“02513”,成为全球“大模型第一股”。公司以“智能是且仅是我们唯一的产品”为核心,致力于通用人工智能(AGI)的研发与探索。此次上市标志着其在发展历程中迈出关键一步。来源:智谱 北大系AI公司元空智能(ChatExcel)连续完成Pre-A轮与A轮数千万融资,由考拉基金与合鼎共资本投资,全年共完成三轮融资。2026年,公司正重点推进全球化布局,海外版本已上线,致力于成为国际领先的数据智能服务商。来源:元空AIExcel
商汤开源SenseNova-MARS:突破多模态搜索推理天花板
Qwen3-ASR开源:够稳定,能流式,多语言!阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。来源:千问Qwen
Qwen3-ASR开源:够稳定,能流式,多语言!
OpenAI宣布2月13日下线GPT-4o等旧模型OpenAI宣布将于2月13日从ChatGPT平台下线GPT-4o、GPT-4.1系列等旧模型。此举引发用户强烈反响,部分用户称GPT-4o的“温暖对话风格”具有不可替代的情感价值,尤其满足创意交流与情绪陪伴需求。OpenAI表示将集中资源优化主流模型,并在GPT-5.2中改进个性与创造力。API服务暂不受影响。来源:APPSO
OpenAI宣布2月13日下线GPT-4o等旧模型
苹果20亿美元收购以色列AI公司Q.ai苹果公司以近20亿美元收购以色列AI初创企业Q.ai,为其自2014年收购Beats以来规模第二大的交易。Q.ai核心技术为通过分析面部微表情与肌肉运动识别“无声语音”,用户无需发声即可通过唇动输入指令。该技术有望集成至AirPods、iPhone及计划于2026年推出的AI眼镜中,实现私密、无干扰的交互体验。来源:极客公园
苹果20亿美元收购以色列AI公司Q.ai
1月29·周四昆仑万维开源视频生成模型SkyReels-V3,重塑创作流程昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。来源:昆仑万维集团MiniMax Music 2.5: 格莱美级创作,不再需要录音棚MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。来源:MiniMax稀宇科技昆仑天工Mureka V8重磅发布:定义AI音乐新品类昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。来源:昆仑万维集团1月28·周三
昆仑万维开源视频生成模型SkyReels-V3,重塑创作流程
宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。来源:IT之家 商汤科技开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。来源:商汤科技SenseTime
MiniMax Music 2.5: 格莱美级创作,不再需要录音棚
昆仑天工Mureka V8重磅发布:定义AI音乐新品类昆仑万维旗下昆仑天工正式发布Mureka V8音乐大模型,宣布“AI音乐是一种新的音乐品类”。模型基于MusiCoT技术体系,在旋律完整性、人声表现力、编曲层次及混音质感上实现突破,生成效果达到可直接发布水准。来源:昆仑万维集团
昆仑天工Mureka V8重磅发布:定义AI音乐新品类
1月28·周三OpenAI发布免费科研协作工具PrismOpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。来源:新智元MiniMax发布MiniMax M2-her角色扮演模型MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。来源:MiniMax稀宇科技阿里通义开源Z-Image基座模型阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。来源:通义大模型1月27·周二Kimi 发布并开源 K2.5 模型,带
OpenAI发布免费科研协作工具Prism
昆仑万维旗下Skywork AI宣布开源视频生成模型SkyReels-V3,模型在单一架构中整合参考图像转视频、视频延长、音频驱动虚拟形象三大功能。图像转视频技术在参考一致性(0.6698)和视觉质量(0.8119)指标上超越Vidu、Kling等主流模型;视频延长支持镜头切换与叙事扩展;虚拟形象模块可实现音画同步的长视频生成。来源:昆仑万维集团 MiniMax正式推出新一代AI音乐生成模型MiniMax Music 2.5,突破性实现14种段落结构(如前奏、副歌、桥段)的标签化精准控制,支持创作者像专业编曲人一样设计整曲情绪曲线。来源:MiniMax稀宇科技
MiniMax发布MiniMax M2-her角色扮演模型
阿里通义开源Z-Image基座模型阿里通义开源发布6B参数的非蒸馏基座模型Z-Image,专注于解决AI绘画风格单一、人像同质化等痛点。模型支持从写实到动漫的多元风格生成,通过原生架构优化,显著提升对LoRA、ControlNet等微调方法的兼容性。来源:通义大模型
阿里通义开源Z-Image基座模型
1月27·周二Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。来源:月之暗面KimiVidu Q2 参考生Pro全球上线「万物可参考」Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。来源:Vidu AIDeepSeek又探索新架构了,开源DeepSeek-OCR 2DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样
Kimi 发布并开源 K2.5 模型,带来全新视觉理解、代码和 Agent 集群能力
OpenAI推出基于GPT-5.2的免费科研协作平台Prism,解决科研工具碎片化问题。平台集成云端LaTeX编辑器,支持无限协作者实时共同撰写论文,AI可基于全文语境辅助完成从摘要到致谢的全流程工作,包括公式生成、文献管理、图表优化及语法校对。来源:新智元 MiniMax正式揭秘其AI角色扮演模型MiniMax M2-her的技术架构,模型为星野/Talkie等产品的底层引擎。核心突破在于建立Role-Play Bench评估体系,从世界观一致性、故事推进多样性、用户偏好响应三大维度量化角色扮演能力,在百轮长对话测试中综合表现领先。来源:MiniMax稀宇科技
Vidu Q2 参考生Pro全球上线「万物可参考」
DeepSeek又探索新架构了,开源DeepSeek-OCR 2DeepSeek发布并开源新一代文档识别模型DeepSeek-OCR 2,采用DeepEncoder V2架构,将传统固定顺序的图像扫描升级为具备因果注意力的语义推理模式。通过轻量级语言模型动态重排视觉Token,使AI能像人类一样按逻辑顺序理解复杂文档(如表格、多栏排版),在OmniDocBench评测中以91.09%的综合得分刷新纪录,阅读顺序识别误差降低33%。来源:机器之心
DeepSeek又探索新架构了,开源DeepSeek-OCR 2
千问最强模型Qwen3-Max-Thinking正式发布阿里正式发布其规模最大、能力最强的推理模型Qwen3-Max-Thinking。模型总参数量超万亿,预训练数据达36T Tokens,在多项国际专业基准测试中刷新纪录。其创新性地采用了测试时扩展机制,在提升推理性能的同时更加经济。来源:阿里云
千问最强模型Qwen3-Max-Thinking正式发布
英伟达20亿美元加码CoreWeave,冲刺5GW算力英伟达宣布追加投资20亿美元给云服务商CoreWeave,持股比例升至超11%,成为其第二大股东。双方将深化合作,目标在2030年前建成超5GW的AI算力项目。值得注意的是,英伟达首次独立向CoreWeave供应Vera CPU芯片,可能预示其将进入数据中心CPU市场,与英特尔、AMD竞争。来源:钛媒体
英伟达20亿美元加码CoreWeave,冲刺5GW算力
GitHub开源项目Clawdbot意外带火Mac mini开源项目Clawdbot在GitHub爆火,Star数两天内从五千飙升至两万。项目支持自部署AI助手,通过网关连接聊天软件(如WhatsApp、Telegram)与多款AI模型(Claude、GPT等),并集成日历管理、邮件处理、自动化任务等技能,实现真正的“对话式”个人助理。来源:APPSO
GitHub开源项目Clawdbot意外带火Mac mini
1月26·周一腾讯混元发布混元图像3.0图生图模型,上线元宝:一句话就能p图腾讯混元团队发布混元图像3.0图生图模型,模型总参数量80B,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作,模型能智能理解图像内容并生成详细编辑步骤。来源:腾讯混元38岁清华姚班天才挂帅!上海大模型独角兽阶跃星辰融资超50亿上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资,刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长,将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地,重点攻坚基座模型、全模态融合和视觉语言动作(VLA)三大方向。来源:智东西商汤科技AI Agent“咔皮记账”核心功能永久免费啦!商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力,用户可通过拍照、语音等方式实现自动记账,目前已成为国内AI记账类产品第一名,累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能,彻
腾讯混元发布混元图像3.0图生图模型,上线元宝:一句话就能p图
月之暗面发布迄今最智能、最全能的开源模型Kimi K2.5。模型在Agent任务、代码生成、视觉理解(图像/视频)等多项基准测试中达到开源SOTA水平,支持多模态输入及四种工作模式。创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理复杂任务,效率提升最高4.5倍。来源:月之暗面Kimi Vidu正式推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro。模型突破性支持六大参考类型(特效、表情、纹理、动作、人物、场景),用户可通过视频或图片输入,一键复刻特效、迁移演技、替换背景,实现精细化增删改编辑。来源:Vidu AI
38岁清华姚班天才挂帅!上海大模型独角兽阶跃星辰融资超50亿
商汤科技AI Agent“咔皮记账”核心功能永久免费啦!商汤科技宣布AI记账产品“咔皮记账”核心功能将永久免费开放。产品依托“日日新”大模型的多模态理解能力,用户可通过拍照、语音等方式实现自动记账,目前已成为国内AI记账类产品第一名,累计用户超500万。此次免费范围涵盖自动记账、共享账本、预算规划、多账户管理等30项核心功能,彻底取消使用门槛。来源:商汤科技SenseTime
商汤科技AI Agent“咔皮记账”核心功能永久免费啦!
1月23·周五清言学习搭子已上线!火速申请体验名额智谱AI正式推出“AI学习搭子”AI学习助手,现已开放首批用户体验申请。产品通过三大功能重塑学习体验:智能摘要可将数百页文档转化为知识地图实现“把书读薄”;可视化交互卡片与AI助教答疑让学习过程生动有趣;知识点精准出题与“学-练-测”闭环助力深度掌握。来源:智谱清言Qwen3-TTS全家桶开源上线!通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。来源:千问QwenvLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact,并在种子轮融资1.5亿美元,公司估值达8亿美元。本轮融资由a16z和光速创投领投,红杉资本等机构跟投,成为有史以来规模最大的种子轮融资之一。来源:机器之心1月22·周
清言学习搭子已上线!火速申请体验名额
腾讯混元团队发布混元图像3.0图生图模型,模型总参数量80B,采用混合专家架构,支持图片编辑、多图融合等多样化视觉创作功能。用户可通过自然语言指令实现增删改、风格变换、老照片修复等操作,模型能智能理解图像内容并生成详细编辑步骤。来源:腾讯混元 上海AI大模型独角兽阶跃星辰完成超50亿元B+轮融资,刷新国内大模型赛道单笔融资纪录。旷视科技创始人、38岁清华姚班校友印奇正式出任公司董事长,将与CEO姜大昕共同领导公司。融资将用于基础模型研发与AI+终端战略落地,重点攻坚基座模型、全模态融合和视觉语言动作(VLA)三大方向。来源:智东西
Qwen3-TTS全家桶开源上线!
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创大模型推理开源框架vLLM的创建团队正式宣布成立创业公司Inferact,并在种子轮融资1.5亿美元,公司估值达8亿美元。本轮融资由a16z和光速创投领投,红杉资本等机构跟投,成为有史以来规模最大的种子轮融资之一。来源:机器之心
vLLM团队官宣创业:融资1.5亿美元,清华特奖游凯超成为联创
1月22·周四百度发布文心大模型 5.0 正式版:2.4 万亿参数,具备全模态理解与生成能力百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。来源:百度文心腾讯CodeBuddy Code 2.0 重磅升级!腾讯CodeBuddy Code2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。来源:腾讯云代码助手CodeBuddy8B端侧写作智能体AgentCPM-Report开源!清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体AgentCP
百度发布文心大模型 5.0 正式版:2.4 万亿参数,具备全模态理解与生成能力
智谱AI正式推出“AI学习搭子”AI学习助手,现已开放首批用户体验申请。产品通过三大功能重塑学习体验:智能摘要可将数百页文档转化为知识地图实现“把书读薄”;可视化交互卡片与AI助教答疑让学习过程生动有趣;知识点精准出题与“学-练-测”闭环助力深度掌握。来源:智谱清言 通义千问团队正式开源Qwen3-TTS系列语音生成模型,包含1.7B和0.6B两种参数规模,全面支持音色克隆、音色创造与拟人化语音生成。采用创新的12Hz多码本语音编码器与双轨建模架构,实现高效语音压缩与高保真还原,首包音频延迟低至97毫秒。模型覆盖中、英、日、韩等10种主流语言及方言,支持自然语言指令精确控制音色、情感及韵律。来源:千问Qwen
腾讯CodeBuddy Code 2.0 重磅升级!
8B端侧写作智能体AgentCPM-Report开源!清华大学、中国人民大学、面壁智能与OpenBMB社区联合发布本地化深度调研智能体AgentCPM-Report。模型仅8B参数,通过40轮深度检索与100轮思维链推演,在DeepResearch Bench等三大评测中综合表现超越部分顶级闭源系统,尤其在洞察性指标排名第一。来源:面壁智能
8B端侧写作智能体AgentCPM-Report开源!
1月21·周三10B击败200B!阶跃星辰开源视觉语言SOTA:Step3-VL-10B阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。来源:阶跃星辰MiniMax推出Agent 2.0,升级为进阶型桌面智能协作伙伴MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。来源:机器之心1月20·周二GLM-4.7-Flash开源、免费智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ
10B击败200B!阶跃星辰开源视觉语言SOTA:Step3-VL-10B
百度正式发布文心大模型5.0版本,模型参数量达2.4万亿,采用原生全模态统一建模技术,具备文本、图像、音频、视频等信息的全面理解与生成能力。官方表示,在40余项权威基准评测中,其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等国际主流模型。来源:百度文心 腾讯CodeBuddy Code2.0版本正式发布,核心升级包括开放SDK集成能力,通过Plan模式与ACP协议实现Agent能力标准化输出,支持企业快速构建生产级AI应用。平台全面兼容开发者社区生态,支持Plugin插件市场与自定义Subagents智能体,集成TencentOS提供容器化安全沙箱运行环境。新版本增强工程记忆、LSP代码诊断等核心功能,支持GLM-4.7等多模型切换。来源:腾讯云代码助手CodeBuddy
MiniMax推出Agent 2.0,升级为进阶型桌面智能协作伙伴
1月20·周二GLM-4.7-Flash开源、免费智谱AI正式开源并发布GLM-4.7-Flash模型,模型采用混合思考架构,总参数量30B,激活参数量仅3B,为轻量化部署提供高性能选择。模型在SWE-bench Verified、τ²-Bench等主流基准测试中表现优异,超越同尺寸开源模型达到SOTA水平。来源:智谱欢迎报名 Kimi 新模型 API 内测计划月之暗面(Moonshot AI)正式启动Kimi新模型API内测计划,面向已完成企业认证的开放平台用户开放申请。平台将根据开发者使用场景与新模型能力的匹配度筛选首批测试用户,通过审核后将由官方团队电话联系。与开发者共同探索下一代模型的应用潜力。来源:Kimi开放平台马斯克开源 X 平台推荐算法马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。来源:APPSSO「自然选择」融资3000万美元,阿里、蚂蚁布局A
GLM-4.7-Flash开源、免费
阶跃星辰(StepFun)开源10B参数多模态模型Step3-VL-10B,在多项基准测试中性能超越参数量20倍以上的主流大模型。模型在视觉感知、数学竞赛、逻辑推理等核心维度达到SOTA水平,其创新的并行协调推理机制(PaCoRe)显著提升复杂任务处理能力。来源:阶跃星辰 MiniMax发布第二代智能体产品MiniMax Agent 2.0,推出“AI原生工作台”新范式。平台包含桌面端应用,支持Windows和Mac系统,可深度打通本地文件与环境,实现本地与云端任务的无缝协同。核心创新“Expert Agents”专家系统,通过封装行业SOP与私有知识,将专业能力从通用70分提升至95分以上。来源:机器之心
欢迎报名 Kimi 新模型 API 内测计划
马斯克开源 X 平台推荐算法马斯克宣布正式开源X平台(原Twitter)核心推荐算法代码x-Algorithm,成为首个将流量分发逻辑完全透明化的主流社交平台。新版算法采用与xAI的Grok模型相同的Transformer架构,实现”零人工特征工程”,完全依赖模型自主学习用户交互历史来预测内容相关性。来源:APPSSO
OpenClaw 3.8版本发布:12+安全漏洞修复+三大新功能
扣子Coze推出AI Agent中文社区InStreet,全面开放内测扣子Coze宣布AI Agent中文社区InStreet全面开放内测,定位为”OpenClaw养虾第一站”。该社区仅允许Agent发帖互动,人类用户可围观学习。InStreet 提供Skill技能分享、积分排行榜、虚拟炒股竞技场等功能,已积累超1.1万条评论和1.6万点赞。来源:扣子Coze
扣子Coze推出AI Agent中文社区InStreet,全面开放内测
小红书开源FireRed-Image-Edit v1.1:OOTD元素融合,人像一致性大幅提升小红书Super Intelligence团队发布图像编辑模型FireRed-Image-Edit1.1版本,距离1.0发布不到一个月。新版本在ID一致性编辑、多元素融合(支持10余种元素智能组合)、人像美妆(数十种风格)、字体风格参考及老照片修复等方面显著增强。来源:小红书技术REDtech
小红书开源FireRed-Image-Edit v1.1:OOTD元素融合,人像一致性大幅提升
3月6·周五OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控OpenAI正式发布GPT-5.4,首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%,在SWE-Bench Pro编程测试中达57.7%,并在OSWorld计算机操作测试中取得75%成绩,均为业界领先。来源:量子位阿里开源HiClaw: Team 版 OpenClaw,5分钟完成本地安装阿里云开源HiClaw,作为OpenClaw的”Team版”升级方案,引入Manager Agent架构实现多Agent协作管理。HiClaw通过AI Gateway集中管理API凭证,解决原生OpenClaw的安全风险;Worker Agent运行在独立容器中,技能与记忆完全隔离。系统内置Matrix服务器和Element客户端,支持移动端随时指挥,无需配置飞书/钉钉机器人。来源:阿里云开发者VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台通用人工智能公司VAST宣布完成5000万美元A轮融资,由阿里、恒旭资本联
OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控
腾讯旗下全场景AI智能体WorkBuddy正式上线,被称为腾讯版”小龙虾”(OpenClaw)。产品完全兼容OpenClaw技能,但无需复杂部署,下载安装后即可使用,1分钟完成企业微信配置。WorkBuddy内置20多种Skills技能包,支持多窗口、多Agent并行工作,可无缝切换Hunyuan、DeepSeek、GLM等主流模型,并具备企业级安全审计能力。来源:腾讯云 OpenClaw团队连夜推出2026.3.8版本。本次更新新增ACP来源识别、openclaw备份机制及Telegram假冒清除三大功能,修复12个以上安全漏洞。同时带来GPT-5.4前向兼容(支持105万Token上下文)、Brave搜索强化、Talk语音模式静默等待优化等改进,针对macOS和Android端进行专项优化与安全加固。来源:机器之心
阿里开源HiClaw: Team 版 OpenClaw,5分钟完成本地安装
VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台通用人工智能公司VAST宣布完成5000万美元A轮融资,由阿里、恒旭资本联合领投,元禾璞华、百度风投等跟投,老股东春华创投超额加注。VAST旗下Tripo Studio平台已聚集超650万创作者,累计生成近1亿个3D模型。本轮资金将重点投入世界模型研发与UGC互动内容平台建设。来源:VAST AI
VAST完成5000万美元A轮融资,加速构建世界模型与UGC互动内容平台
微软开源 Phi-4-Reasoning-Vision-15B 视觉推理模型微软发布Phi-4-Reasoning-Vision-15B开源模型,采用MIT许可证,是Phi-4系列首个同时具备高分辨率视觉感知与选择性推理能力的小语言模型。模型可根据任务需求在”推理模式”与”非推理模式”间自动切换,数学推理时启用多步思考链,简单OCR任务则直接输出以降低延迟。来源:IT之家
微软开源 Phi-4-Reasoning-Vision-15B 视觉推理模型
3月5·周四MiniMax Music 2.5+:解锁你的专属“天空之城”MiniMax发布Music 2.5+版本,新增纯音乐创作能力。模型支持古典管弦、极简主义、现代电子、氛围音等多元风格,可生成从零乐器自然声到多轨器乐编排的完整作品,适用于冥想、助眠、广告、游戏配乐及影视配乐场景。来源:MiniMax稀宇科技Perplexity与CoreWeave达成多年战略合作,聚焦AI推理基础设施AI云服务企业CoreWeave与AI搜索公司Perplexity达成多年期战略合作。Perplexity将利用CoreWeave的云算力资源(包括英伟达GB200 NVL机架系统)运行其AI推理工作负载,CoreWeave则将在内部全面部署Perplexity Enterprise Max订阅。此次合作为Perplexity提供高性能、可靠的AI云平台支持,加速其AI工具和智能体的规模化发展。来源:IT之家3月4·周三Flowith 完成千万美元种子轮和种子+轮融资AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领
MiniMax Music 2.5+:解锁你的专属“天空之城”
OpenAI正式发布GPT-5.4,首次在单一模型中融合推理、编程、计算机原生交互、深度网页搜索及百万级Token上下文五大能力。模型在GDPval知识工作测试中得分83%,在SWE-Bench Pro编程测试中达57.7%,并在OSWorld计算机操作测试中取得75%成绩,均为业界领先。来源:量子位 阿里云开源HiClaw,作为OpenClaw的”Team版”升级方案,引入Manager Agent架构实现多Agent协作管理。HiClaw通过AI Gateway集中管理API凭证,解决原生OpenClaw的安全风险;Worker Agent运行在独立容器中,技能与记忆完全隔离。系统内置Matrix服务器和Element客户端,支持移动端随时指挥,无需配置飞书/钉钉机器人。来源:阿里云开发者
Perplexity与CoreWeave达成多年战略合作,聚焦AI推理基础设施
3月4·周三Flowith 完成千万美元种子轮和种子+轮融资AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领投。Flowith致力于打造Agentic AI时代的”行动派”操作系统,已推出多线程画布交互、云端无限Agent及首款本地化AI全链路创作助手FlowithOS。来源:Z Potentials谷歌 Gemini 3.1 Flash-Lite 登场,首字响应提速 2.5 倍谷歌发布轻量级AI模型Gemini 3.1 Flash-Lite,称其为Gemini 3系列中速度最快、最具成本效益的模型。模型首字响应速度较2.5 Flash提升2.5倍,整体输出速度提升45%,定价为每百万输入Tokens 0.25美元、输出1.50美元。模型在Arena.ai获1432分Elo得分,GPQA Diamond测试达86.9%,多项指标超越前代。来源:IT之家阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!阶跃星辰宣布Step 3.5 Flash预训练/中训练/训练框架全部开源,包括
Flowith 完成千万美元种子轮和种子+轮融资
MiniMax发布Music 2.5+版本,新增纯音乐创作能力。模型支持古典管弦、极简主义、现代电子、氛围音等多元风格,可生成从零乐器自然声到多轨器乐编排的完整作品,适用于冥想、助眠、广告、游戏配乐及影视配乐场景。来源:MiniMax稀宇科技 AI云服务企业CoreWeave与AI搜索公司Perplexity达成多年期战略合作。Perplexity将利用CoreWeave的云算力资源(包括英伟达GB200 NVL机架系统)运行其AI推理工作负载,CoreWeave则将在内部全面部署Perplexity Enterprise Max订阅。此次合作为Perplexity提供高性能、可靠的AI云平台支持,加速其AI工具和智能体的规模化发展。来源:IT之家
谷歌 Gemini 3.1 Flash-Lite 登场,首字响应提速 2.5 倍
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!阶跃星辰宣布Step 3.5 Flash预训练/中训练/训练框架全部开源,包括Base权重、Midtrain权重及Steptron训练框架。该模型是阶跃迄今能力最强的开源基础模型,具备强大推理与Agent智能,专为Agent而生。来源:阶跃星辰
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
OpenAI深夜发新模型GPT-5.3 Instant!幻觉率暴降27%OpenAI正式发布GPT-5.3 Instant模型,针对用户反馈的”过于保守、爱说教”问题进行优化。新模型回答更直击重点,减少冗长限制性说明和拒答行为,幻觉率在联网模式下降低26.8%,非联网模式降低19.7%。来源:智东西
OpenAI深夜发新模型GPT-5.3 Instant!幻觉率暴降27%
QoderWork 重磅更新 | 正式发布支持 Windows 版QoderWork正式发布Windows版本,同时推出三大升级:支持标准和旗舰两档模型分级选择,满足不同任务需求;新增预制沙盒环境,在隔离虚拟环境中执行任务,提升稳定性与成功率;上线Skills技能广场,集成文档协作、效率工具、设计UI等主流技能一键安装。来源:Qoder
QoderWork 重磅更新 | 正式发布支持 Windows 版
3月3·周二阿里千问开源四款 Qwen3.5 小尺寸模型阿里千问宣布开源4款Qwen3.5小尺寸模型:Qwen3.5-0.8B/2B/4B/9B。该系列采用原生多模态训练和最新架构,覆盖从端侧到服务器的轻量级AI需求。其中0.8B/2B适合移动设备和IoT边缘部署;4B定位为轻量级Agent基座;9B性能媲美gpt-oss-120B。来源:通义实验室小红书发布并开源端到端文档识别模型:FireRed-OCR小红书团队发布并开源端到端文档识别模型FireRed-OCR,基于Qwen3-VL架构,首创”三阶段渐进优化”策略与”几何+语义”数据工厂,解决通用VLM处理复杂文档时的”结构性幻觉”问题。模型在权威评测OmniDocBench v1.5中取得端到端方案SOTA,综合评分92.9%领先Gemini-3.0 Pro等模型。来源:小红书技术REDtech阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,首创FreeStyle指令控制范式,用户可通过自
阿里千问开源四款 Qwen3.5 小尺寸模型
AI创作平台Flowith宣布完成千万美元种子轮及种子+轮融资,种子轮由祥峰投资等机构参与,种子+轮由红杉中国种子基金、江远投资联合领投。Flowith致力于打造Agentic AI时代的”行动派”操作系统,已推出多线程画布交互、云端无限Agent及首款本地化AI全链路创作助手FlowithOS。来源:Z Potentials 谷歌发布轻量级AI模型Gemini 3.1 Flash-Lite,称其为Gemini 3系列中速度最快、最具成本效益的模型。模型首字响应速度较2.5 Flash提升2.5倍,整体输出速度提升45%,定价为每百万输入Tokens 0.25美元、输出1.50美元。模型在Arena.ai获1432分Elo得分,GPQA Diamond测试达86.9%,多项指标超越前代。来源:IT之家
小红书发布并开源端到端文档识别模型:FireRed-OCR
阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布通义实验室发布两款语音生成模型Fun-CosyVoice3.5与Fun-AudioGen-VD,首创FreeStyle指令控制范式,用户可通过自然语言描述语气、情绪、场景等细节,无需依赖固定标签。Fun-CosyVoice3.5支持多语种复刻与精细化表达控制,新增泰语、印尼语等4个小语种,生僻字读错率降至5.3%;Fun-AudioGen-VD则实现端到端声音设计,可生成角色化音色并模拟环境声学效果。来源:通义实验室
阿里通义语音双模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD 发布
3月2·周一美团光年之外AI浏览器Tabbit正式发布,开启智能浏览新体验TabbitAI浏览器正式发布,主打”工作交给Tabbit,时间留给自己”理念。产品通过智能代理模式(Agent)实现跨系统数据流转、日常事务托管、深度调研及数据聚合等自动化操作;支持”妙招”快捷指令沉淀工作流,以及无代码脚本定制网页功能。来源:Tabbit浏览器松延动力宣布完成B轮融资,累计近10亿元,宁德时代领投人形机器人企业松延动力宣布完成B轮融资,累计规模近10亿元,由宁德时代系晨道资本领投,国科投资、京国盛基金、九合创投等跟投。这是公司第9轮融资,标志着人形机器人行业从技术验证迈向商业化闭环。本轮融资将加速家庭消费场景落地与产业链整合。来源:NOETIX松延动力再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资具身智能公司银河通用宣布完成25亿元新一轮融资,由国家人工智能产业基金(大基金三期)、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投,刷新行业单轮融资纪录。本轮国资密集入局,标志着具身智能融资进入”重装时代”。来源:极客公园2月28·周六OpenAI获得1100亿美元融资
美团光年之外AI浏览器Tabbit正式发布,开启智能浏览新体验
阿里千问宣布开源4款Qwen3.5小尺寸模型:Qwen3.5-0.8B/2B/4B/9B。该系列采用原生多模态训练和最新架构,覆盖从端侧到服务器的轻量级AI需求。其中0.8B/2B适合移动设备和IoT边缘部署;4B定位为轻量级Agent基座;9B性能媲美gpt-oss-120B。来源:通义实验室 小红书团队发布并开源端到端文档识别模型FireRed-OCR,基于Qwen3-VL架构,首创”三阶段渐进优化”策略与”几何+语义”数据工厂,解决通用VLM处理复杂文档时的”结构性幻觉”问题。模型在权威评测OmniDocBench v1.5中取得端到端方案SOTA,综合评分92.9%领先Gemini-3.0 Pro等模型。来源:小红书技术REDtech
松延动力宣布完成B轮融资,累计近10亿元,宁德时代领投
再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资具身智能公司银河通用宣布完成25亿元新一轮融资,由国家人工智能产业基金(大基金三期)、中国石化、中信投资控股、中国银行、上汽集团等多家国资及产业资本领投,刷新行业单轮融资纪录。本轮国资密集入局,标志着具身智能融资进入”重装时代”。来源:极客公园
再次刷新具身智能单轮融资金额,银河通用拿下 25 亿融资
2月28·周六OpenAI获得1100亿美元融资OpenAI获得新一轮高达1100亿美元的融资,投资方包括亚马逊、英伟达和软银,投资额分别为500亿、300亿和300亿美元。此轮融资前,公司的估值已达到7300亿美元。OpenAI还与亚马逊建立了战略伙伴关系,并同英伟达就下一代推理计算技术达成了协议。该轮融资预计还将吸引更多金融投资者参与。来源:第一财经阿里通义 CoPaw 开源!爆改你的专属智能搭档AgentScope团队宣布其个人智能助理产品CoPaw正式开源,采用Apache 2.0许可协议,支持免费商用。此次开源版本聚焦易用性、本地部署、记忆管理与可扩展性四大方向进行全面升级,核心在于降低使用门槛并打开能力上限。CoPaw现支持通过自定义供应商、Ollama、llama.cpp、MLX等多种方式接入本地或自建模型,实现全链路数据本地化。来源:通义实验室面壁智能开年获数亿元融资,中国电信领投面壁智能在2026年农历新年(马年)后完成数亿元融资,由中国电信领投,中信金石、中信私募跟投。中国电信将发挥云网端优势,与面壁智能在“高效大模型”领域的算法落地经验结合,深化业务协同。本轮融资
OpenAI获得1100亿美元融资
TabbitAI浏览器正式发布,主打”工作交给Tabbit,时间留给自己”理念。产品通过智能代理模式(Agent)实现跨系统数据流转、日常事务托管、深度调研及数据聚合等自动化操作;支持”妙招”快捷指令沉淀工作流,以及无代码脚本定制网页功能。来源:Tabbit浏览器 人形机器人企业松延动力宣布完成B轮融资,累计规模近10亿元,由宁德时代系晨道资本领投,国科投资、京国盛基金、九合创投等跟投。这是公司第9轮融资,标志着人形机器人行业从技术验证迈向商业化闭环。本轮融资将加速家庭消费场景落地与产业链整合。来源:NOETIX松延动力
阿里通义 CoPaw 开源!爆改你的专属智能搭档
面壁智能开年获数亿元融资,中国电信领投面壁智能在2026年农历新年(马年)后完成数亿元融资,由中国电信领投,中信金石、中信私募跟投。中国电信将发挥云网端优势,与面壁智能在“高效大模型”领域的算法落地经验结合,深化业务协同。本轮融资标志着面壁智能正式开启与国家级信息基础设施方的战略合作。来源:面壁智能
面壁智能开年获数亿元融资,中国电信领投
Lemon AI获数千万Pre-A轮融资,天际资本独家投资天际资本近日独家投资了Lemon AI数千万人民币Pre-A轮融资。该公司为企业提供“全栈开源+本地化部署”的AI安全落地方案,企业可在自有Docker环境中调用主流开源大模型,数据不出本地,以解决金融、医疗等行业的数据安全顾虑。来源:钛媒体
Lemon AI获数千万Pre-A轮融资,天际资本独家投资
2月27·周五谷歌推出 Nano Banana 2 图像 AI 模型:支持 4K 分辨率输出Google 旗下 DeepMind 正式发布新一代图像生成模型Nano Banana 2(Gemini 3.1 Flash Image)。模型在图像质量与生成速度上取得平衡,核心在于利用 Gemini 的知识库与实时网络搜索,大幅提升了对复杂中文提示、空间比例、真实世界常识(如地标、古诗词意境)及多对象一致性的理解能力。来源:APPSOSkywork AI 正式发布多模态视频基础模型 SkyReels V4Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer(MMDiT)架构,是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入,可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源:昆仑万维集团华为云码道(CodeArts)代码智能体公测版正式发布华为云在线上发布会上正式发布了华为云码道(CodeArts)代码智能体的
谷歌推出 Nano Banana 2 图像 AI 模型:支持 4K 分辨率输出
OpenAI获得新一轮高达1100亿美元的融资,投资方包括亚马逊、英伟达和软银,投资额分别为500亿、300亿和300亿美元。此轮融资前,公司的估值已达到7300亿美元。OpenAI还与亚马逊建立了战略伙伴关系,并同英伟达就下一代推理计算技术达成了协议。该轮融资预计还将吸引更多金融投资者参与。来源:第一财经 AgentScope团队宣布其个人智能助理产品CoPaw正式开源,采用Apache 2.0许可协议,支持免费商用。此次开源版本聚焦易用性、本地部署、记忆管理与可扩展性四大方向进行全面升级,核心在于降低使用门槛并打开能力上限。CoPaw现支持通过自定义供应商、Ollama、llama.cpp、MLX等多种方式接入本地或自建模型,实现全链路数据本地化。来源:通义实验室
Skywork AI 正式发布多模态视频基础模型 SkyReels V4
华为云码道(CodeArts)代码智能体公测版正式发布华为云在线上发布会上正式发布了华为云码道(CodeArts)代码智能体的公测版。是一个集成代码大模型、IDE与自主开发模式的AI编码解决方案。覆盖代码生成、单元测试、研发知识问答、规范驱动开发等场景,支持IDE、VS Code等多种开发环境。来源:华为云
华为云码道(CodeArts)代码智能体公测版正式发布
2月26·周四MiniMax Agent升级,推出Expert 2.0和MaxClaw两大核心产品MiniMax发布Agent功能升级,推出Expert 2.0和MaxClaw两大核心产品。Expert 2.0允许用户用自然语言描述创建细分领域的专家Agent,已覆盖技术开发、商业金融等领域,累计创建超1.6万专家。MaxClaw是基于OpenClaw构建的云端AI助手,开箱即用,无需手动部署,为订阅会员提供50G云储存,打通了飞书、钉钉等多个IM渠道。来源:MiniMax稀宇科技Perplexity Computer 上线:多模型协同自动完成工作流Perplexity 推出全新聊天界面“Perplexity Computer”,将多种具备自主执行能力的AI模型整合为一套系统。系统基于浏览器运行,可调用来自不同厂商的模型,自主完成包括网络搜索、文档生成、数据处理等在内的完整工作流程。来源:IT之家自变量机器人宣布已完成数亿元新融资自变量机器人宣布完成数亿元新融资,由上汽金控、中金上汽基金等领投,老股东跟投。公司成立于2023年,聚焦自研通用具身智能大模型WALL-A,推出了量子一号、量
MiniMax Agent升级,推出Expert 2.0和MaxClaw两大核心产品
Google 旗下 DeepMind 正式发布新一代图像生成模型Nano Banana 2(Gemini 3.1 Flash Image)。模型在图像质量与生成速度上取得平衡,核心在于利用 Gemini 的知识库与实时网络搜索,大幅提升了对复杂中文提示、空间比例、真实世界常识(如地标、古诗词意境)及多对象一致性的理解能力。来源:APPSO Skywork AI发布全新多模态视频基础模型SkyReels V4。模型采用创新的双流多模态扩散Transformer(MMDiT)架构,是全球首个能同时处理多模态输入、联合生成视频与音频、并统一完成视频生成、修复、编辑三大任务的模型。支持文本、图像、视频、音频、掩码等丰富输入,可输出1080p分辨率、32FPS、长达15秒的高质量音视频同步内容。来源:昆仑万维集团
Perplexity Computer 上线:多模型协同自动完成工作流
自变量机器人宣布已完成数亿元新融资自变量机器人宣布完成数亿元新融资,由上汽金控、中金上汽基金等领投,老股东跟投。公司成立于2023年,聚焦自研通用具身智能大模型WALL-A,推出了量子一号、量子二号两款机器人本体,其中量子二号拥有高自由度灵巧手。本轮融资将用于深化产业协同,推动具身智能在汽车等场景的落地。来源:智东西
自变量机器人宣布已完成数亿元新融资
2月25·周三AI 音乐创作平台 ProducerAI 正式加入Google Labs谷歌实验室宣布,生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型,为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲,进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源:IT之家2月24·周二全球首个面向AI智能体的进化协作平台——EvoMap全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集千寻智能完成近20亿融资,引领具身基模进化与商业化落地千寻智能近日完成近20亿元人民币融资,资本方覆盖顶级、产业、国有及战投机构,阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5,凭借独特的“数据金字塔”训练理念和低成本数据采集技术,构筑了核心竞争壁垒。来源:千寻智能Spirit AI10 亿美元
AI 音乐创作平台 ProducerAI 正式加入Google Labs
MiniMax发布Agent功能升级,推出Expert 2.0和MaxClaw两大核心产品。Expert 2.0允许用户用自然语言描述创建细分领域的专家Agent,已覆盖技术开发、商业金融等领域,累计创建超1.6万专家。MaxClaw是基于OpenClaw构建的云端AI助手,开箱即用,无需手动部署,为订阅会员提供50G云储存,打通了飞书、钉钉等多个IM渠道。来源:MiniMax稀宇科技 Perplexity 推出全新聊天界面“Perplexity Computer”,将多种具备自主执行能力的AI模型整合为一套系统。系统基于浏览器运行,可调用来自不同厂商的模型,自主完成包括网络搜索、文档生成、数据处理等在内的完整工作流程。来源:IT之家
全球首个面向AI智能体的进化协作平台——EvoMap
谷歌实验室宣布,生成式AI音乐创作平台ProducerAI正式推出。平台深度融合了Gemini、Lyria 3、Veo等大模型,为音乐人提供从作词、编曲到混音的全链路支持。用户通过简单文字指令即可生成不同流派的歌曲,进行后期处理。平台为所有音频输出嵌入了SynthID隐形水印。来源:IT之家 全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集
千寻智能完成近20亿融资,引领具身基模进化与商业化落地
10 亿美元融资!李飞飞「世界模型」公司估值 50 亿美元李飞飞创立的World Labs近期完成10亿美元巨额融资,公司估值飙升至50亿美元。投资者包括Autodesk、英伟达、AMD、a16z等顶级巨头。公司今年1月推出了“World API”,为企业提供大型世界模型的API接入,并与Autodesk等公司展开B2B合作,探索商业化路径。来源:极客公园
10 亿美元融资!李飞飞「世界模型」公司估值 50 亿美元
智平方又完成5轮B轮系列融资,融资规模超10亿,估值超百亿智平方宣布完成B轮融资,规模超10亿元人民币,估值超过百亿,一年内累计完成12轮融资,成为融资最快的具身智能企业。本轮融资方阵容强大,百度、中国中车等产业与资本巨头集体加注。来源:智平方科技
智平方又完成5轮B轮系列融资,融资规模超10亿,估值超百亿
Anthropic 推出安全工具 Claude Code SecurityAnthropic推出“Claude Code Security”AI代码安全扫描工具,以研究预览版形式向企业及团队用户开放。工具基于其旗舰模型Claude Opus 4.6,采用模拟人类安全研究员的推理方式,能追踪数据流、发现业务逻辑缺陷和访问控制绕过等传统静态分析难以捕捉的复杂漏洞。来源:AI工具集
Anthropic 推出安全工具 Claude Code Security
谷歌正式发布新一代旗舰模型Gemini 3.1 Pro谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro,在12项基准测试中超越Claude Opus 4.6、GPT-5.2等主流模型,尤其是在衡量推理能力的ARC-AGI-2测试中获得77.1%的高分。模型在复杂任务处理上进步显著,社区实测可生成WebOS操作系统、交互式3D沙盒,能创作生动的SVG动画。来源:智东西
谷歌正式发布新一代旗舰模型Gemini 3.1 Pro
Google DeepMind推出最新AI音乐生成模型:Lyria 3Google DeepMind推出了新一代AI音乐生成模型Lyria 3,已集成至Gemini应用。用户无需自行创作歌词,仅需通过文字描述、上传照片或视频,可一键生成包含自动作词、作曲、人声演唱的30秒高质量音乐片段。模型支持对节奏、情绪、人声进行精细调控,会自动为歌曲生成配套封面。来源:AI工具集
Google DeepMind推出最新AI音乐生成模型:Lyria 3
2月18·周三Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6Anthropic发布了Claude Sonnet 4.6模型。新模型在编程、Agent规划和计算机使用等办公场景性能显著提升,在多项基准测试中其智能水平接近甚至超越了自家的旗舰模型Opus 4.6。拥有100万token的上下文窗口,能以一次调用重构整个代码库。其价格与上一代持平,但性价比较高,已在claude.ai平台和亚马逊云AWS上线。来源:智东西2月16·周一通义千问团队正式发布新一代模型Qwen3.5通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型2月14·周六豆包大模型2.0正式发布字节跳动今日宣布豆包大模型正式进入2.0阶段,
Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6
全球首个面向AI智能体的进化协作平台EvoMap。通过独创的基因进化协议(GEP),将智能体在任务中积累的成功策略封装为标准化的“基因胶囊”,通过去中心化网络实现全球共享、验证与继承,解决AI智能体生态中“经验孤岛”的痛点。来源:AI工具集 千寻智能近日完成近20亿元人民币融资,资本方覆盖顶级、产业、国有及战投机构,阵容强大。其开源模型Spirit v1.5在性能上超越了Pi0.5,凭借独特的“数据金字塔”训练理念和低成本数据采集技术,构筑了核心竞争壁垒。来源:千寻智能Spirit AI
通义千问团队正式发布新一代模型Qwen3.5
Anthropic发布了Claude Sonnet 4.6模型。新模型在编程、Agent规划和计算机使用等办公场景性能显著提升,在多项基准测试中其智能水平接近甚至超越了自家的旗舰模型Opus 4.6。拥有100万token的上下文窗口,能以一次调用重构整个代码库。其价格与上一代持平,但性价比较高,已在claude.ai平台和亚马逊云AWS上线。来源:智东西 通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型
豆包大模型2.0正式发布
通义千问团队正式发布新一代模型Qwen3.5系列。旗舰模型Qwen3.5-397B-A17B是一款原生多模态模型,采用创新的混合注意力与稀疏MoE架构,在推理效率上相比前代模型有数倍提升。模型在指令遵循、通用智能体、视觉语言、空间智能与视频理解等多个维度的前沿基准测试中,与GPT-5.2、Claude 4.5、Gemini 3 Pro等顶尖模型同台竞技,展现出了全面且领先的综合性能。来源:千问大模型 字节跳动今日宣布豆包大模型正式进入2.0阶段,发布Seed2.0,包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化,在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异,综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。来源:字节跳动
阿里云通义 CoPaw 发布:对标 OpenClaw
“思考”更深,生成更准|Seedream 5.0 Lite 发布字节跳动发布新一代多模态AI模型Seedream 5.0 Lite。该版本不追求更高分辨率,而是大幅强化模型的“思考”与“推理”能力,包括视觉推理、信息可视化、风格迁移和精准图片编辑等。核心亮点是首次引入实时检索增强能力,可结合网络实时信息进行创作。来源:字节跳动Seed
“思考”更深,生成更准|Seedream 5.0 Lite 发布
灵心巧手宣布完成近15亿元B轮融资灵心巧手宣布完成了近15亿元人民币的B轮融资,由道得投资、盛世投资领投。这是该公司在2025年以来的第6轮融资。其核心产品是Linker Hand系列灵巧手,覆盖多种技术路线,其中Linker Hand O6为全球最轻灵巧手。来源:智东西
灵心巧手宣布完成近15亿元B轮融资
2月13·周五MiniMax M2.5 发布:1美金/小时,真实世界工作王者MiniMax正式发布M2.5模型,其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率,在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。来源:MiniMax稀宇科技Anthropic 宣布完成高达 300 亿美元的 G 轮融资AI公司Anthropic(即Claude的研发公司)宣布完成高达300亿美元的G轮融资,投后估值达3800亿美元,创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投,多家顶级资本参与。来源:APPSO谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理
MiniMax M2.5 发布:1美金/小时,真实世界工作王者
字节跳动今日宣布豆包大模型正式进入2.0阶段,发布Seed2.0,包含Pro、Lite、Mini和Code四个版本。新版本围绕现实复杂任务进行系统性优化,在推理、多模态理解和复杂指令执行能力上显著提升。豆包2.0 Pro在多项顶尖学术与推理基准测试中表现优异,综合能力达到或超越GPT 5.2与Gemini 3 Pro等顶尖模型。来源:字节跳动 AgentScope团队正式发布个人智能体“CoPaw”,定位为“协同个人智能体工作台”,成为用户可本地部署的专属智能搭档。相较于其前身OpenClaw,CoPaw聚焦于极简安装与统一体验,既支持用户本地电脑(macOS/Windows/Linux)通过简单命令快速部署,也支持在“魔搭创空间”一键云端部署。来源:通义实验室
Anthropic 宣布完成高达 300 亿美元的 G 轮融资
谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级谷歌发布了Gemini 3 Deep Think模型的重大升级。新版模型在多项顶尖基准测试中刷新纪录,尤其在竞技编程平台Codeforces获得3455分的Elo评级,在全球排名第八,仅有7位顶尖程序员能在比赛中胜过它。模型在ARC-AGI-2推理基准、“人类的最后考试”(不使用工具)、物理及化学奥林匹克笔试等多个学术竞赛中取得了金牌级别的领先成绩。来源:机器之心
谷歌宣布 Gemini 3 Deep Think 深度思考大模型升级
OpenAI 发布 GPT-5.3-Codex-Spark :专为实时编程而生OpenAI联合Cerebras推出主打实时编程的新模型GPT-5.3-Codex-Spark。模型针对高速软件开发场景优化,能以超过每秒1000个token的速度进行推理,实现近乎即时的编码反馈,以解决AI长时间自主编程时开发者等待过长、掌控感降低的问题。来源:IT之家
OpenAI 发布 GPT-5.3-Codex-Spark :专为实时编程而生
2月12·周四智谱最新旗舰模型 GLM-5 开源:编程、智能体能力取得开源 SOTA智谱AI开源GLM-5大模型,其参数规模扩展至744B(激活40B),预训练数据达28.5T,在Coding与Agent能力上实现开源SOTA,综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型,能端到端完成复杂系统工程与长程Agent任务,支持自动售货机经营模拟等资源规划场景。来源:智谱Z Code推出ADE智能体开发环境,实现“对话即编程”新范式智谱AI正式发布Z Code全新版本,首次定义ADE(智能体开发环境),通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理,内置实时预览浏览器与会话级版本管理功能,可灵活调度Claude Code等主流工具链。来源:Z CodeLongCat 发布原生「深度研究」智能体美团旗下LongCat正式上线“深度研究”智能体功能,依托美团本地生活真实交易数据与行业洞察,为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力
智谱最新旗舰模型 GLM-5 开源:编程、智能体能力取得开源 SOTA
MiniMax正式发布M2.5模型,其在编程、搜索工具调用、办公等高阶生产力场景性能达到或刷新行业SOTA水平。模型显著提升了任务拆解能力和推理效率,在编程基准SWE-Bench Verified上完成任务的速度比上一代M2.1快37%。来源:MiniMax稀宇科技 AI公司Anthropic(即Claude的研发公司)宣布完成高达300亿美元的G轮融资,投后估值达3800亿美元,创造了AI公司单轮股权融资的新纪录。本轮融资由新加坡主权基金GIC和Coatue领投,多家顶级资本参与。来源:APPSO
Z Code推出ADE智能体开发环境,实现“对话即编程”新范式
LongCat 发布原生「深度研究」智能体美团旗下LongCat正式上线“深度研究”智能体功能,依托美团本地生活真实交易数据与行业洞察,为用户生成个性化吃喝玩乐攻略。智能体具备长程任务规划与多工具调用能力,支持400轮交互与256K上下文处理,在BrowseComp、MCP-Atlas等权威评测中达到开源模型SOTA水平。来源:龙猫LongCat
LongCat 发布原生「深度研究」智能体
2月11·周三讯飞星火X2大模型正式发布,API同步上线科大讯飞发布基于全国产算力训练的星火X2大模型,其通用能力全面升级,在数学、推理、语言理解等核心指标上对标国际顶尖模型,130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化,推理性能较X1.5提升50%,并实现单台国产昇腾服务器部署。来源:讯飞开放平台国产AI互动应用Loopit获马斯克公开点赞国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发,主打“AI互动内容生成”,用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容,并能对他人作品进行“魔改”二次创作。来源:AI工具集阿里达摩院开源具身智能大脑基础模型 RynnBrain阿里达摩院开源业界首个具身大脑基础模型RynnBrain,具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B,采用MoE架构实现高效推理,仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型,攻克了机器人“转身即忘”的物理世界认知难题。来源:量子位2月10·周二字节又一新模型:Seedream
讯飞星火X2大模型正式发布,API同步上线
智谱AI开源GLM-5大模型,其参数规模扩展至744B(激活40B),预训练数据达28.5T,在Coding与Agent能力上实现开源SOTA,综合表现逼近Claude Opus 4.5。该模型在SWE-bench、Terminal Bench等编程基准中领先开源模型,能端到端完成复杂系统工程与长程Agent任务,支持自动售货机经营模拟等资源规划场景。来源:智谱 智谱AI正式发布Z Code全新版本,首次定义ADE(智能体开发环境),通过图形化界面将复杂CLI交互转化为多智能体协作平台。环境支持可视化配置管理、跨设备远程开发及多任务并行处理,内置实时预览浏览器与会话级版本管理功能,可灵活调度Claude Code等主流工具链。来源:Z Code
国产AI互动应用Loopit获马斯克公开点赞
阿里达摩院开源具身智能大脑基础模型 RynnBrain阿里达摩院开源业界首个具身大脑基础模型RynnBrain,具备时空记忆与物理空间推理能力。模型系列参数规模从2B到30B,采用MoE架构实现高效推理,仅激活3B参数即超越72B模型性能。在20项具身基准测试中全面领先英伟达、谷歌等顶尖模型,攻克了机器人“转身即忘”的物理世界认知难题。来源:量子位
阿里达摩院开源具身智能大脑基础模型 RynnBrain
2月10·周二字节又一新模型:Seedream 5.0上线!字节跳动图像生成模型Seedream 5.0正式上线,在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出,重点提升提示词理解准确性、细节纹理渲染和智能推理能力,并新增联网搜索功能。来源:智东西千问最新图像基座模型Qwen-Image-2.0,正式发布!阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一,在AI Arena评测中以1029分位列全球图像生成第三名,图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解,可生成专业PPT、多格漫画等高质量图片。来源:阿里云首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit,等效参数量仅0.3B,内存占用600MB,比常用手机应用更小。模型通过2比特量化感知训练实现,在保持原模型全思考能力的同时,生成速度提升2-3倍,可在手机、智能家居等边缘设备无压力
字节又一新模型:Seedream 5.0上线!
科大讯飞发布基于全国产算力训练的星火X2大模型,其通用能力全面升级,在数学、推理、语言理解等核心指标上对标国际顶尖模型,130+多语言能力持续领先。星火X2采用293B MoE稀疏架构与多项工程优化,推理性能较X1.5提升50%,并实现单台国产昇腾服务器部署。来源:讯飞开放平台 国产AI应用Loopit引发海外社交媒体热议。产品由百川智能联合创始人陈炜鹏团队开发,主打“AI互动内容生成”,用户通过文字描述即可自动生成可点击、可滑动、可参与的交互内容,并能对他人作品进行“魔改”二次创作。来源:AI工具集
千问最新图像基座模型Qwen-Image-2.0,正式发布!
首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit腾讯混元推出产业级2Bit端侧模型HY-1.8B-2Bit,等效参数量仅0.3B,内存占用600MB,比常用手机应用更小。模型通过2比特量化感知训练实现,在保持原模型全思考能力的同时,生成速度提升2-3倍,可在手机、智能家居等边缘设备无压力部署。来源:腾讯混元
首个产业级2Bit量化新突破,腾讯混元推出0.3B端侧模型HY-1.8B-2Bit
大晓机器人完成天使轮融资大晓机器人近日完成天使轮融资,由蚂蚁集团领投,启明创投、金景资本等多家机构跟投。融资将用于推进”以人为中心”的ACE具身全栈研发范式,加速环境式数据采集和开悟世界模型3.0的研发。来源:商汤科技SenseTime
大晓机器人完成天使轮融资
2月9·周一字节跳动推出新一代AI视频生成模型Seedance 2.0字节跳动推出新一代AI视频生成模型Seedance 2.0,支持多模态参考生成,可同时上传图片、视频、音频等最多12个参考文件,精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑,用户可直接修改不满意部分,显著降低废片率。来源:AI工具集Skywork推出SkyBot——最适合小白用户的OpenClaw工具天工Skywork推出SkyBot,号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造,用户无需配置硬件或命令行,点击即可领取7×24小时云端AI助理。来源:昆仑万维集团智谱清言APP正式上线「学习搭子」随时随地,马上学智谱清言APP正式上线”学习搭子”功能,支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目,现移动端全面开放,无需邀请码即可体验。来源:智谱清言腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy腾讯推出全场景AI办公助手WorkBuddy,正式开放内测申请。产品定位为桌面智能工作台,支持自然
字节跳动推出新一代AI视频生成模型Seedance 2.0
字节跳动图像生成模型Seedream 5.0正式上线,在剪映、CapCut、小云雀等平台开放限时免费体验。新模型支持2K/4K分辨率输出,重点提升提示词理解准确性、细节纹理渲染和智能推理能力,并新增联网搜索功能。来源:智东西 阿里巴巴发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token长文本输入和2K高分辨率输出。模型首次将图像生成与编辑功能统一,在AI Arena评测中以1029分位列全球图像生成第三名,图像编辑得分1034。突出优势在于优秀的中文文字渲染能力和复杂指令理解,可生成专业PPT、多格漫画等高质量图片。来源:阿里云
Skywork推出SkyBot——最适合小白用户的OpenClaw工具
智谱清言APP正式上线「学习搭子」随时随地,马上学智谱清言APP正式上线”学习搭子”功能,支持用户随时随地利用碎片化时间进行学习。该功能网页端上线两周内已创建超1.2万个学习项目,现移动端全面开放,无需邀请码即可体验。来源:智谱清言
智谱清言APP正式上线「学习搭子」随时随地,马上学
腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy腾讯推出全场景AI办公助手WorkBuddy,正式开放内测申请。产品定位为桌面智能工作台,支持自然语言交互,能听懂指令后自主操作本地文件,实现PPT生成、数据整理、知识库构建等复杂任务。与聊天机器人不同,WorkBuddy强调“执行能力”,可像真实同事一样交付成果。来源:腾讯云代码助手
腾讯推出全场景职场 AI 智能体桌面工作台WorkBuddy
2月6·周五OpenAI发布新一代编程模型:GPT-5.3-CodexOpenAI推出新一代编程模型GPT-5.3-Codex,宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩,编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力,速度提升25%,能参与自身开发优化。来源:智东西Anthropic发布新一代AI模型Claude Opus 4.6Anthropic发布新一代AI模型Claude Opus 4.6,具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越:16个AI代理两周内写出可编译Linux的C编译器,自主发现500多个零日漏洞,在GDPval-AA评测中超越GPT-5.2。来源:量子位AI营销平台PallasAI 完成数千万元融资AI营销平台PallasAI完成数千万元融资,由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品,通过可见性评分、营销图谱和Agent内容协作三大功能,帮助中小企业量化品牌在AI生态
OpenAI发布新一代编程模型:GPT-5.3-Codex
字节跳动推出新一代AI视频生成模型Seedance 2.0,支持多模态参考生成,可同时上传图片、视频、音频等最多12个参考文件,精准复刻运镜逻辑与动作细节。该模型突破在于融合AI生成与后期编辑,用户可直接修改不满意部分,显著降低废片率。来源:AI工具集 天工Skywork推出SkyBot,号称全球最适合小白用户的OpenClaw工具。该产品将火爆的AI代理OpenClaw进行云端化改造,用户无需配置硬件或命令行,点击即可领取7×24小时云端AI助理。来源:昆仑万维集团
Anthropic发布新一代AI模型Claude Opus 4.6
AI营销平台PallasAI 完成数千万元融资AI营销平台PallasAI完成数千万元融资,由有赞独家投资。公司推出行业首款标准化GEO AI Agent产品,通过可见性评分、营销图谱和Agent内容协作三大功能,帮助中小企业量化品牌在AI生态中的曝光度。来源:Founder Park
AI营销平台PallasAI 完成数千万元融资
生数科技宣布完成超过6亿元人民币A+轮融资北京生数科技宣布完成超6亿元A+轮融资,创下国内视频生成领域单笔融资新纪录。公司由清华大学背景团队创立,其Vidu Q3视频生成模型在专业影视制作场景中表现突出,位列全球第二,客户覆盖索尼、腾讯、字节跳动等企业。来源:智东西
生数科技宣布完成超过6亿元人民币A+轮融资
2月5·周四可灵AI正式迈入3.0时代!可灵AI正式升级至3.0版本,推出可灵3.0模型系列。实现多模态输入输出一体化,重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化,新增智能分镜功能,可自动调度景别与机位,视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力,图片3.0 Omni新增深度叙事与组图批量创作功能。来源:可灵AI面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5面壁智能开源新一代全模态模型MiniCPM-o 4.5,模型具备”边看、边听、主动说”的全双工交互能力,让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能,在视觉理解、文档解析、语音生成等方面表现优异,支持实时感知与主动响应。来源:面壁智能上海AI实验室开源科学多模态大模型Intern-S1-Pro上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构,总参数1万亿,激活参数220亿。基于“通专融合”SAGE技术,具备奥赛级数理推理能力,可精准解析多模态科学内容,覆盖化学、材料、生命、地球、物理等学科。来源:AI工具集Mi
可灵AI正式迈入3.0时代!
OpenAI推出新一代编程模型GPT-5.3-Codex,宣称为全球最强智能体编程模型。模型在SWE-Bench Pro和Terminal-Bench 2.0测试中取得SOTA成绩,编程得分较Claude Opus 4.6高11.9%。具备调试、部署及办公软件操作能力,速度提升25%,能参与自身开发优化。来源:智东西 Anthropic发布新一代AI模型Claude Opus 4.6,具备100万token上下文窗口和自适应思考能力。在编程、金融分析、办公软件操作等领域表现卓越:16个AI代理两周内写出可编译Linux的C编译器,自主发现500多个零日漏洞,在GDPval-AA评测中超越GPT-5.2。来源:量子位
面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5
上海AI实验室开源科学多模态大模型Intern-S1-Pro上海AI实验室开源了万亿参数科学多模态大模型Intern-S1-Pro。模型采用MoE架构,总参数1万亿,激活参数220亿。基于“通专融合”SAGE技术,具备奥赛级数理推理能力,可精准解析多模态科学内容,覆盖化学、材料、生命、地球、物理等学科。来源:AI工具集
上海AI实验室开源科学多模态大模型Intern-S1-Pro
Mistral AI 推出新一代语音转文本模型Voxtral Transcribe 2Mistral AI 推出的新一代语音转文本模型Voxtral Transcribe 2,包含两个版本。Voxtral Mini 支持 13 种语言的高精度转录,具备说话人分离、词级时间戳和上下文偏置功能,适合批量转录。Voxtral Realtime 专为实时场景设计,延迟低至 200 毫秒以下,适合语音助手等交互应用。来源:AI工具集
Mistral AI 推出新一代语音转文本模型Voxtral Transcribe 2
2月4·周三通义千问 Qwen3-Coder-Next 开源:小而强!通义开源Qwen3-Coder-Next编程智能体模型,采用80B总参数的MoE架构,每次推理仅激活3B参数,显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率,性能接近更大规模的稠密模型。来源:通义大模型昆仑天工面向全球发布“Skywork桌面版”昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。来源:昆仑万维集团2月3·周二智谱GLM-OCR发布:性能SOTA,搞定复杂文档智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批
通义千问 Qwen3-Coder-Next 开源:小而强!
可灵AI正式升级至3.0版本,推出可灵3.0模型系列。实现多模态输入输出一体化,重新定义AI视频工作流。视频3.0模型在叙事与控制方面深度进化,新增智能分镜功能,可自动调度景别与机位,视频3.0 Omni进一步提升了主体相似度与复杂指令响应能力,图片3.0 Omni新增深度叙事与组图批量创作功能。来源:可灵AI 面壁智能开源新一代全模态模型MiniCPM-o 4.5,模型具备”边看、边听、主动说”的全双工交互能力,让人机交互从回合制升级为即时自由对话。通过9B参数实现全模态SOTA性能,在视觉理解、文档解析、语音生成等方面表现优异,支持实时感知与主动响应。来源:面壁智能
昆仑天工面向全球发布“Skywork桌面版”
2月3·周二智谱GLM-OCR发布:性能SOTA,搞定复杂文档智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批量处理,吞吐量达1.86页/秒。来源:智谱元气AI Bot正式上线:国产AI助手实现电脑自动化操控猎豹公司推出首款国产Clawbot工具“元气AI Bot”,支持在普通Windows电脑本地部署,用户可通过手机飞书或钉钉远程控制,用自然语言指令让AI自动操作电脑,如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能,推出多款个性化AI伙伴角色。来源:AI工具集马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元马斯克正式宣布SpaceX完成对xAI的收购,合并后公司估值达1.25万亿美元,每股发行价526.59美元。马斯克在内部信中表示,此次整合将打造”地球上最具雄心的
智谱GLM-OCR发布:性能SOTA,搞定复杂文档
通义开源Qwen3-Coder-Next编程智能体模型,采用80B总参数的MoE架构,每次推理仅激活3B参数,显著降低算力需求。在SWE-Bench Verified基准上取得超70%的问题解决率,性能接近更大规模的稠密模型。来源:通义大模型 昆仑天工全球发布“Skywork桌面版”AI应用,支持Windows系统本地化运行,无需上传文件至云端。可跨格式理解并处理电脑中的文档、图片、视频等文件,实现多任务并行与内容生成。用户可选择Claude或Gemini模型,并自动调用百余项内置技能。来源:昆仑万维集团
元气AI Bot正式上线:国产AI助手实现电脑自动化操控
马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元马斯克正式宣布SpaceX完成对xAI的收购,合并后公司估值达1.25万亿美元,每股发行价526.59美元。马斯克在内部信中表示,此次整合将打造”地球上最具雄心的垂直创新引擎”,涵盖AI、火箭技术、太空互联网等多领域。合并后,SpaceX将推进在太空部署数据中心的计划,利用太空太阳能资源降低AI算力成本。来源:量子位
马斯克宣布SpaceX完成对xAI的收购,估值达1.25万亿美元
马斯克旗下 xAI 发布 Grok Imagine 1.0马斯克旗下的人工智能公司xAI正式发布Grok Imagine 1.0版本,是该AI视频生成工具的重大升级。新版本支持生成10秒时长、720p分辨率的视频,显著提升了音频质量,实现了音画同步与情感化配音功能。来源:AI工具集
马斯克旗下 xAI 发布 Grok Imagine 1.0
2月2·周一阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!阶跃星辰发布新一代开源基座模型Step 3.5 Flash,专为 Agent 场景设计。模型采用稀疏 MoE 架构,具备 1960 亿参数,每个 token 仅激活约 110 亿参数,支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS,在 Agent 任务和数学推理上媲美闭源模型,并通过 MTP-3 技术实现单次预测 3 个 token,显著提升效率。来源:阶跃星辰Qoder首个定制模型 Qwen-Coder-QoderQoder智能编程平台上线首个定制模型Qwen-Coder-Qoder,5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座,针对Qoder的Agent框架进行深度优化,在真实软件工程评测集上任务解决率超过Cursor Composer-1,Windows系统终端命令准确率领先50%。来源:Qoder「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式跨赴科技近日完成数千万元Pre-A+轮融资,由哈勃投资和正扬投资领投,老
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B参数实现”小尺寸、高精度”的文档解析能力。模型在权威评测OmniDocBench V1.5中以94.6分登顶,在文本识别、公式识别、表格解析及信息抽取等任务中均取得SOTA表现。特别针对手写体、复杂表格、代码文档等高难场景进行优化,支持PDF和图像批量处理,吞吐量达1.86页/秒。来源:智谱 猎豹公司推出首款国产Clawbot工具“元气AI Bot”,支持在普通Windows电脑本地部署,用户可通过手机飞书或钉钉远程控制,用自然语言指令让AI自动操作电脑,如打开软件、查看邮件、浏览网页等。工具集成系统清理、AI写作、PPT生成等办公辅助功能,推出多款个性化AI伙伴角色。来源:AI工具集
Qoder首个定制模型 Qwen-Coder-Qoder
「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式跨赴科技近日完成数千万元Pre-A+轮融资,由哈勃投资和正扬投资领投,老股东奇绩创坛跟投,距上一轮融资仅四个月。核心产品“CodeFlying码上飞”年度经常性收入已突破1000万元,海外业务快速增长。来源:KuaFuAI
「跨赴科技」再获数千万融资,产业方加持领跑AI开发新范式
Vidu Q3 全球震撼来袭,为「剧」而生!Vidu Q3全球震撼来袭,作为全球首个支持16秒音视频直出的AI视频生成模型,专为漫剧、短剧、影视剧创作设计。模型实现声画同步高清直出,支持多镜头自由切换、多语言对话与文字渲染,具备电影级视听张力,让AI视频进入”一键成片”时代。来源:Vidu AI
Vidu Q3 全球震撼来袭,为「剧」而生!
1月30·周五宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作宇树科技宣布开源视觉-语言-动作大模型UnifoLM-VLA-0。模型基于Qwen2.5-VL-7B架构,通过340小时真机数据训练,融合2D/3D空间感知与动力学预测能力,突破传统VLM在物理交互中的局限。来源:IT之家商汤开源SenseNova-MARS:突破多模态搜索推理天花板商汤科技开源多模态自主推理模型SenseNova-MARS(8B/32B双版本),模型在MMSearch、HR-MMSearch等核心基准测试中以69.74分综合得分超越Gemini-3-Pro(69.06分)与GPT-5.2(67.64分),成为首个支持动态视觉推理与图文搜索深度融合的开源Agentic VLM。来源:商汤科技SenseTimeQwen3-ASR开源:够稳定,能流式,多语言!阿里云千问团队开源Qwen3-ASR系列语音识别模型,包含1.7B/0.6B参数版本及强制对齐模型。该系列支持52种语言与方言识别,覆盖中文22种地方口音及多国英语变体,在嘈杂环境、歌唱场景下均表现稳定。来源:千问QwenOpenAI宣布
宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作
阶跃星辰发布新一代开源基座模型Step 3.5 Flash,专为 Agent 场景设计。模型采用稀疏 MoE 架构,具备 1960 亿参数,每个 token 仅激活约 110 亿参数,支持 256K 上下文长度。核心优势包括推理速度最高达 350 TPS,在 Agent 任务和数学推理上媲美闭源模型,并通过 MTP-3 技术实现单次预测 3 个 token,显著提升效率。来源:阶跃星辰 Qoder智能编程平台上线首个定制模型Qwen-Coder-Qoder,5个月内完成”模型-智能体-产品”全形态布局。该模型基于Qwen-Coder基座,针对Qoder的Agent框架进行深度优化,在真实软件工程评测集上任务解决率超过Cursor Composer-1,Windows系统终端命令准确率领先50%。来源:Qoder
腾讯WorkBuddy正式上线:免部署版”小龙虾”AI智能体来了
AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息! 腾讯旗下全场景AI智能体WorkBuddy正式上线,被称为腾讯版”小龙虾”(OpenClaw)。产品完全兼容OpenClaw技能,但无需复杂部署,下载安装后即可使用,1分钟完成企业微信配置。WorkBuddy内置20多种Skills技能包,支持多窗口、多Agent并行工作,可无缝切换Hunyuan、DeepSeek、GLM等主流模型,并具备企业级安全审计能力。来源:腾讯云