2026年3月19日凌晨,小米集团正式宣布推出三款自研大模型——MiMo-V2-Pro、MiMo-V2-Omni与MiMo-V2-TTS,标志着其在人工智能领域的核心能力迈入全新阶段。此次发布的三款模型聚焦“感知-决策-执行”全栈能力闭环,覆盖文本、多模态与语音合成场景,旨在推动消费级AI Agent的规模化落地。

旗舰模型MiMo-V2-Pro:专为高强度Agent场景而生

作为小米面向Agent时代的旗舰基座模型,MiMo-V2-Pro以超1万亿总参数量(420亿激活参数)与1M超长上下文支持能力脱颖而出。其创新混合注意力架构(7:1比例)兼顾高性能与低延迟,可实现复杂工具调用、长程规划与多步推理,在代码工程、自动化工作流等场景中表现接近Claude Opus 4.6水平,但API定价仅为后者的1/5。目前,该模型已在全球权威榜单Artificial Analysis中位列全球第八、国内第二,并在OpenClaw、Claude Code等框架中完成真实复杂应用流验证。

全模态模型Omni:打通多模态交互与执行链路

MiMo-V2-Omni是小米首款全模态Agent基座模型,原生融合文本、视觉、音频感知能力,支持跨模态理解与实时交互。通过统一架构绑定“感知”与“行动”,该模型可实现从图像识别、语音指令到设备控制的端到端执行,适用于智能家居、机器人等复杂场景。目前,Omni已开放API服务,256K上下文输入/输出定价为0.4美元/2美元(每百万tokens),性价比优势显著。

语音合成模型TTS:赋予Agent情感化表达能力

MiMo-V2-TTS基于自研Audio Tokenizer技术,支持多风格、高表现力的语音合成,可模拟不同年龄、性别与情绪的声线,为AI Agent增添“温度”。该模型与Pro、Omni形成互补,构成小米AI全栈能力的最后一环,适用于智能客服、虚拟陪伴等场景。

开放生态与开发者支持

为加速模型落地,小米联合OpenClaw、OpenCode等五大Agent框架团队,提供三款模型为期一周的限时免费接口支持。开发者可通过小米浏览器、金山办公等平台接入API,快速构建智能应用。此外,小米创始人雷军透露,公司2026年将在AI领域投入超160亿元,持续拓展模型在消费电子、汽车等场景的应用边界。

行业评价:从“参数竞赛”到“场景落地”的突破

业内人士指出,小米此次发布的三款模型精准回应了AI行业当前的核心痛点——如何将大模型能力转化为实际生产力。通过聚焦Agent场景的深度优化与成本控制,小米正推动AI技术从“演示可用”向“全场景好用”进化,为消费级智能体商业化树立新标杆。

目前,MiMo-V2-Pro与MiMo-V2-Omni的API服务已正式上线,开发者可登录小米官方平台申请使用。