每日追踪平台

足不出户了解动态

Mistral推出新型开源权重前沿模型与小型模型

  法国人工智能初创公司Mistral(Mistral)于周二推出了全新的 “Mistral 3” 系列开源权重模型。此次共发布 10 款模型,其中包括 1 款具备多模态与多语言能力的大型前沿模型,以及 9 款支持离线运行、可完全定制的小型模型。

  Mistral主营开源权重语言模型开发,并推出了聚焦欧洲市场的人工智能聊天机器人 “Le Chat”。此前,该公司似乎一直在追赶硅谷部分闭源前沿模型的步伐。这家由前深度思维(DeepMind)和元宇宙平台公司(Meta)研究人员创立、成立仅两年的初创企业,迄今已筹集约 27 亿美元资金,估值达 137 亿美元。然而,与 OpenAI(融资 570 亿美元,估值 5000 亿美元)、Anthropic(融资 450 亿美元,估值 3500 亿美元)等竞争对手的规模相比,这一数字仍不值一提。

  但Mistral正试图证明,“越大并非总是越好”—— 对于企业级应用场景而言尤其如此。

  “我们的客户有时会乐于从无需微调的大型闭源模型起步…… 但在部署时,他们会发现这类模型成本高、速度慢,” Mistral联合创始人兼首席科学家纪尧姆・兰普尔(Guillaume Lample)向 TechCrunch 表示,“随后,他们会寻求我们的帮助,通过微调小型模型来更高效地应对具体应用场景。”

  兰普尔进一步指出:“实际上,绝大多数企业级应用场景都可通过小型模型解决,尤其是在经过微调的情况下。”

  兰普尔称,初步基准测试显示Mistral的小型模型性能远落后于闭源竞争对手,但这类测试可能具有误导性。大型闭源模型 “开箱即用” 时性能或许更优,但真正的优势会在定制化过程中体现。

  他表示:“在许多情况下,(经过定制的小型开源模型)实际上能达到甚至超越闭源模型的性能。”

  Mistral的大型前沿模型名为 “Mistral Large 3”,该模型已具备部分重要能力,可与 OpenAI 的 GPT-4o、谷歌的 Gemini 2 等大型闭源人工智能模型相媲美,同时也能与多款开源权重竞争对手一较高下。Mistral Large 3 是首批集成多模态与多语言能力的开源前沿模型之一,性能与元宇宙平台公司的 Llama 3、阿里巴巴的 Qwen3-Omni 相当。目前,许多企业会将高性能大型语言模型与独立的小型多模态模型搭配使用,Mistral此前推出的 Pixtral、Mistral Small 3.1 等模型也采用过这种模式。

  Mistral Large 3 还采用了 “精细化混合专家”(granular Mixture of Experts)架构,活跃参数达 410 亿,总参数达 6750 亿,可在 25.6 万个上下文窗口内实现高效推理。该设计兼顾速度与性能,既能处理长文档,又可作为智能助手支持复杂企业任务。Mistral将 Mistral Large 3 定位为适用于文档分析、代码编写、内容创作、人工智能助手及工作流自动化的模型。

  Mistral将其新推出的小型模型系列命名为 “Ministral 3”,并大胆宣称:小型模型不仅能满足需求,其性能更具优势。

  该系列包含 9 款性能卓越的密集型模型,分为 3 种参数规模(140 亿、80 亿、30 亿参数)和 3 种变体:基础版(Base,预训练基础模型)、指令版(Instruct,针对对话与助手式工作流优化)、推理版(Reasoning,针对复杂逻辑与分析任务优化)。

  Mistral表示,这种多样化选择能让开发者与企业灵活匹配模型性能 —— 无论是追求原始性能、成本效率,还是特定功能需求,都能找到对应模型。该公司称,Ministral 3 的评分与其他开源权重领先模型相当甚至更优,同时效率更高,在完成同等任务时生成的 tokens(符号)数量更少。所有变体均支持视觉功能,可处理 12.8 万 - 25.6 万个上下文窗口,并支持多语言。

  实用性是该系列模型的核心卖点之一。兰普尔强调,Ministral 3 可在单块 GPU 上运行,这使其能部署在经济实惠的硬件上 —— 从本地服务器到笔记本电脑、机器人,再到其他可能存在网络限制的边缘设备。这一点不仅对需在内部存储数据的企业至关重要,对需离线获取反馈的学生、在偏远环境作业的机器人团队也同样有意义。兰普尔认为,更高的效率直接意味着更广的可及性。

  “确保所有人都能接触到人工智能,尤其是没有网络连接的人群,这是我们使命的一部分,” 他表示,“我们不希望人工智能仅由少数几家大型实验室掌控。”

  目前已有其他企业在追求类似的 “效率权衡”:Cohere 最新的企业级模型 Command A 仅需两块 GPU 即可运行,其人工智能助手平台 North 甚至可在单块 GPU 上运行。

  这种可及性正推动Mistral日益聚焦物理人工智能领域。今年早些时候,该公司已开始着手将小型模型集成到机器人、无人机与车辆中。Mistral正与新加坡内政团队科学技术局(HTX)合作开发适用于机器人、网络安全系统及消防安全的专用模型;与德国国防科技初创公司 Helsing 合作开发适用于无人机的 “视觉 - 语言 - 动作” 模型;还与汽车制造商斯特兰蒂斯集团(Stellantis)合作开发车载人工智能助手。

  对Mistral而言,可靠性与自主性的重要性不亚于性能。

  兰普尔表示:“如果使用竞争对手的 API(应用程序接口),每两周就会出现半小时的宕机 —— 对于大公司来说,这种情况是无法承受的。”

网站分类
搜索
文章归档

Powered By Z-BlogPHP 1.7.4