IT之家 10 月 13 日音问苏畅 麻豆,苹果公司现已为旗下多模态大模子 MM 推出 1.5 版块,该版块模子基于前代 MM1 的架构,连续延续数据运转的考试原则,要点洽商在不同考试周期中羼杂不同类型数据对模子性能的影响。
现在联系模子文档已发布于 Hugging Face 上,IT之家附论文地址如下(点此打听)。
该版块模子提供 10 亿-300 亿多种参数限制,领有图像识别和当然言语推理才调。苹果公司研发东谈主员在新版块中鼎新了数据混悉数谋,显赫晋升了模子在多文本图像默契、视觉援用与定位(Grounding)以及多图像推理方面的才调。
参考论文,团队在 MM1.5 的合手续预考试阶段引入了高质料的 OCR 数据和合成图像描述,显赫晋升了模子对包含渊博文本的图像的默契才调。
此外,洽商东谈主员在监督式微调阶段分析了不同数据类型对模子发达的影响,优化了视觉提醒微调数据的羼杂容颜,从而为模子杀青了更高的效果,团队暗示,即就是小限制的模子(10、30 亿参数版块)也能发达出色。
值得护理的是,苹果公司本次还推出了有益用于视频默契的 MM1.5-Video 模子和有益解决出动竖立用户界面(UI)默契的 MM1.5-UI 模子,其中 MM1.5-UI 模子将来有望动作 iOS 幕后的“苹果牌”AI,其大要解决多样视觉援用与定位任务、回顾屏幕上的功能,或者通过与用户的对话进行交互。
尽管 MM1.5 模子在多项基准测试中获得了优秀发达,苹果团队仍操办通过进一步和会文本、图像和用户交互数据,狡计更复杂的架构,来晋升模子对出动竖立 UI 的默契才调苏畅 麻豆,加强“苹果牌”AI 的实力。