Llama系列上新多模态！3.2版本开源超闭源，还和Arm联手搞了手机优化版，Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

Llama系列上新多模态！3.2版本开源超闭源，还和Arm联手搞了手机优化版，Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了！

在这里插入图片描述

在多模态领域，开源模型也超闭源了！

就在刚刚结束的Meta开发者大会上，Llama 3.2闪亮登场：

这回不仅具备了多模态能力，还和Arm等联手，推出了专门为高通和联发科硬件优化的“移动”版本。

具体来说，此次Meta一共发布了Llama 3.2的4个型号：

110亿和900亿参数的多模态版本

10亿参数和30亿参数的轻量级纯文本模型

官方数据显示，与同等规模的“中小型”大模型相比，Llama 3.2 11B和90B表现出了超越闭源模型的性能。

尤其是在图像理解任务方面，Llama 3.2 11B超过了Claude 3 Haiku，而90B版本更是能跟GPT-4o-mini掰掰手腕了。

而专为端侧打造的3B版本，在性能测试中表现也优于谷歌的Gemma 2 2.6B和微软的Phi 3.5-mini。

如此表现，着实吸引了不少网友的关注。

有人兴奋地认为，Llama 3.2的推出可能再次“改变游戏规则”：

端侧AI正在变得越来越重要。

首个视觉🦙
有关Llama 3.2具体能做什么，这次官方也释出了不少demo。

先看个汇总：Llama 3.2 11B和90B支持一系列多模态视觉任务，包括为图像添加字幕、根据自然语言指令完成数据可视化等等。

在这里插入图片描述

举个🌰，丢给Llama 3.2一张图片，它能把图片中的元素一一拆解，告诉你详细的图片信息：
在这里插入图片描述

同样，也可以反过来根据文字指令找出符合用户需求的图片。

在这里插入图片描述

Llama 3.2 11B和90B也是首批支持多模态任务的Llama系列模型，为此，Meta的研究人员打造了一个新的模型架构。

在Llama 3.1的基础之上，研究人员在不更新语言模型参数的情况下训练了一组适配器权重，将预训练的图像编码器集成到了预训练的语言模型中。

这样，Llama 3.2既能保持纯文本功能的完整性，也能get视觉能力。

训练过程中，Llama 3.2采用图像-文本对数据进行训练。训练分为多个阶段，包括在大规模有噪声数据上的预训练，和更进一步在中等规模高质量领域内和知识增强数据上的训练。

在后训练（post-training）中，研究人员通过监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）进行了几轮对齐。

专为端侧打造的“小”模型
至于1B和3B这两个轻量级模型，目的更加清晰：

随着苹果Apple Intelligence的推出，对于电子消费市场而言，手机等终端上的生成式AI已经成为标配。

而脱离云端独立运行在终端上的模型，无论是从功能还是从安全的角度，都是终端AIGC落地的关键。

在这里插入图片描述

Llama 3.2 1B和3B模型由Llama 3.1的8B和70B模型剪枝、蒸馏得到。

可以简单理解为，这俩“小”模型是Llama 3.1教出来的“学生”。

Llama 3.2 1B和3B仅支持文本任务，上下文长度为128K。来自Meta合作方Arm的客户业务线总经理Chris Bergey认为：

明年初甚至今年年底，开发人员就会在应用程序中落地这两个型号的Llama 3.2。

它们拥有更好的效率，能在1W功率下或在8毫秒以内提供答案。

不少网友也为此点赞：

Llama 3.2的轻量级模型能真正改变AI在手机和其他设备上的应用。

Meta首席技术官对Llama 3.2的发布，做了两大亮点总结：

首个既能识别图像，又能理解文本的多模态模型。最重要的是，能够媲美闭源模型

超轻量1B/3B模型，解锁更多终端设备可能性

11B和90B这两款模型，不仅支持图像推理场景，包括图表和图形在内的文档级理解、图像描述以及视觉定位任务，而且还能基于现有图表进行推理并快速给出回答。
比如，你可以问「去年哪个月销售业绩最好？」，Llama 3.2就会根据现有图表进行推理，并迅速给出答案。
轻量级的1B和3B模型则可以帮助不仅在多语言文本生成和工具调用能力方面表现出色，而且具有强大的隐私保护，数据永远不会离开设备。
之所以在本地运行模型备受大家的青睐，主要在于以下两个主要优势：
提示词和响应能够给人瞬间完成的感觉
应用程序可以清晰地控制哪些查询留在设备上，哪些可能需要由云端的更大模型处理

视觉模型

作为首批支持视觉任务的Llama模型，Meta为11B和90B型打造了一个全新的模型架构。
在图像输入方面，训练了一组适配器权重，将预训练的图像编码器集成到预训练的大语言模型中。
具体来说，该适配器：

由一系列交叉注意力层组成，负责将图像编码器的表示输入进大语言模型

通过在文本-图像对上的训练，实现图像表示与语言表征的对齐

在适配器训练期间，Meta会对图像编码器的参数进行更新，但不会更新大语言模型参数。
也就是说，模型的纯文本能力便不会受到任何影响，而开发者也可以将之前部署的Llama 3.1无缝替换成Llama 3.2。

在这里插入图片描述
具体的训练流程如下：
首先，为预训练的Llama 3.1文本模型添加图像适配器和编码器，并在大规模噪声图像-文本对数据上进行预训练。
然后，在中等规模的高质量领域内和知识增强的图像-文本对数据上，再次进行训练。
接着，在后训练阶段采用与文本模型类似的方法，通过监督微调、拒绝采样和直接偏好优化进行多轮对齐。并加入安全缓解数据，保障模型的输出既安全又实用。
这在期间，模型所使用的高质量微调数据，正是来自合成数据生成技术——使用Llama 3.1模型在领域内图像的基础上过滤和增强问题答案，并使用奖励模型对所有候选答案进行排序。
最终，我们就能得到一系列可以同时接受图像和文本提示词的模型，并能够深入理解和对其组合进行推理。
对此，Meta自豪地表示表示：「这是Llama模型向更丰富的AI智能体能力迈进的又一步」。
得到全新Llama 3.2加持的助手Meta AI，在视觉理解力上非常强。
比如，上传一张切开的生日蛋糕图片，并问它制作配方。
Meta AI便会给出手把手教程，从配料到加工方式，一应俱全。

轻量模型

通过利用剪枝（pruning）和蒸馏（distillation）这两种方法，Meta让全新的1B和3B模型，成为了首批能够高效地适应设备的、具有高能力的轻量级Llama模型。

剪枝能够减小Llama的规模，并尽可能地保留知识和性能

在此，Meta采用了从Llama 3.1 80亿参数模型进行单次结构化剪枝的方法。也就是，系统地移除网络的部分内容，并调整权重和梯度的幅度，从而创建一个更小、更高效的大语言模型，同时保留原始网络的性能。

完成剪枝之后，则需要使用知识蒸馏来恢复模型的性能。

知识蒸馏是让一个更大的网络给更小的网络传授知识

也就是，较小的模型可以借助教师模型的指导，获得比从头开始训练更好的性能。为此，Meta在预训练阶段融入了来自Llama 3.1 8B和70B模型的logits（模型输出的原始预测值），并将这些较大模型的输出则用作token级的目标。

后训练阶段，Meta采用了与Llama 3.1类似的方法——通过在预训练大语言模型基础上进行多轮对齐来生成最终的聊天模型。
其中，每一轮都包括监督微调（SFT，Supervised Fine-Tuning）、拒绝采样（RS，Rejection Sampling）和直接偏好优化（DPO，Direct Preference Optimization）。
在这期间，Meta不仅将模型的上下文长度扩展到了128K token，而且还利用经过仔细筛选的合成数据和高质量的混合数据，对诸如总结、重写、指令跟随、语言推理和工具使用等多项能力进行了优化。
为了便于开源社区更好地基于Llama进行创新，Meta还与高通（Qualcomm）、联发科（Mediatek）和Arm展开了密切合作。
值得一提的是，Meta这次发布的权重为BFloat16格式。

在这里插入图片描述

Llama Stack发行版

Llama Stack API是一个标准化接口，用于规范工具链组件（如微调、合成数据生成等）以定制Llama大语言模型并构建AI智能体应用。
自从今年7月Meta提出了相关的意见征求之后，社区反响非常热烈。
如今，Meta正式推出Llama Stack发行版——可将多个能够良好协同工作的API提供者打包在一起，为开发者提供单一接入点。
这种简化且一致的使用体验，让开发者能够在多种环境中使用Llama大语言模型，包括本地环境、云端、单节点服务器和终端设备。

完整的发布内容包括：
Llama CLI：用于构建、配置和运行Llama Stack发行版

多种语言的客户端代码：包括Python、Node.js、Kotlin和Swift

Docker容器：用于Llama Stack发行版服务器和AI智能体API供应商

多种发行版：
单节点Llama Stack发行版：通过Meta内部实现和Ollama提供

云端Llama Stack发行版：通过AWS、Databricks、Fireworks和Together提供

设备端Llama Stack发行版：通过PyTorch ExecuTorch在iOS上实现

本地部署Llama Stack发行版：由Dell提供支持

系统安全

这次，Meta在模型安全方面主要进行了两个更新：
1.Llama Guard 3 11B Vision
它支持Llama 3.2的全新图像理解能力，并能过滤文本+图像输入提示词或对这些提示词的文本输出响应。
2. Llama Guard 3 1B
它基于Llama 3.2 1B，并在剪枝和量化处理之后，将模型大小从2,858MB缩减至438MB，使部署效率达到前所未有的高度。

在这里插入图片描述

参考链接：
[1]https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[2]https://www.cnet.com/tech/mobile/meta-and-arm-want-to-bring-more-ai-to-phones-and-beyond/#google_vignette
[3]https://news.ycombinator.com/item?id=41649763