中国科大苏州高等研究院 MIRACLE 实验室再传捷报——由博士生雒鑫撰写、周少华教授与蒋子航特任副研究员联合指导的论文《ICP: Immediate Compensation Pruning for Mid-to-high Sparsity》入选CVPR 2025 Highlight。
研究团队提出的ICP(即时补偿剪枝)创新性地解决了大模型在中高稀疏度下精度断崖式下降的难题。传统方法“一刀切”导致误差层层放大,而 ICP 则采用“剪一刀、补一刀”的流水线策略:逐块剪枝、逐块补偿,并通过稀疏度重新分配来平衡难易度。整个过程无需全局微调,单张 RTX 3090、仅 7.8 GB 显存即可完成 7B 模型压缩。实验结果显示:
1. 语言模型:OPT-6.7B 在 70% 稀疏度下,Wikitext困惑度从相比SparseGPT的 20.5 降至 17.8;Llama-2-7B 零样本任务准确率相比SparseGPT提升 5 个百分点。
2. 视觉模型:SAM-H 70% 稀疏度下在 COCO 上交并比仅下降 1.97%,优于SparseGPT 7% 的损失。
3. 混合压缩:与 2:4 稀疏和 4-bit 量化结合后,ICP 依旧保持全面领先.
团队透露,该方法最初仅依赖 128条样本和 1 轮补偿迭代即可达到最佳效果,随后在导师的指导下优化为高效的“滑动窗口”机制。未来,ICP 将拓展至多模态大模型,推动其在移动端和医疗影像等资源受限场景的应用。该研究得到国家自然科学基金、江苏省青年科学基金与苏州市基础研究计划的支持。
编者:这篇论文提出了ICP(Immediate Compensation Pruning)方法。能否先简单介绍一下它的核心思想?
作者:当然可以。ICP 的核心思想可以概括为“分块剪枝,逐步补偿”。传统方法要么一次性剪枝整个模型,要么需要反复对整体进行微调,计算和内存成本都很高。我们的 ICP 方法不同,它将大模型看作是一系列相互连接的“块”。我们用一个滑动窗口,逐个对模型块进行剪枝。每剪掉一个块,我们不急着动下一个,而是立刻利用紧邻的后一个块来“补偿”前一个块因剪枝产生的精度误差。这个补偿过程就像是局部的、小范围的微调。通过这种方式,误差不会逐层累积下去,我们既避免了对整个模型进行全局微调的巨大开销,又保证了模型在较高稀疏度下的性能,实现了高效、低耗的剪枝。
编者:为什么会想到做这个方向?
作者:主要是出于实际应用的驱动。现在,像 GPT 和 SAM 这样的大模型性能非常强大,大家都很希望将它们应用到医疗、自动驾驶等具体场景中。但在实际部署时,我们发现一个普遍的难题:大多数场景,比如医院的影像科或者一些科研机构,并没有顶级的计算资源,显存和算力都非常有限。现有的剪枝方法在这种情况下就显得有些力不从心。一些轻量级的方法在低稀疏度下还行,一旦剪枝率提高到 50% 以上,模型性能就急剧下降。而那些能保持高性能的方法,通常需要反复的全局微调,这在资源受限的设备上根本无法实现。所以,我们的灵感就来源于此:如何在有限的硬件资源下,尽可能地压缩模型,同时最大限度地保持其原有的高精度。ICP 就是我们为解决这个现实问题提出的一个方案。
编者:在研究过程中,遇到的最大挑战是什么?
作者:最大的挑战在于,如何在一个严格的限制条件下解决两个相互冲突的问题。这个限制条件就是“不能增加额外的峰值显存消耗”。而我们需要解决的冲突是:一方面,我们要处理“中高稀疏度”(比如50%-70%)下的严重精度衰减问题;另一方面,解决精度衰减最直接的办法——模型微调——又恰恰是消耗显存的大户。在高稀疏度下,每一层剪枝引入的误差都会被下一层放大,导致误差逐层累积,最终模型性能崩溃。要补偿这些误差,就需要计算和存储梯度信息,这会显著增加显存峰值。所以,我们面临的挑战就是:设计一种既能有效补偿误差,又不会带来高昂显存开销的机制。最终,我们提出的滑动窗口和逐块补偿的策略成功地解决了这个问题,它只在极小的局部范围内进行权重更新,从而在不增加峰值内存的情况下,有效抑制了误差的传播。
编者:ICP与现有方法相比,最大的优势在哪里?
作者:我认为 ICP 最大的优势体现在三个方面:1)普适性强:ICP 不依赖于特定领域的强先验知识,因此它不仅对语言模型(如 OPT、Llama 2)有效,对视觉模型(如 SAM)同样表现出色。这让它成为一个更通用的模型压缩工具。2)高稀疏度下性能卓越:这是我们的核心优势。在 50% 到 70% 这样的中高稀疏度区间,现有的一次性剪枝方法如 SparseGPT 和 Wanda 性能会大幅下降,而 ICP 依然能保持非常好的性能,显著优于这些基线方法。模型规模越小,或者稀疏度越高,ICP 的优势就越明显。3)资源友好:尽管 ICP 引入了补偿微调的步骤,但由于我们巧妙的设计,它的峰值显存占用(PMU)并不会增加,甚至比某些方法还要低。这意味着用户可以在同样配置的消费级 GPU 上,获得比以往更好的剪枝效果,而无需升级硬件。
编者:实验结果显示ICP在医学图像任务中也有潜力,您如何看待这一点?
作者:是的,我们对此感到非常振奋。医学影像分析是一个非常需要大模型的领域,例如 SAM 在图像分割上的强大能力,可以极大地帮助医生进行病灶识别和手术规划。但正如前面提到的,医院和研究实验室的计算设备往往资源有限,不可能像大型数据中心那样配备顶级的 GPU 集群。
编者:总结来看,这项工作的意义是什么?
作者:总的来说,我们认为这项工作的核心意义在于,它为大模型在资源受限的真实世界场景中的应用,铺平了一条更现实、更可行的道路。它证明了我们不必总是依赖昂贵的硬件,通过巧妙的算法设计,同样可以在普通设备上高效地利用大模型的能力。更具体地说,ICP 的提出,使得在个人电脑、边缘设备甚至一些专用的科研设备上部署经过高度压缩且性能优良的大模型成为可能。尤其对于像医学影像分析这类对精度要求高、但硬件预算有限的关键领域,ICP 提供了一个强有力的工具。我们希望这项工作能够推动大模型技术从“云端”走向“终端”,真正在各行各业的实际应用中发挥其巨大的潜力。