一、RMBG-2.0是什么

RMBG-2.0是由BRIA AI独立研发的开源二值化图像分割模型,专注于图像背景移除领域,是RMBG-1.4版本的全新升级款,属于当前开源领域的state-of-the-art级背景移除方案。该模型核心定位是解决各类图像中前景与背景的精准分离问题,依托专业级训练数据集和优化的网络架构,实现了对不同类别、不同类型图像的高效处理,其精度、效率和通用性均可对标主流开源背景移除模型。

RMBG-2.0最初为满足商业级内容创作需求打造,训练数据覆盖通用图库、电商、游戏、广告等多元场景,同时兼顾内容安全、合法授权数据集和偏置缓解等核心要求,既适用于个人开发者的非商业项目开发,也能通过官方授权的商业方案支撑企业级大规模内容创作。从部署形式来看,该模型支持源码+权重自托管、ComfyUI节点集成、API接口调用等多种方式,适配不同开发者的技术能力和使用场景,且模型参数量仅0.2B,属于轻量级模型,无需超高配硬件即可实现本地运行。

在授权层面,RMBG-2.0对非商业使用采用CC BY-NC 4.0协议,开发者可免费获取、使用和修改模型;商业使用则需与BRIA AI签订专属商业协议,推荐使用BRIA官方API,该API提供完整的商业授权和托管式基础设施,大幅降低企业部署成本。

RMBG-2.0:BRIA AI开源的一键AI抠图工具,高精度实现多场景背景移除

二、功能特色

作为新一代开源背景移除模型,RMBG-2.0在抠图精度、场景适配、使用灵活性、部署便捷性等方面展现出显著优势,核心功能特色可总结为以下六点:

1. 高精度细节分割,攻克抠图行业难点

RMBG-2.0突破了传统抠图模型在模糊边界、精细纹理处理上的短板,凭借独特的双边参考机制和专业训练数据集,能精准识别并分离发丝、宠物胡须、半透明玻璃/纱巾、金属反光、毛绒纹理等传统抠图的高难度元素。在实际测试中,该模型可清晰保留长发人像的发际线碎发、耳后绒毛,以及水晶器皿的液体折射半透明感,Alpha通道灰度过渡自然,无明显人工硬边,像素级边缘准确率(F-score)达0.921,远超U2Net、MODNet等主流开源模型。

2. 非二进制Alpha遮罩输出,支持自定义分割阈值

与传统输出黑白二值蒙版的抠图模型不同,RMBG-2.0输出8位单通道灰度Alpha遮罩,遮罩中每个像素的灰度值对应原图像素的不透明度水平。这一设计让开发者可根据实际需求自定义前景-背景分割阈值,比如在处理创意合成时适当降低阈值保留轻微阴影,在处理电商白底图时提高阈值实现纯背景移除,极大提升了模型的灵活性,可无缝集成到复杂的图像编辑流水线中。

3. 原始尺寸无损还原,拒绝拉伸与细节丢失

RMBG-2.0遵循“等比缩放+精准插值还原”的预处理和后处理逻辑,输入图片仅按长边等比缩放至1024像素(非强制裁剪),推理生成的蒙版会通过双线性插值精准还原至图像原始分辨率,最终输出的透明背景图片与原图的尺寸、DPI、色彩空间完全一致。即使处理4800×3200的高清产品图,输出结果放大200%后边缘仍平滑锐利,无像素错位、白边等问题,无需二次修图对齐。

4. 多场景高度适配,覆盖商业与非商业全需求

模型的训练数据集覆盖多元图像类别和场景,从图像主体来看,可处理物体、人像、动物、文字及各类组合形式;从图像风格来看,对占比87.70%的写实类图像处理效果最优,同时也能适配非写实类图像;从背景特征来看,无论是纯色背景还是复杂的非纯色背景,单前景物体还是多前景物体,均能实现稳定分割。此外,数据集兼顾性别、种族均衡,且包含残障人士相关图像,有效缓解了模型偏置,适配电商、广告、游戏、人像摄影、平面设计等多场景抠图需求。

5. 轻量级低门槛,本地离线运行保障隐私

RMBG-2.0的模型参数量仅0.2B,属于轻量级图像分割模型,支持CPU/GPU(CUDA)本地运行,无需超高配硬件,主流NVIDIA RTX 3060及以上显卡即可实现流畅推理,单张图片处理耗时仅1.32秒左右。同时,模型支持纯本地离线部署,所有计算均在本地硬件完成,无云端传输、无后台日志、无隐式授权,有效保障用户的图像隐私,特别适合处理含敏感信息的设计稿、产品原型图、人脸证件照等内容。

6. 多框架多部署形式支持,适配不同开发场景

模型兼容PyTorch、ONNX、Safetensors、Transformers.js等多种主流框架,张量类型为I64和F32,可在Windows、Linux等多系统运行。同时提供源码+权重、ComfyUI节点、GitHub仓库、API接口、fal.ai/Replicate平台集成等多种部署和使用方式,既适合有编程能力的开发者进行二次开发,也适合无代码基础的设计人员通过ComfyUI等可视化工具一键使用,实现“零门槛”上手。

三、技术细节

RMBG-2.0的优秀表现源于其优化的网络架构、专业的训练数据集和科学的训练方案,核心技术细节涵盖架构设计、训练数据、模型输出、技术参数四大方面,其中核心技术参数如下表所示:

技术指标 具体参数/说明
模型研发方 BRIA AI
基础架构 BiRefNet(双边参考网络)+ 专属训练方案
模型类型 二值化图像分割模型(背景移除专用)
参数量 0.2B
输出结果 8位单通道灰度Alpha遮罩
支持框架 PyTorch、ONNX、Safetensors、Transformers.js
张量类型 I64、F32
推理推荐尺寸 1024×1024(等比缩放,非强制裁剪)
支持硬件 CPU、GPU(CUDA)
核心依赖库 torch、torchvision、pillow、kornia、transformers

1. 核心架构:基于BiRefNet的双边参考机制优化

RMBG-2.0基于BiRefNet(Bilateral Reference Network,双边参考网络) 架构开发,并结合BRIA AI的专属数据集和训练方案进行了针对性优化,这也是模型能实现高精度细节分割的核心原因。BiRefNet的核心是双参考机制,与传统单次预测前景/背景的模型不同,该架构让模型在推理时同时参考全局语义局部细节

  • 全局语义参考:识别整张图像的主体结构、前景与背景的整体分布,确定分割的整体框架;

  • 局部细节参考:聚焦像素级的边缘过渡、纹理特征,对模糊边界、精细纹理进行精准判断。

双参考机制的协同作用,让模型在处理“人像与浅色系背景融合”“玻璃器皿反光”等场景时,能做出更合理的分割决策,避免出现边缘粘连、细节丢失等问题,同时BRIA AI的专属训练方案进一步强化了模型在背景移除任务中的精度和有效性。

2. 训练数据:专业级标注,合法授权且分布多元

模型的训练数据集是其场景适配性和分割精度的基础,RMBG-2.0基于超15000张高质量、高分辨率图像完成训练,所有图像均满足三大核心要求:像素级人工标注(保证标注精度)、完全合法授权(避免版权问题)、多元均衡分布(保证场景适配性)。

训练数据的标注兼顾性别、种族均衡,且包含残障人士相关图像,有效缓解了模型偏置;从图像类别分布来看,物体仅占45.11%,人像及人像与物体/动物组合占42.59%,文字及文字组合占11.04%,动物仅占1.89%;从图像背景特征来看,非纯色背景占52.05%,纯色背景占47.95%;从前景数量来看,单前景物体占51.42%,多前景物体占48.58%。多元且均衡的数据集分布,让模型能适应不同类型的图像分割需求,避免因数据单一导致的场景适配性差问题。

3. 模型输出:8位灰度Alpha遮罩,实现柔性分割

RMBG-2.0的输出并非传统的黑白二值蒙版,而是8位单通道灰度Alpha遮罩,灰度值范围为0-255,其中0代表完全透明(背景),255代表完全不透明(前景),中间的灰度值代表半透明状态。这种非二进制的输出方式,让模型能捕捉到图像中的半透明过渡区域,比如玻璃的折射、纱巾的通透、阴影的渐变等,实现“柔性分割”。

开发者可通过调整灰度阈值,定义前景与背景的分割边界,比如将阈值设为128时,灰度值≥128的像素判定为前景,其余为背景;若需要保留轻微阴影,可适当降低阈值至80-100。这种自定义能力让模型能适配电商白底图、创意合成、海报设计等不同的业务需求,提升了模型的复用性和灵活性。

4. 推理流程:标准化预处理与后处理,保障结果质量

RMBG-2.0的官方推理流程包含标准化的图像预处理蒙版还原后处理,确保不同尺寸、不同格式的图像均能得到稳定的分割结果:

  1. 预处理:将输入图像按长边等比缩放至1024×1024,转换为张量并按照[0.485, 0.456, 0.406]的均值和[0.229, 0.224, 0.225]的标准差进行归一化,消除图像亮度、对比度的影响;

  2. 模型推理:将预处理后的张量输入模型,通过sigmoid函数将输出值映射至0-1区间,得到初步的蒙版张量;

  3. 后处理:将蒙版张量转换为PIL图像,通过双线性插值还原至图像原始尺寸,与原图融合生成带Alpha通道的透明背景图像。

标准化的流程设计,让模型能处理JPG、PNG等常见格式的图像,且避免了因图像尺寸、格式差异导致的分割效果不稳定问题。

RMBG-2.0:BRIA AI开源的一键AI抠图工具,高精度实现多场景背景移除

四、应用场景

RMBG-2.0凭借高精度、多场景适配、轻量级、高灵活性等特点,可广泛应用于商业内容创作、个人设计开发、企业数字化运营等领域,核心应用场景涵盖以下六大类,且在各场景中均能解决传统抠图的效率低、质量差等痛点:

1. 电商行业:商品主图与详情图制作

电商运营需要为大量商品制作白底图、场景图,传统人工抠图单张耗时5-15分钟,且玻璃器皿、毛绒玩具、化妆品瓶身等商品的反光和纹理处理难度大。RMBG-2.0可实现单张商品图0.5-1.5秒快速抠图,精准保留商品的细节和反光特征,输出的透明背景图可直接套入各类设计模板,批量处理100张商品图仅需2分钟以内,大幅提升电商素材制作效率,同时保证素材质量的一致性。

2. 广告与营销:广告素材快速创作与迭代

广告、营销行业对素材的制作速度和创意性要求高,经常需要应对临时的营销活动和A/B测试需求。RMBG-2.0可快速完成人像、产品、创意元素的抠图,将抠好的透明背景素材直接叠加不同背景,即可生成多款广告素材,比如为游戏角色制作10种不同背景的宣传图仅需30分钟,有效缩短素材迭代周期,降低创意测试的人力和时间成本。

3. 人像摄影与后期:写真、证件照背景更换

人像摄影中,写真照的创意背景合成、证件照的标准背景更换是常见需求,传统抠图容易出现发丝丢失、边缘生硬等问题。RMBG-2.0能精准分离人像的发丝、睫毛、胡须等精细细节,保留人像边缘的自然过渡,更换背景后无人工痕迹,同时支持本地离线运行,保障客户的人像隐私,适合摄影工作室、个人后期修图使用。

4. 游戏与文创:游戏素材与文创产品设计

游戏开发需要制作大量的角色、道具、场景素材,文创产品设计需要将图案、元素与不同载体融合,均涉及大量的背景移除工作。RMBG-2.0能处理游戏中的卡通/写实角色、道具,以及文创设计中的手绘稿、书法、LOGO等元素,精准保留细节的同时支持自定义分割阈值,可根据设计需求保留或去除阴影、渐变,适配游戏素材制作、文创产品图案设计等场景。

5. 平面设计:海报、画册与UI设计

平面设计中的海报制作、企业画册排版、UI界面设计,经常需要将不同的图像元素进行合成,背景移除是基础步骤。RMBG-2.0可处理LOGO、手绘线稿、UI截图、文字与背景融合等多种平面元素,能完整保留书法的枯笔飞白、LOGO的精细轮廓,输出的素材可直接用于Photoshop、Figma等设计软件,无需二次修图,提升平面设计的工作效率。

6. 开发者二次开发:图像编辑工具集成

对于软件开发者而言,RMBG-2.0可作为核心抠图能力集成到自研的图像编辑工具、小程序、APP中。模型提供开源的源码和权重,支持PyTorch、ONNX等多框架部署,且参数量小、本地运行效率高,开发者可根据自身产品需求进行二次开发,自定义抠图阈值、优化推理流程,为产品增加一键抠图、背景更换等功能,提升产品的实用性和竞争力。

五、使用方法

RMBG-2.0提供代码调用可视化工具使用两种核心使用方法,其中代码调用适合有Python编程能力的开发者,可实现模型的灵活调用和二次开发;可视化工具使用适合无代码基础的设计人员,通过ComfyUI等工具实现一键抠图,同时模型也支持API接口调用,适合企业商业部署。以下为最常用的本地代码调用ComfyUI节点使用方法,均为非商业使用场景的基础操作:

1. 本地代码调用(Python)

该方法需要搭建Python环境,安装相关依赖库,支持CPU/GPU运行,是最灵活的使用方式,可根据需求修改代码实现批量处理、自定义阈值等功能。

步骤1:环境准备

安装Python 3.8及以上版本,推荐使用Anaconda创建虚拟环境,避免依赖冲突;同时确保电脑已安装CUDA 11.8及以上版本(GPU运行),若仅使用CPU则无需安装。

步骤2:安装依赖库

在命令行中执行以下命令,安装模型运行所需的全部依赖库:

pip install torch torchvision pillow kornia transformers

注:torch和torchvision的版本需与CUDA版本匹配,若使用CPU版本,可执行pip install torch torchvision --index-url https://download.pytorch.org/whl/cpu

步骤3:编写并运行调用代码

创建Python文件(如rmbg2_0_demo.py),复制以下官方示例代码,修改input_image_path为本地图像的路径(如./test.jpg),运行代码即可在当前目录生成去除背景的图像no_bg_image.png

from PIL import Image
import torch
from torchvision import transforms
from transformers import AutoModelForImageSegmentation

# 选择运行设备:GPU(CUDA)或CPU
device = 'cuda' if torch.cuda.is_available() else 'cpu'
# 加载模型,trust_remote_code=True表示信任远程自定义代码
model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True).eval().to(device)

# 图像预处理配置:等比缩放至1024×1024,张量转换,归一化
image_size = (1024, 1024)
transform_image = transforms.Compose([
  transforms.Resize(image_size),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

# 读取并预处理图像
image = Image.open(input_image_path) # 替换为你的图像路径
input_images = transform_image(image).unsqueeze(0).to(device)

# 模型推理:关闭梯度计算提升效率
with torch.no_grad():
  preds = model(input_images)[-1].sigmoid().cpu()
# 处理推理结果,生成蒙版
pred = preds[0].squeeze()
pred_pil = transforms.ToPILImage()(pred)
mask = pred_pil.resize(image.size)
# 将蒙版与原图融合,添加Alpha通道
image.putalpha(mask)
# 保存去除背景的图像
image.save("no_bg_image.png")

步骤4:自定义分割阈值(可选)

若需要自定义前景-背景分割阈值,可在生成蒙版后添加以下代码,将灰度值低于阈值的像素设为完全透明(示例阈值为0.5,可根据需求调整0-1之间的数值):

import numpy as np
# 将蒙版转换为数组,设置阈值
mask_np = np.array(pred_pil)
threshold = 0.5
mask_np[mask_np < threshold * 255] = 0
# 将数组转换回PIL图像
mask = Image.fromarray(mask_np).resize(image.size)

2. ComfyUI节点使用(无代码可视化)

该方法无需编写代码,通过ComfyUI的可视化节点拖拽即可实现一键抠图,适合无编程基础的设计人员,步骤如下:

  1. 安装ComfyUI:从ComfyUI官方仓库下载并安装,确保电脑已安装Python和必要的依赖;

  2. 加载RMBG-2.0节点:在ComfyUI中搜索并安装“BRIA RMBG-2.0”相关节点,或从GitHub下载模型节点文件放入ComfyUI的custom_nodes目录;

  3. 搭建抠图流程:在ComfyUI界面中,拖拽“Load Image”(加载图像)、“BRIA RMBG-2.0 Inference”(模型推理)、“Save Image”(保存图像)节点,连接各节点的输入输出;

  4. 一键抠图:点击“Load Image”节点选择本地图像,点击界面右上角的“Queue Prompt”按钮,模型自动完成推理,抠好的图像会保存到ComfyUI的output目录。

3. 商业使用:BRIA API调用

若用于商业项目,需通过BRIA AI官方API调用,该API包含完整的商业授权,提供托管式GPU基础设施,无需自行管理硬件,搭建仅需数分钟。具体步骤为:

  1. 访问BRIA AI官方网站,申请商业API密钥;

  2. 根据官方API文档,调用对应的接口实现图像背景移除,支持单张和批量处理;

  3. API返回带Alpha通道的透明背景图像,可直接使用。

RMBG-2.0:BRIA AI开源的一键AI抠图工具,高精度实现多场景背景移除

六、常见问题解答

Q1:RMBG-2.0支持哪些图像格式和尺寸?

A1:模型官方支持JPG、PNG等常见的RGB图像格式,暂不支持透明背景PNG的二次抠图和灰度图像。对于图像尺寸,模型无严格的输入限制,预处理阶段会将图像按长边等比缩放至1024×1024,无论原图是竖图、横图还是正方形,均会保持原始宽高比,不会强制裁剪,推理后会还原至原图尺寸,支持处理从几百像素到几千像素的高清图像。

Q2:使用CPU运行模型时,处理速度如何?是否支持低配置电脑?

A2:模型支持CPU运行,但处理速度会比GPU慢,具体速度取决于电脑的CPU配置,普通酷睿i5/i7处理器处理单张1080P图像耗时约5-10秒,低配置入门级CPU耗时会更长。模型参数量仅0.2B,对电脑内存要求较低,仅需8G及以上运行内存即可运行,无需超高配硬件,若追求高效处理,推荐使用NVIDIA RTX 3060及以上显卡。

Q3:为什么运行代码时出现“trust_remote_code=True”相关报错?

A3:该报错是因为RMBG-2.0包含自定义的模型代码,Hugging Face的transformers库默认会阻止加载远程自定义代码,只需在加载模型时严格添加trust_remote_code=True参数即可解决,即model = AutoModelForImageSegmentation.from_pretrained('briaai/RMBG-2.0', trust_remote_code=True).eval().to(device),同时确保网络通畅,能正常下载模型权重和自定义代码。

Q4:非商业使用的CC BY-NC 4.0协议,具体有哪些要求?

A4:CC BY-NC 4.0协议即“知识共享署名-非商业性使用4.0国际协议”,非商业使用时需满足两大核心要求:一是署名,必须在使用模型的产品、项目中注明模型的研发方为BRIA AI,且标注模型名称为RMBG-2.0;二是非商业性使用,不得将模型用于任何商业盈利活动,包括但不限于电商素材制作、广告投放、付费图像编辑工具等,若需商业使用,必须与BRIA AI签订专属商业协议。

Q5:使用RMBG-2.0抠图后,图像边缘出现轻微模糊,如何解决?

A5:若出现边缘模糊,可通过两种方式优化:一是提高分割阈值,将自定义阈值从默认的0.5提高至0.6-0.8,过滤掉轻微的模糊区域,让前景边缘更清晰;二是调整预处理的resize方式,将transforms.Resize(image_size)改为transforms.Resize(image_size, interpolation=Image.LANCZOS),使用LANCZOS插值方式提升图像缩放的清晰度,进而提升蒙版的边缘精度。

Q6:能否将RMBG-2.0部署到服务器或云端,实现多人在线使用?

A6:非商业场景下,可将模型部署到个人服务器或云端(如阿里云、腾讯云),但需遵守CC BY-NC 4.0协议,不得用于商业盈利,且需保障用户的图像隐私;商业场景下,不建议自行部署服务器,推荐使用BRIA AI官方API,该API提供托管式GPU基础设施,无需自行维护服务器,且包含完整的商业授权和技术支持。

Q7:RMBG-2.0能否处理视频帧的背景移除?

A7:模型本身是针对静态图像的背景移除模型,暂无官方的视频处理支持,但开发者可通过自行编写代码,将视频按帧拆分,对每一帧单独进行抠图,再将抠好的帧合并为视频,实现视频背景移除。需要注意的是,该方式需处理帧间的一致性,避免出现抠图效果跳变,同时视频处理的耗时与视频的帧数、分辨率相关,推荐使用高性能GPU运行。

Q8:下载模型权重时速度很慢,有哪些解决方法?

A8:模型权重托管在Hugging Face,若下载速度慢,可通过三种方式解决:一是使用Hugging Face的国内镜像源,在下载前配置环境变量指定镜像源;二是直接从BRIA AI的GitHub仓库下载模型权重,手动放入transformers的缓存目录;三是使用迅雷等下载工具,复制模型权重的下载链接进行下载,再将文件放入对应缓存目录。

七、相关链接

  1. RMBG-2.0 Hugging Face官方仓库:https://huggingface.co/briaai/RMBG-2.0

八、总结

RMBG-2.0是BRIA AI研发的一款轻量级、高精度开源背景移除模型,基于BiRefNet架构优化打造,在RMBG-1.4版本基础上实现了抠图精度、场景适配性和使用灵活性的全面升级,是当前开源领域的优秀图像背景移除解决方案。该模型依托超15000张像素级人工标注的合法授权图像训练,数据集分布多元且均衡,能精准处理发丝、半透明材质等传统抠图难点,输出8位单通道灰度Alpha遮罩支持自定义分割阈值,适配电商、广告、人像摄影、平面设计等多场景需求。模型参数量仅0.2B,支持PyTorch、ONNX等多框架部署,可实现本地CPU/GPU离线运行,保障用户图像隐私,同时提供代码调用、ComfyUI可视化使用、API接口调用等多种方式,适配不同技术能力的用户。在授权层面,模型对非商业使用遵循CC BY-NC 4.0协议,可免费获取和使用,商业使用则可通过BRIA AI官方API实现,该API提供完整的商业授权和托管式基础设施,大幅降低企业部署成本。整体而言,RMBG-2.0兼顾了抠图精度、使用便捷性和部署灵活性,既适合个人开发者的非商业项目开发,也能通过官方商业方案支撑企业级大规模内容创作,是一款实用性极强的开源AI抠图工具。