亚博·体育世界杯(中国)官方网站 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后窥伺框架

发布日期:2026-05-28 04:55    点击次数:128

亚博·体育世界杯(中国)官方网站 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后窥伺框架

VeRL-Omni 是一个面向多模态生成模子的通用 RL 后窥伺框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。隐敝扩散 transformer(Qwen-Image)、搀杂 AR-DiT(Qwen-Omni)、颐养理解 + 生成(BAGEL、HunyuanImage-3.0)等架构。

多模态 rollout 走 vLLM-Omni 的异步高婉曲 serving,VLM-as-judge / OCR 奖励模子走 vLLM 推理,并与 rollout、窥伺 overlap。Qwen-Image OCR FlowGRPO 演示中,把奖励模子放到孤独 GPU 可将每步 wall-clock 时候裁减约 14%。

VeRL-Omni 架构

代码: github.com/verl-project/verl-omni

文档: verl-omni.readthedocs.io

vLLM 官方博客:vllm.ai/blog/verl-omni

为什么需要 VeRL-Omni

RL 如故成为把大型生成模子对都到东说念主类偏好与卑劣任务奖励的有劲时代。已往一年 LLM 的 RL 窥伺栈迅速演进,但多模态生成 RL—— 隐敝图像 / 视频 / 音频理解与生成的扩散和全模态模子 —— 还有几个枢纽缺口:

扩散与全模态膨胀:把 verl 的活泼性和性能蔓延到多模态、非自回首 RL 窥伺的宇宙,包括扩散 transformer 骨干(Qwen-Image)、搀杂 AR-DiT 架构(Qwen-Omni)、颐养理解 + 生成模子(BAGEL、HunyuanImage-3.0);

异构 rollout 活水线:Rollout 是权衡 latent 空间里的去噪轨迹,而不是 token 序列;单次 rollout 还可能调用多个异构模子组件、走多阶段活水线(text encoder → DiT → VAE);

复杂的负载调理:多模态 RL 窥伺的奖励函数自己便是多模态模子(VLM judge、OCR scorer 等),多模态生成 rollout 的峰值显存又比文本生成高得多,把这些职责流编排好并不节略。

枢纽特质

高效的多模态 rollout: 集成 vLLM-Omni 的异步高婉曲多模态生成 serving,精度与 diffusers 捏平。VeRL-Omni 与 vLLM-Omni 协同,通过 step-wise continuous batching、embedding caching 等捏续优化 rollout 后果。

活泼的奖励引擎: 同期维持基于规则的奖励与基于模子的奖励(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 奖励模子推理。奖励狡计与 rollout、窥伺过程 overlap,裁减端到端延迟。

模块化窥伺后端: 提供多种 trainer(DiffusersFSDP / Megatron / VeOmni),针对扩散和全模态模子内置优化,便于接入不同并行计策(FSDP / USP / TP)。

等闲的硬件兼容: 同期维持 NVIDIA GPU 和昇腾 NPU,部署可在多种硬件后端之间活泼切换。

端到端窥伺 recipe 与基准: 提供参考性能铁心;收货于上述特质,窥伺婉曲不错作念得很高。

算法与模子维持

上手指南

装配

详见装配文档:

https://verl-omni.readthedocs.io/en/latest/start/install.html

窥伺扩散模子

examples 目次(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的启动剧本,隐敝图像 / 音频 / 视频理解与生成任务。窥伺性能与铁心不错通过 wandb 追踪。

Demo:Qwen-Image FlowGRPO 后窥伺

在 flowgrpo 示例中,团队用 OCR 奖励任务窥伺 Qwen-Image。奖励模子遴荐 Qwen3-VL-8B-Instruct,通过读取生成图像里的渲染笔墨、与数据集 ground truth 比对,对生成图像评分。

flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法追念

FlowGRPO 算法暗意

FlowGRPO 暗意

FlowGRPO 是面向 flow-matching 模子的在线计策要道。它通过 diffusion policy 模子作念多步 SDE 采样以杀青高效 RL 探索,并遴荐基于模子的奖励评估生成质地。

窥伺过程主要分四步:

Rollout 生成: 扩散 policy 模子生成样本 rollout,亚博体育世界杯中国官网首页集会 log probability 和生成图像的轨迹。

奖励模子打分:奖励模子给每个生成样本打分,用于狡计 trajectory advantage。

计策优化:用 FlowGRPO CLIP-style loss 更新计策,基于 advantage 优化奖励。

权重同步:按时把 trainer 最新的计策权重同步到 rollout worker,确保生成样本响应最新计策。

LoRA 微调

NVIDIA H800 GPU 上的窥伺婉曲如下:

把奖励模子放到孤独 GPU 上,与计策窥伺 overlap,每步 wall-clock 时候裁减约 14%。

全模子微调

团队还考证了 non-CFG 全模子 Qwen-Image OCR 窥伺,在 4×NVIDIA H200 上达到 0.510 images/GPU/s,每步约 250 s。

底下不错看到,仅 120 步窥伺后,生成图像的笔墨渲染质地已有显赫擢升。

大发官方网站手机app

底下是参考窥伺弧线,critic reward 与 validation reward 都握住踏实。

竣工窥伺筹商说高见 Training Metrics 文档。

文档地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后续门路图

VeRL-Omni 仍处于活跃迭代的预发布阶段,扩散 RL 中枢栈如故踏实。门路图聚焦在膨胀模子 / 算法维持,并持续激动高效多模态 RL 窥伺的鸿沟。

模子维持膨胀: 跟进开源的扩散和全模态模子,隐敝图像 / 视频 / 音频生成任务以及颐养理解 + 生成任务;

算法维持膨胀: 捏续集成踏实、先进的 RL 算法(如 DiffusionNFT);

全异步 RL: 在 actor、rollout、reward 之间走端到端异步活水线,超出面前的异步奖励规模,进一步擢升窥伺婉曲和 GPU/NPU 行使率;

与 vLLM-Omni 协同优化: 生成 rollout 在窥伺时候中占比很大,将通过更邃密的 vLLM-Omni 集成(并行、量化、batching、调理优化等)持续加快多模态 rollout;

高效全模态 trainer: 在 DiffusersFSDPTrainer 除外,磋议放出更多针对全模态与扩散模子的高度优化 trainer 引擎,基于 Megatron-core 与 VeOmni;

更广的硬件维持: 持续打磨昇腾 NPU 旅途,并通过 hardware plugin 系统迎接更多硬件后端。

扩散和全模态 RL 后窥伺仅仅个运转。VeRL-Omni 团队正在捏续维持更多架构与算法亚博·体育世界杯(中国)官方网站,迎接一都塑造畴昔。