用 ML 视频特效增强你的 App

一句话判断

Video Toolbox 新增的 VTFrameProcessor API 让你在 iOS/macOS 上直接跑 Apple Silicon 优化的 ML 视频处理——慢动作、超分、运动模糊、降噪——以前需要自己训练模型或集成第三方 SDK 的活，现在框架帮你做了。

这场 Session 讲了什么

从 macOS 15.4 开始、iOS 26 新增的 VTFrameProcessor API 是 Video Toolbox 框架的新能力，提供了一组基于机器学习的视频处理算法。这些算法针对 Apple Silicon 做了专门优化，覆盖两大场景：高质量视频编辑（帧率转换、超分辨率、运动模糊、时序降噪）和实时视频增强（低延迟帧插值、低延迟超分辨率）。

API 的设计模式很清晰：每种特效由两个类定义——VTFrameProcessorConfiguration 描述 session 配置，VTFrameProcessorParameters 描述每帧的输入输出。处理流程就是创建 session、逐帧送入参数、拿回输出帧。框架是帧级别的 API，应用需要自己管理帧的读取和写入。

值得深挖的点

帧率转换不只是”补帧”

VTFrameRateConversion 不只是把 30fps 变成 60fps。它还能做慢动作效果——通过在原始帧之间插入多个插值帧来实现任意倍率的慢放。关键参数是 interpolationPhase 数组，数组大小决定了插帧数量。另外，光流（optical flow）计算是开销最大的部分。如果你的 App 对渲染性能有要求，可以预先用 VTOpticalFlowConfiguration 离线算好光流，渲染时直接用。

低延迟模式的设计取舍

Session 特意区分了”高质量”和”低延迟”两条线。帧率转换和超分辨率都有两个版本——编辑用的高质量版和通信用的低延迟版。低延迟超分辨率专门优化了视频会议场景，能在网络条件差时减少编码 artifact、锐化边缘。低延迟帧插值甚至可以把帧率上采样和分辨率上采样合并到一个 filter 里。这些效果都是在接收端设备上跑的，不消耗发送端的算力。

光流预计算的 trade-off

光流计算很贵，但框架支持两种模式：设 usePreComputedFlow 为 true 时你自己预先算好，false 时框架实时算。预计算能显著降低渲染阶段的 CPU/GPU 占用，但需要额外的存储和预处理时间。对于视频编辑类 App，预计算是合理的——用户愿意等几秒钟换来流畅的编辑体验。对于实时场景（直播、视频通话），只能用实时模式。

代码片段

1. 帧率转换基础流程

场景：将 30fps 视频转为 60fps 慢动作。

import VideoToolbox

// Step 1: 创建 session
let processor = VTFrameProcessor()
let config = VTFrameRateConversionConfiguration(
    frameWidth: 1920,
    frameHeight: 1080,
    usePreComputedOpticalFlow: false,
    qualityLevel: .high,
    algorithmRevision: 1
)
try processor.startSession(configuration: config)

// Step 2: 准备缓冲区
let currentFrame = /* CVPixelBuffer */
let nextFrame = /* CVPixelBuffer */
let interpolationPhase: [Float] = [0.5] // 插入一帧
var outputFrames = [CVPixelBuffer](repeating: /* allocate */, count: 1)

// Step 3: 处理
let params = VTFrameRateConversionParameters(
    currentFrame: currentFrame,
    nextFrame: nextFrame,
    opticalFlow: nil, // 让框架算
    interpolationPhase: interpolationPhase,
    destination: outputFrames,
    submissionMode: .sequential
)
try processor.process(parameters: params)

坑：所有输入输出 CVPixelBuffer 都由调用方分配，可以用配置类的 sourcePixelBufferAttributes 和 destinationPixelBufferAttributes 来创建 buffer pool。

2. 运动模糊效果

场景：给延时摄影视频添加自然运动模糊。

let blurConfig = VTMotionBlurConfiguration(
    frameWidth: 1920,
    frameHeight: 1080,
    qualityLevel: .high
)
try processor.startSession(configuration: blurConfig)

let params = VTMotionBlurParameters(
    currentFrame: currentFrame,
    previousFrame: previousFrame, // 首帧可为 nil
    nextFrame: nextFrame,         // 末帧可为 nil
    opticalFlow: nil,
    blurStrength: 50 // 1-100
)
try processor.process(parameters: params)

最佳实践

先从帧率转换和超分辨率开始集成，这两个效果覆盖面最广（视频编辑、相册增强、直播）。低延迟超分辨率是投入产出比最高的实时增强功能——只需几行代码就能提升视频会议的观感。

光流预计算只在有预处理阶段的场景（视频编辑器）中使用。实时场景不要碰——延迟开销不值得。

如果你的 App 同时需要多个效果（比如降噪 + 超分），考虑在同一帧上串联处理，避免反复分配和释放 pixel buffer。用一个 buffer pool 管理所有中间帧可以显著降低内存压力。

还有什么值得关注

Temporal Noise Filter：基于运动估计的时序降噪，利用前后参考帧做去噪。同时适用于编辑和实时场景，还能帮助降低视频编码码率。
VTFrameProcessor 在 macOS 和 iOS 双平台可用：这意味着桌面端的专业视频编辑工具和移动端的实时处理可以共享同一套 API。
Sample Code 有完整 Demo：Session 附带了功能齐全的示例工程，包含了所有效果的测试素材，建议直接跑起来看看效果再决定怎么集成。