葛剑平教授和鲍蕾教授共同发文:利用Syn-Tiger-360生成360° 视频助力虎个体重识别
作者:

在野生动物保护中,相机陷阱已经成为监测东北虎等珍稀濒危物种的重要工具。但对于个体识别,真实数据往往远远不够:虎密度低、出没机会少,野外影像还会受到遮挡、光照和视角变化等影响。传统做法依赖长期布设相机和人工标注,成本高、周期长,也很难快速支撑鲁棒的个体重识别模型。为了解决这一问题,北师大虎豹团队提出 Syn-Tiger-360:用生成式视频模型,为虎个体重识别合成视角一致的 360° 旋转训练数据。相关论文“Boosting Tiger Re-ID with 360° Video Generation: A Generative Synthesis Approach”发表在计算机和人工智能领域期刊《Neurocomputing》(Q1区, 43/210)。

图1 不同老虎数据来源的比较:真实采集受限,二维合成缺乏多视角一致性,而 Syn-Tiger-360 生成连续视角数据用于 Re-ID 训练。
Syn-Tiger-360 的核心思路很直接,不是只生成一张看起来像老虎的图片,而是让单视角老虎图像变成一段完整旋转的视频。这样,模型在训练时可以看到同一个合成个体从不同方向呈现出的条纹结构。对于虎个体识别来说,条纹不是普通纹理,而是类似指纹的生物特征;如果跨视角条纹断裂、漂移或变成伪对称,Re-ID 模型就很难学到真正稳定的身份线索。

图2 Syn-Tiger-360 框架:二维图像生成、360° LoRA 视频合成、质量控制与数据集筛选。
方法分为三步。首先,利用 Stable Diffusion 模型生成完整侧身、条纹清晰的老虎参考图像;随后,借助图像到视频基础模型和旋转 LoRA,把静态图像扩展成连续的 360° 旋转序列;最后,通过系统化质量控制去除身体不完整、条纹融化、时间闪烁和近重复样本。经过筛选,最终得到高质量合成老虎身份,每个身份都对应一段完整旋转视频。

图3 360° LoRA 的作用:加入 LoRA 后,旋转过程中条纹拓扑更连续;无 LoRA 时容易出现条纹断裂和几何畸变。
为了验证这些合成数据是否真的可用,研究人员首先在合成域中进行个体分类和重识别实验。结果显示,不同骨干网络都能在 Syn-Tiger-360 上学习到清晰的身份区分能力,说明生成的每个合成个体并不是简单重复,而是具有可分辨的生物特征。换句话说,这批数据不仅数量上扩充了训练集,也在身份层面提供了有效监督。

图4 合成测试集上的定性检索结果。模型能够在视角变化和局部遮挡下检索到正确身份。
更关键的是,模型只用合成数据训练后,仍能迁移到真实相机陷阱图像上。在包含 24 只真实野生东北虎的测试数据中,多个 Re-ID 模型都取得了较强表现。与常规野生动物分类模型相比,Syn-Tiger-360 提供的是面向个体差异的细粒度条纹监督,因此更适合解决“这是不是同一只老虎”的问题。

图5 真实世界测试集上的定性检索结果。即使存在光照变化、植被遮挡和视角差异,模型仍能检索正确个体。
该研究还进一步测试了跨物种泛化能力。对于同样依赖身体纹理进行个体识别的豹和斑马,Syn-Tiger-360 的生成流程也能合成具有物种典型纹理的旋转序列。实验结果显示,这一框架并不局限于老虎,而有潜力扩展到更多具有明显视觉生物特征的野生动物。

图6 跨物种生成示例:豹的玫瑰斑和斑马条纹在旋转过程中保持了较好的连续性。

图7 合成域 Re-ID 特征的 UMAP 可视化。不同身份形成相对清晰的聚类结构。
这项工作仍是合成数据驱动野生动物 Re-ID 的初步探索。真实相机陷阱数据在身份数量、环境变化和拍摄条件上仍然有限,未来还需要在更多保护区域、更复杂场景中验证。但 Syn-Tiger-360 展示了一个有价值的方向,当真实数据难以获得时,生成式模型可以成为野生动物智能监测的数据引擎,帮助保护工作更快、更低成本地走向可用系统。

图8 真实个体特征的 UMAP 可视化。尽管存在合成到真实的域差距,模型仍保持一定个体级可分性。
该研究得到国家重点研发计划项目《国家公园旗舰动物智慧监测与管理关键技术》(2024YFF1307300)支持。本项目地址:https://github.com/Syn-tiger-360。
推荐研究进展 + 更多


