
4月16日,蚂蚁灵波科技正式开源流式三维重建模型LingBot-Map。该模型仅依赖一颗普通RGB摄像头,在视频采集过程中可实时完成相机位姿估计与场景三维结构重建,推理速度达20FPS,支持超过10,000帧的长视频连续推理最安全的股票配资网站,且长序列运行精度几乎无衰减。
LingBot-Map采用纯自回归式建模架构,基于几何上下文Transformer设计,引入几何上下文注意力机制(GCA),在不依赖未来帧信息的前提下逐帧处理当前及历史画面,持续输出精准的相机位姿和深度信息。该模型在Oxford Spires数据集上的绝对轨迹误差(ATE)为6.42米,轨迹精度较此前最优流式方法提升2.8倍,优于离线方法DA3(12.87米)和VIPE(10.52米)。在ETH3D基准测试中,其重建F1分数达到85.70,较第二名提升8%以上。
该技术填补了实时空间感知领域的关键技术空白,可为自动驾驶、机器人导航、避障及交互等应用提供稳定可靠的空间理解能力。传统SLAM系统依赖手工设计与复杂优化,而LingBot-Map将核心逻辑交由模型统一学习,在保持长序列稳定性的同时大幅减少冗余计算。
此次开源是蚂蚁灵波科技2026年以来技术布局的一部分。自1月起,该公司已相继开源高精度空间感知模型LingBot-Depth、具身大模型LingBot-VLA、世界模型LingBot-World及具身世界模型LingBot-VA。LingBot-Map的发布进一步补全了实时空间理解与在线三维建图的能力拼图。
目前,LingBot-Map的模型与代码已在Hugging Face、ModelScope及GitHub平台开放,相关论文同步发布于arXiv(编号arXiv:2604.14141)。该技术有望降低自动驾驶与具身智能系统对高成本传感器的依赖,推动空间感知能力向轻量化、低成本方向演进。
(图/文 网通社 言隐)最安全的股票配资网站
冠盈配资提示:文章来自网络,不代表本站观点。