本帖最后由 AI数字世界 于 2025-10-17 12:22 编辑
1 项目概述
项目是一个基于YOLO目标检测和单目深度估计技术的3D目标检测演示系统,通过采集usb摄像头中的RGB图像数据,能够在实时视频流中检测目标物体并生成3D边界框可视化。系统集成了YOLO11目标检测、Depth Anything深度估计和3D边界框生成功能,为计算机视觉应用提供了完整的3D感知解决方案。项目通过目标检测和深度估计两路ai推理的方式,展现了英伟达板卡端侧AI的卓越性能,在自动驾驶,机器人避障等方向均有应用前景。
2 功能特性 1. 实时目标检测 支持80类COCO数据集目标检测 基于YOLO11的高精度检测 TensorRT优化推理,支持FP16/INT8量化
2. 深度估计 基于Depth Anything v2的单目深度估计 高精度深度图生成 彩色可视化深度信息
3. 3D目标重建 基于目标检测信息和深度信息的3D坐标计算 3D边界框可视化
2 方案平台
硬件平台: NVIDIA Jetson Orin nano 8GB 摄像头: 单目usb摄像头
3 程序框图
方案共有3个模块: 目标检测采用YOLO11模型+TensorRT推理引擎在硬件平台NVIDIA Jetson Orin nano上进行实时推理,获取到物体的二维坐标,物体类别以及置信度 深度估计采用Depth Anything v2模型 + TensorRT推理引擎获取到图像的深度值 3D投影: 基于目标检测二维坐标计算中心点,获取深度估计的深度值,进行3D边界框计算
4 方案演示下图为方案展示的3个窗口,分别实现目标检测,深度估计,3D感知的功能。
|