扫地机厂家

安博体育精彩竞猜活动视频

安博体育精彩竞猜活动视频

语音情感计算及多模态交互研究团队荣获CCF A类国际顶级会议IEEECVF CVPR 2020超大规模商品图像检测挑战赛冠军

发布日期:2024-08-06 来源:安博体育精彩竞猜活动视频

  2020年6月14—19日期间,CCF A类国际顶级会议-国际计算机视觉与模式识别大会(以下简称IEEE/CVF CVPR 2020,图1)主办的超大规模商品图像检测挑战赛(以下称“RetailVision Detection Grand Challenge”)举行了颁奖典礼。由来自语音及语言信息处理国家工程实验室语音情感计算及多模态交互研究室和中国科大信息学院自动化系组成的参赛团队(以下简称参赛团队)在挑战赛中斩获第一名的佳绩(图2)。团队工作由於俊副教授等指导研究生谢皓年、谢国辰和李梦岩完成。

  IEEE/CVF CVPR 由电气与电子工程师协会(IEEE)和计算机视觉基金会(Computer Vision Foundation:CVF)共同主办,是计算机视觉和模式识别领域最重要和权威的国际顶级会议,根据最新的谷歌学术影响因子统计,IEEE/CVF CVPR在泛人工智能(AI)领域排名第一。

  计算机视觉和机器学习的加快速度进行发展对零售业造成了巨大的冲击,除了带来在线购物的兴起,传统实体店也在尝试采用和AI相关的技术解决方案,针对这一现实场景,在该会议上举办的“RetailVision Detection Grand Challenge”。收集了来自世界各地的数千家超市,包括美国、欧洲和东亚门店的货架图片,其中每张图片平均都包含上百个密集的商品,此外竞赛数据集中图片的质量、拍摄角度以及光照条件也是不一致的,这也加大了该竞赛的难度。针对这些挑战,该竞赛要求参赛者设计一种可以准确定位图片中商品位置的算法。

  在比赛中,中国科大团队首先对数据集做多元化的分析,由于数据集中的物品非常密集并且普遍尺寸较小,团队采用Adaptive Training Sample Selection (ATSS)正负样本采样方法,该办法能够根据对象的统计特征自动选择正样本和负样本,能够有效提升模型对小目标检测的性能。

  中国科大团队解决方案由两个模型组成,它们均基于ATSS的检验测试框架。两个模型分别采取了了当前检测效果最好的两种Backbone网络:HRNet以及Res2Net。两种Backbone网络都能够提取多种尺度的特征并进行相对有效融合,可以为小尺度的目标提供丰富的语义特征,非常适用于小目标检测任务。为了充分的利用不同Backbone网络的表达能力,团队首先使用两个模型分别进行仔细的检测,然后通过加权检测框融合技术(WBF)将其融合为最终检测的结果。此外,为了进一步提升检测精度,团队还采用了数据增强、多尺度训练、多尺度测试、余弦退火调整学习率等技术。

  本次竞赛吸引了包括Google研究院、OPPO研究院、中国科大等国内外著名研究机构及高校的众多队伍参与,经过激烈角逐,USTC-NELSLIP参赛团队荣获了冠军(图4)。

  本次竞赛得到了国家自然科学基金联合基金、中国科学技术大学探索类基金等项目的支持。

上一篇:【48812】南京:村里来了“智囊团”

下一篇:【48812】威尔登环保设备(长沙)有限公司