AI前沿

让您第一时间了解千视通动态

跨镜追踪(Re-ID)技术

2018-11-15 09:36:23    未知


▊名词解释




跨镜追踪(Person Re-Identification,简称 Re-ID)技术,又称为行人重识别、行人再识别,是现在计算机视觉研究的热门方向,主要解决跨摄像头、跨场景下行人的识别与检索。作为人脸识别技术的重要补充,该技术能够根据行人的穿着、体态、发型等信息认知行人,在实际应用中对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪,增强数据的时空连续性。



▊发展历程




行人重识别的研究起始于二十世纪九十年代中期。研究者们借鉴、引入了一些图像处理、模式识别领域的成熟方法,侧重研究了行人的可用特征、简单分类算法。自2010 年以来,行人重识别技术的训练库趋于大规模化,广泛采用深度学习框架。


目前,海外主要的行人重识别系统的研究机有悉尼科技大学(UTS)、伦敦玛丽女王大学(QMUL)等;中国大陆及港澳台的主要有清华大学、北京大学、复旦大学、香港中文大学、西安交通大学、中国科学技术大学、中山大学,中科院自动化所等。


最近几年,业界领先的AI公司,均在大力投入进行ReID技术开发研究,使得国内的行人重识别技术得到了飞速的发展。

2017年11月,旷视研究团队发表文章,称其在行人再识别(ReID)技术开发方面取得重大进展,通过一种新方法的运用,使机器在ReID上首次超越人类表现。


2018年4月,云从科技也宣布在这一领域取得突破,称其在Market-1501, CUHK03, DukeMTMC-reID这三个最权威的衡量ReID技术的数据集上,相关核心指标均刷新了相关记录,在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,打破了阿里iDST在2018年1月创造的世界纪录。


2018年10月,千视通行人再识别技术(Re-ID)的精准度已经突破97.1%,刷新了业内已知的最高纪录!作为一家以Re-ID视频结构化技术和应用为核心的计算机视觉科技公司,千视通团队在Market 1501、DukeMTMC-reID、CUHK03这三个衡量Re-ID技术最通用的数据集测试中,获得了巨大突破。


千视通跨镜追踪(Re-ID)技术首位命中率突破97.1%


在Market 1501上的首位命中率(Rank-1 Accuracy)已经达到97.1%,超越人眼识别能力(94%),领先头部厂家,并刷新了今年4月公布的96.6%的世界纪录。同时在CUHK03,Duke MTMC-reID两个数据集上也刷新了之前业内最高纪录,达到了行业state of the art的技术水平,特别是在CUHK03数据集上,Rank 1指标提高了10.7%。



▊热门研究内容




跨镜追踪(Re-ID)技术研究的对象是人的整体特征,包括衣着、体形、发行、姿态等等,在实际应用场景下的数据非常复杂,会受到各种因素影响,比如无正脸照、姿态变换、服装变换、遮挡、光线、摄像头分辨率低、室内室外环境变化等,都是Re-ID技术要解决的实际问题。

1、行人检测(Pedestrian Detection)

任务是在给定图片中检测出行人位置的矩形框,跟人脸检测、汽车检测比较类似,是较为基础的技术,也是很多行人技术的一个前置技术。


2、行人分割(GraphCut)

行人分割比行人检测更精准,预估每个行人在图片里的像素概率,把这个像素分割出来是人或是背景,这时会用到很多 P 图的场景,比如背景替换。现在很多拍照软件、直播平台都用到了这个技术,一些网红在做直播时,有时会把直播的背景替换成外景,来提升粉丝的体验。


3、骨架关键点检测

一般识别出人体的几个关键点,比如头部、肩部、手掌、脚掌,用到行人姿态识别的任务中,可以在互动娱乐的场景中应用起来,比如体感游戏机。在人机互动方面,关键点检测技术是非常有价值的。


4、行人跟踪(tracking)

主要是研究人在单个摄像头里行进的轨迹,和 ReID 技术结合在一起可以形成跨镜头的细粒度的轨迹跟踪。在视频监控领域,我们的最终目标是要做到多目标跨摄像头跟踪 (Multi-target Multi-camera Tracking, 简称MTMC Tracking). 而行人再识别和行人跟踪都是为了达到这个最终目标的子任务。


5、动作识别(Human Pose Estimation)

动作识别是基于视频的内容理解做的,与人类的认知更加接近,技术更加复杂,应用场景也更多。比如闯红灯,以及公共场合突发事件的智能认知,像偷窃、聚众斗殴或者暴力事件,摄像头识别出这样的行为之后自动采取智能措施,比如自动报警,这有非常大的社会价值。这个技术目前并不成熟。动作识别可以有非常多的应用,


6、行人属性结构化

把视频或者图片中行人的属性提炼出来,比如性别、服装颜色、背包佩饰等。识别两个人是不是一个人的时候,并不会直接得出答案,而是先看他们的属性,最后根据属性给出判断。

行人属性结构化



十种通用行人属性

◇性别

◇头发长短

◇袖子长短

◇下衣长短

◇下衣类型

◇戴帽子

◇背包

◇年龄

◇上衣颜色

◇下衣颜色

7、跨镜追踪及行人再识别 ReID 技术

主要解决跨摄像头跨场景下行人的识别与检索。作为人脸识别技术的重要补充,可以对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪,增强了数据的时空连续性。



▊技术难点




数据获取难度大,对算法提出了较大的挑战


Re-ID是一个深度认知问题,在实际应用中数据十分复杂,会受到很多客观存在的因素影响,这也是千视通一直努力尝试去解决的问题。

比如:无正脸照、姿态、佩饰、遮挡、拍摄角度、图片模糊、光线变化、室内外环境变化、季节变化。

第一组图,无正脸照

最大的问题是这个人完全看不到正脸,特别是左图是个背面照,右图戴个帽子,没有正面照。


第二组图,姿态变化

绿色衣服男子,左边这张图在走路,右图在骑车,而且右图还戴了口罩。


第三组图,配饰变换

左图是正面照,但右图背面照出现了非常大的背包,左图只能看到两个肩带,根本不知道背包长什么样子,但右图的背包非常大,这张图片有很多背包的信息。


第四组图,遮挡

左图这个人打了遮阳伞,把肩部以上的地方全部挡住了,这是很大的问题。


第五组图,拍摄角度

摄像头由于安装高度、角度的原因,可能只抓拍到目标的局部。


第六组图,图片模糊

安装的摄像头分辨率太低,可能出现抓拍到了正脸照也看不清人脸的情况。


第七组图,光线差异


此外,室内外环境变化,季节气候天气的变化,不同季节穿衣风格差别非常大,从行人认知来讲很容易判断是不是同一个人,但机器认知的时候,要解决的实际问题是非常复杂的。

首先,ReID 的数据比较难获取,降低对数据采集的依赖性,这是一个非常重要的研究方向,当然对算法也提出了更大的挑战。其次,测试中的数据集是基于对视频切好的单个图片,但实际应用场景中还存在着视频的连续帧,连续帧可以获取更多信息,跟实际应用更贴近,基于视频 ReID 的技术也是现在热门研究方向。讲到白天和黑夜的光线差异,黑夜时可以用红外的摄像头拍出来的跟白色采样摄像头做匹配。


ReID 学术界最常用的三个公开数据集:

第一列,Market1501。拍摄地点在清华大学,图片数量有 32000 张左右,行人数量是 1500 个,相当于每个人差不多有 20 张照片,用 6 个摄像头拍摄完成。

第二列,DukeMTMC-reID,拍摄地点在 Duke 大学,有 36000 张照片,1800 个人,是 8 个摄像头拍的。

第三列,CUHK03,香港中文大学,13000 张照片,1467 个 ID,10 个摄像头拍的。


    ReID 学术界最常用的三个公开数据集


ReID 研究里,现在图片的数量集大概在几万张左右,而 ID 数量基本小于 2000,摄像头数量一般在 10 个以下,而且这些照片大部分都来自于学校,行人的身份比较单一,大部分是学生。

在实际应用中ReID 面对的情况复杂程度远甚于此,现在人脸数据集动辄都是百万张或上千万张照片,一个人脸的 ID 多的数据集可以上百万,而且身份多样。此外,在照片中我们可以看到,很多照片只检测到了局部,这也是现在数据集比较现实的情况。


Re-ID数据采集特点

数据获取难度大——算法挑战大


Re-ID技术评价指标

Re-ID技术有两个评价指标,第一个是 Rank1;第二个是 mAP。

ReID 终归还是排序问题,Rank 是排序命中率核心指标。Rank1 是首位命中率,就是排在第一位的图有没有命中他本人,Rank5 是 1-5 张图有没有至少一张命中他本人。更能全面评价ReID 技术的指标是 mAP  平均精度均值。

目前千视通最新的行人再识别跨镜追踪技术(Re-ID)在国家超算中心长沙中心完成的测试结果显示,在Market 1501上的首位命中率(Rank-1 Accuracy)已经达到97.1%,超越人眼识别能力(94%),刷新了此前最高96.6%的记录。同时在CUHK03,Duke MTMC-reID两个数据集上也刷新了之前业内最高纪录,达到了行业state of the art的技术水平,特别是在CUHK03数据集上,Rank 1指标提高了10.7%。



Re-ID 的算法实现

ReID 的完整实现思路分三个步骤:

第一步,从摄像头的监控视频获得原始图片;

第二步,基于这些原始图片把行人的位置检测出来;

第三步,基于检测出来的行人图片,用 ReID 技术计算图片的距离。

现在做研究是基于常用数据集,前面图像的采集以及行人检测的两个工作已经做过了,ReID 的课题主要研究第三个阶段。


Re-ID技术的实现都是尽可能考虑将最重要的部分进行特征提取及比对,然而,千视通提出的基于注意力架构模型的深度神经网络方案来实现行人ReID技术,与传统的全局表征或设定好的局部分割不同,其主躯干网络不要求躯干位置的标注,模型能够从浅层视觉到高层语义的不同空间内自动捕捉关键区域,挖掘多尺度的注意力特征,自动实现行人肢体(如面部,上身及下身)的特征融合,对于姿态改变以及空间变化有着很好的鲁棒性,有效的完成行人搜索工作。


千视通Re-ID技术原理图


在千视通在实际的产品则试时,发现即使不使用 re-ranking,对于 Market-1501 数据库,top-1 准确度也能达到 90%以上。不使用 re-ranking 代表速度上会快很多,同时也减少了计算资源的使用。原因是 re-ranking(例如现今常用的 k-recipical 方法)即使再简单,也需要消耗内存把某范围内的数据暂存,并进行分析和对比。而有不少算法是非常依赖 re-ranking 来达到高准确度。缺少了这个依赖,这使得千视通的算法在实际产品内产生优势。



▊应用场景




应用方向:Re-ID+人脸识别

从产品的应用角度来考虑,Re-ID+人脸识别可应用于刑侦安防。目前人脸识别技术已经发展的比较成熟了,但是在实际应用中摄像头捕捉到的并不一定就是清晰的正脸照,在这种情况下,人脸识别技术就会很有局限性。

Re-ID 技术作为人脸识别技术的重要补充,可以延长行人在摄像头连续跟踪的时空延续性。虽然不是具象的应用场景,但跟人脸识别结合是 ReID 大的应用方向。此外,Re-ID和Tracking一样,可以作为一个辅助的手段,用于单镜头或者跨境头的轨迹刻画,作为人数统计应用。


应用场景一:智能安防

假设我们已经知道某个嫌疑犯的照片,警察想知道嫌疑犯在监控视频里的照片,但监控视频是 24 小时不间断在监控,所以数据量非常大,监控摄像头非常多,比如有几百个、几十个摄像头,但人来对摄像头每秒每秒去看的话非常费时,这时可以用 ReID 技术。

ReID 根据嫌疑犯照片,去监控视频库里去收集嫌疑犯出现的视频段。这样可以把嫌疑犯在各个摄像头的轨迹串连起来,这个轨迹一旦串连起来之后,相信对警察的破案刑侦有非常大的帮助。这是在智能安防的具象应用场景。


应用场景二:智能寻人

在大型公共场所,比如游乐园、大型商场超市、火车站等人流量比较大的地方,小朋友不小心与家长走散了,传统的方式可能会在广播里播一下“某某小朋友,你爸爸妈妈在找你”,但可能年纪比较小的孩子也不是非常懂,寻人过程会非常曲折。

这时如果用 Re-ID 技术,家长只需要提供一张小朋友的照片,因为游乐园里肯定拍了小朋友拍的照片,比如今天穿得什么衣服、背得什么包,把这个照片输入到 Re-ID 系统里,Re-ID 技术就有这个能力根据照片,在实时的所有监控摄像头中,找到与照片中的小朋友最相似的人,帮助家长快速找到小朋友。这种技术对现在人口拐卖的破案其实也是有帮助的。


应用场景三:智能商业

大型商场

ReID通过实时动态跟踪用户轨迹,把轨迹转化成管理员能够理解的信息,比如分析用户常光顾区,在哪些商品区停留时间久等等,帮助优化用户的购物体验。

无人超市

无人超市也有类似的需求,无人超市不只是体验优化,它还要了解用户的购物行为,因为如果只基于人脸来做,很多时候是拍不到客户的正面,ReID 这个技术在无人超市的场景下有非常大的应用帮助。


应用场景四:机器人

机器人可以通过衣着或者姿态去认知主人,做一些智能跟随等动作,因为家庭机器人很难实时看到主人的人脸,用ReID 技术可以实现基于背影或者局部服饰去识别的需求。

此外,机器人能识别动作或者手语,也可以帮助聋哑人士解决很多沟通问题,像是银行、商场都是比较具象的应用场景。


应用场景五:相册聚类

现在拍照时,可以把相同人的照片聚在一起,方便大家去管理,这也是一个具象的应用场景。




千视通,让跨镜追踪Re-ID技术落地


算法都是互相协同的,千视通自主研发的跨镜追踪 (Re-ID) 技术目前已经应用在Re-ID视频大数据结构化平台、图侦综合实战平台、视频图像研判平台、大数据合成作战平台等系统中。



Re-ID视频大数据结构化平台

Re-ID视频结构化平台       

千视通视频大数据结构化平台(Re-ID视频大数据结构化平台)是面向智慧城市、平安城市等项目建设,针对行业视频图像大数据进行人工智能解析的一个基础平台。平台支持各类视频图像数据接入,可执行内容解析、行人/车辆/骑行/人脸特征识别、行为/事件检测等多种智能化应用,同时也是一款集鲁棒性、智能性于一体的视频大数据处理平台。平台可为业务部门提供定制化视频算法及优化,实现结构化数据的输出,提升业务部门对上层视频进行深度应用的能力,为构建城市智慧大脑提供关键技术支撑。


幻灯片9.png

图侦综合实战平台       

千视通的图侦综合实战平台是基于视频结构化、车辆识别、大数据处理三项核心技术,通过对视频图片中涉及到的行人、机动车、人骑车、人脸等,四类实战元素进行特征提取、标注解析处理。结合公安实战业务,打造视频智能应用、车辆缉查布控、案件侦办研判、视频联网监控、人脸识别比对等五大基础功能模块,通过整合业务数据和流程,为用户提供视频侦查的全链条解决方案。



视频图像研判平台

视频图像研判平台       

千视通的视频图像研判平台是一套以案件侦破为目标,紧密贴合公安实战流程的分析研判平台。

通过研判对象和模型,利用大数据技术,以个案研判、类案研判为手段,寻找案件规律,实现案件串并,达到破一案、带一串的目的。


大数据合成作战平台

大数据合成作战平台       

基于视频侦查的"三纵一横"大数据合成作战平台是视频侦查全链条解决方案,系统高度集成图侦实战平台、车辆缉查平台、案件研判平台,打造案件和线索的全流程。

自主研发的人车分类及检索技术、深度学习技术、视频结构化技术等对海量数据进行预处理,为后续业务应用打下坚实基础。通过合成作战网络实现跨人、跨部门、跨系统甚至跨警种的在线协作与沟通。


跨镜追踪(Re-ID)已经成为了计算机视觉研究的热门方向,对于Re-ID技术的精进上,千视通秉承匠心精神,不断投入大量资源进行相关技术的研究和攻克,希望未来能把这项技术应用到更多更丰富的场景中去。



  • 上一篇:行人重识别(ReID)的应用场景及
  • 下一篇:没有了