演讲丨无所不在的AI感知

发布时间：2018.10.26 分享：

[ 亿欧导读 ] 10月19日，由亿欧主办，思贝克联合主办的“BATi智慧城市论坛”上，文安智能董事长陶海发表“无所不在的AI感知”主题演讲。从计算机视觉算法到硬件能力都指出关键竞争要点。

10月19日，由亿欧主办，思贝克联合主办的“BATi智慧城市论坛”在深圳万科前海国际会议中心隆重举办。本次峰会是亿欧今年5月举办的“GIIS安防AI创新峰会”的延续，上一次，亿欧关注人工智能等新技术对安防产业的赋能，这一次，亿欧将视野从安防扩散到整个城市。本次论坛以“智慧城市”为主题，不仅探讨了智慧安防新机遇，还将目光扩散到了智慧交通、智慧生活等智慧城市建设的多个领域。

以下是文安智能董事长陶海现场主题演讲的精彩观点实录，亿欧在不改其意的前提下，对演讲原文略作删减，以飨读者。

人物介绍

陶海，人工智能与计算机视觉领域知名专家，北京文安智能技术股份有限公司董事长。他先后获得清华大学自动化系学士与硕士学位，美国密西西比州立大学电机工程系硕士学位，美国伊利诺伊大学香槟分校电机与计算机工程系获得博士学位，博士期间师承美国“计算机视觉之父” Thomas S. Huang教授。

演讲内容

演讲主题：《无所不在的AI感知》

大家下午好，非常高兴有机会和大家进行交流。

我对今天的会议感受很深，中午一起吃饭的有很多老朋友，智能交通经过了很多年的发展，逐步进入产业化，逐步开花结果。刚才刘总讲得非常好，停车一直是困扰着我们的，三种停车方式到底用哪种，现在看起来高位停车做得非常棒，而且前端技术只是一部分，更重要的是把后面的平台、使用体验做得非常棒。

今天我要讲的主要是计算机视觉技术在智能交通中的具体应用。

文安智能做交通做了很多年，最早做车牌识别，后来开始做电子警察，电子警察和停车在城市的交通应用中是两个比较重要的、多产出的两个应用。最近一段时间，从管理的角度，城市大脑的发展越来越重要。我们在电子警察方面做了很多创新，这个产品越来越丰富，今年可以做到16种功能，会不会太多？好像计算机视觉已经强大到大家都没法开车了。但是其实计算机视觉技术在智慧城市中，除了交通和安防外，还会得到非常多的应用。

文安智能创业早期主攻算法，在2012年逐步开始做硬件。我们发现做人工智能如果只做算法是会有问题的，因为大规模的产业化的时候，一定要把成本降下来，把易用性提高，光靠算法就不行。所以我们后来也做了很多嵌入式的设备。对于视频来讲，智能无非是前端的智能摄像机或者是后端的高密度智能分析，也可能有中间的过渡，那就是一个视频处理的盒子。

undefined 智能视频技术层级

我们的技术架构的底层还是计算机视觉的技术，现在都讲深度学习，可能对一些识别、分类和检测比较有效。但做视频处理的时候，可能还需要做跟踪以及其他的图象处理，所以传统的视觉技术和深度学习视觉技术是进行混合的。嵌入式视觉也非常重要，怎么把视觉算法放到小的芯片里，这里就可以看到我们做的一些面向不同场景的设备，用于智慧零售的智能相机和用于智慧城市的人脸和交通相机，以及后面的高密度GPU服务器。目前文安有两个主要业务，因为现在都到了AI落地的时间，一个是智慧城市，过去以智慧交通领域为主；另一方面是智慧零售和智慧商业，智慧商业这个方向我们也做了接近十年。智慧零售则是经过一段时间铺垫，今年刚刚开始发力。

今天的题目是“AI感知”，我们在做城市大脑的时候一般会分为感知层AI和决策层AI。要做决策层AI首先要有足够多的传感器把路面上的信息收集回来，也就是感知层AI。

首先是关于车辆感知，有几个方向：一个是交通违法信息；第二个是交通流量，也就是交通流的信息，治理拥堵、信控等等都需要；第三个是交通事件和城市应急事件，拥堵、撞车等等。除此之外，在现在的智慧城市中，尤其是深圳，还做一些创新性的事件检测，比如跟城市部件完好相关管理，城市综合治理等。综合治理涉及到城管、环卫、水务、国土等多个城市管理部门，这就涉及到很多的视频分析功能以及视频数据的综合利用。比如说垃圾有没有溢出，小黄车有没有乱摆放，有没有摊贩占道经营，通过智能摄像机和后端智能分析系统全部都可以分析出来。我们就把路面上的摄像机大致分成了五类：车辆的违法、车流量信息、交通事件和应急事件，以及综合治理、城市部件等。

undefined 城市管理提升与无所不在的AI技术

从算法开发的角度来讲，底层是结构化，再往上面要做很多细分的。现在林林总总的路面上的监测能做到大概30多个各种类型的识别功能。这是我刚才已经说过的，跟消防、水务等都相关。换句话说，现在的人工智能计算机视觉的水平基本上可以做到你在视频里面用人眼大致识别出来的东西，计算机都可以识别出来。后面就有一个更深层次的问题，收集了这些信息之后怎么用？政府用这个信息的流程要怎么跟它适配，最终形成一个闭环。采集到垃圾装满了就可以马上收走，这是另外一个问题，决策层AI的问题。我们首先要解决的问题是前端，能够正确的分析出来。

下面是一些案例，比如说这是一些结构化分析的功能和方向，现在各公司都做得非常多，而且也越做越细。从一定程度上来讲，学术上没有太大难度，只是数据收集、标注，用一个神经元网络做拟合，现在这方面的能力是比较普及的。当然其中的关键问题是能不能做得便宜？能不能把优化做得非常好？达到合理的投入产出。

第二个，路面上无非是人、车、非机动车。对于这些对象，我们要对他们进行流量的分析，不管是客流、区域存量人数、区域车辆、断面车辆等等，现在对非机动车的关注也越来越大，因为很多城市里面的自行车和没被定义为机动车的各种电动车辆还是非常多的。

此外是事件检测，和城市相关的事件有60多种，很惊人的数字，除了交通之外还有比如说刮台风，电线杆倒了，或者是树倒了；比如说抛洒、井盖缺失、垃圾溢出等等非常多。在这些事件的识别上，现在还处于不太成熟的状态。这里有一个非常重要的原因，就是这些事件往往是小样本事件，不像车牌一下就是几十万个、上千万个，用深度学习结合一做就结束了。道路上有裂纹，样本是很少的；道路积水的形态各异，样本又少，这种时候怎么把事件分析出来，本身就是非常有意思的计算机视觉问题。不是很盲目的弄一堆数据一拟合就可以实现的，还需要深入做研究，当然有不同的方法。

回到交通领域，我们今年在北京市海淀区第一个部署了16合1电子警察相机系统。在我们跟深圳交警交流的过程中，用户说到现在各公司都说能做16合1，但值得一提的是文安智能的16合1是真正的16种动态交通违法行为分析，而不是把车牌的颜色识别都当成是一种功能。现在的违法行为监测已经从单一的闯红灯到单一车辆乃至多个车辆的轨迹分析，比如说左拐车辆不避让直行车辆，这些是两个车辆的交互，做得也是比较细的。只不过是不是需要做到这个程度，这是执法重点的问题。哪个地方强调哪种执法，是可以选择的，这也和城市当地的具体情况有关。但是从技术提供方角度讲，可以把这种能力提供出来。

undefined 文安智能16合1电子警察相机系统应用于北京市海淀区电子警察系统，《北京日报》、《北京晚报》等先后报导此项目

此外，我们今年还做了很大的创新。前面提到的这些功能，以前都是放在前端相机里的，但是现在，后面的服务器里也可以把这些都做了，这对充分利用原来已经安装的相机作用很大。假如说对于已经装了的摄象机，通过后端智能结合就可以增强它的功能，原来抓不到而城市管理者又很想抓的行为就可以抓到。

在路面上的摄像机，如果能控制它的话，还能做一些微卡口，微卡口可以是针对人、车、非机动车等各类物体的。比如说人脸就可以在路面上抓拍，非机动车在一些电动车被偷窃比较严重的地方，有需要也可以做识别。ReID，也就是我们常说的跨镜跟踪，这是学术界和产业界都比较热的领域。在一个区域或者整个城市里，如何依靠一个个彼此独立的摄像头，跟踪一个嫌疑对象。ReID的技术现在还在发展成熟过程中，指标也越来越好，内部研发现在可以比最好的测试机还能提高不少。2008年，当时的指标还是很低的，但有了深度学习后，这方面确实做得越来越好。就ReID而言，即使是同一个人，我们不同摄象头里面可以找到他，视角可能都是不同的，但是依靠多维度的特征，比如说人体、服装配饰、包、鞋等，我们可以知道是同一个人。但是要做好，这个特征发现的过程必须是自动的，人不能干预。

undefined 城市管理中的跨镜跟踪

下面分享两个视频，一个是车辆的，主要还是车辆行为和信息监测；另一个是我们做的地铁里面的客流统计，地铁的客流统计主要是出于安全考虑，人不能太多。怎么知道一个地铁站里面有多少人，这件事情其实不是想象的那么容易，有两种做法，一种靠进出流量统计、一种靠区域存量人群统计。就流量统计而言，因为设备都会存在误差，在人流量非常大的时候，随着时间的推移，积累误差会很大。而且越到晚上这种人少的时候存量误差越大，极端的情况下，在地铁站里实际只有300人的时候，积累误差可能是负3000人。那么怎么真正准确的知道里面有多少人呢？一个做法是用区域全覆盖，摄象头越来越便宜，算法越来越好，成本确实也越来越低，这种情况下可以对一个场景进行全覆盖，用存量综合统计的方法进行分析。另外一个很有意思的全覆盖的场景，是智慧灯杆。深圳和各地都在做智慧灯杆，刘总说的停车和智慧灯杆是有交集的，就是把城市路面全部进行覆盖。这种情况下，做了全覆盖以后，就可以全面了解整个城市的状态，多少人、多少车，路上发生了哪些事情，所有细节行为都可以知道。

总结一下，简而言之现在说的算法，在公安和交通里面，尤其是交通里面主要是关心人、非机动车和机动车。算法做什么？首先是图像里要检测到，现在的摄像机分辨率越来越高，以后一个灯杆上的相机可以达到4千万象素，要把所有场景里面的车、人、非机动车全部检测出来。第二是跟踪，他们到底在怎么运动？第三是识别出来，知道车牌号码，知道人体特征。第四是要知道行为，人有没有聚集，车辆有没有违法，或者是有其他的行为。我们计算机视觉公司主要是开发这一类算法，并且把它们放到设备中去，并把做到易用，成本可控，在一个垂直行业里全面推广。

文安智能是有硬件能力的。要把设备做好，适合行业推广，要做到三点，第一要做高密度，第二做低功耗，第三是低成本。我们自己不做芯片，所以我们跟一些芯片厂商合作，比如说英伟达、英特尔、华为海思等等。从设备方面讲，无非是前端和后端，我们认为未来凡是涉及大库比对、跨镜融合的，这种比较适合在云端做，尤其是对物体的抓取。但因为分辨率越来越高，都拿到后台处理又是不太现实的，将来如果4千万象素的时候，把4千万象素摄像机产生的视频数据全部放到后台去是不太现实的。最好的办法是前端智能主要负责检测、跟踪、行为分析，一个摄像头内能干的事儿都在前端干完。跨摄像头的就放在后面做，这个数据传输量就会比以前小很多。目前文安在前端有两类主打设备，做人脸和客流抓拍，给店铺和商业地产应用。另外鱼眼智能相机，可以做区域热力图，也可以做进店率。成本可控，功能强大。

文安智能的产品，还有公交车的客流统计和运营分析，现在我们拥有在公交车做客流统计最精确的算法。也包括给购物中心、零售连锁店做客流统计的设备，已经做了十年。到今天才敢说，我们这些设备基本上可以做到DIY，免调试了。

从后端智能分析设备而言，这是我们的“繁星”智能分析集群服务器，里面包含两层芯片，一层有20颗NVidia TX1，未来还会推出其他芯片的产品。这类产品的基本概念，就是这是一个没有主CPU的架构，完全并发N个，40个也好，60个也好，这些处理器，高性能的CPU，用来做视频分析是最有效的，做一千路视频也不需要太多台服务器。

undefined 文安智能服务行业应用的典型硬件产品

未来我们觉得万物互联必然成为现实，而且以前讲IoT可能更多讲传感器，随着传感技术和处理技术的发展，我们认为未来的IoT会把智能视频、图象处理、识别纳入进去，视觉传感器足够便宜，功耗可能也只有一两瓦，还有数据传输能力，这样就可以做到无所不在的计算和传感器网络。我记得在2003/04年的时候，美国学术界提出了这些概念。经过了15年努力，直到今天才看到了这些愿景实现的可能性。

谢谢大家。

上一篇：文安智能入选“交通+安防”技术领先双百强，助力城市精细化管理下一篇：简讯 | 苏宁-文安智能联合智慧零售方案再秀物联网大会返回列表