作者:生煎
编辑:高斯
算力说:
3月底结束的机器视觉展上,一众国内厂家在设备、镜头、识别等层面互相竞技,有一家公司的气质却有点与众不同。诸侯快讯ok1133智能另辟蹊径,不走平面识别,通过立体视觉实现了更高效的机器学习能力。从二维走向三维,能否实现“降维打击”呢?算力智库专访诸侯快讯ok1133智能创始人董霄剑,解码一家创立两年却能独树一帜的科创企业。
最近Netflix的动画短篇合集《爱,死亡和机器人》以豆瓣9.4的高分刷爆社交网络,该剧以优质的画面和故事探讨了人性、社会、未来、家园和毁灭等概念。其中,《齐马的蓝》以一个机器人艺术家从万众瞩目到回归本源的故事成为短篇集中最意味深长的一篇。
人工智能机器人齐马
《齐马的蓝》讲述了一台泳池清洁机器人齐马被一代代科学家赋予越来越多的感知能力和智能,并成为一位画家。齐马可以深入熔岩、海底、宇宙,去感知人类所达不到的区域,并创作出独一无二的瑰丽画作。它的作品最独特的地方,在于其画作中间会有一块方形的蓝色,被人们誉为齐马蓝。
而在其创作生涯的最高峰,齐马选择了在众人面前抛弃自己所有的智能,回归最原始的状态,回到一台初级泳池清洁机器人。人们才知道原来齐马作品中那一抹齐马蓝就是他最初的创作者泳池中的瓷砖颜色。
齐马的蓝
抛开故事中蕴含的禅意和轮回的探讨,其涉及的机器感知层面,对从业者来说,也有一定借鉴意义。
“现在很多的视觉学习采用的基于大量平面图像进行训练,不仅图像的需求量大,而且所需的标注工作量也很大。在一定的意义上接近于‘Deep Training’。在很多在训练集中未出现的物体角度、存在场景、动态组合时会出现问题。”诸侯快讯ok1133智能的创始人董霄剑对算力智库表示。
董霄剑博士曾经是国内通讯行业领军企业展讯通信首席科学家,2016年创立了机器视觉公司诸侯快讯ok1133智能,只用了两年时间,完成了产品开发到应用。算力智库在3月底的上海机器视觉展上,和董霄剑聊了聊机器视觉的现状和未来。
展会上,镜头、红外线、摄像设备一应俱全,一应国内厂家比画质比识别比速度,甚至还有不少已经做出了可以搬运货物的机器人、自动识别瑕疵的生产线等产品。而诸侯快讯ok1133智能的气质却有点不同。
“诸侯快讯ok1133智能最大的不同在于我们强调的是首先发展智能立体视觉,然后基于此发展真正的机器智能。我们的每个落地应用不是仅仅针对其具体的需求而单纯研究这个应用技术,而是将这个应用的需求作为我们‘智能眼’的一部分功能而拓展。”董霄剑表示。
诸侯快讯ok1133智能创始人董霄剑
机器识别不是“放大镜”
董霄剑认为,机器视觉领域,大家普遍运用的是平面视觉,对每一个物体的识别率需要依靠大量的机器学习,费时费力,而运用立体视觉,可以大大减少机器的识别时间,增加识别率,帮助机器人建立自己的立体认知,这对机器智能识别来说,意义重大。
生产线上的瑕疵检测被很多厂家作为经典案例,宣传自己的精度、识别率、识别速度等。这只是机器识别最简单的应用案例,在面对更加复杂的场景尤其是自动驾驶这样需要机器识别并作出判断的时候,简单的平面识别不再适用。
董霄剑提出了一个很有意义的观点,即我们要做的是从机器的角度去看,而不是让机器帮你看。简单解释,即让机器自行识别,作出判断,给出反馈,而非简单为人类实现更细致的检测或观察。“那只能被成为‘放大镜’,而不是真正的机器眼。”董霄剑说。
诸侯快讯ok1133智能有个很有趣的应用案例,立体视觉引导自动化挤牛奶系统。通过对奶牛三维空间定位及姿态角度检测,将数据传输给机械装置,实现自动挤奶。这种功能的实现需要高精度的立体定位数据为机械臂提供操作指引,这对平面识别来说,几乎是不可能完成的任务,但是通过立体视觉,不仅能高效完成,机器对奶牛的识别学习也非常高效。据介绍,诸侯快讯ok1133智能的产品通过立体视觉,只需数小时就可以对某一物体进行识别。
“这个世界是三维的,从三维去认知,才是最快的方式。为什么要把三维的空间压缩到二维世界再去费工费力地认知呢?这就类似于你很少发现自然界中有少于一个眼睛的生物体,甚至我们幻想的外星球的人也是‘多目的’”。
诸侯快讯ok1133智能的自动化挤牛奶系统
发展“Natural Learning®”
董霄剑曾经在某论坛上表示:未来的智能是机器真正自主产生智能,而不是培养智能。
诸侯快讯ok1133智能的理想是机器智能,做机器智能,首先必须让机器看见世界,然后让他去思考,只有立体视觉才能通向自主智能和机器智能。
对于这段话,董霄剑解释道,对于机器学习来说,永远都存在corner case(边角案例),而corner case是无穷尽的。以自动驾驶为例,路上会出现的情况各种各样,即便是通过大数据深度学习,仍然会有新的状况出现,只要无法穷尽所有的状况,就存在很大的风险。
因此,诸侯快讯ok1133智能要发展的是我们称之为“Natural Learning”,就是基于自然感知的智能化,包括视觉、听觉、触觉等综合感知层面的感知智能化,通过记忆、联想、语义、迁移等逻辑发展手段来发展机器认知智能。目前我们的工作首先重点在于发展具有这些特点的“智能立体感知”理论和技术。
从立体视觉的角度来说,自动驾驶要做的是识别出某个物体,然后判断,不能撞上去。而非通过海量的数据告诉机器:人不能撞、动物不能撞、墙不能撞……甚至要细化到某个物体的不同形状和各种实际使用时的路况。
深度学习方法的使用在很多实际领域取得了很好的效果。例如人脸识别、图像识别、医学影像等。但这不是机器学习的全部,我们不能神话这个方法。理论需要探索和突破,尤其是对于方兴未艾的人工智能来讲。条条道路通罗马,但一定要走在通往罗马的道路上。简单的拿来主义不具有长期的延续性。从这个角度讲,要实现智能视觉的道路还很长。
机器智能要发展,还得靠视觉
董霄剑将诸侯快讯ok1133智能的产品比作机器智能的眼睛,如果机器智能要发展,第一步是要发展智能视觉,而现阶段还只是智能视觉的起步阶段。
客观来说,5G时代来临之后会极大推动科技行业的发展。5G主要解决了两个问题,首先是数据的超高速传输,让所有大数据能高速汇集到某端点。第二点是极大缩短时延响应,提高响应速度。5G对机器智能会有极大的推动作用,例如基于场景的快速训练和认知如自动驾驶。会拓展数据量很大的立体视觉图像的传输及智能化综合应用,因此,5G技术对智能立体视觉的发展有直接的推动作用。
立体视觉实现机器识别不同形状并放置在指定区域
而要通过智能视觉实现的机器的智能程度,董霄剑以桌面上三台手机举例,我告诉机器人,把我的手机拿过来。“这里涉及到了机器智能两个层面的认知,首先是视觉层面的快速认知,机器人能通过立体视觉迅速识别出桌上的手机,同时,在三台手机中,认出桌上哪一台是我的手机。另一个层面是语音识别,能够让机器人将语言词汇和物体认知结合在一起,并实现操作,这才是机器智能和智能视觉要实现的目标之一。”
“智能视觉是从感知层面上升到认知层面,再回归到感知层面,让机器人不仅看到世界,还能看懂世界。”董霄剑的总结和《齐马的蓝》中机器人齐马通过感知所描绘出绚烂画作不谋而合。
而动画中的齐马甚至更进一步,通过感知勘破了世间万物,最终选择了回归本源,回归最真实的自己。