人工智能公司——百度
一年一度的“百度世界大会”昨日在北京中国大饭店举行,这是百度一年中最重要的开放论坛,百度通常在这个大会的主论坛上发布自己的重大战略,并在分论坛讨论自己最为关注的业务方向。
2015年的百度世界大会,主题是“连接人与服务”,人工智能只是一个不起眼的配角,李彦宏的演讲主题是“索引真实世界,连接3600行”。彼时,O2O的热潮已近尾声,但百度仍然抓着它的尾巴不放。随后,贴吧事件、魏则西事件,百度陷入舆论危机。
今天的百度世界大会主论坛,李彦宏和百度首席科学家吴恩达先后上台,演讲全部围绕人工智能展开,吴恩达更是开场即说,“大家知道,我们百度是一家人工智能公司。”
操一口港式普通话的美籍华人吴恩达呆在国内的时间不长,所以他不知道大家眼里的百度,其实是一家搜索公司和广告公司,但毫无疑问,他说出了李彦宏没有明说的心里话——从今以后,百度要把自己打造成一家靠人工智能安身立命的科技公司。
“人工智能对于百度来说,是核心当中的核心。”李彦宏说。
以下为李彦宏演讲全文
欢迎来到2016百度世界!
大家知道,百度世界是我们每年举办一次的百度技术创新大会。今年的主题我们聚焦在人工智能,大家在之前收到的请柬上已经看到这个主题了。刚才开场视频是以人工智能为主题的,今天我的主题演讲也将围绕着人工智能来展开。
今年6月份,我在百度联盟峰会上讲了一个概念,叫做互联网的下一幕。下一幕是什么意思呢?就是说,互联网的发展在此之前已经经过了两个非常重要的阶段,第一个阶段大概持续了十几年的时间,就是我们讲的PC互联网阶段。第二个阶段是在最近四五年,我们把它叫做移动互联网的阶段。对于中国市场来说,随着上网人数越来越多,上网人口的渗透率越来越高,现在已经达到了七亿多,就是说已经超过了50%的渗透率,同时,每一个上网的人现在也基本都用上了智能手机。
这意味着什么呢?这意味着,未来互联网的增长不能再靠人口红利来驱动了,也就是说,移动互联网的时代其实正在离开我们。这可能是很多人觉得难以接受的。我们国家现在进入了所谓的新常态,经济的增长需要靠“互联网+”行动计划来推动,所谓“互联网+”就是希望用互联网的思维方式、互联网的效率来推动各个行业、产业的继续发展。但是,我们互联网的从业者其实又深深地感受到了这其中的危机,这个危机就是因为过去的粗放增长阶段已经结束了。
移动互联网之后的下一幕是什么?其实现在已经很清楚了,就是我们所说的人工智能。人工智能对于百度来说是核心当中的核心,我们也很幸运,在过去的五六年当中,百度花了很大很大的精力投入到人工智能的研发当中。人工智能对于百度来说意味着什么呢?我可以用简单的四个字来描述,就是百度大脑。百度大脑的概念我们其实在大约三年前就对外讲过。那个时候我们讲,百度大脑已经具备了大概两三岁孩子的智力水平了。自此以后,不断的有人来问我,尤其是今年人工智能突然火起来了之后,很多人来问我说,你们这个百度大脑现在相当于多少岁人的智力水平了。
要回答这个问题其实还蛮难的,我也不知道它现在是多少岁了,因为毕竟人脑和电脑它还是有很大的区别,百度大脑虽然是一个人工智能的大脑,但是它和人正常的发育的过程还是很不一样的。
百度大脑到底由什么构成的呢?它基本上是由三个大的部分组成的。第一个组成部分,就是人工智能的算法。我们有超大规模的神经网络,这是模拟人的神经元组成的网络,但其实我们也不知道真正人脑工作的原理是什么,只是想象当中应该是这个样子。我们还使用了万亿级的参数,人脑的神经源大概是千亿级的,我们也有千亿的样本和千亿的特征进行训练。整个这些东西组成了百度大脑当中算法的部分。
百度大脑的第二个组成部分是计算能力。现在我们已经使用了数十万台的服务器来进行计算,而这当中很多的服务器不是传统基于CPU的服务器,而是基于GPU。早年的时候,GPU主要在游戏等领域使用得比较广泛,在人工智能、尤其是深度学习起来以后,我们发现,其实GPU特别适合人工智能的计算,尤其是深度学习的计算,一块GPU可以顶100个CPU的计算能力。有关GPU的事情,我之后会请一位外部的嘉宾,就是NVIDIA的创始人和CEO黄仁勋先生,让他给大家介绍更多有关GPU的,尤其是在人工智能领域应用的情况。
百度大脑的第三部分是数据。数据也非常非常重要,而且这个数据量也是非常大的。比如说,我们已经收集了全网上万亿的互联网网页内容,这其中包括了很多视频、音频、图像,这些数据也是数以百亿级的。我们还有每天数十亿次网民的搜索请求,而且还有每天数百亿次的网民定位请求,就是说这个人在什么地方,这样的请求也比大家想象得多,每天都有好几百亿次这样的定位请求。
有了算法,有了计算能力,有了数据,百度大脑就可以开始工作了。百度大脑又到底有什么样的功能?让我们来看一看。
我们今天想重点介绍的四个功能:一个是语音的能力,一个是图像的能力,一个是自然语言理解的能力,还有一个就是用户画像的能力。这几个能力虽然都是属于人工智能中比较典型的应用,但是它的发展阶段也是很不一样的。比如说语音,现在就已经进入了相对比较成熟的阶段,在很多很多领域中都开始进入实用阶段,识别的准确率也已经很高了。图像最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分,所以深度学习的算法非常适合处理这些形式。
相对来说,自然语言的理解、或处理能力就更加难一些,并处在一个更加早期的阶段,因为它除了认知方面的能力之外,还要求有推理、规划等等能力,才能够真正地理解自然语言。用户画像的能力,其实从传统意义上来讲并不是人工智能的领域,但是由于近年来大数据的发展,尤其是大型互联网公司有能力搜集很多用户的数据之后,再用人工智能的方法、用机器学习的方法,就可以把一个人的特征描绘得非常非常清楚。所以今天,用户画像也变成了人工智能、或者说变成了百度大脑的一个重要功能。
下面我就分别来讲一下这几个功能,这几个百度大脑的功能。
我们先看一下语音,刚才也讲了应该说今天人工智能发展的最成熟的一部分能力,而语音又分成两个方向,一个是语音的合成,一个是语音的识别。
我们先看看语音识别。今年MIT Technology Review(《MIT科技评论》)杂志,把百度的Deep Speech 2评为“2016改变世界十大突破技术”,这就是百度的语音识别引擎,它已经到了第二代,主要就是使用了深度学习的能力。这样的一个技术已经可以把语音识别的准确度做到多少呢?大概可以做到97%的准确率,这样的准确率已经达到、甚至有时已经超过了人对语音的识别能力。当然,我们讲这些能力不是为了简单地去炫耀这个数字有多好,我更感兴趣的是,当你有了这些能力时,它可以在什么领域应用,又可以在哪些方面帮助到我们,这其实才是最最让我们觉得兴奋的地方。我个人的想象力很有限,整个百度几万人的想象力也是有限的,但是这些能力如果赋予到很多很多人,赋予给几亿人、几十亿人,这个可能性几乎是无限的。先用我们比较有限的想象力来给大家举一个例子。
这是一个销售、电话销售的例子,是一个 2B(To B)的应用。这个应用是什么意思呢?很多的公司其实都有电话销售这样的一个部门,都需要这样做。但是销售,尤其是电话销售这个行业,大家知道流动性是比较大的,很多销售都是新人,新人的话就会经过一定的时间培训才能够上岗,但即使是经过培训的话,也不一定有那些有经验的销售那么出活儿、出单。其实有经验、最优秀的销售和一般、较差的销售相比,在效率上有非常大的差别。我们怎么才能够让新手、让没有经验的销售,能够具备最优秀销售的销售能力?过去的做法是,把优秀的销售经验总结成册子让大家去学习,让这些销售去背,但是怎么活学活用还是需要一个过程的。而有了这么高精度的语音识别能力之后,我们就可以彻底改变这样一个状况了,甚至可以让一个刚刚上岗一个月的销售就具备最优秀销售的能力,也就是说,我们可以通过实时的语音识别甄别出用户或客户在问什么问题,然后我们再实时地在屏幕上告诉新的销售,最优秀的销售是怎么回答这个问题的。过去没有实时的语音识别的时候,你需要线下学,学完了之后上去用、很容易就忘了,但是有了这个系统之后,我们就可以解决这样的问题。
我们来看一下这个案例。【播放语音识别技术演示视频】
大家看到,在刚才的过程中,百度大脑一直在实时地识别双方的对话,尤其是从电话里面传出来的声音,有的时候并不是那么清晰,对于人来说要完全听清楚每一个字其实都是有一定难度的,但百度大脑的语音识别能力已经可以做到非常精准,并且可以根据用户的问题、实时推荐下一步的工作要怎样应对,这是一个语音识别应用在企业日常运作中的一个例子,就像我刚才讲的,应该还有很多很多应用场景,大家可以根据自己的背景去想象。
语音识别是一方面,语音合成又是另外一个方面。语音合成是什么意思呢?就是机器可以把文字转换成语音,把它念出来、读出来。今天的语音合成也有了和过去非常不一样的体验,最主要的就是,它可以用比较自然的人的声音读出来,而不是像过去机器一样,每一个字之间的停顿都是一样长,是匀速的、没有表情的。这样的自然体验,当然对于用户的黏性来说也是有很大的作用。
现在,百度每天要响应2.5亿次的语音合成请求,这些请求用来干什么呢?比如说,过去人们看小说,今天可以在手机百度里面听小说。慢慢的人们听小说的时间也更长了,过去每个人平均在小说频道会花大概四十分钟左右的时间,现在要花将近两个半小时,就是因为把计算机合成出来的语音读出来给我们听,确实是一个很不错的体验,甚至是一种享受。那么这种读出来的小说,和我们平时听到的广播有什么本质上的不一样?其实非常不一样。广播是每一个人听到的东西是一模一样的,而今天的语音合成,它可以做到每一个人听到的东西都是不一样的,完全根据你个人的需求进行定制,这就是为什么它的(用户)黏性会很高,它能够具备自然发声的能力。不仅如此,其实我们可以想象一下,它如果能够模拟一个自然人的表达方式或发声能力,它就可以模拟任何一个你喜欢的人的说话方式。
不知道有没有人注意到,百度地图里导航功能就是用语音来进行的,其中有一个选项可以用我的声音进行导航。其实导航的那些话我并没有说过,机器只是根据我平时说话的情况合成了一个李彦宏的声音。这样的声音不仅在我身上可以做到,在很多其他人身上也可以做到。
我们现在来给大家展示一个合成的声音。我们合成了一下13年前已经去世的张国荣的声音,我们来放一段video。【播放情感语音合成视频】
为什么给大家展示这个呢?一方面我知道,很多人是张国荣的粉丝,另一方面,其实合成张国荣的声音比合成一般人的声音要更难。为什么呢?因为他的国语语料相对来说比较少,所以,我们能够合成他的声音,就一定能合成很多很多人的声音。
对于百度来说,百度大脑的语音合成能力可以让每个人都有自己的声音模型,你只要按照我们的要求说50句话,我就学会了你说话的方式。当你拥有自己的合成声音之后,比如说家里的老人想经常听你说一说,你把这个声音合成出来让他听就好了。或者说你平时要加班,小孩睡觉之前想听个故事,你合成自己的声音给孩子讲一遍这个故事,听起来也会很亲切。所以大家可以看到,这些语音的能力会带来各种各样新的可能性。
下面我给大家讲一下图像。用一个比较专业的术语来讲,我们叫做计算机视觉。这也是现在广义的人工智能中非常重要的领域。说到图像的识别,我想大家自然而然会反应出来一个什么应用呢?应该就是我们通常讲的人脸识别的应用。人脸识别的准确率今天已经达到了99.7%,已经非常非常准确了。现场的屏幕能够识别出来我们一些嘉宾,根据他们的人脸,我们知道这个人是谁,这个准确率已经比较高了。刚才进来的时候,大家也可以看到一些人脸识别的展台,我们是可以识别很多很多人的面孔的。
那么,人脸识别这个技术是怎么实现的?我们要对人脸的特征提取它的关键点,把这些点打出来之后要做一些处理,把它连成一个面部表情,据此来识别这样一个人。这就使得当一个人的表情发生变化的时候,我们仍然能够识别出来这个特点是没有发生变化的,比如他在哭,他在笑,他在愤怒,他在迷茫,他的表情是不一样的,但是他的表情特征是不变的,所以我们仍然可以很准确地识别出这样一个人。
除了面部识别之外,图像识别还在很多领域也有应用。我们再看一个,这是上海的一个全景图,大家使用百度地图有时候需要看这样一个景,到一个陌生的地方之前,想看看到那看到的样子是什么。当然,这个图不是一个简单的图像的采集,我们采集了图像之后要对图像中各种各样的目标进行识别,这个大楼是什么样的大楼,那个路牌上面写的什么字,对写的这个字识别的话,跟人脸识别还不太一样,这里面有一个特殊的图像识别的技术就是OCR,这个是二十多年前我们的一个专利,到今天它的准确率已经非常高了,下面我们也是用一段视频给大家看一下百度地图是如何利用图像识别的。【播放百度地图视频】
这是百度地图利用图像识别的情况,其实还有一个很重要的领域也是非常需要图像识别的技术,这个领域是什么呢?这就是我们过去一年来讲得比较多的无人驾驶汽车。无人驾驶汽车涉及到很多很多的技术,比如说我们需要计算机视觉的技术,需要高精度地图,需要对环境的感知,需要定位,甚至需要语音的通话。但应该说,计算机视觉或者是图像识别的技术是“最后一公里”,无人驾驶汽车真的要变成没有人,真的要能够解决99.999%、甚至100%的情况,最终还是要依靠计算机视觉的能力,要识别各种各样的极端的情况。
去年年底开始,我们给大家展示过百度的无人车在五环上跑,在高速上跑的情况,过去一年左右的时间我们也花了不少精力去提升我们在城市道路上运营的水平,下面我们也放一段视频给大家看一下。【播放无人车视频】
大家看到左下角这是人能够看到的视野,这个视野其实是比较窄的,主屏幕是无人车能够看到的路面情况,大家可以感受到,它感知的范围其实比人要宽了很多,很多比较远的目标都可以感知到,每个目标都给出它唯一的编号进行识别。对面有什么车过来了,遇到红绿灯,遇到障碍怎么办,行人怎么能识别出来,或者是树木,周边的汽车等等,每一个目标我们都进行了识别和编号,这就是实际的、一个百度无人驾驶汽车在城市道路中行驶的情况,上面的45是限速。
这是大致的一个车看到的世界是什么样的。这里面涉及了很多计算机视觉或者是图像识别的技术,尤其是这两个技术:一个是我们叫做车辆的检测,你行驶过程中怎么能够知道旁边有车辆,这个车辆在哪?这个车辆的检测我们现在按照国际权威的评测来看,车辆检测的能力,百度无人车已经排名第一了。还有一个很重要的能力是车辆跟踪的能力。这个不仅是全自动的无人车,即使是对半自动的、高度自动驾驶来说,也是一个很基本的能力。你怎样能够准确地跟着前面的车走,这个技术在包括准确性、全面性、连续性等六项指标中,我们已经有四项拿到了第一。
这是无人车对于图像识别依赖的情况。我们再给大家展示一个领域,就是增强现实AR,AR其实也是非常依赖(图像识别)。拿着手机拍一下现实的情况,我们要能够识别出来这是哪,这里面有什么,然后才能跟用户进行互动,才能产生真实世界和一些虚拟世界的完美的结合。那么这个东西有什么应用呢?我们也觉得很高兴我们的周总、我们的广告主非常敏锐地把握到了这么一个机会,他说OK,我可以把现实世界中我的产品和虚拟世界中我希望用户感知的东西结合在一起,这样的一个做法也可以说是一种新型的广告形式,下面我们就来看一个具体的例子。这是我们跟欧莱雅中国合作的一个例子。我们放视频。【播放欧莱雅视频】
所以大家看到无论你拿手机拍一张明信片,还是拍一个实物的洗发水,它都可以准确地识别出来这个东西,和用户进行互动,这里面不仅有图像识别的技术,也很大程度上取决于广告主的创意,如果创意和这个技术结合,对消费者的吸引力也非常大,所以我们也期待将来的时间和客户很好地合作,把这个创意,把最优秀的想法和最优秀的技术结合起来,给消费者带来实惠。
下面我们再看自然语言处理。自然语言处理其实我刚才也讲了,它的成熟程度应该不如语音,甚至不如图像识别,但是即使在目前的状态下,它也能够给大家带来很多很多不一样的体验。最直接的例子应该是我们去年在百度世界大会上讲的一个例子,就是度秘。度秘是一个个人智能的助理。这个个人智能助理今天我们可以在手机百度里面找到,度秘跟用户进行交互,现在已经有超过一半的交互是通过语音和图像来完成的,去年我们也讲了,语音和图像将来会变成一个主流。
度秘除了它能够识别语音和图像之外,其实它更关键、更核心的技术,是能够用人的语言来与人进行交流,并且能够理解人的很多意思和意图,尽管不是每一次都能理解。
过去这段时间我们也利用度秘的自然语言的能力做了一个比较有意思的应用,用度秘来解说奥运篮球,下面我们看一下视频。【播放度秘与杨毅合作解说视频】
这个不是度秘单独完成的一次解说,是他和著名篮球评论员杨毅先生一起合作做的一次奥运篮球比赛的解说。今天我们也很高兴把杨毅先生请到了现场,现在请他上台。【嘉宾杨毅登台】
Robin:刚才我们看到很有意思。你跟度秘一起解说了一场篮球的比赛,而且我也注意到你的风格和度秘的风格还是很不一样的,我想问你一下,作为一个篮球评论员,你觉得一个好的解说员应该具备什么样的能力?
杨毅:首先我觉得很难说我有资格来讲一个好的评论员要具备什么样的能力,我相信很多行业都在不断地前进和发展。而且对一个解说员,即使他解说了一万场比赛,但他下面面临的一场比赛也是新的。但我想,总的来说,一个解说要想很好地工作,首先你要对这个项目有非常深刻的了解,无论对它的项目特点还是历史背景,第二个要有非常快速的现场反应能力,第三个我觉得要有出众的语言表达能力,把你看到的、听到的,能够尽快地呈现给观众或者是听众。
Robin:对,这些能力度秘都在不断地学习过程中,还有很多不完美的地方,我也希望度秘能够从你的身上学到很多很多东西。刚才我们看到你和度秘合作的这样一次解说,它跟你学习了一次之后,我们想让它单独做一次篮球比赛的解说,现在我们看一下度秘解说篮球奥运决赛的情况。【播放度秘解说奥运篮球决赛视频】
Robin:ok,这是度秘单独的解说,也想请杨毅先生评论一下你的学生表现怎么样?
杨毅:显然度秘比之前和它一起说的时候完成得更好了。其实我跟它说的时候,它的表现就是出乎我的预料的,我也听说它学习过上百场甚至上千场的比赛,它对比赛的基本知识储备是没问题的,在这个行业里面,它可能比我知道得还多,因为几年前的比赛我可能已经忘了,但是仍然装在它的电脑里。上知天文,下知地理,什么都明白,它的表达也是比较清楚的,在我跟它说的时候,我觉得只有一个小小的问题,我觉得它说话的速度确实是好慢。但是大家刚才看到,它说决赛的时候能明显感到语速加快了,更符合体育竞技的特点,更快速地将现场的情绪传达给观众。
Robin:对,我其实非常同意。刚才听的时候我也有点着急,它说的语速是比较慢的。但是像你刚才讲的,度秘也有它的优势,比如它的记忆能力是比人强的,它学习了几百场的奥运篮球比赛,每个运动员的个人资料它都记得非常清楚,遇到这些知识型的问题,它可以非常迅速地、方便地回答。另外我们看解说本身,用户是可以跟度秘进行互动的,你点一下“双方三分球的对比”,马上就出来各种各样的数据了,这是度秘的优势。但是度秘的劣势就是它对人的语言的理解和人的语言的创造能力还有很多需要学习的地方,我们也非常希望杨毅先生能够多给我们度秘提一些建议和提升的地方,也希望我们下次再有机会合作时,它说话至少快一点。
杨毅:我觉得它下面的这些功能是非常好的。你可以想象一下,如果它成为一个成熟的产品,在每个球迷收看比赛的时候在家里身边沙发上都能摆一个小机器人,一边看着电视里的比赛,听着电视里的解说,当然它可能在电视里解说;同时他身边也有个度秘,可以不断地就他所关心的问题问身边这个小机器人,能够随时给他进行解答,就真正成为了球迷在收看比赛时候的好朋友。
Robin:我相信这一天一定会到来的!而且对于度秘来说,篮球和其他的比赛没有任何区别,都是学习知识,它主要的能力还是不断地学习人的思维方式和表达方式。
杨毅:我相信它肯定会越来越好。
Robin:谢谢杨毅。【嘉宾杨毅下场】
Robin:这是有关自然语言理解的一些介绍,下面再给大家展示一个自然语言理解的应用。这个应用的领域其实也不是特别新,就是自动翻译。你要想把一种语言转换成另外一种语言,你必须得理解这种语言在说什么。它不是简单的把语音转成文字,更多的是需要你知道它是什么意思。今天的百度翻译已经可以支持27种语言、数百种不同方向的对译了。现在我们来看一下百度翻译有多大程度上能够理解人的自然语言。【播放百度翻译演示视频】
Robin:这其实不是一个演示,这是一个实际的例子。今天当大家打开百度翻译,它已经具备了这样的能力。所以我们看到对于自然语言的理解一旦能够达到一定程度,它就又打开了很多新的可能性。
下面我们讲百度大脑的第四个能力,就是用户画像的能力。用户画像也是基于百度的大数据以及机器学习的方式所获得的一个能力。现在我们已经有接近10亿的用户画像,其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现,一个是通用的维度,它的人口学特征、短期的意图、位置属性;也有一些垂直行业的特征,他在金融领域是什么样的情况,它在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯,这些东西都共同构成了我们的用户画像。
用户画像有什么用途?首先给大家举一个百度的例子。
最近几个月大家可能注意到了手机百度,除了上面的搜索框之外,下面增加了各种各样的文章。这些文章有时候是新闻,有时候不见得是新闻,但是确实是你感兴趣的东西。之所以它能够把你感兴趣的东西推荐出来,就是因为我们利用了百度的用户画像。我知道你是一个什么人,你喜欢看什么样的东西。有了这样的个性化推荐,过去两个月手机百度推荐的文章的阅读量增长了10倍,这种能力就是靠百度给用户打了60多万个标签,而每个用户都是这其中某些标签组合后描画出来的,所以它可以做到千人千面,准确地讲,不是千人千面,而是万人万面,亿人亿面,每个人对于百度来说都是不一样的个体。所以,每个人看到的信息和文章都是不一样的。
这是一个百度内部使用的例子,我们也认为用户画像可以在很多其他领域使用。我们再给大家展示一个外部的例子。这是6月份上映的电影《魔兽》,它的出品人是传奇影业,他们就是利用了百度大脑的用户画像功能来提升它的票房。那么它是怎么做到的呢?我们也来看一个视频。【播放传奇影业视频】
这个做法很聪明,它把人群分成三类,一类人是不管怎么样都要看的,另外一类是不管怎么样都不会看的,这两种人他们都不太关心。它关心的是它可以影响的人群,再通过用户画像把这些人从摇摆的转换成真正去电影院看的。(原来)他认为如果有5%的票房提升就很满意了,最后实际上提升超过了200%。当然这不是简单的说百度你给我用户画像,它一用就实现了提升,他们也下了很大的功夫去设计整体的推广过程。原版的video是比这个长很多的,大家有兴趣可以联系我们的工作人员,看它完整的做法是什么样的。
讲到这里,我基本上把百度大脑几个主要的大功能都已经呈现出来了。谢谢大家的聆听!