2017年电视机行业新焦点：智能语音技术

2017 /4/20 10:24

进入2017年春季，长虹CHiQ系列、小米4A、乐视超4代、以及TCL的“雷鸟”等智能电视被厂家先后推出，而他们主打的新买点都不谋而合的使用了智能语音技术。

所有电视厂商的每一场春季发布会，几乎都在着重的强调自家电视的智能语音技术，似巧合，又非巧合。智能语音技术为何在这个时间点在智能电视上井喷?值得我们为此探讨一番。

投资界流行这样一句话：投资要投“第三眼美女”，第一眼、第二眼美女交往的门槛和成本都比较高，而只有第三眼美女是属于大众的，对应到产品上，就是任何技术产品都要到第三代才能被大众广泛接受，才能长时间的存在下去。

人工智能技术从50年代的控制论与早期神经网络，走到如今的AlphaGo、Master，现在正好在经历技术发展的第三个阶段。50年代末是一波高潮很多死掉了，到70年代的时候国家自然科学基金会都不支持了。80-90年代又活跃了一次，但许多认知科学家强烈反对当时很火的一个人工智能概念“物理符号系统假设”，认为身体是推理的必要条件，加上科研经费的削减，又死了。今天正好是第三波，理论上机遇比较大。

第三代技术应该足够下方到消费领域，接下来我们看看各电视厂商智能语音技术具体的应用情况如何。

TCL：发布会上TCL着重演示了人工智能助手“小T”，具备感知、认知、服务、学习的三大特性。而“小T”是TCL集团与腾讯、阿里在人工智能及云服务上进行数据打通，实现资源共享的结晶。

长虹：推出以电视机为中心的人工智能平台AI Center。据悉长虹除了与IBM、科大讯飞等达成合作，也与杜比、腾讯、华帝，以及清华大学、西安交大、微软、中科院等结成“人工智能产业联盟”。

微鲸：微鲸科技推出了微鲸智能语音电视2.0高端产品醉薄A系列，并宣布微鲸全线产品也将进入2.0时代。其与科大讯飞与美国麻省理工媒体实验室、微软等，分别在语音遥控、多媒体交互领域、人脸识别等方面达成了合作。

乐视：从乐视一代超级电视开始就搭载有语音功能，超级电视语音技术经历从合作到自主研发的过程，乐视的超级语音技术，不仅包括语音识别和语义分析，其自主研发的语音合成TTS技术已全面上线。

几乎每一个厂商都在强调对语音认知已从功能层面上升到人工智能。而且背后还有巨大的合作团队，与知名的语音技术和人工智能平台密切合作和研发。这种全军出击的局面，很难否定智能语音在电视行业的发展盛况。但盛况并不意味着技术和商业的足够成熟。

语音识别究竟有多难?

为什么智能语音技术发展了这么长时间，还是做不到对语音和语意的精准识别呢?我们有必要先了解一下语音识别是怎么做到的。

声音实际上是一种波纹，就像自然中的光谱一样。如果要对声音进行分析，就要先把声音的这种波纹切分成很很多小片段，就好比一个视频由很多帧画面构成，画面又由很多个像素点构成一样，语音也可以切分成很多帧。所以语音识别的大概流程可以归纳为以下几点：

采集：声波信息分段采集

编码：把每一单位长度的语音变成多维向量(内容信息)

训练：从数据中学习对语音的判断，而不是用人工的规则。用数据库和建立模型让语音系统自我学习(如果遇到方言，需要建立独立的一套系统)

解码：用训练好的模型组合起来就可以通过判断新的语音向量，来识别语音了。

反馈：将分析结果通过设备播放出来。

看似很简单的一个过程，其实每一个环节都有很多难点，有很多不可控的因素存在。一方面是复杂条件下，识别率显著下降，比如地方方言、背景噪音，还有说话语速的差异，都是不具规律性的;另一方面是语音的训练和测试用数据的并非完全匹配，如果用人民广播电台的语音来训练数据库，那实际操作中哪有这么多广播员呢?

这些都还只是皮毛，最重要的是人工智能对于语意的理解才是巨大的困难。就算作为人类，在没有前后文的情况下，突然扔给你一段话，你也不见得能理解它的意思。而人工智能就更是一脸懵逼了，不同的麦克风、噪音、口音以及谈话内容下，人工智能作出的反应可能都截然不同，本质上它还不具备意识，对人类的语言缺乏足够的认知。

语音交互在电视上的实际操作过程中，还会遇到这样一个窘境：反应速度问题。试想一下如果对电视提出一个问题，哪怕回答的结果是准确的，但是等待时间却长达两三秒的话，你还有欲望继续对它说话吗?

综上所述，无论是语音识别算法的亟待革命、语音工程上或缺的奇迹，或者是硬件性能上的各种限制，智能语音发展到今天远远还谈不上轻车熟路。只不过正好它遇上了这个时代，能够忽略它的不成熟，容忍它的成长过程。因为它已经发展的足够快了。

除了足够智能，还需要什么?

如今的智能语音并非完美，但是在电视这个平台上，真的需要需要那么智能吗?

电视的用途主要是什么?搜索-点播-播控，无非就这是三点，深度整合一下在线和离线时的语音识别工具包，并及时更新，就能够基本满足用户对此的需求。

但是如果把电视当做的人工智能控制中心，那电视就将会高频率的用起来。那对智能语音的要求就要高很多了。但是有一点作为智能电视的本质属性，是永远不会改变的。那就是给用户提供足够多的内容和服务。

如果电视没有足够多的模块和功能，没有足够多的内容和服务，用户使用语言的动机就会缺失。如果没能打通所有家电智能平台，没有统一控制协议，那用户使用智能语音就会处处受限。

真正要让用户把智能语音功能使用起来，优秀的语音识别技术，仅仅是其中很小的一部分，在家庭场景下的解决用户实际问题的服务，才是根本。像很多厂商在电视上加入的人脸识别、儿童教育，配合智能语音，才能发挥语音技术在这一场景下的价值。

总结：人工智能只有在不断交互的情形下，它才有使用的意义和进步的空间。所以在智能交互不断更迭的物联网时代，智能语音技术来得恰是时机。很多人把它看做是下一波风口，也并非无稽之谈。只不过，一切科技的价值都是围绕人性服务而产生，如何用智能语音连接所有家庭环境下人性的需求，才是技术研发的同时，品牌制造商们迫切需要思考的问题。

随着VR/AR这股热潮逐渐冷却之后，2017年电视机行业新焦点：智能语音技术。