DuerOS能否成为AI时代的“操作系统”?
2017-07-28 湾区城市群
7月28日,百度公布2017年二季度财报,本季度营收208.74亿人民币,同比增长14.3%,净利润44.15亿人民币,同比增长82.9%。稳健业绩之外,百度对话式人工智能系统DuerOS的表现也令人瞩目。财报显示,DuerOS已经广泛赋能移动通讯、智能家居、穿戴、车载等多个行业,引起了足够多的企业关注。
事实上,整个7月,互联网圈都在被“语音交互”这个概念围绕。我们可以好好梳理一下7月以来以“语音交互”为核心的人工智能项目:
7月5日,百度AI开发者大会上,DuerOS开放平台诞生;
7月8日,搭载DuerOS的美的智能语音盒发布;
7月12日,继长沙之后,搭载DuerOS的中信国安广视G-1智能机顶盒落地河北;
7月19日,阿里发布智能音箱“天猫精灵”;
7月25日,搭载DuerOS的新款极米无屏电视发布;
7月26日,小米发布“小米AI音箱”;
7月28日,搭载DuerOS的TCL智能电视在Chinajoy展出。
人工智能的浪潮似乎从未来得如此之快。搭载移动互联网的是移动操作系统以及手机等便携式硬件设备。那么人工智能来临之时,究竟什么平台才能搭载基于人工智能的软硬件呢?
为什么承载人工智能的会是语音交互
从百度、阿里、小米的做法来看,语音交互可能会是搭载人工智能的重要平台。特别是百度,DuerOS中“OS”这个字眼,几乎可以看透百度的意图——希望在人工智能的生态环境中,充当“操作系统级别”的平台。
但我们在熟悉键鼠、点触之后总是无法理解,为什么语音交互会如此重要?
(智能语音产业链)
首先,语音交互是人类最自然的交互方式、门槛最低的信息获取方式。人工智能的使命是为人类带来更加便利、智慧的生活,而语音交互将彻底解放双手,为不同年龄、不同教育水平的用户带来了同样便利的服务。
第二,人和语音的交互本质正在发生变化。语音交互在人工智能和大数据环境下,可调用的数据非常庞大,大数据的积累,以及远程计算能力的提升,提升了语音交互的效率。
当你对语音助手说“从常营去望京要多长时间”时,语音助手可能会告诉你“大约需要40分钟,东五环XX路以及XX路有拥堵”。一个看似简单的对话,这里面需要调度的数据包括地图上的交通信息以及车辆行驶信息等一系列非结构化的复杂数据,这些数据来源于具备可视性、划分层级,而且直观易懂的信息环节。
只需动动嘴皮子,人工智能便从云端数据库中迅速调度各种服务,为你提供有效信息,这个时候,语音交互的合理性显然无可替代。这也就是为什么承载人工智能的会是语音交互。
语音交互需要突破软件硬件两个生态
当然,语音交互目前只是在某些场景下效率更高,更多情况还是信息量太少、效率太低。否则Siri,Google Now,Cotana早就取代了点触和键盘鼠标。
语音交互能否成为主流的交互方式,主要需要解决两个问题。
第一,如何覆盖更多的场景。
简单说,就是能不能让你随时随地都能用语音来获取各式各样的服务。目前智能语音覆盖的服务明显不足,很多场景智能语音完全缺位甚至是割裂的。
比如说,当我对我的iPhone说给我订一份外卖时,Siri只会撒泼打滚卖萌,无法提供有价值信息。由于各平台之间的隔阂,一部手机上想用语音唤醒服务操作不同应用,可能需要调用多个语音助手服务。
第二、如何让信息接受更轻松、高效。
简单说,要听清、听懂、满足需求。打个比方,我用iPhone的Siri功能导航,当我说我想去国家会议中心的时候,首先要喊Siri唤醒它,然后说我想去国家会议中心,Siri脑残地回复“我找到一个叫天辰东路7号的国家会议中心,是这个吗”,你要说是的,Siri再帮你寻找地址,这样的语音服务体验既费时又费力。
(Siri的导航步骤)
不得不说,同样的情景,由DuerOS能力加持的小度助手评测效果更佳。今年5月,HTC发布全球旗舰新机U11,中国大陆地区搭载的语音助手就是小度助手,不仅能提供美食、交通、气象、教育等多领域的实时信息,还支持多轮交互,满足用户实际使用习惯。
对用户来说,一个统一的语音操作系统横行所有应用,在汽车、家庭、手机之间贯通,而且高效、快捷、省心,这才是驱动他们使用智能语音的理想水平。这些问题的解决必须在软件和硬件这两个生态层面去思考。
硬件层面需要有足够的硬件厂商,甚至要联合芯片厂商,形成“交钥匙”的方案,让用户随时随地只用一个语音操作系统就能解决问题。其次,软件层面需要有足够的开发者、足够的服务接入,让用户能够通过语音享受到衣食住行等各式各样的服务。
百度DuerOS恰恰是沿着这两条路来解决这个问题。向传统硬件厂商和开发者输出软硬兼备的多层次解决方案。
(DuerOS的解决方案)
在硬件生态层面上,建立智能设备开放平台。提供多层级解决方案,降低开发成本,做到听清、听懂,包括音响、电视、冰箱、机器人、玩具、车载、移动设备、手机、耳机等优秀的硬件设备制造商都囊括在了DuerOS硬件生态的体系之中。
在软件生态层面上,建立技能开放平台。DuerOS自有10大类、100余种原生技能,还支持接入第三方资源和内容,如音乐、有声、新闻、娱乐等,将为用户提供丰富的应用服务,满足用户多样化的服务需求。
为了能够让数据流通,DuerOS甚至还联合ARM、紫光展锐和汉枫发布承载了百度对话式人工智能系统的DuerOS智慧芯片。芯片功耗低、吞吐率低,以音频连接为主。要知道这些厂商都具备丰富的物联网技术。掌握芯片和智能语音技术,未来很可能会掌握物联网的入口。
正如百度度秘事业部总经理景鲲在百度AI开发者大会上所说:“DuerOS作为百度在人工智能时代最重要的开放平台之一,希望通过开放赋能,唤醒万物。”而DuerOS一系列的做法也正是在软件、芯片两个维度上为软硬件厂商提供了一揽子的解决方案。
这种解决方案如“交钥匙”一样,任何厂商需要用到语音交互和语音识别,都可以“拎包入住”,所有场景、应用都可以轻松围绕语音展开,真正实现唤醒万物。
如果非要找到一个中心,那就是你的语音
2016年8月,当时还在微软担任全球副总裁的陆奇曾撰写了一篇名为《关于人工智能,我们可能做对了一些事》的文章。文中曾有这样一句话:
早在PC普及和搜索引擎崛起的时候,人们并不是像今天这样用键盘和鼠标和机器对话、在搜索框里用关键字来搜索的。人们最初的体验,是直接和电脑说话、在搜索引擎里输入完整的对话。只是因为当时的技术条件不具备,才使人们不得不去学着使用机器能理解的输入方式和关键词来找到自己所需的东西。对话自始至终都是最自然的交互形式,只是当时还不具备条件而已。今天,我们终于具备了对话即平台的条件。
在陆奇看来,人工智能的时代在数据量、用户连接和技术条件集大成之后,核心革命是“Conversations as a Platform”,也就是对话即平台。
随后,在今年1 月的北美CES大会上,百度推出了由度秘团队研发的对话式人工智能系统DuerOS。而在7月5日的百度AI开发者大会上,陆奇公开谈到,DuerOS(对话式人工智能系统)和Apollo(自动驾驶汽车业务)可能成为百度未来骨干业务。陆奇对于语音交互的认知是一以贯之的,这也体现在他在微软、百度的业务落地之中。
今天在朋友圈看到这样一句话,有人问:智能家居的中心到底是什么?是手机、智能音箱还是智能电视?当时很想评论一句——智能家居的中心就是没有中心,物联网的中心也是没有中心。
当语音识别无处不在,手机、电视、遥控器、音箱、垃圾桶,随便一个离你最近、能够识别语音且能反馈服务的产品都是智能语音的节点。
如果非要找到一个中心,那就是你自己的语音。