iBrain:看苹果如何让你的iPhone用好人工智能


本文取材自 Backchannel 关于苹果人工智能技术的长文 The iBrain is Here:and it’s already inside your phone,为的是探讨人工智能如何来改造现有技术,特别是苹果的一些可取之处。

行文参考了 IFanr 对该长文的翻译


你可能已经注意到,苹果的 Siri 正在一点一点变聪明。

不过,你肯定意识不到的是,在 iPhone 上的每一次点击,背后都是人工智能在向你的动作做出回应。

最为典型的例子,就是在 iMessage 中自动关联你想要表达的位置信息:

Gboard

事实是,这样的智能体验已经渗透到苹果产品和服务的各个角落。如选择适合你的新闻、辨别你是在锻炼还是闲逛、认出你照片中的面孔和地点、基于 Wi-Fi 信号的强度自动切换移动网络、快速拼合你的照片与视频,等等。

这一切都跟深度学习和神经网络密切相关。为了让人工智能更好地驱动 iPhone 上各项功能的最终体验,苹果在你手机中植入了一个 200 MB 大小的机器学习模块——「苹果大脑」iBrain。

它会收集并处学习你使用 iPhone 时的各种信息,包括应用使用频率、跟别人的交互、神经网络处理、语音识别模型、“自然语言模型”等等;并用它们来强化「苹果大脑」的物品识别、面部识别及场景分类能力。

而要衡量「苹果大脑」的强化效果,最明显的例子便是 Siri 语音助手。

改造 Siri

想必大家都能回想起 Siri 在 2011 年刚亮相时的惊艳,以及随后语无伦次时的各种尴尬。

那是因为,Siri 最初的语音技术来自于第三方授权,用的还是“隐性马尔可夫模型”等一系列“老”技术,它甚至还要强迫你用一种相对固定的方式来说话。

对此,乔布斯坦言,用户起码能告诉你他想要 Siri 做的事情。于是,一夜之间,介介无名的 Siri 就有了上亿用户,海量的语音数据也蜂拥而至。

为了让 Siri 变完美,苹果必须用自己的技术不断创新,而用神经网络来取代 Siri 原有的底层也就不可避免了。

首先被重写的就是 Siri 的语音识别组件(识别你所发出的声音),它的深度神经网络在苹果海量的数据和最强大的 GPU 集群中循环学习。新组件在 2014 年 7 月正式上线后,Siri 的出错率随即减半。

除了软件底层的重写,Siri 团队同芯片设计团队及固件工程师的直接合作,还能让神经网络的效能最大化;而 iPhone 的麦克风数量及位置、音频相关的芯片和底层软件,也都需要统一协调。

见到效果后,Siri 用于自然语言理解的组件,在 2014 年 11 月也开始使用机器学习,以更好地理解用户说话的内容。而一年之后,基于深度学习的更进一步版本才正式发布。

这使得 Siri 可以更灵活地理解用户指令,不仅能区分出一堆电影和音乐中的特殊选项,甚至还能处理一些模糊的概念:“我想看 Tom Hanks 主演的惊悚片(如果 Siri 足够聪明,它最终推荐的应该是《达芬奇密码》)”。在深度学习出现之前,这样的效果压根就是空想。

在最新发布的 iOS 10 系统上,声音成为 Siri 机器学习改造的最后一部分,即用深度学习取代替原有的第三方技术。Siri 说话的原理,是将语句中各单词的发音串在一起读出来。机器学习在此的作用,就是让各单词之间的过渡更连贯、更流畅,能像真人说话时那样没有“机器感”,从而使用户的使用率更高一些。

更智能的用户体验

Siri 的改造,带给用户的是新功能以及完成相同任务的更多方式。比如,将输入的方式从打字变为口述,让你在发信息、写邮件的时候,可以按住麦克风直接说,相比在软键盘上敲打要方便得多。

Siri 与第三方开发者的一些合作,还可以让你更自然地使用 Uber 等应用。

而手机之外,如果没有 Siri 带来的这些而便利,苹果也不太可能迭代出如今的 Apple TV,它在语音控制上的复杂程度可是绝无仅有的。

但是,跟 Google、Amazon 这样的巨头不同,苹果的做法不是围绕深度学习、语音助手等新技术来打造全新产品。在苹果眼里,深度学习、机器学习不过是永恒的技术创新中最新形成的几项新手段而已。

确实,它们拥有改变事物的能力,但其优势未必能超越当前技术多年来所建立的人机交互方式,诸如多点触控、平板电脑、面向对象编程。

而更重要的是,我们能用好所有这些技术,从而能比先前更好地做出我们想要的产品,或是完成一些我们过去所无法实现的功能。

Apple Pencil

正如 Apple Pencil,要想在 iPad Pro 上使用,就要解决好人们在电子设备上写字时的“手掌误触”,这是不可避免的。而正是机器学习教会了 iPad Pro 屏幕来区分手掌按压、手指点击与 Apple Pencil 笔尖的不同,从而使 Apple Pencil 的更多书写和绘图用法成为可能。

数据就是隐私

更智能的使用体验,意味着系统能主动对用户的操作进行响应,并自动把使用情境相关的背景信息关联起来,且符合用户的偏好。

这种智能交互的方式,事实上早已超出了 GUI 交互最初“点击图标进行几项固定的操作”的概念。你的每一项操作都会有人工智能来回应,也就是你的每一步使用都会被系统忠实记录下来,包括银行和支付操作、私密信息与照片、健康与指纹数据……等等。

只要人工智能的大环境在,这种交互上的趋势就是不可避免的。而苹果的可贵之处就在于,获取所需数据的同时,还能找到保护用户隐私的办法。

同 Touch ID 所收录的指纹一样,对于不可避免地被收集起来的个人信息与偏好数据,苹果的解决办法还是本地加密处理,让最私人的东西仅停留在本地的「苹果大脑」之内,不会上传到服务器,比如你的输入内容、航班信息、联系方式这类敏感信息。

而需要上传到服务器的那部分信息,只是为了训练神经网络和识别规律之时的信息聚集分类,“苹果公司不需要知道你的爱好,或者你什么时候打算去哪里玩”,通过特定的处理,这些被存储起来的信息是无法反向还原的。

不过,传统的做法则是不加分别地把你的所有所有信息都上传到服务器端,然后由服务器来慢慢找出其中有意思的地方。后来,为了让数据匿名,苹果采用过一套完全独立于 Apple ID 的系统来标记它们,但苹果还是能知道这套系统与 Apple ID 之间的联系。

而最新的“Differential Privacy(差分隐私)”技术,由于具备虚拟的随机和加密机制,则能够在向大众收集数据的同时完全不去辨识区分个体,用苹果自己的话说是这样的:

差分隐私会向用户的使用规律片段样本中添加数学噪声信息。随着越来越多人分享同一个使用规律,就会显现出通用的规律,从而得出可以提升整体用户体验的方法。

这样,没有任何人、哪怕是 FBI 甚至苹果自己的律师也不能查看用户数据,苹果还保证这样的的用户数据不会被用于广告目的。

同时,差分隐私也非常罕见的将成为一项公开技术,因为苹果授权相应的科学家将工作细节和研究成果公之于众。这无疑将极大地改善业界在用户隐私上的不作为态度。


奥巴马表示,“人工智能正在以各种各样的方式渗透进人们的生活。”

不过,对于这些即将降临的人工智能,一般我们还是下意识地会去考虑 AlphaGo、自动驾驶汽车、Alexa 智能音箱这类全新的事物。

而苹果只是润物细无声地去把人工智能和深度学习网络用来优化手机功能的各个交互环节,这绝对是人工智能大潮中值得我们注意的一个方向。

马克·安德雷森有过“软件正在吞噬整个世界”的说法,同样的逻辑放到人工智能领域,想必也是成立的。

不过,跟苹果的做法类似,用人工智能来改造整个世界,首先就要用它来改写我们已有的许多算法,让它能与我们已有的功能相契合,同时把它的体验改造得更好。

诚然,这需要很多思考,想想苹果在隐私问题上的追求和抗争,我们就知道需要多少努力了。