微软小冰:当 AI 学会了画画

5 月 16 日,微软(亚洲)互联网工程院在北京举办了一场媒体沟通会,会议上微软公开了微软小冰的最新进展。

微软小冰:当 AI 学会了画画

微软的 AI 目前主要由三大块组成,其中以 Azure AI 为主的 AI 主要是结合现实场景、与微软现有产品相融合,做到大规模落地、为微软创造经济效益的一类 AI,这一类 AI 是目前微软正在大力发展及推广的。

另一块主要是围绕 Bing 和 Cortana 这两款产品展开的 AI 研究,这类 AI 主要致力于信息的收集与挖掘,AI 将通过搜索引擎来对小范围内(用户的电脑)或整个互联网范围内的数据进行收集,并将收集到的数据进行整理,挖掘其中有价值的类容。这一块 AI 目前在我们能看到的用户侧有一定程度的呈现,但是它在国内并没有得到什么关注。

最后一块是面向未来的预研 AI,即微软小冰。微软最初是基于微软小冰探索 AI 与人的交流,后续发展到了全双工语音、情感、创作等多个方面。

微软小冰:当 AI 学会了画画

微软在媒体沟通会上发布的新内容并非和微软小冰本体相关,笔者猜测微软小冰本体的技术迭代可能遇到了一定的瓶颈,确实在经过了不断的升级、换代之后,现在的微软小冰智商是有了显著的提升,但是即使是通过文字,微软小冰和人类之间的交流还是存在障碍。

这一次媒体沟通会上,微软强调的是「AI Creation」,即通过 AI 去进行一些创作。

我们都知道,一个好的创作是需要注入灵魂的,AI 本质上仍然只是一个基于数学等理论的算法,基于给定的输入得出输出。确实 AI 可以通过学习人类的作品,模仿人类的风格创作出一些东西,例如写诗、作曲。

然而从微软早期公布的东西来看,微软小冰只能学习到表面上的那一种「风格」,只能模仿着拼凑出一个类似的东西,但是并不能进行真正意义上的「创作」。例如微软小冰之前推出的诗集《阳光失了玻璃窗》,它给人的感觉就是毫无灵魂,一些诗句本身的结构都是存在问题的。

一方面是 AI 对中文这门语言的理解还很有限,另一方面是 AI 并不知道自己想要表达什么,它表现出来的更多只是基于给定的输入给出输出而已,和之前笔者测试过的一些基于 Tensorflow、LSTM 网络的诗歌机器人类似。

想要让 AI 理解人类文化作品中的「灵魂」是极致困难的一件事情,尤其是文本中的「灵魂」。诗人想要通过诗歌表达的情感实在是太过于抽象,即使是人类想要充分理解它也需要花很多时间、联系很多的背景等等。笔者并不认为 AI 具有能够直接理解诗歌并进行自由创作的能力,他们只是在「模仿」。

微软小冰:当 AI 学会了画画

所以这一次微软给了小冰一个相对更简单的任务 —— 学画画。深度学习出现之后,计算机视觉得到了突飞猛进的发展,计算机处理图像的能力直线提升了一个档次。

实际上神经网络处理图像是一件很玄学的事情,因为这类神经网络虽然确实有一套理论作为支撑,但是其在神经网络的训练、执行过程中,其运作机理并不能被数学等理论解释清楚。

这也正是为什么很多在这一领域做研究的人表示深度学习的调参就和古时候人们炼丹一样。正是因为这样的玄学,神经网络做到了很多之前计算机所不能做到的图像处理。

在「画」这个领域,很早我们就见到过基于简笔画填充纹理、通过学习某个画家的画将一幅简单的简笔画填充、转化成那位画家的风格等等。

这一系列的应用和笔者之前提到的一样,它属于「模仿」,而非「创作」,即它需要一副现有的画作(例如简笔画)为基础进行填充、修改,对于这样的 AI,你给它一张白纸,它并不能创造出任何的内容,或者只能完全随机地创造内容。

微软小冰这一次打破的就是这样一个限制,它试图去模拟人「创造画作」的过程。从本质上来说,这个过程仍然是「输入-计算-输出」。

微软小冰:当 AI 学会了画画

在这一个绘画模型上,微软规定给定的输入必须是「创作命题」,之后微软小冰会根据这个创作命题决定作画风格、作画内容,并给出成品。

整个的过程实际上有些类似于美术考试,即学生基于老师给定的一个命题作画。由于画作本身是经历了一个「从无到有」的过程,所以微软称其为「AI 创作」是完全没有问题的,从成品来看,微软小冰也并不是单纯地将画作中的元素拼凑起来。

由于是命题作画,微软小冰首先要具有理解命题的能力,其次她还需要拥有一定的表达能力,将理解到的信息转化为图像,通过某种学习到的画风将其呈现出来。

从微软和一些科技媒体公开的信息来看,笔者个人认为微软小冰的模仿能力是极强的,但是表达能力有限。模仿能力这一点自然不用多说,只要训练的量足够大,在现有技术下 AI 都可以拥有很强的模仿能力。

微软小冰:当 AI 学会了画画

在表达能力这一方面,不得不承认,微软确实是做出了一定的突破,这些画看上去不像是刻意模仿的或者是随机生成的东西,这个神经网络模型确实拥有一些「表达想法」的能力。

笔者观察到科技媒体对微软这一阶段的成果都给予了较高的评价,一方面是微软小冰的命题作画得到了中央美院老师的认可,这是一个来自权威的肯定;另一方面,由于画本身是一个很抽象的东西,所以对于我们这些普通人来说,由于这些画作是命题画作,我们会主观地将画作的题目代入到画作中尝试对画进行某种解释。

所以只要画作本身是稍切合命题的,我们第一看看过去就不会有 AI 在乱画的感觉。


根据微软公开的信息,5 月 22 日,他们会面向全社会公开绘画创作小程序,届时每个人都可以通过微信上的这个小程序直接感受到微软小冰在绘画创作上的能力。

在 5 月 22 日小程序开放后,笔者也会进行一些测试并给出一些想法,欢迎你持续关注我们。

对于 AI 作画,从原理上来说,AI 是拟合出了某一种函数将作画命题(或对作画命题分析得到的数据)经过计算得到图像。目前最让人不解的问题在于,由于我们并不能简单地通过数学去解释 AI 在训练、执行的过程中到底做了什么,所以目前我们很难判断 AI 训练的得到的这个函数是 AI 总结并掌握的、有灵魂的「作画技巧」,还是只是机缘巧合地得出了针对某一些特定输入给出特定输出的机械性的函数。

我们都知道,艺术的创作是多元化的,如果只是一个机械性的函数,那么针对一个单一的命题,微软小冰给出的画作必然无法呈现出多元化,具体我们可以在其小程序开放后进行一些简单的测试。