AI也会作画！微软用GAN搭配拆解单词模仿人类作画行为，看文字描述就能产生图像

时间：2018-01-23 01:50:23 来源：芜湖网

默认

中

大

特大

宋体

黑体

雅黑

楷体

条评论

微软AI研究院近日于微软AI部落格中发布开发作画AI的消息，研究员将此作画AI称为作画机器人，作画机器人能够透过文字描述，产生出与文字对应的图像。

作画机器人除了可以产生一般的场景，像是牧场的风景画，除了正常的画作外，作画机器人还能产生像是浮在湖上的双层巴士图像，且每个图像还包含了描述中没有出现的多个细节，微软认为，这也意味着，作画机器人拥有人造的想像力。

负责微软研究院深度学习技术的首席研究员 Xiaodong He表示，在网路上搜寻一只鸟，会得到一张鸟的图片，但是作画机器人的图片是由电脑创造出来的，从无到有，一个像素一个像素画出来的，这些产生的鸟类图像在现实中或许不存在，但是他们代表了电脑对鸟类想像力的一部分。

过去5年，Xiaodong He与团队致力于研究电脑视觉和自然语言处理，一开始，他们先开发了一套自动撰写图像标题的机器人CaptionBot，之后开始研发能够回答人类询问与图像相关问题的机器人，像是地点、物件的属性，这个机器人也被认为对盲人有很大的帮助。

接着，团队着手进行训练机器学习模型，让模型能够辨认物件，描述动作和转换成自然语言的描述，而现在则是反过来，用文字来产生图像，团队中一位博士后研究员Qiuyuan Huang表示，“这是一个循环！”但是，生成影像比影像辨识更具有挑战性，团队另一位研究员Pengchuan Zhang补充，由于产生影像的过程中，需要作画机器人产生对影像细节的想像，也就是说，机器学习的演算法必须能够创造图像中消失的部分。

加入GAN并拆解单词来模拟人类作画行为

因此，微软在作画机器人中，加入对抗式生成网路，最为最核心的技术，对抗式生成网路由2个机器学习的模型组成，一个生成器负责生成由文字描述画出的图像，另一个则是判别器，用来检视文字描述与图像是否相符，反覆不断训练，就能促使生成器产生最接近文字描述的图像。

微软的作画机器人采用的训练资料，是许多由图像和标题组成的一对数据，这样能够让模型学习文字与影像的配对程度，在对抗式生成网路中，生成器学习到标题是鸟，就要产生鸟的图片，如此一来，就能够学习到鸟的图片是什么样貌。

对抗式生成网路对于简单的文字描述，可以得到不错的成果，举例来说，像是蓝色的鸟或是常青树，但是对于较複杂的文字描述，对抗式生成网路所产生的图像品质就会降低，像是一只有绿色冠、黄色翅膀和红色肚子的鸟，主要是因为整个句子对生成器言，是单一个Input，描述中的细节资讯也不见了，因此，产生的图像会变成混合绿色、黄色和红色的模糊图像。

若是由人类来作画，我们会不断的注意且确认每个单词的描述，来对应到作画的区域，简单来说，给予一般人一个作画的描述，比如说画出黄色的身体、黑色翅膀和短喙的鸟，大部分的人会先描绘出鸟的轮廓，再重新看一次文字描述，看到要画黄色的身体才去找黄色的笔来涂满鸟的身躯，再看一次描述，拿起黑色的笔开始画翅膀，持续这样的步骤来来回回，最后确认画出的图像与描述相符。

为了要撷取人类这项作画的特征，研究人员创造了一套名为attentional GAN或是AttnGAN的神经网路，藉由将文字描述拆解为个别的单词，并将这些词与作画的区域互相配对，来实现模拟人类作画的行为，也就是在训练AI产生图像时，聚焦于个别的单词，像是类似标题的文字描述，如此一来，相较于传统的文字转图像方法，此方法所产生的图像品质提升了3倍。“注意力是人类的概念，我们用数学将注意力变成可运算的。” Xiaodong He说。

AttnGAN还能从训练资料中学习人类的常识，将这样的知识萃取出来后，填补文字描述中缺少的图像细节，举例来说，因为许多在训练资料中的鸟类图片都是鸟坐在树枝上，因此，AttnGAN产生的图像，也几乎都是鸟在坐在树枝上的图像。

从资料中，机器学习演算法学习到通常鸟类都会在哪里的常识，为了测试，团队给予作画机器人一些非正常的标题，像是一台红色的双层巴士浮在湖上，作画机器人产生了一张模糊潮湿的图像，图像中包含了一艘船和一台双层巴士浮在湖上，周围被山包围，这样的图像展示了，作画机器人在产生文字描述的图像和常识中，有点挣扎。

Xiaodong He表示，研究员能够控制描述和机器的反应，因此能够测试机器学习到了什么，他们认为，机器学习到了一些背景知识，也就是常识，不过，还是得根据不同的描述情况而定，有时候作画机器人产生的图像也会不太合理。

未来，作画机器人的文字转图像技术可以协助画家素描，或是协助室内设计师，这项技术也可以成为调整有声图片的工具，藉由更多的运算能力，微软认为这项文字转图像技术能够透过剧本产生动画，减少一些需要人工处理的部分工作。

微软表示，现在这项科技还不够完美，仔细的检查图像还是会发现缺陷，像是鸟喙是蓝色而不是黑色，水果也会出现突变的香蕉，这些缺陷明显是电脑作画才会犯的错误，但是，若要人类和AI共存在同一个世界中，我们必须找到一个方法互动，语言和影像是2个人类与机器互动最重要的模式。