微软打造AI绘图机器人，靠文字描述就能产生栩栩如生的图像

时间：2018-01-23 03:04:27 来源：芜湖网

默认

中

大

特大

宋体

黑体

雅黑

楷体

条评论

微软深度学习技术中心的研究团队上周展示了最新的 AttnGAN技术研究成果，打造一个AI绘图机器人，能够藉由文字叙述画出栩栩如生的图像，还能加上AI想像力，号称绘图品质是前一代GAN技术的3倍。

绘图机器人的基础为电脑视觉与自然语言处理技术，过去研究人员利用这些技术创造了自动图说撰写工具，以及能根据图片回答问题的机制，现在研究人员则反过来利用文字叙述来创造图像。

该团队的副研究人员Pengchuan Zhang表示，产生图像比写图说还要难上许多，因为这需要绘图机器人想像文字中所缺乏的元素。

绘图机器人的核心技术为生成对抗网路，它是由两个机器学习模型所构成，一个用来自文字产生图像，另一个则依照文字叙述来验证前者所产生之图像的真伪，透过彼此间的较劲来达到更完美的成果。

GAN可成功输出简单描述的图像，如蓝鸟或是绿树等，但却无法满足更複杂的描述，诸如有绿冠、黄色翅膀及红色肚子的小鸟，这是因为整个句子被视为单一输入，遗漏了细节，所以只会产出模糊的鸟儿图像。

因此，研究人员把人类对物件的常识及对文字的关注能力注入了GAN，形成新的AttnGAN，可把所输入的文字个别处理，也就能产生更细緻的图像。如此一来，AttnGAN除了可创造更栩栩如生的图像之外，也能根据常识让鸟儿站在树枝上。

此外，基于AttnGAN的绘图机器人也能绘出非常态的荒诞图像，例如飘在湖面上的双层巴士。

深度学习技术中心的首席研究人员Xiaodong He说，未来使用者透过Bing搜寻鸟类时，可能会看到一只不存在于真实世界、完全由AI系统想像及建置出来的鸟。

此一文字转图像的技术可望被应用在不同的场景中，诸如作为画家或室内设计师的素描助理，也能成为支持语音的照片优化工具。

华夏家博会芜湖倒计时！全品类家居3折