登陆

给GAN一句描绘,它就能按要求画画,微软CVPR新研讨 | 附PyTorch代码

admin 2019-06-28 218人围观 ,发现0个评论

让AI认得图画,依据自己的了解给出一段叙说,现已不是什么新鲜事了。从图画到文字简略,把这个进程反过来却很难。

让AI画图有了老练的解决方案,GAN便是是一个好办法,可是它晓畅并不能按要求为所欲为造出图画。

而微柔和京东AI研讨院协作提出的ObjGAN就能做到这一点。ObjGAN能够了解一段阐明文字,生成草图布局,并依据切当描绘完善图画细节。

他们的文章《Object-driven Text-to-Image Synthesis via Adversarial Training》现已被正在加州长滩举行的学术会议CVPR 2019录入。

研讨人员在文章中说,ObjGAN的生成器能够运用细节单词和目标级信息来逐渐细化组成图画。这使得ObjGAN在生成图画细节时比之前的研讨要强得多。

ObjGAN能生成多种场景下的小狗:一只棕色小狗躺在床上,或者是一只黑色小狗叼飞盘。

给GAN一句描绘,它就能按要求画画,微软CVPR新研讨 | 附PyTorch代码

左面是实在场景,中心两张由P-AttnGAN生成,右边两张由ObjGAN生成

如果说简略场景还看不出ObjGAN的凶猛之处,那么下面两幅场景能够说是远远把对手甩在死后了。

上一张是酒店房间,下一张是多种蔬菜水果,这两种场景下的目标十分多,P-AttnGAN现已翻车,除了画面紊乱外,它还发生了了解过错的问题,把蓝色特点过错地放在床这个物体上。

为了证明Obj-GAN的泛化才能,研讨人员不只让它生成实在日子中的场景,甚至连不合给GAN一句描绘,它就能按要求画画,微软CVPR新研讨 | 附PyTorch代码常理的成果也能够“强行”生成。

在客观指标上,Obj-GAN在大规模COCO基准测验的各种指标上优于从前的水平,Inception分数进步到了27,大大高于P-AttnGAN只要20左右的得分,FID也下降到了25.85。

ObjGAN原理

由文字描绘生成图画的难点在于,怎么让AI了解场景中多个目标之间的联系。ObjGAN经过重视文本描绘中最相关的单词和预先生成的语义布局来组成目标。

曾经的办法运用仅为单个目标供给粗粒度信号的图画-描绘对,即使是功能最佳的模型也难以生成语义上有意义包括多个目标的图片。

Fast R-CNN的逐目标鉴别器,供给关于组成目标是否与文本描绘和预先生成布局匹配的辨认信号。

最终,微软在这方面的研讨不止ObjGAN一篇论文,他们还与腾讯AI研讨院StoryGAN,透明人也是从文本描绘生成图画,相同被本年的CVPR录入。

传送门

https://arxiv.org/abs/1902.10740

PyTorch实现已开源:

https://github.com/jamesli1618/Obj-GAN

喜爱就点「美观」吧 !

声给GAN一句描绘,它就能按要求画画,微软CVPR新研讨 | 附PyTorch代码明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
  • 7月8日辽宁省玉米胚芽粕报价坚持平稳
  • 央视财经谈论:“妖蛾子”侵略 可致农作物绝收!怎么应战?
  • 请关注微信公众号
    微信二维码
    不容错过
    Powered By Z-BlogPHP