- A+
Meta 又整大活,18 万张涂鸦数据集竟搞出一个「神笔马良」AI,上传图片即可生成动画,过于神奇有木有。
小时候,小编最喜欢上的就是美术课。
给我一盒 24 色的水彩笔,我能坐一下午不带起来的。
因为,对于每个人来说,从小到大,在白纸上肆意涂抹、创造、发挥的感觉都是非常美妙的。
可以理解为情绪的宣泄口,也可以饱含对未来的畅想。
今天,Meta 推出了一个全新的 AI 系统,可以把我们随手在纸上画的涂鸦变成活灵活现的动漫。
小时候就幻想过自己笔下的人物能跳出纸张动起来,而 Meta 帮我们实现了这个美好幻想。
18 万张!数据集
而实现的过程也没那么复杂。
Meta 有一个包含 18 万张的日常随手绘画的数据集,还有一整套动画的代码。而该数据集也是全球首个以涂鸦这种艺术品为特征的带注释数据集。
这里有一个概念要搞明白。
人们通过绘画来表达自己这点不假,但是绘画和绘画也是有不同的。对于 AI 来说,重要的是学习。如果没有含义明确的表达,那么对 AI 来说学习起来就会比较困难。
所以才有了这么一个 18 万张涂鸦的大数据集。有了这么一个数据集,研究人员就可以开发出相应的工具,更容易、准确地分析不同涂鸦中的内容。
其实,早在 2021 年底,Meta 就发布了他们开发的动画图画演示,并在互联网上邀请用户上传各自的图片。
然后,用户就会收到一小段由自己上传的绘画中人物的动画。
据统计,当时有大约 320 万人访问了该网站,上传了大约 670 万张图片。之后出于质量和隐私的考虑,Meta 的人类审查员对这些图片进行了筛选。
当时,Meta 只能做到让涂鸦中的人物做一组简单的动作,用户们反馈说希望能上线更多功能。比如能让包含多个人物的涂鸦作品也动起来,又比如让涂鸦人物做一些更高难度的动作,或者眨眨眼什么的。
而像下图中,这些能蹦蹦跳跳的 GIF 图片,则是在 Meta 开放源代码以及数据集之后,产品创造性和教育性目的扩展的一个例子。
有了这些资源,研究人员也就可以进一步补充分析这些涂鸦的方法,以此来扩展原有的功能。
甚至还可以给小人添加背景,让涂鸦在环境中舞蹈。
能跑能跳,活灵活现
上面提到过,涂鸦这种形式涉及的内容过于千奇百怪,每个人笔下的涂鸦都是独一无二的。
那么在这种情况下,如何训练模型就是问题的关键所在。
Meta 表示,常见的两种方法,第一种是使用带注释的画作来训练新模型。但这种办法的问题在于,带注释的画作太少了,人们上传的可能仅仅是一张涂鸦而已,并不带有注释。这样一来,训练神经网络的素材就没有那么多。
第二种方式则是通过合成的方式作画,比如说把照片用素描的形式重做。但这种方式也存在问题。
生成法进行训练需要大量的样本数据来学习,上述的办法也许做不到捕捉绘画与照片之间所有的差别。此外,用这种方法来生成供学习的数据,可能无法捕捉到一些绘画才有的细节,比如纸张折痕、用橡皮擦去的线条、阴影等等。
最终,Meta 选择的办法是把整个任务进行拆分,包括一系列子任务,人物检测、涂鸦分割、姿势预测,以及生成动画。
在用户选择上传涂鸦到系统上以后,他们可以自行选择边框位置(确定范围),确定人物关节的位置等等,最后可以选择一个动作来生成动画。
甚至,可供选择的动作还有很多,这就看用户个人了。
Meta 的系统结合了用拍摄的照片上训练的计算机视觉模型,同时由于涂鸦和照片之间的差别,Meta 进一步使用 18 万张的数据集微调模型。
而有了这个数据集和生成动画的代码以后,Meta 相信随手创作的绘画领域未来会激发更多的创作者加入。
那么这个数据集是怎么建立的呢?
和 21 年的项目差不多,Meta 建立数据集的方式还是靠用户上传。
Meta 在隐私这方面做得不错,人们可以选择上传图像 + 注释用于 Meta 的研究,同时 Meta 对这些上传的信息持有非常谨慎的态度,尽可能减少了数据被滥用的可能。
此外,对上传数据的筛选工作也十分重要。因为这一次的项目主打的就是把涂鸦变成动画,所以非涂鸦的图像要被 Meta 的审查员筛掉。
包含泄密、粗俗文字的内容更不用说,必须筛掉。
人人都是创作家
有了这么个好用的工具,人人都可以成为一名艺术创作家。
毕竟,能看到自己笔下的人物栩栩如生的动起来,能当一回神笔马良,想必也是一件很酷的事情吧!
参考资料:
-
https://ai.facebook.com/blog/ai-dataset-animation-drawings/
-
https://www.engadget.com/meta-has-open-sourced-an-ai-project-that-turns-your-doodles-into-animations-183807106.html
本文来自微信公众号:
- 我的微信公众号
- 扫一扫关注
- 我的新浪微博号
- 扫一扫关注