“兵马俑”“秦始皇”合跳科目三

欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

导读:“兵马俑”“秦始皇”合跳科目三,科目三舞蹈的起源,秦始皇与兵马俑的历史背景

家人们,火爆全球的魔性舞蹈《科目三》,谁能料到,就连兵马俑也开始跳上了!

“兵马俑”“秦始皇”合跳科目三

热度还居高不下,瞬间被轰上了热搜,小伙伴们纷纷惊掉了下巴表示“闻所未闻,见所未见”。

“兵马俑”“秦始皇”合跳科目三

这到底是怎么一回事?

原来,是有人借助了阿里之前走红的AI技术——AnimateAnyone,生成出来了这个舞蹈片段。

技术圈的盆友对这个技术都不陌生,“出道”至今仅仅1个月时间,这个项目便已经在GitHub上斩获了超1.1万个star。

呼唤它能让更多人轻松上手体验的声音,也越来越多。

“兵马俑”“秦始皇”合跳科目三

好消息是,现在AnimateAnyone已经可以免费体验了!

而且“入口”还直接被嵌进了阿里通义千问APP——名曰:通义舞王。

很快,各种效果、各种玩法、各种人物,都动了起来……例如微博网友“Simon_阿文”,让拿破仑表演了一把……

“兵马俑”“秦始皇”合跳科目三

这标致的舞姿,这反差的形象,着实算是把脑洞给打开了。

也有不少网友换了个思路:

想用自己照片试试;以后投宅舞视频可以直接生成了。

“兵马俑”“秦始皇”合跳科目三

所以效果究竟行不行,我们也忍不住实测了一波~

让贝佐斯舞一段《极乐净土》

打开通义千问APP,我们只需要点击对话框中的“一张照片来跳舞”:

“兵马俑”“秦始皇”合跳科目三

或者在输入框内敲“通义舞王”或“全民舞王”等关键词,就可以跳转到相应界面了:

“兵马俑”“秦始皇”合跳科目三

接下来的操作,也正如我们刚才所说:极、其、简、单。

首先,在众多已经提供的模板中,pick一个。

“兵马俑”“秦始皇”合跳科目三

目前通义千问APP提供了12个模板,这次我们就选择二次元最爱、宅舞《极乐净土》测试一下~

然后,选一位测试对象。比如我们找了(前)全球首富贝佐斯:

“兵马俑”“秦始皇”合跳科目三

需要说明的是,在选择照片的时候,还是需要一点“技巧”的,“通义舞王”也有相应提示:

正面站立

全身照

全身无遮挡

无仰俯角

“兵马俑”“秦始皇”合跳科目三

在此之后,直接点击“立即生成”,静候几分钟,贝佐斯大跳《极乐净土》的视频,就诞生了:

“兵马俑”“秦始皇”合跳科目三

是不是效果还行?虽然还不能讲“真假难辨”,但首富都能这样为你跳一曲了,还要什么自行车。

不仅如此,“通义舞王”除了能够生成真人风格之外,还有其他风格可玩。

例如动漫风格的小姐姐跳DJ慢摇:

“兵马俑”“秦始皇”合跳科目三

还有卡通风格的人物热舞:

“兵马俑”“秦始皇”合跳科目三

总而言之,现在你想让任何人跳舞——一张全身照就够了。

不过有一说一,虽然“通义舞王”已经成功吸引了众多网友前来玩耍,反响火爆,但它也还没到完美无瑕的境界。

例如等待时长,现在平均时间大约在10分钟左右(有点久,但毕竟是免费的,还要啥自行车啊)。

还有就是从视频效果来看,如果照片角度不好或者清晰度不够也会影响AI对于人物手部的处理。

“兵马俑”“秦始皇”合跳科目三

这些问题,实际都与背后的技术原理和技术挑战,密不可分。

怎么做到的?

在视觉生成任务中,目前较为主流的方法便是扩散模型。

但在仅靠一张照片就生成视频这件事上,它还面临着诸多的挑战,例如人物形象一致性(consistency)的问题。

简单来说,就是如何保证照片人物在动起来的过程中,各种细节能够和原照片保持一致。

为此,阿里团队在扩散模型的基础之上,提出了一个新的算法,也就是我们刚才提到的AnimateAnyone。

从一致性、可控性和稳定性三个方面,保证了视频输出的效果和质量。

“兵马俑”“秦始皇”合跳科目三

例如在一致性方面,阿里团队引入的是ReferenceNet,用于捕捉和保留原图像信息,可高度还原人物、表情及服装细节。

具体而言,在参考图特征提取上,ReferenceNet采用的是与去噪UNet类似的框架,但没有包含时间层;它继承了原始扩散模型的权重,并独立进行权重更新。

在将ReferenceNet的特征融合到去噪UNet时,首先将来自ReferenceNet的特征图x2复制t次,并与去噪UNet的特征图x1沿w维度连接;然后进行自注意力处理,并提取特征图的前半部分作为输出。

虽然ReferenceNet引入了与去噪UNet相当数量的参数,但在基于扩散的视频生成中,所有视频帧都需要多次去噪,而ReferenceNet只需在整个过程中提取一次特征,因此在推理过程中不会导致显著增加计算开销。

在可控性方面,阿里团队使用的是Pose Guider姿态引导器。

Pose Guider姿势引导器采用的是一个轻量级设计,而不是引入一个额外的控制网络。

具体来说,使用了四个卷积层(卷积核大小为4×4,步幅为2×2,通道数分别为16、32、64、128),这些卷积层用于将姿势图像对齐到与噪声潜变量相同的分辨率。

处理后的姿势图像会被加到噪声潜变量上,然后一起输入到去噪UNet中,从而在不显著增加计算复杂性的情况下,为去噪UNet提供姿势控制。

最后是在稳定性方面,阿里团队引入的是一个时序生成模块。

时序层的设计灵感来源于AnimateDiff,通过在特征图上执行时间维度的自注意力,以及通过残差连接,其特征被整合到原始特征中。

同样的,这个模块的作用之下,满足了在保持时间连续性和细节平滑性的同时,减少了对复杂运动建模的需求。

最终,在AnimateAnyone的加持之下,从效果上来看,保证了图像与视频中人物的一致性。

“兵马俑”“秦始皇”合跳科目三

这也是AnimateAnyone背后的技术原理。

然而,阿里之所以不断在AnimateAnyone上攻坚优化,并非完全出于技术很酷很有潜力,还藏着一颗引领视频生成技术的野心。

因为大家都在问“What is the Next?”的时候,LVM(Large Vision Model),已经潮水声轰鸣了。

What is the Next?

实际上,在AnimateAnyone火

了之后,阿里还有另一项视频生成技术在同时出圈。

它叫DreaMoving,只需一张脸部照片、一句话描述,就能让你在任何地方跳舞!

例如下面这段《擦玻璃》的舞蹈视频:

“兵马俑”“秦始皇”合跳科目三

你所需要做的就是“投喂”一张人像,以及一段prompt:

一个女孩,微笑着,在秋天的金色树叶中跳舞,穿着浅蓝色的连衣裙。

而且随着prompt的变化,人物背景和身上的衣服也会随之发生改变。例如我们再换两句:

一个女孩,微笑着,在木屋里跳舞,穿着毛衣和长裤。

一个女孩,微笑着,在时代广场跳舞,穿着连衣裙般的白衬衫,长袖,长裤。

“兵马俑”“秦始皇”合跳科目三

和AnimateAnyone一样的,它也是真人、卡通、动漫人物统统都能hold住。

“兵马俑”“秦始皇”合跳科目三

当时也引来了不少网友们的热玩和惊呼。

这些都是阿里在视频生成上的“沿途下蛋”,都是“勇攀珠峰”——死磕AI视频生成技术的证明和结果。

为什么?

因为纵观去年一整年的AIGC发展的脉络,AI视频生成的爆发趋势似乎越来越明确了。

2022年底以来,从最初ChatGPT引爆大语言模型,全球科技巨头乃至初创企业纷纷入局,到后来各家不仅限于自然语言技术,更是将文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度。

产业是什么?LLM(大语言模型)正在逐步向LMM(多模态大模型)发展。

并且从这期间学术界、产业界所交出的一份份“作业”中,也能印证这一点:

Pika1.0发布,刚出道就成行业顶流,引来一众大佬围观;

Runway家升级Gen2,分分钟打造高质量小电影;

李飞飞W.A.L.T紧随其后,同样也是发力于此;

谷歌Gemini发布现场,大秀多种模态的联动玩法。

因此,多模态大模型、AI视频生成领域,正是现如今AIGC这波顶流中的顶流,阿里频频在此发力,也就不难理解了。

不仅如此,在岁末年初之际,更是有众多AI大佬将2024年的预测押注于此。

例如Meta研究院Martin Signoux非常直接地表态“再见LLM,你好LMM”,这个预测也得到了LeCun的转发和点赞。

“兵马俑”“秦始皇”合跳科目三

因此,如果要问谁是下一个ChatGPT,可能没有人可以给出准确预判。

但如果问下一个ChatGPT会从哪个赛道来?AI视频生成,就是自带鼓风机的那一个,而在这个赛道里,阿里已经抢占了先机。

风险提示:根据央行等部门发布“关于进一步防范和处置虚拟货币交易炒作风险的通知”,本网站内容仅用于信息分享,不对任何经营与投资行为进行推广与背书,请读者严格遵守所在地区法律法规,不参与任何非法金融行为。本文收集整理自网络,不代表经典网立场,如若转载,请注明出处:https://www.jingdian230.com/news/155023.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,本平台仅提供信息存储服务。

Special statement: The above contents (including pictures or videos, if any) are uploaded and released by users of the we-media platform. This platform only provides information storage services.

(0)
欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

相关推荐

  • 赖床可能是垃圾睡眠导致的

    导读:赖床可能是垃圾睡眠导致的,赖床多久最合适,赖床会有什么后果,赖床对健康有益还是有害,赖床的原因,容易赖床怎么办,极端睡眠,赖床是不是一种病,赖床怎么克服,赖床综合症是什么意思…

    热点新闻 2024年 3月 21日
    67
  • 女孩父母回应网传黄渤放弃资助

    导读:女孩父母回应网传黄渤放弃资助,黄渤有没有资助候媛丽,黄渤打算资助贫困女孩袁丽,女孩父母回应黄渤放弃资助,黄渤为什么不资助农村女孩,黄渤和小女孩,女版黄渤本人回应,黄渤现状,黄…

    2023年 6月 4日
    154
  • 苏州有机场了?网传苏南硕放机场更名

    导读:苏州有机场了?网传苏南硕放机场更名,苏南硕放机场改名会影响体验,苏州到硕放机场地铁线,苏南硕放国际机场到苏州多远,上海打压苏州不让建机场,苏南硕放国际机场到苏州,苏南硕放国际…

    2023年 3月 16日
    169
  • 我丢了个包里面全是黄金

    导读:我丢了个包里面全是黄金,黄金价格上涨的原因,全球央行黄金储备现状,黄金价格与黄金投资者关系,实际利率对黄金价格的影响,遗失物品寻找的正确方式,嘉兴丢失物品如何寻找,黄金市场的…

    2024年 2月 28日
    74
  • 90后小伙以为健康体检一身老年病

    导读:90后小伙以为健康体检一身老年病,老人失智失能1到5级评估标准,年轻人得老年病,现在的年轻人一身病,26岁男子患不老症,小伙自认健康体检一身老年病,90后小伙被质疑是哪一期,…

    2023年 2月 20日
    221
  • 格力电器仍由董明珠掌舵

    导读:格力电器仍由董明珠掌舵,格力集团与董明珠的关系热,董明珠现在是格力空调董事长吗新,格力电器的股权结构,董明珠卸任了吗新,董明珠干什么去了新,格力换董事长热,格力电器未来发展预…

    2024年 2月 19日
    96
  • 欧易OKX

    欧易OKX

                   

    欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

               官网注册
  • 官方通报老师打学生获家长感谢

    浙江义乌市教育局6月13日发布《情况通报》: 2023年6月12日,接有关“福田小学一老师体罚学生”举报后,我局高度重视,立即成立调查组,开展调查核实。 经查,该涉事教师存在体罚学…

    热点新闻 2023年 6月 13日
    132
  • 燕郊事故致7死27伤 救援基本结束

    导读:燕郊事故致7死27伤 救援基本结束,燕郊爆炸后家属寻伤者热,燕郊爆炸瞬间:大妈被残骸砸倒在地热,燕郊爆燃事故原因,燕郊爆炸事故详情,燕郊事故伤者的最新情况,燕郊爆炸救援工作已…

    2024年 3月 14日
    75
  • 媒体:张常宁父亲因病去世

    导读:媒体:张常宁父亲因病去世,张常宁 张晨,惠若琪张常宁,张常宁,张晨张常宁父亲因病去世,张常宁2018年怎么了,女排张常宁老公,张常宁父亲去世吗,张常宁多高,张常宁吧,张常宁是…

    热点新闻 2023年 2月 5日
    207
  • 请查收国家安全“知识盛宴”

    导读:请查收国家安全“知识盛宴”,破坏国家安全的行为,总体国家安全观·创新引领10周年活动,国家安全知识普及,国家安全学学科的前景,国家安全宣传活动,国家安全的重要性,国家安全人才…

    2024年 4月 15日
    24