天美里有一支来自天美研发支持中心的团队,长期支持天美游戏的剧情动画制作,钻研动作和面部捕捉技术。
“唐敏凯高保真数字人”就是他们的最新实践成果。
唐敏凯,是数字人背后的“模特”,也是天美研发支持中心的一名高级技术美术。
作为团队一员,唐敏凯有条件随时参与大量面捕工作,其面部线条硬朗,也适合用来建模,于是就这样成为数字人模特的最佳人选。
为了调动起一位非专业演员的真实情绪表演,团队也不得不以足球事业,来激发一位球迷内心的真情实感,最终呈现出大家看到的生动表情。
通过本次的数字人项目,团队希望尝试新的制作管线,同时挑战超高写实度的角色制作和表情效果。
我们也请来了项目背后的团队成员,与大家分享数字人创造过程中的感受与思考。
研发支持中心总监:宋巍
高保真数字人可以定义为“数字孪生”或“数字替身”。
数字孪生/数字替身早期主要是应用在影视行业,最主要应用就是“返老还童”和“死而复生”。
这项技术可以让中老年演员,扮演自己年轻时的形象 。
《双子杀手》
《爱尔兰人》
也可以让已经去世多年的演员,重新出现在银幕上。
《星球大战》
近些年,在很多 3A 游戏大作中,数字孪生也会以重要剧情角色的形式加入。
《死亡搁浅》
《赛博朋克 2077》
天美正在研发的下一代游戏产品中,也将大量应用到这项技术。
实际上,几年前我们团队就开始了数字人项目的研究。
在角色制作过程中,经历了从传统建模方式到 3D 扫描的建模方式转变。表情动画捕捉使用过手机拍摄和相机拍摄两种形式,动作捕捉也使用了光学设备和惯性设备两套方案。
这期间的研究成果都已经应用到了天美某些游戏产品中。
市面上的各种主流或非主流的技术和设备,我们也都基本尝试过了,最终我们梳理了几套标准的制作管线,来满足不同产品的剧情动画需求。
比如移动端产品,我们会使用骨骼绑定的方式,而 PC 端产品,我们则会使用 BS 的绑定方式,来应对不同终端的设备性能要求。
期间我们也尝试使用了大量的国产设备。
目前团队使用的 3D 扫描,动作捕捉,面部捕捉等相关软硬件设备,均是国人团队研发的国产设备。
相比进口设备来说,国产设备可以帮助我们节省大量的开发成本。
在支持国货的同时,也可以看到国货在崛起。
高级角色模型师:赵旭光
敏凯同学的数字人制作,使用的是手持扫描工具得到的点云数据。
因为是白光的扫描仪,比较刺眼,所以得到的点云模型是闭眼状态。闭眼状态有一个好处就是可以满足上眼皮的皮肤纹理不被拉伸。
虽然手持扫描的模型精度不会像阵列拍摄的模型精度那么高,皮肤纹理几乎没有,但是基本的骨点结构是都有了,剩下的就交给模型师的功底了。
对了,大家都说随着扫描技术慢慢成熟,模型师就都要下岗了,鄙人不敢苟同。
人有一样是工具替代不了的,那就是创造力。有了钢笔,就没人用毛笔了,但钢笔书法家和毛笔书法家,都是书法家。
被淘汰的是落后的工具,以及不学习新工具的人类。
因为我们是做动态虚拟人,不能让虚拟人只是静帧的时候像模特,所以我针对该角色每个极限表情都做了扫描,以保证动态下数字人与真人的相似度。
这个就和最近刚出的 MetaHuman 大有不同了。MetaHuman 所有的表情幅度和结构都是基于一个模板进行 blendShape 变化的,加上表情后,相似度就差一些。当然做一些简单的 NPC 是足够了。
而我们要实现的是高还原度,所以 MetaHuman 就不能满足我们的需求了。
为了追求更逼真的效果,我选择了用 XGen 的方式来做毛发。现在 UE5 对毛发缓存支持效果不错,堪比离线渲染。
高级技术美术:唐敏凯
数字人模型做好之后,需要让他动起来,这样才能使其生动。
在做表情的时候,一般会通过照片和静态模型做比较来完成效果。但我们在做动画的时候,会发现这个表情的变化看起来有些奇怪,这里有些僵硬,那边有些不自然……说到底就是“动态效果”的缺失。
人的表情并不是单一的一张照片,而是由一连串微表情的不断变化组合而成,这个过程也会随着面部肌肉的挤压拉伸,呈现出不同的动态变化。
我们在制作过程中,逐帧地分析真人细微表情的变化,通过不断尝试、调整,把p2p(pose-to-pose)升级到pbp(pose-between-pose),在表情中间态效果上做了大量的尝试,尽量把表情中间的动态变化给表现出来,让角色的表情呈现出更加自然的效果。
比如这个闭眼的中间过程效果。
数字人的表情离不开老生常谈的 FACS 系统。
经常会看到某个数字人包含几百个甚至几千个表情(此数字人我们使用了 500 多个表情目标体),这是因为根据 FACS 系统的设定我们需要对正常的表情进行分解后再重新组合,尽量让单一表情单元的重复利用率达到更高,还要有一定的容错率,让表情组合后的效果减少错误的表现。
比如这样一个愤怒的效果,虽然只是“一个”愤怒的表情,却是由“十几个”表情单元组合而成的。
再配合皱纹的效果,可以让数字人的表情更加真实自然。
目前市面上的数字人技术和流程也越来越成熟,不断地涌现出各种工具,比如模型扫描设备,动作捕捉设备,还有 MetaHuman 数字人创建工具。
每每有新的技术出来,同事们都会打趣道:“完蛋鸟,要跟不上时代了!哈哈哈!”。
不可否认的是,新的技术会对行业产生冲击。
但中国有句老话,“活到老,学到老”!人类从来都没有因为一件工具的发明而饿肚子,一向都是因为不断发明新的工具,新技术,才让人类社会不断前进。
动捕技术的快速发展和应用是好事,能大幅度提升效率,而我们唯一需要做的就是保持学习的态度,这只是一种工具,可以让我们把更多的精力,放在如何向大家展示更好的效果,做出更多有趣的产品上。
高级动画师:王研
因为效率高,可以快速获得较高的品质的动画,所以慢慢越来越多的项目都放弃手 K 动画,使用全动捕流程,这也促使动捕技术高速的发展。
所以动捕技术在游戏行业内外,一直都是想办法“干掉”动画师饭碗的一种发展趋势,且势头很猛,有点类似现在电动车技术在努力取代燃油车。
那么当表情动作全捕捉技术成熟以后,动画师就要全体躺平了吗?
其实动画师就是要接受自己要从一个画家转为摄影师的过程,要接受自己之前画几天才能画出一副的 80 分作品,机器分分钟就能搞定的现实。
但是机器捕捉给你的就是客观放到那的一堆数据,这些数据哪些有意义,哪些没意义,它可判断不了,因为有没有意义是对人类而言。对于机器,全都是数据。
机器可以快速给你的 80 分的东西,但是这 80 分谁有机器,谁就能得到。
别忘了我们生在一个“内卷”的年代,那么这 80 分就又不值钱了,所以问题又来到了这 20 分具体还差在哪里?要做什么才能拿到满分?
接下来这 20 分就属于一个“躺平但还没完全躺平”动画师的工作范畴了:
哪些捕捉到的细节亮点是要强调表现出来?哪些意义不大的细节可以弱化或删掉?面部是否美观?皮肤肌肉联动是否舒服合理?表情是不是符合角色本身的特征和习惯?情绪是否精准的表达?等等。
比如单单摆出这一帧敏凯专属的尴尬而不失礼貌的笑的表情 Pose,就花了我整整两天的时间。
眼神、眼皮、嘴唇、上下牙齿的留白形状细微的变化,都会牵连整体美观度、人物性格、情绪的变化。
让观众相信眼前看到的是个有灵魂的活人,而不是模型,每一个控制器数值,每一帧都是要靠动画师的眼睛来判断调整。
这些都是需要多年的观察、感悟,对表演的理解,加上一帧一帧 K 动画,才能得出来的经验。
我觉得几乎任何行业,积累突破了一定的技术经验后,最终都要研究“人”。一项技术一个产品有没有价值也是人来衡量的。
销售要研究人的心理,更容易抓住人的消费心理,从而卖出自己的产品。
产品要研究人的行为习惯,才能不断提升人体工学,人机交互体验等,获得更好的用户粘性。
如果未来捕捉技术、人工智能行业的从业人员可以把人研究透,让算法智能到有了灵魂,那我们动画相关从业者就可以彻底躺平了。
但在这天来临之前之前,还是需要动画师去研究人的性格、习惯、情绪、情感等等的人类课题,这样才能做出有灵魂,打动人内心的产品。
只要可以打动人,就有价值,就不会被技术替代。
虽然现在手 K 动画项目越来越少了,但我还是抓住机会就会去刻意练习手 K,因为我觉得无论什么行当,内功都是一生去修炼的课题。