威尼斯官方网站多模态才干在内行的选用与前景
分类:威尼斯手机娱乐官网

威尼斯官方网站 1

威尼斯官方网站 2

16、17年短视频大火,市面上有三百多款纯短视频应用,包含短视频功能的应用则上千款,你都知道有哪些类型吗?只知道快手、抖音那你就out了。这篇文章让你三分钟了解现在短视频都有哪些类型,都怎么玩!

作者|李岩

文章来源:infoQ

图1:快手“萌面Kmoji”魔法表情(Kmoji衍生自emoji,emoji来自日语词汇“絵文字”,意为表情符号)

中新网7月20日电 近日,快手APP上线名为“萌面”的魔法表情,能够在任意iOS及Android设备上实现iPhone X的Animoji玩法。呆萌的二哈、乖巧的猫咪以及精致的猪猪,每一款表情均能捕捉用户眨眼、张合嘴巴、摇头等共50余种表情,视频背景还可以选择现实背景或系统提供的四种图案,这是短视频平台首次上线相关玩法。

一、简单类:

编辑|DebraAI 前线导读:随着近年来深度学习、大算力、大数据快速发展,计算机视觉、语音识别等技术都取得了非常大的进展,综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言,多模态研究也是非常重要的课题。快手是一个记录和分享生活的短视频社交平台,通过人、内容及二者互动数据的理解,借助算法匹配推荐用户可能感兴趣的内容。一方面,视频可称是典型的多模态问题,综合了视觉、听觉、文本多种模态信息。在视频的基础上,加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用,一方面在于帮助用户更好地表达与记录,另一方面在于对视频内容的精准理解。

随着近年来深度学习、大算力、大数据快速发展,计算机视觉、语音识别等技术都取得了非常大的进展,综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言,多模态研究也是非常重要的课题。

近日,快手正式上线了“萌面Kmoji”魔法表情,用户通过相机拍摄能够生成自己的专属脸部AR虚拟形象。同时,该功能可以捕捉用户表情,眨眼、张嘴、抬眉毛、吐舌头等细微动作都能精准还原。据悉,这是短视频平台首次实现用户自定义AR虚拟形象进行拍摄的玩法。

Animoji 短视频玩法,丰富用户表达方式

代表app:快手、muse;

多模态技术帮助用户更好地表达与记录 1、语音转文字打造便捷字幕生成体验

快手是一个记录和分享生活的短视频社交平台,通过人、内容及二者互动数据的理解,借助算法匹配推荐用户可能感兴趣的内容。一方面,视频可称是典型的多模态问题,综合了视觉、听觉、文本多种模态信息。在视频的基础上,加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用,一方面在于帮助用户更好地表达与记录,另一方面在于对视频内容的精准理解。

威尼斯官方网站 3“萌面Kmoji”使用流程

据快手产品人员介绍,“萌面”魔法表情能够帮助用户更好地表达自己,带给用户更新奇体验。“萌面”魔法表情可以用呆萌的卡通形象代替个人真实的面部特征,同时又可以保留眨眼、张嘴、摇头等生动的面部表情,丝毫不妨碍通过面部表情传达信息。同时,录下背景声音,便于用户进行短视频创作。

威尼斯官方网站 4

在视频中,对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频,需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情,一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕的视频。

多模态技术帮助用户更好地表达与记录

无需iPhoneX实现memoji效果 一键生成专属AR形象

快手“萌面”魔法表情推出,进一步丰富了用户短视频的创作形式。不同于iPhone X只能拍摄脸部视频,快手用户可以结合同框、K歌等功能,利用“萌面”魔法表情拍摄各种极具创意的段子短剧,让Animoji玩法获得极大延展。

快手和muse的面部贴纸类似,都是对人脸识别后进行简单的加工,没有分类,也没有配合的场景,快手中过半贴纸是不同颜色的猫妆,但最近的更新中快手明显增加了面部贴纸,预计之后快手在贴纸这一块还会上更多。

对视频进行语音转写时,面临以下的技术难点:首先,拍摄视频时,麦克风和说话者之间的距离比较远,语音信号因为传输距离远产生衰减,同时麦克风对环境噪声的抑制能力也会减弱,造成语音信号弱,背景噪声强的现象;其次,在房间内拍摄时,可能因墙壁对语音信号的反射造成混响;第三,快手的用户包括了全国各个区域,自然地包括了多样的口音;最后,短视频的内容种类丰富,表达方式随意,有些视频还有很强的韵律起伏。这些因素都会影响语音识别系统的准确率。快手针对这些问题,研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术,以及通过序列化建模方法提升多种口音的识别准确率。2、语音合成实现个性化配音

1、语音转文字打造便捷字幕生成体验

“萌面Kmoji”生成的虚拟形象表情生动逼真,与苹果今年推出的memoji效果观感几无二致。不过对“萌面Kmoji”而言,iPhoneX或更新型的苹果设备并非必需,在任意一部智能手机上都可以流畅使用。

威尼斯官方网站 5

muse的通用贴纸则很简陋,实际上就是大号的聊天表情;面部滤镜只有12个,都很简陋,但有特殊的针对五官的11个细分滤镜,可以玩的比较细致。

在视频配音方面,如果用户不喜欢男性配音,而希望实现女性配音的效果,就可以通过语音合成技术满足个性化的诉求。

在视频中,对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频,需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情,一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕的视频。

另一方面,相比于Memoji复杂的捏脸步骤,“萌面Kmoji”则简单得多:打开最新版快手APP的拍摄页面,在魔法表情“萌面”表情中选择“创建专属萌面”进行拍摄,系统就会根据用户面部特征,一键自动生成和用户肖似的AR形象。

无需3D结构光手机,快手用AI技术实现Animoji效果

二、产品调性类

语音识别及合成技术都会使记录的过程变得更加便捷、有趣,但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高,在语音圈子里面,语音识别、语音合成也往往是两波人在做。

对视频进行语音转写时,面临以下的技术难点:首先,拍摄视频时,麦克风和说话者之间的距离比较远,语音信号因为传输距离远产生衰减,同时麦克风对环境噪声的抑制能力也会减弱,造成语音信号弱,背景噪声强的现象;其次,在房间内拍摄时,可能因墙壁对语音信号的反射造成混响;第三,快手的用户包括了全国各个区域,自然地包括了多样的口音;最后,短视频的内容种类丰富,表达方式随意,有些视频还有很强的韵律起伏。这些因素都会影响语音识别系统的准确率。快手针对这些问题,研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术,以及通过序列化建模方法提升多种口音的识别准确率。

当然用户也可凭喜好对虚拟形象的五官、皮肤、发型、装饰等进行自由调整,打造独一无二的AR形象,“萌面Kmoji”的捏脸选项中提供了超过160余种素材选项,给用户更丰富的个性化选择。

去年,苹果发布iPhone X, Animoji一时成为该手机卖点。今年5月,小米发布小米8探索版,称也将上线与Animoji相似的米萌功能。两款手机的Animoji效果,均利用了摄像头的3D结构光技术,硬件成本高昂。而快手此次推出的“萌面”魔法表情,在任意iOS和Android设备上都能实现。

代表app:抖音、snapchat、火山等;

随着深度学习技术的出现,语音识别和合成其实在某种程度上可以看做是非常对称的两个问题,因为语音识别是从语音到文字,语音合成是从文字到语音。语音识别,我们提取一些声学的特征,经过编码器或者 Attention 的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者 Attention 的机制,二者形成了比较对称的网络。所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下:

2、语音合成实现个性化配音

自定义AR虚拟形象与短视频结合,带来的是极高的可玩性。“萌面Kmoji”上线后,快手用户马上参与进来录制各种表情包,更有用户用“萌面Kmoji”的捏脸功能制作了神似明星的卡通形象,加上原版配音玩起名人模仿秀,收获一众点赞好评。

负责研发快手“萌面”魔法表情的工程师介绍,快手“萌面”魔法表情是基于人脸关键点、图像特征提取等AI技术,是多模态技术的成功应用,无需搭载3D结构光摄像头,仅用普通千元安卓机摄像头就能跟踪捕捉到用户的细微表情,且保证识别过程精准稳定,比如眨眼、噘嘴、摇头等表情均可以实时捕捉。

威尼斯官方网站 6

威尼斯官方网站 7

在视频配音方面,如果用户不喜欢男性配音,而希望实现女性配音的效果,就可以通过语音合成技术满足个性化的诉求。

人工智能加持,快手实现技术普惠

全机型流畅适配背后:海量数据支持与技术经验积累

这类app的贴纸也很多,但大部分贴纸比较符合app的调性,比较有平台特色。如抖音贴纸比较冷酷,也有很多音乐类型的,诸如嘻哈、重金属等等。snapchat的贴纸则是浓浓的欧美简单漫画风,不像中国贴纸那么华丽,比较淳朴,另外还有一个特别的自己裁剪贴纸的功能,会玩的人可以做出很多自己专属的贴纸。

3、根据视频内容自动生成音乐

语音识别及合成技术都会使记录的过程变得更加便捷、有趣,但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高,在语音圈子里面,语音识别、语音合成也往往是两波人在做。

“萌面Kmoji” 背后是快手技术团队大量的研发工作。首先,基于人脸关键点、图像特征提取等AI技术,“萌面Kmoji”不需要iPhoneX等设备才支持的3D结构光信息,仅凭2D视觉信息即可识别用户的发型、脸型、五官形状、肤色、口红颜色、胡须等面部属性信息,构建用户专属的3D AR形象,并通过表情参数驱动3D形象做出各种细微表情,例如微笑、闭眼、张嘴、吐舌头等50余种表情,是多模态技术的成功应用。

据了解,快手能够在全机型实现这项功能,得益于团队近年来积累的AI技术经验以及海量短视频数据。工程师介绍,此次实现“萌面”魔法表情效果,运用的是二维图像信息,从图像深层次分析和理解出发,通过对人脸关键点精准识别捕捉用户的细微表情。

威尼斯官方网站 8

音乐也是短视频非常重要的一部分,为一个场景匹配合适的音乐并非易事。过去,有不少用户在拍摄时为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频,对用户拍摄的视频内容进行理解后,自动生成符合视频内容的音乐。

随着深度学习技术的出现,语音识别和合成其实在某种程度上可以看做是非常对称的两个问题,因为语音识别是从语音到文字,语音合成是从文字到语音。语音识别,我们提取一些声学的特征,经过编码器或者 Attention 的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者 Attention 的机制,二者形成了比较对称的网络。所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下:

此外,“萌面Kmoji”采用了基于物理的真实感渲染算法,金属、皮革等模型材质更加真实更具质感,大大提升模型的表现力。同时,快手技术团队通过对算法的优化,大大降低了运行“萌面Kmoji”对CPU、GPU资源的占用,提升了运行效率,普通千元手机也可顺利运行。

目前,快手“萌面”魔法表情支持五十多种面部表情的捕捉,这得益于快手超过50亿视频的数据库,以及人脸识别的技术积累。快手工程师将相关算法及模型进行深度优化,最大程度减少对手机硬件资源的占用,从而让低端机型用户也能实现流畅体验。

威尼斯官方网站,火山贴纸的题材也是很切合他的用户群和定位,很接地气,都是目前一些流行语等,设计上也很亲民,适合广大二三线城市以下用户使用。

威尼斯官方网站 9

威尼斯官方网站 10

行业人士分析认为,快手“萌面Kmoji”通过人工智能技术,将“黑科技”玩法的设备门槛降低,实现了技术对普通大众的赋能。另一方面,随着AR、VR技术的不断成熟,快手“萌面Kmoji”率先打造AR虚拟形象的个性化定制,无疑是对新型交互的提前布局,再加上快手庞大的短视频社交生态,未来将拥有极大的发展想象空间。

三、美颜卖萌类

利用神经网络强大的学习能力,实现视觉信息到音乐要素的转化,包括:歌曲节奏、速度、调性、情感、风格、动机等。例如:将视频中用户身体扭动的时间点与生成音乐中的“鼓点”位置对齐;动作快慢决定歌曲速度等。

3、根据视频内容自动生成音乐

代表:faceu、B612咔叽等

通过上述音乐要素,从备选曲库中筛选合适的乐谱组成旋律空间。音乐的动机是由几个小节组成的旋律片段,它是音乐的核心,整首歌曲都围绕动机展开。在自动编码器网络中,动机被表示为一个向量,旋律空间被表示为若干的向量序列。在动机与旋律空间的约束下进行采样,生成新的向量序列,再通过解码网络生成新的旋律。同样的动机,在相同的旋律空间下,也可以生成情感、风格相似,但表现上又有差异的音乐作品。常见的 AI 旋律生成算法,难以保存作曲手法,生成较长的旋律片段时,整个作品的走势会难以控制。采用旋律空间加动机的方式,能够有效解决该问题。对旋律进行自动化的配器和混音,最终生成符合视频内容的音乐作品。

音乐也是短视频非常重要的一部分,为一个场景匹配合适的音乐并非易事。过去,有不少用户在拍摄时为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频,对用户拍摄的视频内容进行理解后,自动生成符合视频内容的音乐。

威尼斯官方网站 11

音乐生成涉及很多具体的技术,其中一个问题是懂音乐的人不懂计算机科学,懂计算机科学的人不懂音乐。想要把短视频配乐这个问题研究好,需要有做音乐和做 AI 的人一起集成创新,这方面快手也做了非常多的工作。4、2D 图像驱动 3D 建模实现 Animoji 效果

威尼斯官方网站 12

其实这个也可以归到上一类产品调性类里面,只是鉴于卖萌类贴纸是现在使用最多的类型所以单列出来。faceu和B612实在太像,同样具备做表情的功能,贴纸的分类也差不多,都是围绕着脸部识别,通过加道具、贴图、动作等形式,让你变可爱甚至便恐怖。

iPhoneX 问世时的一项标志性功能,是通过结构光摄像头实现 Animoji,现在国内手机厂商也越来越多地采用结构光的方式去实现 Animoj。而快手是国内较早实现不使用结构光,只用 RGB 图像信息就实现 Animoji 效果的企业。

利用神经网络强大的学习能力,实现视觉信息到音乐要素的转化,包括:歌曲节奏、速度、调性、情感、风格、动机等。例如:将视频中用户身体扭动的时间点与生成音乐中的“鼓点”位置对齐;动作快慢决定歌曲速度等。

威尼斯官方网站多模态才干在内行的选用与前景展望,语义鸿沟。四、进阶--换背景及五官特效

用户不必去花上万元去买 iphoneX,只要用一个千元的安卓手机,就可在快手的产品上体验 Animoji 的特效,从而能够在不暴露脸部信息的同时展现细微的表情变化,例如微笑、单只眼睛睁单只眼睛闭等,让原来一些羞于表演自己才艺的人,也可以非常自如地表达。

通过上述音乐要素,从备选曲库中筛选合适的乐谱组成旋律空间。音乐的动机是由几个小节组成的旋律片段,它是音乐的核心,整首歌曲都围绕动机展开。在自动编码器网络中,动机被表示为一个向量,旋律空间被表示为若干的向量序列。在动机与旋律空间的约束下进行采样,生成新的向量序列,再通过解码网络生成新的旋律。同样的动机,在相同的旋律空间下,也可以生成情感、风格相似,但表现上又有差异的音乐作品。常见的AI旋律生成算法,难以保存作曲手法,生成较长的旋律片段时,整个作品的走势会难以控制。采用旋律空间加动机的方式,能够有效解决该问题。对旋律进行自动化的配器和混音,最终生成符合视频内容的音乐作品。

代表:facebook、美拍等

其实解决这样一个问题是非常难的,即使是苹果,也采用了结构光这样配置额外硬件的方式来解决。想让每一个用户都能享受到最尖端的技术,快手面临着硬件的约束,只能通过 2D 的 RGB 视觉信息对问题进行建模、求解。

威尼斯官方网站多模态才干在内行的选用与前景展望,语义鸿沟。音乐生成涉及很多具体的技术,其中一个问题是懂音乐的人不懂计算机科学,懂计算机科学的人不懂音乐。想要把短视频配乐这个问题研究好,需要有做音乐和做 AI 的人一起集成创新,这方面快手也做了非常多的工作。

威尼斯官方网站 13

威尼斯官方网站 14

4、2D 图像驱动 3D 建模实现 Animoji 效果

除了普通的贴纸覆盖、脸部特效外,还有一些进阶玩法,如换背景和五官特效。facebook就有很多背景贴纸,以及针对五官触发的各种动作贴纸。美拍在原有的偏女性化贴纸基础上,增加了手动换背景,通过手动换背景,可以把你刚刚录的视频跟任意背景结合生成一个全新的有趣的视频,等抠图效果更好之后,相信这块会诞生更多的玩法,美拍也有不少五官贴纸玩法。

整个模拟人脸的过程借助了 3D 结构恢复与 3D 信息融合,用 3D 重建技术恢复出 3D 结构,融合 2D 信息后,分析人脸特征,进而生成虚拟形象。

iPhoneX 问世时的一项标志性功能,是通过结构光摄像头实现 Animoji,现在国内手机厂商也越来越多地采用结构光的方式去实现 Animoj。而快手是国内较早实现不使用结构光,只用 RGB 图像信息就实现 Animoji 效果的企业。

五、AR贴纸

3D 人脸重建需要借助快手内部的上万级 3D 人脸数据集,包含每个人的年龄段、人种、脸型和表情,通过人脸关键点识别技术,帮助 3D 人脸重建,不论表情是哭是笑都可以重现出来。

用户不必去花上万元去买 iphoneX,只要用一个千元的安卓手机,就可在快手的产品上体验 Animoji 的特效,从而能够在不暴露脸部信息的同时展现细微的表情变化,例如微笑、单只眼睛睁单只眼睛闭等,让原来一些羞于表演自己才艺的人,也可以非常自如地表达。

代表:wetoo等

此外,生成虚拟形象还要分析用户的人脸属性,借助分类 / 回归 / 分割等方法,区分出性别、年龄、肤色、脸型等信息。

其实解决这样一个问题是非常难的,即使是苹果,也采用了结构光这样配置额外硬件的方式来解决。想让每一个用户都能享受到最尖端的技术,快手面临着硬件的约束,只能通过 2D 的 RGB 视觉信息对问题进行建模、求解。

威尼斯官方网站 15

之后,因为生成的 3D 卡通图像是会随着人的表情而变化的,需要分析人脸表情,才能在卡通形象上展示出一模一样的表情。

威尼斯官方网站 16

上面的都是二维贴纸,wetoo则是融入了AR技术,生成更多好玩的3D动态贴纸,用户可以配合这些贴纸,设计剧情。

这里需要通过 2D 的 RGB 视觉信息对问题进行建模求解,获得人脸关键点和实时重建的 3D 模型,把各种模态信息做建模、做对齐,求解出人脸的表情,驱动虚拟卡通形象做各种逼真的动作。

整个模拟人脸的过程借助了3D结构恢复与3D信息融合,用3D重建技术恢复出3D结构,融合2D信息后,分析人脸特征,进而生成虚拟形象。

六、简单的电影效果

此外,快手 Animoji 的体验非常流畅,也需要归功于深度神经网络模型的量化。为了让模型在手机端流畅运行,需要进行图像预处理,合并多种预处理操作,对预处理的图像内存进行统一分配和回收,利用 NEON 加速和苹果自带的 accelerate 加速,让运行库只占 2M 的空间。

3D人脸重建需要借助快手内部的上万级3D人脸数据集,包含每个人的年龄段、人种、脸型和表情,通过人脸关键点识别技术,帮助3D人脸重建,不论表情是哭是笑都可以重现出来。

代表:like等

最后,在保证预测精度的前提下,快手技术团队对 AI 模型进行局部的 INT8 量化,使得运行速度可提高 1 倍以上,同时 AI 预测模型的占用空间也压缩到将近原来的四分之一。多模态技术如何实现精准理解视频内容?

此外,生成虚拟形象还要分析用户的人脸属性,借助分类/回归/分割等方法,区分出性别、年龄、肤色、脸型等信息。

威尼斯官方网站 17

除了帮助用户更好地记录,快手也希望通过一个更好的分享机制,让用户发布的视频能够被更多感兴趣的人看到,这也涉及视频推荐里面多模态的一些问题,其中有两点值得分享:

威尼斯官方网站 18

以上的贴纸都有一个共同点,他们实际上都是gif图,有自己固定的表现,你很难玩出更多新的花样,只能在合适的时间,加上合适的贴纸罢了。其实,配合特效,人是可以实现很多脑海里面幻想的画面的,只是这些特效,最简单的也要通过电脑上AE来实现。而AE难用、门槛高,广大小白没法使用,如果把它变成一个小白也好上手的app,每个人就能轻易给自己添加电影特效,参考过往美图秀秀把部分PS技术全民化以后带来的市场爆发,可想而知这未来市场会有多大。现在正有一款应用在逐渐实现AE的效果--like

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个重要趋势。

之后,因为生成的3D卡通图像是会随着人的表情而变化的,需要分析人脸表情,才能在卡通形象上展示出一模一样的表情。

目前有魔法及3D魔法两大类AE功能,其中魔法里有31个特效,诸如火、爱心、蝴蝶、下雪等等,你可以自由绘制,多个叠加,产出你想要的效果;3D魔法则是能抠出录制的视频前景,对其添加12种效果,诸如火箭发射、飞翔、放大缩小等等。目前以上两种魔法中不少特效的逼真度一般,但随着它逐步优化迭代,其逼真效果越来越强后,可能会吸引更多的用户以及诞生更多新的玩法,届时每个人都能创作自己的虚拟世界,就像十年前我们通过QQ秀打造虚拟的自己一样。

第二,工业界和学术界所做的研究有很大区别,快手有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

这里需要通过2D的RGB视觉信息对问题进行建模求解,获得人脸关键点和实时重建的3D模型,把各种模态信息做建模、做对齐,求解出人脸的表情,驱动虚拟卡通形象做各种逼真的动作。

结语

举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,人们可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

此外,快手Animoji的体验非常流畅,也需要归功于深度神经网络模型的量化。为了让模型在手机端流畅运行,需要进行图像预处理,合并多种预处理操作,对预处理的图像内存进行统一分配和回收,利用NEON加速和苹果自带的accelerate加速,让运行库只占2M的空间。

目前短视频其实满足用户两大核心需求:记录生活,展示生活;特效贴纸则是突破第三大核心需求的利器---创造生活。每个人除了记录自己的生活,然后美化一下展示给别人看获得合群感和虚荣心满足外,其实心底都有创造新的更理想生活的需求,这也是我们努力生活、工作的动力。但有一些梦想,要实现起来很难,或者还很遥远,通过虚拟世界,先过把瘾,也是很多用户乐意接受的(有些男的看AV满足生理需求、有些女的玩陌陌等获得男生的跪舔)。当前绝大多数贴纸只是1.0阶段,对展示生活起了一定的修饰提升作用,但还没起到创造生活的作用。未来2.0、3.0的贴纸会进化成帮助用户创造虚拟场景、虚拟故事、虚拟的更好的自己的利器。

快手数据库中有 80 亿短视频,想要理解这么多的视频内容,必须借助多模态技术。我们从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

最后,在保证预测精度的前提下,快手技术团队对AI模型进行局部的INT8量化,使得运行速度可提高1倍以上,同时AI预测模型的占用空间也压缩到将近原来的四分之一。

另一方面需要强调的是, ImageNET 等很多学术界研究内容理解的任务有完善的标注数据集,但是这个数据集对于工业界而言还是太小,且多样性不够。快手每天有 1.6 亿用户、超过 150 亿次的视频播放,这个数据是非常大的。如果有 150 亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

多模态技术如何实现精准理解视频内容

怎样将研究分析技术与海量数据更好地做到融合?快手通过融合行为数据和内容数据,进行综合建模。同样大小的人工标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,对视频有了一个更好的理解,进而在多媒体内容的理解和分析方面的算法研究有了非常大的进展。多模态技术研究的三个难点:语义鸿沟、异构鸿沟、数据缺失

除了帮助用户更好地记录,快手也希望通过一个更好的分享机制,让用户发布的视频能够被更多感兴趣的人看到,这也涉及视频推荐里面多模态的一些问题,其中有两点值得分享:

其实在目前来看,多模态研究难度还是非常高的。

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个重要趋势。

其中大家谈得比较多的是语义鸿沟,虽然近十年来深度学习和大算力、大数据快速发展,计算机视觉包括语音识别等技术都取得了非常大的进展,但是截至现在,很多问题还没有得到特别好的解决,所以单模态的语义鸿沟仍然是存在的。再者,由于引入了多种模态的信息,所以怎样对不同模态之间的数据进行综合建模,会是一个异构鸿沟的问题。

第二,工业界和学术界所做的研究有很大区别,快手有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

另外,做语音、做图像是有很多数据集的,大家可以利用这些数据集进行刷分、交流自己算法的研究成果。但是多模态的数据集是非常难以构建的,所以我们在做多模态研究时是存在数据缺失的问题的。

举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,人们可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

多模态技术的未来应用方向展望

快手数据库中有 80 亿短视频,想要理解这么多的视频内容,必须借助多模态技术。我们从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

首先,多模态技术会改变人机交互的方式,我们与机器交互的方式将会越来越贴近于更令人舒适、更自然的方式。比如我们刚才讲的 Animoji 技术,其实它带来的是一种可以通过人脸控制手机自动生成 Avatar的体验。原来实现这些效果,需要在好莱坞专门设一个特效室来实现这一点,而现在普通用户都能享受这样的技术,所以人机交互会由原来重的、贵的、笨的方式转变为便宜的、每个人都能参与的而且便捷的方式。

另一方面需要强调的是, ImageNET 等很多学术界研究内容理解的任务有完善的标注数据集,但是这个数据集对于工业界而言还是太小,且多样性不够。快手每天有 1.6 亿用户、超过 150 亿次的视频播放,这个数据是非常大的。如果有 150 亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

第二,多模态技术会带来新的内容形态,原来接入信息更多是从文本、页面中获得,现在有视频,未来可能还会有 AR 或者其它的形式。多模态 AR 很重要的一点就是强调沉浸感,这种沉浸感其实是通过听觉和视觉综合作用才能产生的。

怎样将研究分析技术与海量数据更好地做到融合?快手通过融合行为数据和内容数据,进行综合建模。同样大小的人工标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,对视频有了一个更好的理解,进而在多媒体内容的理解和分析方面的算法研究有了非常大的进展。

第三,多模态亟需新的算法和大型的数据,因为这两者可能会是一个某种意义上可以相互折算的问题。以目前的机器学习算法来讲,需要海量的数据才能解决好这个问题,因为现在深度学习、内容理解的成果,某种意义上是监督学习的成果,有足够的样本、算力,所以现在的算法能力基本上还停留在对算力和数据有着非常大要求的阶段。而多模态的大型数据是非常难建的,而且多模态解的空间是更大的。因为一个模态解的空间是 n,另外一个是 m,它最后是一个乘积、一个指数级的变化,所以数据集要多大才足够是一个很难的这个问题,可能需要新的算法来对这个问题进行建模。

多模态技术研究的三个难点:语义鸿沟、异构鸿沟、数据缺失

作者简介

其实在目前来看,多模态研究难度还是非常高的。

李岩,毕业于中国科学院计算技术研究所,中国计算机学会多媒体技术专业委员会常委。现任快手科技多媒体内容理解部(Multimedia Understanding, MMU)负责人,带领快手科技近百人的算法研发团队,团队成员多来自清华大学、中科院和日本京都大学等国内外顶尖高校和科研机构。

其中大家谈得比较多的是语义鸿沟,虽然近十年来深度学习和大算力、大数据快速发展,计算机视觉包括语音识别等技术都取得了非常大的进展,但是截至现在,很多问题还没有得到特别好的解决,所以单模态的语义鸿沟仍然是存在的。

再者,由于引入了多种模态的信息,所以怎样对不同模态之间的数据进行综合建模,会是一个异构鸿沟的问题。

另外,做语音、做图像是有很多数据集的,大家可以利用这些数据集进行刷分、交流自己算法的研究成果。但是多模态的数据集是非常难以构建的,所以我们在做多模态研究时是存在数据缺失的问题的。

多模态技术的未来应用方向展望

首先,多模态技术会改变人机交互的方式,我们与机器交互的方式将会越来越贴近于更令人舒适、更自然的方式。比如我们刚才讲的 Animoji 技术,其实它带来的是一种可以通过人脸控制手机自动生成 Avatar的体验。原来实现这些效果,需要在好莱坞专门设一个特效室来实现这一点,而现在普通用户都能享受这样的技术,所以人机交互会由原来重的、贵的、笨的方式转变为便宜的、每个人都能参与的而且便捷的方式。

第二,多模态技术会带来新的内容形态,原来接入信息更多是从文本、页面中获得,现在有视频,未来可能还会有 AR 或者其它的形式。多模态 AR 很重要的一点就是强调沉浸感,这种沉浸感其实是通过听觉和视觉综合作用才能产生的。

第三,多模态亟需新的算法和大型的数据,因为这两者可能会是一个某种意义上可以相互折算的问题。以目前的机器学习算法来讲,需要海量的数据才能解决好这个问题,因为现在深度学习、内容理解的成果,某种意义上是监督学习的成果,有足够的样本、算力,所以现在的算法能力基本上还停留在对算力和数据有着非常大要求的阶段。而多模态的大型数据是非常难建的,而且多模态解的空间是更大的。因为一个模态解的空间是 n,另外一个是 m,它最后是一个乘积、一个指数级的变化,所以数据集要多大才足够是一个很难的这个问题,可能需要新的算法来对这个问题进行建模。

本文由威尼斯官方网站发布于威尼斯手机娱乐官网,转载请注明出处:威尼斯官方网站多模态才干在内行的选用与前景

上一篇:没有了 下一篇:没有了
猜你喜欢
热门排行
精彩图文