试水ChatGPT 切不可以身家试法

在之前的文章(《热度“狂飙”的ChatGPT,亟待“合规刹车”》)中我们讨论了当红风头正盛的ChatGPT,分析了它的技术本质、应用场景和法律风险初探。而在近期的《流浪地球》系列电影中,“虚拟数字人”的概念博人眼球。这不禁让我想起另一个红极一时的概念,“深度伪造(DeepFake)”、“AI换脸”。

深度合成技术

事实上,“虚拟数字人”的构建离不开包括伪造技术在内的深度合成技术,而ChatGPT是深度合成领域下的一类模型。数据深度合成(Deep Synthesis)本身是一个中性概念,泛指借助深度学习算法模型等智能化方案自动生成文本、图像、语音、视频等数据内容的一系列处理技术。其中文本因为其较强的字符特征,只需满足空间序上的合理性,与视频、音频类型数据的处理思路略有不同。

在ChatGPT一类的大型语言模型中,包含预训练和下游任务训练两个部分。在预训练阶段,模型从大量的数据中学习复杂的上下文联系,并将这种联系向量化。Next-token-prediction 和 masked-language-modeling 是用于预训练语言模型的核心技术。在第一种方法中,模型被给定一个词序列作为输入,并被要求预测序列中的下一个词,而在第二种方法中,其输入句子中的一些词被替换为特殊token,例如[MASK],模型被要求预测应该插入到[MASK]位置的正确的词。同时,在下游任务训练中,In-content Learning(语境学习)被提出以提升模型在各个场景任务下的表现能力。譬如标注者会给模型一个提示性的输入,让模型更加清楚的感知到应该输出的范式。

自动草稿

在图像、音频类深度伪造模型中,生成网络”(generative network)或“生成器”(generator)负责制作复制原始数据集特征的合成数据如图片、音频记录、视频等,并制作“深度合成物”;鉴别网络(discriminative network)或者说鉴别器(discriminator)则负责识别合成的数据,检测该视频是否为伪造。通过反复的“无监督学习”过程,“生成网络”制作并修改“深度合成物”,直到“鉴别网络”无法再检测出该合成物系经“深度合成”,最终形成高保真的信息内容。

自动草稿

总体而言,基于深度学习的数据合成技术随着算力的发展逐渐从研究型走向应用型,主要应用在文本合成、视觉合成、听觉合成等三大领域,因循数据收集、模型训练、伪造内容等核心步骤,创造虚拟数字人及其所处的生态环境。

如何通过比特币赚取人生中第一个小目标?

如何玩比特币暴富?玩比特币暴富的秘诀!

注册购买比特币赢取高达60,000元盲盒

注册下载欧易领取20元比特币

新用户专享前3天比特币赚取最高30%的年收益率

本文收集整理自网络,不代表金泰居资讯网立场,如若转载,请注明出处:https://jingdian230.com/jinse/3962.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,本平台仅提供信息存储服务。

Special statement: The above contents (including pictures or videos, if any) are uploaded and released by users of the we-media platform. This platform only provides information storage services.

(0)
上一篇 2023年 2月 8日 下午2:53
下一篇 2023年 2月 8日 下午2:55

相关推荐