科普神文,GPT背后的Transformer模型

欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册
人类对一个事物的认知不是仅在于事物本身,往往会结合事物所处的环境,并结合与认知事物相关的其他事物作为一个整体来形成最终的认知。自注意力机制在文本中的应用也一样,主要是通过计算单词间的互相影响,来解决长距离依赖问题。

上次《解读AI大模型,从了解token开始》一文中,我从最基础的概念“token”着手,跳过了复杂的算法逻辑,相信已经让大家建立起对AI大模型工作原理的清晰认知。

但如果仅仅只是依靠对文本的编码与数据分析,那人工智能时代应该早就到来了,为什么唯独是GPT模型的诞生开启了人工智能大模型的全盛时代?今天我将带您一探究竟,看看GPT背后的Transformer模型。

什么是Transformer?

图片图片

Transformer是一种新颖的神经网络架构,它在2017年由Google的研究人员提出,用于解决机器翻译等自然语言处理的任务。Transformer的特点是,它完全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),而是采用了一种称为自注意力机制(Self-Attention)的方法,来捕捉文本中的长距离依赖关系,提高了模型的效率和准确性。

今天本文将围绕自注意力机制,介绍Transformer 的三个主要概念,位置编码、注意力机制和自注意力机制。

位置编码(Positional Encodings)

在自然语言处理任务中,词语的顺序尤为重要。以“小明喜欢小红”和“小红喜欢小明”为例,这两句话的词语组成完全一样,仅仅是顺序不同,所表达的意思却南辕北辙。因此,语言模型必须具备把握词语顺序的能力。

然而,Transformer采用的自注意力机制是通过单元之间的相关性来进行文本序列的编码,也就是说模型本身并不能感知词语的顺序信息。为了克服这个困难,Transformer引入了一种称为位置编码(Positional Encoding)的技巧。

位置编码的思路很简单,就是在输入序列中的每个词语后面追加一个位置标记,用不同的数字表示它在句子中的位置。以句子“我爱吃苹果”为例:

123 苹果 4
  • 1.

这样一来,Transformer模型就可以区分词语的顺序了。这种方法极大地增强了模型处理自然语言的能力。事实上,位置编码使得Transformer可以类比人类大脑处理语言的方式——人脑可以轻松地记住词语出现的时间顺序。Transformer通过位置编码实现了类似的效果。

类比来说,当我们看一篇长篇小说时,当我们想搞清楚核心情节的发生顺序时,我们往往不是翻看原文,而是在阅读中就记录下一条时间线,当发生关键剧情时,将其记录在整个时间线的节点之上。之前大火的电影《信条》,相信很多小伙伴也都是通过时间线的方式才真正搞清楚剧情是如何发展的。

图片图片

位置编码也好,时间线也罢,其实这部分信息原本就是隐式的存在原始数据之中。我们的标记是将这部分隐式的结构数据显示的表现出来,使得大模型在编解码数据的过程中,把词语在句子中的相对位置纳入进来,进而将这一部分信息嵌入到维度向量中(或者准确说对某些维度产生影响)。

这与人类大脑以时间顺序来认知事物或者组织语言的本能是类似的,而大模型的优势在于拥有更大的存储,因而不需要如同人类大脑一般需要进行关键节点的抽象,只要平等的对每一个词语单元进行位置编码即可。(我在这里做了一点过度简化——最初的作者使用正弦函数来进行位置编码,而不是简单的整数 1、2、3、4——但要点是相同的。)

注意力机制(Attention)

在Transformer模型中,位置编码为模型提供了词语顺序信息。而注意力机制则让模型能更智能地使用这些信息。

什么是注意力机制呢?简单来说,它就是允许Transformer模型在生成输出时,参考输入序列中的所有词语,并判断哪些词对当前步骤更重要、更相关。以英译法翻译为例,当Transformer要翻译一个英文单词时,它会通过注意力机制快速“扫视”整个英文输入序列,判断应该翻译成什么法文词语。如果输入序列中有多个相关词语,注意力机制会让模型关注最相关的那个,忽略其它不太相关的词语。

图片图片

标注翻译输入与输出关注度的热力图

从人类行为的角度来看,注意力机制就更容易理解了。当我们阅读一段文字时,基于基因本能以及历史经验,筛选重点关注的目标区域,得到注意力焦点的能力,从而利用有限的注意力资源从大量信息中快速筛选出高价值信息。大模型的注意力机制的形成就是类似的方式,类比大脑,大模型的本能与经验则来源于词嵌入形成的词语向量亲密度。通过观察成千上万的法语和英语句子,模型积累了什么类型的单词是相互依赖的。

具体来说,Transformer中的注意力机制可以分为两步:

  • 第一步,计算词语间的相关性。对输入序列中每一对词语,模型计算它们的相关性分数,分数越高表示两者语义上越相关。
  • 第二步,生成注意力分布。根据词语间相关性的计算,得到一个注意力分布,它给每个词语赋予一个权重,权重越大表示对当前步骤越重要。
  • 最后,模型会依据这个注意力分布,对输入序列进行加权,从而聚焦到相关词语上。这就实现了注意力机制的作用。

相比于RNN等早期序列模型逐步处理输入、无法捕捉长距离依赖的方式,注意力机制实现了全局感知,使Transformer可以并行地看到全部输入,这极大地提升了其建模能力。正因如此,Transformer才可以胜任更难的语言理解任务。

自注意力机制(Self-Attention)

在Transformer模型中,除了注意力机制,还有一个更加强大的机制叫做自注意力(Self-Attention)。 首先我们说说注意力与自注意力的区别。

可以参考这个例子。比如说一条像蛇的井绳,会快速抓住人的眼球,让人提高警惕,这描述的是注意力。而通过这条井绳出现在水井边,并且一端系在水桶上,我们判断它是一条井绳而不是蛇,则可类比为自注意力。

自注意力机制的核心思想是,允许模型学习词语之间的相关性,也就是词语与词语之间的依赖关系。以句子“我爱吃苹果”为例,通过自注意力,模型会学习到:

  • “我”与“爱”有关
  • “爱”与“吃”有关
  • “吃”与“苹果”有关

然后在处理时,模型会优先关注这些相关词语,而不是简单按照顺序一个字一个字翻译。

人类对一个事物的认知不是仅在于事物本身,往往会结合事物所处的环境,并结合与认知事物相关的其他事物作为一个整体来形成最终的认知。自注意力机制在文本中的应用也一样,主要是通过计算单词间的互相影响,来解决长距离依赖问题。

从认知角度来看,自注意力更贴近人类处理语言的方式。自注意力机制克服了传统序列模型在处理长距离依赖时的局限性。正因如此,自注意力机制成为Transformer模型的“引擎”,可以处理更复杂的语言结构,达到更高的性能。自注意力让Transformer不仅可以并行计算,更可以建模非连续的依赖关系,这对处理语言意义至关重要。

总结

Transformer模型之所以能够在自然语言处理任务上取得巨大突破,关键在于其三大核心机制:

  • 位置编码提供了词语顺序信息
  • 注意力机制让模型可以关注关键词语
  • 自注意力机制帮助模型学习词语间的依赖关系

这三者相辅相成,使得Transformer模型得以模拟人类语言处理的方式,达到了传统RNN模型难以企及的效果。

未来,如何使Transformer模型更易于训练,并能够真正理解语言的深层语义,而不仅是表面形式,仍将是自然语言处理领域的核心挑战。让我们拭目以待Transformer带来的更多惊喜吧!

风险提示:根据央行等部门发布“关于进一步防范和处置虚拟货币交易炒作风险的通知”,本网站内容仅用于信息分享,不对任何经营与投资行为进行推广与背书,请读者严格遵守所在地区法律法规,不参与任何非法金融行为。本文收集整理自网络,不代表经典网立场,如若转载,请注明出处:https://www.jingdian230.com/baike/135079.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台用户上传并发布,本平台仅提供信息存储服务。

Special statement: The above contents (including pictures or videos, if any) are uploaded and released by users of the we-media platform. This platform only provides information storage services.

(0)
欧易OKX

欧易OKX

               

欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

           官网注册

相关推荐

  • 欲钱买满目琳琅的动物代表是什么生肖,词典已答落实

    欲钱买满目琳琅的动物指的是生肖虎、指的是生肖羊、指的是生肖龙。 欲钱买满目琳琅的动物在十二生肖代表生肖鸡、虎、龙、兔、鼠、羊。 生肖虎 生肖虎的人钱财不断入账,有自己的底线,钞票成…

    金色百科 2024年 1月 14日
    154
  • 小山几座竹绿绿是什么生肖,词语解释落实

    小山几座竹绿绿指的是生肖鼠、生肖虎、生肖猪 小山几座竹绿绿指在十二生肖中代表的是鼠、虎、猪 生肖鼠 生肖鼠的人事业高升,重视与人沟通,有月老牵线搭桥,大财富和小财富都欢迎你进来,成…

    金色百科 2024年 2月 4日
    100
  • 白天一梦打一生肖代表什么生肖,谜底解释落实

    白天一梦指的是生肖猪、指的是生肖蛇、指的是生肖猴。 白天一梦在十二生肖代表生肖猪、蛇、猴、羊、兔、猪。 生肖猪 生肖猪的人破冰和好,紫气东来,富贵满满,周末开始,缘分机会,性格善良…

    金色百科 2023年 12月 19日
    180
  • 山光水色指什么生肖,经典解释落实

    山光水色指的是生肖鼠、生肖虎、生肖猪 山光水色指在十二生肖中代表的是鼠、虎、猪 生肖鼠 生肖鼠的人事业高升,重视与人沟通,有月老牵线搭桥,大财富和小财富都欢迎你进来,成功赶走背运,…

    金色百科 2024年 2月 10日
    88
  • 斗鱼6324是什么意思?

    很多人对斗鱼6324是什么意思?这个问题比较感兴趣,这里,金色百科小编大浪就给大家详细解答一下。 6324是房间号,里面是斗鱼元老级主播。 斗鱼TV是一家弹幕式直播分享网站,为用户…

    金色百科 2023年 4月 29日
    169
  • 我走在长街中听戏子唱京城是什么歌

    近期在抖音短视频平台上不少人都被这首戏腔歌曲“我走在长街中听戏子唱京城”所洗脑,尤其是关于“优雅永不过时”的旗袍系列视频,都喜欢用这首歌作背景音乐。那么,我走在长街中听戏子唱京城是…

    金色百科 2024年 4月 23日
    12
  • 太阳系和银河系哪个大

    1)太阳系和银河系哪个大 银河系大。银河系,是太阳系所在的棒旋星系,包括1000-4000亿颗恒星和大量的星团、星云以及各种类型的星际气体和星际尘埃。银河系总质量约为太阳系的1.5…

    金色百科 2024年 3月 29日
    166
  • session过期什么意思(session过期怎么弄)

    很多人对session过期什么意思(session过期怎么弄)这个问题比较感兴趣,这里,金色百科小编小郑就给大家详细解答一下。 session过期,也就是说在没对服务器触发任何连接…

    金色百科 2023年 5月 31日
    149
  • 搬家吉日2024年8月最佳时间

    搬家讲究和忌讳颇多,而且还有很多细节需要我们去注意,在搬家的过程中,人们都会选个黄道吉日来进行搬家事宜,好日子给自己一个好开始。那么,搬家吉日2024年8月最佳时间是什么时候?20…

    2024年 1月 8日
    103
  • 欧易OKX

    欧易OKX

                   

    欧易OKx是全球三大比特币交易所之一,注册即开最高6万元盲盒,100%中奖!

               官网注册
  • features是什么意思

    features是什么意思很多人对这个问题比较感兴趣,这里,金色百科小编小郑就给大家详细解答一下。 (1)FEATURES在电脑里的意思 FEATURES在电脑里的意思是特性,特征…

    2023年 3月 24日
    224