xml地图|网站地图|网站标签 [设为首页] [加入收藏]

论文笔记

来源:http://www.ccidsi.com 作者:集成介绍 人气:160 发布时间:2020-01-23
摘要:Pointer Networks: PointerNetworks模型仿照效法了科学普及的Attention机制:大约思路时每种输出时序,用叁个key对富有的encoder连串做Attention,获得相应的连锁分数,然后取分数最大的输入做为

Pointer Networks:

Pointer Networks模型仿照效法了科学普及的Attention机制:大约思路时每种输出时序,用叁个key对富有的encoder连串做Attention,获得相应的连锁分数,然后取分数最大的输入做为该时刻的输出。如图,z0和各种输入的h做Attention,获得相应得分做softmax,取可能率最大值得到当前出口。

图片 1image.png

而后,如seq2seq相像,当前时刻的输出做下时刻的输入,结合隐层z1,重新对输入体系做Attention得到第叁个出口,就那样推算到END。

图片 2image.png

透过获得的出口系列的群集和输入会集生龙活虎致,便一纸空文了前头说的OOV的题材。

图片 3

多个小编都是后生可畏作,不愧是google大佬!!!

过多时候利用seq2seq来缓慢解决种类生成难点,但seq2seq模型往往须求事情发生以前定义好出口会集的尺寸,即出口类别大概的取值范围。因此带动多个主题素材,要是期待扭转的行列大小不明显,举个例子NLP中文本摘要职责,期待提取的摘要中也许含有“人名”和“地名”,而那连串型的词汇往往很或然不在练习语言质感的词表中现身,这种情形,seq2seq往往束手束脚满意生成供给。Pointer Networks模型则是为着解决此类主题素材提出:

Pointer Network在求凸包上的功力如何呢?

image.png

主题素材汇报:

平面中给定若干点,必要找寻一个点集结,全部一点点的连线能够围住其余点:

图片 4image.png

该难点同样能够作为一个连串生成难题,encoder依次输入全数的点会集,decoder输出满意必要的点。:

图片 5image.png

如初叶所说,就算seq2seq反驳能够减轻相通难点,然而该难题之中会集的深浅往往不鲜明,而seq2seq在decoder阶段的连串输出维度在教练阶段就早就规定,无法满意待预测点会集加多的情状。

图片 6

思考

1.将soft attention换来local attention效果如何?
2.将task 换到文本摘要效果如何?

  1. 管理粤语翻译效果如何?

应用:

Pointer Networks的性状很好的利用项景便是文本摘要和对话生成等,相仿Pointer Networks有出口会集完全出自输入类别的难点,所以在NLP应用中频频与seq2seq错落使用。文本摘要职务举个例子:常常的baseline模型,使用加Attention的seq2seq做文本摘要,如下图所示,输出连串出自练习集之中:

图片 7image.png

而步向Pointer Networks后的组织如下:

图片 8image.png

某时刻,最终的输出概率布满为原来的seq2seq模子输出分布按可能率P_gen与Pointer Networks概率布满(Attention分布)相加获得,然后取最大分数作为最终输出。P_gen能够由近些日子状态的新闻做通过sigmod函数得到:

图片 9image.png

参考文献:Pointer NetworksGet To The Point: Summarization with Pointer-Generator Networks

越来越多关心大伙儿号:

图片 10wechat

Pointer Networks 是宣布在机器学习拔尖会议NIPS 2016上的后生可畏篇随笔,其小编分别来自Google Brain和UC Berkeley。

这篇杂文是谷歌于二〇一七年11月表露在arxiv上的豆蔻年华篇随笔,未来用attention管理连串难点的散文成千成万,本文的立异点在于甩掉了此前守旧的encoder-decoder模型必须结合cnn只怕rnn的原来情势,只用attention,可谓大道至简。作品的最重要目标是在收缩计算量和拉长并行功用的还要不侵凌最后的实验结果,改良的地方在于提议了多个新的Attention机制,分小名称叫Scaled Dot-Product Attention 和 Multi-Head Attention.

image

图片 11

转载自:https://zhuanlan.zhihu.com/p/30860157

image.png

二零一五年来讲,Pointer Net都有哪些用法,在某一定领域,那一个概念怎样用来消除实际难点?

3. Transformer

图片 12

image.png

谷歌(Google)的这篇随想里提出的transformer模型放弃了cnn,rnn,初次看有一点点毫无作为,计算了生龙活虎晃吸引的地点有四个:

  • Positional embedding;(位贮存置向量——其实看似word2vec,只可是管理的是岗位消息罢了)。
  • multi-head attention; (四头集中力机制——点乘集中力的晋升版本)
  • Position-wise Feed-Forward Networks(地点全链接前馈互联网——MLP变形)
    这两天逐一深入分析:

为啥叫pointer network呢?

模型完全

图片 13

image.png

Transformer也会依据这种布局,encoder和decoder都应用堆成堆的self-attention和point-wise,fully connected layers。

Encoder: encoder由6个黄金时代律的层堆积而成,每一个层有四个子层。第叁个子层是多方面自己专注力机制(multi-head self-attention mechanismState of Qatar,第二层是简轻松单的职责的全连接前馈互连网(position-wise fully connected feed-forward network卡塔尔国。在几个子层中会使用多少个残差连接,接着进行层规格(layer normalization卡塔尔(قطر‎。也正是说每五个子层的输出都以LayerNorm(x sublayer(x卡塔尔卡塔尔。互联网输入是四个相像的向量q, k和v,是word embedding和position embedding相加拿走的结果。为了方便开展残差连接,大家需求子层的输出和输入都是同等的维度。

Decoder: decoder也是由N(N=6)个完全相通的Layer组成,decoder中的Layer由encoder的Layer中插入叁个Multi-Head Attention Add&Norm组成。输出的embedding与出口的position embedding求和做为decoder的输入,经过二个Multi-HeadAttention Add&Norm((MA-1)层,MA-1层的输出做为下风流倜傥Multi-Head Attention Add&Norm(MA-2)的query(Q)输入,MA-2层的Key和Value输入(从图中看,应该是encoder中第i(i = 1,2,3,4,5,6)层的出口对于decoder中第i(i = 1,2,3,4,5,6)层的输入)。MA-2层的输出输入到八个前馈层(FF),经过AN操作后,经过三个线性 softmax转换获得最后目的输出的票房价值。
对于decoder中的第叁个五头集中力子层,需求增多masking,确认保证预测地方i的时候只是依赖于地点小于i的输出。
层与层之间接选举取的Position-wise feed forward network。

图片 14

image.png

本文由68399皇家赌场发布于集成介绍,转载请注明出处:论文笔记

关键词: 68399皇家赌场 程序员 Pointer Networks 机器学习&深度

上一篇:前世今生,深度学习基础知识

下一篇:没有了

最火资讯