Transformer架构
一、注意力机制1.为什么提出注意力机制?RNN难以处理长距离的序列信息,且无法并行的处理。CNN能够并行计算,但是是通过窗口来编码,所以更侧重于捕获局部信息,难以建模长距离的语义依赖。而注意力机制能够获取全局信息。 2.注意力机制实现这里介绍最常见的 Scaled Dot-product Attention 注意力机制。 其有三个核心变量:Q,K,V。其中 Q , K , V 尺度如下:$\boldsymbol{Q}\in\mathbb{R}^{m\times d_k}, \boldsymbol{K}\in\mathbb{R}^{n\times d_k}, \boldsymbol{V}\in\mathbb{R}^{n\times d_v}$ 。通过计算 Q 和 K 的相关性,再对所有 V 加权求和,得到最后的加权融合信息,他会让有价值的信息获得更高权重。其一共包含2个步骤: 1.计算注意力权重 首先使用相似度函数(一般是点积)计算每一个 query 向量和所有 key 向量之间的关联程度。对于长度为 m 的 Query 序列和长度为 n 的 Key 序列,该步骤会生成一个尺寸为 ...
如何在hexo上创建一篇文章
1.如何在hexo上创建一篇文章在网站本地根目录上打开git bash ,使用如下命令创建新文章: 1hexo new "创建一篇新文章" 执行完之后,Hexo 会在 /source/_posts 目录创建一篇新文章,使用 typora 打开进行编辑: tags,categories 分别为文章标签和分类。编辑好后,在 git bash 输入 hexo clean 清除旧数据,再输入 hexo g && hexo d 就可以发布了 2.插入图片在本地 source 目录下新建一个文件夹 images ,将图片放入其中,然后再md文档内,使用的格式,圆括号内的链接地址写(/images/name.jpeg)。
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment