模板社区
bert
立即使用
32
2
1
举报
发布时间:2023年05月25日
河南
bert
Multi-Head Attention其实是把QKV的计算并行化,原始attention计算d_model维的向量
发布时间:2023年05月25日
河南
发表评论
打开APP查看高清大图
bert
下载eddx文件
下载客户端
立即使用
社区模板帮助中心,
avatar_url 果果
关注
他的近期作品
查看更多>>