Skip to content
CoderEthan学习站
Search
K
Main Navigation
AI
DL基础理论
分布式训练
Transformer个人梳理
DL个人笔记
计算机学科内容
408知识
C++基础
Java后端
Linux技术
求职面试
Java面经
算法岗
其他维护
站点更新
问题清单
感悟和日常
关于我
站长感悟
旧版博客
深色模式
Menu
Return to top
本文目录
03-Bert理解
1.预训练
masked language model 用来提取token向量
next sentence prediction 用来提取文本向量
input 开头加cls,拼接第二个文本,中间和结尾加sep,cls可以提取这两个文本的语意连续性或者相关性
2. embedding
word/token emb有点像word2vocter
对除特殊token外的特征向量的15%做随机替换这其中的:
80%做mask
10%随机选一个
10%不变
对这15%的做预测,得到mask的预测结果