word2vec模型的参数更新过程(二)

发布于 22 天前  29 次阅读


Skip-Gram Model模型

需要先理解CBOW模型,Skip-Gram是与CBOW互为对称的,CBOW利用周围词确定中心词,而Skip-Gram利用中心词确定周围词。

由于中心词只有一个,h于CBOW中单周围词是完全一样的,还是对直接复制W某一行(中心词对应的那一行),输入向量依然是独热码,中心词对应的值为1,其他为0。

更新隐藏层→输出层权重矩阵

输出层是C个多项分布(顺序无关),注意从隐藏层到每个输出层的W‘是相同的,这样代价函数与CBOW相比有了变化,需要计算所有出现在实际上下文的词Oi的概率:

与CBOW类似,用E对输出层C中的每个u求偏导:

我们定义EI = {EI1, · · · , EIV},并且EIj为:

最后有:

由于W’是相同,所以每个C的uc,j对w‘ij的偏导是相同的,所以hi可以直接提取出来

更新输入层→隐藏层权重矩阵

输入层→隐藏层的结构与CBOW中上下文只有一个词时的情况完全相同,所以只需要代入已经推导出的公式即可:

原paper:

word2vec Parameter Learning Explained

https://arxiv.org/abs/1411.2738

 


阿克西斯上没有什么重要的东西