ELMo笔记

发布于 2020-02-15  154 次阅读


Q: ELMo相比之前的word embedding来说有什么进步的地方?

A:之前的word embedding方法比如word2vec无法处理多义词的问题,比如说有两个句子“It's on the north bank of the Thames” 和“The bank next to our school was raided last week”,句中的bank明显在及语义上区别很大,但是会有相同的word embedding;而ELMo可以处理这样的情况,word embedding会根据输入的context动态调整。

Q:ELMo的结构是什么样的?

A:

Q:怎么使用ELMo?

A:对下流任务,可以给三层网络结构的word embedding的分配权重并根据特定任务适当scale,三层网络即Q2示意图中维度为512的向量,第一层的输出是与上下文无关的word representation,后两层为双向的LSTM网络(第一层句法结构信息为主,第二层语义信息更多)。

 

Q:资料来源与参考?

A:ELMo的paper:Deep contextualized word representations

Char-CNN可以参考paper:Character-Aware Neural Language Models

ELMo在allennlp中已有实现,源码参考:https://github.com/allenai/allennlp/blob/master/allennlp/modules/elmo.py#L27

其他博客或专栏:https://zhuanlan.zhihu.com/p/37684922

Paper Dissected: “Deep Contextualized Word Representations” Explained

 


阿克西斯上没有什么重要的东西