Compression Digest
compression/_posts/tech/2017-07-20-word2vec.md
Word2Vec 模型笔记
Word2Vec 在无标注语料上训练,为每词生成编码句法/语义信息的向量;含 SG、CBOW 与 SGD 提纲。
Key points
- Distributed representations:神经网络在无标注语料上学习词向量。
- Skip-gram (SG):给定 target 预测 context(位置无关)。
- CBOW:由 bag-of-words context 预测 target。
- Stochastic Gradient Descent。
Reference
- Linguistic Regularities in Continuous Space Word Representations;Acolyer word vectors;Minnaar Word2Vec tutorial;SGD basics。
Sources
- (Source: raw/_posts/tech/2017-07-20-word2vec.md)