Transformer 李宏毅深度學習

2019年12月22日—方法·拿每個queryq去對每個keyk做attention(吃兩個向量,輸出一個分數),其實就是計算q.k的相似度Similarity。·再做Softmaxnormalization(歸一 ...

Transformer 李宏毅深度學習

2019年12月22日 — 方法 · 拿每個query q去對每個key k做attention(吃兩個向量, 輸出一個分數),其實就是計算q.k的相似度Similarity。 · 再做Softmax normalization(歸一 ...

相關分類資訊