今天是 Transformer 論文《Attention is All You Need》發布六週年紀念日!
有趣的事實:
⭐️ Transformer 並非創造了注意力機制,但它將其推向了極致。首篇關於注意力機制的論文早在 3 年前(2014 年)發表,題目並不引人注目:“通過聯合學習對齊和翻譯實現神經機器翻譯”,出自 Yoshua Bengio 實驗室。該論文結合了 RNN 和 “上下文向量”(即注意力)。很多人可能沒有聽說過這篇論文,但它是自然語言處理領域最重要的里程碑之一,已經被引用了 2.9 萬次(相比之下,Transformer 被引用了 7.7 萬次)。
⭐️ Transformer 和最初的注意力論文都沒有談論通用序列計算機。相反,它們都被構想為解決一個狹窄而特定的問題:機器翻譯。令人驚訝的是,AGI(即將來的人工智能通用智能)可以追溯到謙遜的谷歌翻譯。
⭐️ Transformer 於 2017 年發表在全球頂級人工智能會議 NeurIPS 上。然而,它甚至沒有得到口頭報告,更別說獎項了。那一年的 NeurIPS 有三篇最佳論文,至今總共引用了 529 次。
轉載來源 ->
https://twitter.com/drjimfan/status/1668287791200108544?s=46&t=J5tuuFL7Z3qsWetu4lBIXg