轉載-有趣的事實

今天是 Transformer 論文《Attention is All You Need》發布六週年紀念日！

有趣的事實：

⭐️ Transformer 並非創造了注意力機制，但它將其推向了極致。首篇關於注意力機制的論文早在 3 年前（2014 年）發表，題目並不引人注目：“通過聯合學習對齊和翻譯實現神經機器翻譯”，出自 Yoshua Bengio 實驗室。該論文結合了 RNN 和 “上下文向量”（即注意力）。很多人可能沒有聽說過這篇論文，但它是自然語言處理領域最重要的里程碑之一，已經被引用了 2.9 萬次（相比之下，Transformer 被引用了 7.7 萬次）。

⭐️ Transformer 和最初的注意力論文都沒有談論通用序列計算機。相反，它們都被構想為解決一個狹窄而特定的問題：機器翻譯。令人驚訝的是，AGI（即將來的人工智能通用智能）可以追溯到謙遜的谷歌翻譯。

⭐️ Transformer 於 2017 年發表在全球頂級人工智能會議 NeurIPS 上。然而，它甚至沒有得到口頭報告，更別說獎項了。那一年的 NeurIPS 有三篇最佳論文，至今總共引用了 529 次。

轉載來源 ->
https://twitter.com/drjimfan/status/1668287791200108544?s=46&t=J5tuuFL7Z3qsWetu4lBIXg