なんかさんはTwitterを使っています: 「今更論文読んだけどFlash Attentionめっちゃ凄かった softmax(Q@K.T)のNxN行列を実体化させないことでメモリ占有量をごっそり減らしつつ、低速なDRAMに極力アクセスせずに高速なOn-chipの上でAttentionの計算を1度に行うことによって処理も高速になるっていう夢のような手法 https://t.co/smXMSiWQc4 https://t.co/03Y57PZV5c」 / Twitter
https://twitter.com/_determina_/status/1591908343903584257
イメージ図が雀卓にしか見えず………