伟德体育(BetVictor Sports)国际官网(访问: hash.cyou 领取999USDT)在 RTX4090 上,新方法实现了 1.00 倍到 1.51 倍的加速。由于 mma (RTX4090) 和 wgmma (GH200) 指令之间的差异,他们在 template_attention 上实现了更高的加速。在本例中,tt.dot 运算的左操作数在循环外部定义,会重复从同一地址加载数据,因此 ldmatrix 和常规共享内存指令均可实现高吞吐量。虽然右操作数在每次迭代中都会更新,但 wgmma 会直接在共享内存中访问它,只有在 RTX4090 上,经过优化后,它才会被降级到 ldmatrix 中。因此,在 GH200 上实现的加速相对较低。在 MI250 上,新方法实现了 0.98 倍到 1.18 倍的加速。
@HASHKFK