collamark
多卡间kernel内同步我们之前做过,效率比kernel外用cuda event同步还要高一点。原理很简单,就是在一个GPU上存一个counter,然后用跨卡原子操作加计数和等待,然后再有一个卡等所有其他卡都做完,说白了就是个spinlock
source
Terms
Privacy Policy
Contact