collamark
数据并行(Data Parallelism)——在不同的GPU上运行同一批数据的不同子集; 流水并行(Pipeline Parallelism)——在不同的GPU上运行模型的不同层; 模型并行(Tensor Parallelism)——将单个数学运算(如矩阵乘法)拆分到不同的GPU上运行; 专家混合(Mixture-of-Experts)——只用模型每一层中的一小部分来处理数据。
source
Terms
Privacy Policy
Contact