collamark
f:X×U×X→[0,1] 是状态转移概率函数, ρ:X×U×X→R 是奖励函数。
source
Terms
Privacy Policy
Contact