-
-
PG基于以下假定:
-
如果只在游戏终结时才有奖励和惩罚,该回合赢了,这个回合的所有样本都是有""偏正的",反之则该回合所有样本都是“偏负的”
-
距离赢的那刻越近,贡献越大,越远贡献越小,一般采取指数衰减
- 如果在游戏每个时刻都有奖励,那么当前行动贡献就是后面每个时刻奖励的衰减累计之和
-
-
贡献大小则体现在对模型参数的调整步长上,具体操作有两种,一种是直接在每个样本的loss上乘以贡献大小,第二是先记下每个样本对模型参数的梯度,再依次乘以贡献大小来调整,两种方法殊途同归
-
PG是按照概率分布来随机选择动作的,其中已经包含了探索部分