博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
几句话总结一个算法之Policy Gradients
阅读量:5341 次
发布时间:2019-06-15

本文共 467 字,大约阅读时间需要 1 分钟。

 

  • 强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢

  • Policy Gradients(PG)计算某个状态下所有策略的分布概率,类似于经典分类问题给每个类别预测一个概率,好的PG应该给优良的策略分配较高的概率
  • PG基于以下假定:

    • 如果只在游戏终结时才有奖励和惩罚,该回合赢了,这个回合的所有样本都是有""偏正的",反之则该回合所有样本都是“偏负的”

    • 距离赢的那刻越近,贡献越大,越远贡献越小,一般采取指数衰减

    • 如果在游戏每个时刻都有奖励,那么当前行动贡献就是后面每个时刻奖励的衰减累计之和
  • 贡献大小则体现在对模型参数的调整步长上,具体操作有两种,一种是直接在每个样本的loss上乘以贡献大小,第二是先记下每个样本对模型参数的梯度,再依次乘以贡献大小来调整,两种方法殊途同归

  • PG是按照概率分布来随机选择动作的,其中已经包含了探索部分

转载于:https://www.cnblogs.com/daniel-D/p/11002334.html

你可能感兴趣的文章
Validate Binary Search Tree
查看>>
Largest Divisible Subset
查看>>
win8改win7笔记
查看>>
MYSQL 数据导入导出LOAD DATA AND OUTFILE
查看>>
mysql中两表更新时产生的奇葩问题,产生死锁!
查看>>
Python正则表达式
查看>>
celery使用
查看>>
如何在win2003下安装sql2008[多次安装sql2008失败者必看]
查看>>
[C++]C++学习笔记(四)
查看>>
Vue 不睡觉教程1-从最土开始
查看>>
IT技术栈、JAVA技术栈、游戏开发技术栈
查看>>
浏览器百度点击第二页时仍然跳转到第一页
查看>>
EXTI—外部中断/事件控制器
查看>>
全本软件白名单 Quanben Software Whitelist
查看>>
Android4.4新的特性,在应用内开启透明状态栏和透明虚拟按钮。
查看>>
JS 书籍拓展内容
查看>>
WinForm中如何判断关闭事件来源于用户点击右上角的“关闭”按钮
查看>>
用css3和javascript做的一个简单的计算器
查看>>
[转]AI+RPA 融合更智能
查看>>
Javascript拖拽&拖放系列文章1之offsetParent属性
查看>>