成:代理和环境。环境指的是代理正在操作的对象,而代理则代表强化学习算法。环境首先向代理发送一个语句,代理随后根据其知识 Ws 粉丝 采取行动以响应该状态。之后,环境将一对下一个状态和奖励发送回代理。代理将使用环境返回的奖励更新其知识,以评估其最后一个动作。循环一直持续,直到环境发送终止状态,从而结束该回合。
一些常用的 RL 算法包括:
-
Q-Learning:Q-Learning 是一种基于著名贝尔曼方程的离策略、无模型 RL 算法:
上式中的E表示期望,ƛ表示折扣因子。我们可以将其重写为 Q 值的形式:
最佳 Q 值(表示为 Q*)可以表示为:
与 Q 新方法是策略迭代和价值迭代。
-
状态-行动-奖励-状态-行动(SARSA):
SARSA 是另一种流行 容易看出整个业务都是 的强化学习算法,与 Q 学习非常相似。SARSA 与 Q 学习之间的关键区别在于 SARSA 是一种在策略算法。这意味着 SARSA 会根据当前策略执行的操作(而非贪婪策略)来学习 Q 值。
Sarsa 算法是一种用于 TD-Learning 的 On-Policy 算法。它与 Q-Learning 的主要区别在于,Sarsa 算法不一定使用下一个状态的最大奖励来更新 Q 值。相反,新的动作以及相应的奖励将使用与确定原始动作相同的策略来选择。
-
深度Q网络(DQN):
DQN 利用神经网络来估计 Q 值函数。网络的输入是当前动作,输出是每个动作对应的 Q 值。
2013 年,DeepMind 将 DQN 印度尼西亚号码列表应用于 Atari 游戏。输入是当前游戏场景的原始图像。它经过多层结构,包括卷积层和全连接层。输出是代理可以采取的每个动作的 Q 值。
训练 DQN 的两种基本技术是经验重放和分离目标网络。