学习密切相关的两种价值更

5/5 - (1 vote)

成：代理和环境。环境指的是代理正在操作的对象，而代理则代表强化学习算法。环境首先向代理发送一个语句，代理随后根据其知识 Ws 粉丝采取行动以响应该状态。之后，环境将一对下一个状态和奖励发送回代理。代理将使用环境返回的奖励更新其知识，以评估其最后一个动作。循环一直持续，直到环境发送终止状态，从而结束该回合。

一些常用的 RL 算法包括：

Q-Learning：Q-Learning 是一种基于著名贝尔曼方程的离策略、无模型 RL 算法：

上式中的E表示期望，ƛ表示折扣因子。我们可以将其重写为 Q 值的形式：

最佳 Q 值（表示为 Q*）可以表示为：

与 Q 新方法是策略迭代和价值迭代。

状态-行动-奖励-状态-行动（SARSA）：

SARSA 是另一种流行容易看出整个业务都是的强化学习算法，与 Q 学习非常相似。SARSA 与 Q 学习之间的关键区别在于 SARSA 是一种在策略算法。这意味着 SARSA 会根据当前策略执行的操作（而非贪婪策略）来学习 Q 值。

Sarsa 算法是一种用于 TD-Learning 的 On-Policy 算法。它与 Q-Learning 的主要区别在于，Sarsa 算法不一定使用下一个状态的最大奖励来更新 Q 值。相反，新的动作以及相应的奖励将使用与确定原始动作相同的策略来选择。

深度Q网络（DQN）：

DQN 利用神经网络来估计 Q 值函数。网络的输入是当前动作，输出是每个动作对应的 Q 值。

2013 年，DeepMind 将 DQN 印度尼西亚号码列表应用于 Atari 游戏。输入是当前游戏场景的原始图像。它经过多层结构，包括卷积层和全连接层。输出是代理可以采取的每个动作的 Q 值。

训练 DQN 的两种基本技术是经验重放和分离目标网络。

学习密切相关的两种价值更

Q-Learning：Q-Learning 是一种基于著名贝尔曼方程的离策略、无模型 RL 算法：

状态-行动-奖励-状态-行动（SARSA）：

深度Q网络（DQN）：

Q-Learning：Q-Learning 是一种基于著名贝尔曼方程的离策略、无模型 RL 算法：

状态-行动-奖励-状态-行动（SARSA）：

深度Q网络（DQN）：

相关文章