强化学习笔记2————蒙地卡罗与时序差分

上一节中我们介绍了马尔科夫链和在强化学习中Q值和V值的定义，那么在实际训练的时候，我们怎么去计算一个节点的Q值或者V值呢，这就要提到著名的蒙地卡罗算法（mc）和时序差分算法（td）

蒙地卡罗

原理

蒙地卡罗的算法原理并不难理解，下面这张图可以很好的概括。

具体来说，蒙地卡罗的算法流程分为以下几个步骤：

我们把智能体放到环境的任意状态；
从这个状态开始按照策略进行选择动作，并进入新的状态。
重复步骤2，直到最终状态；
我们从最终状态开始向前回溯：计算每个状态的G值。
重复1-4多次，然后平均每个状态的G值，这就是我们需要求的V值。

首先我们要理解每一次我们算的G值的意义。G值的意义在于，在这一次游戏中，某个状态到最终状态的奖励总和(理解时可以忽略折扣值)

第一步，我们根据策略往前走，一直走到最后，期间我们什么都不用算，还需要记录每一个状态转移，我们获得多少奖励r即可。
第二步，我们从终点往前走，一遍走一遍计算G值。G值等于上一个状态的G值(记作G’),乘以一定的折扣(gamma),再加上r。

当我们进行多次试验后，我们有可能会经过某个状态多次，通过回溯，也会有多个G值。重复我们刚才说的，每一个G值，就是每次到最终状态获得的奖励总和。而V值时候某个状态下，我们通过影分身到达最终状态，所有影分身获得的奖励的平均值。

再进一步

蒙地卡罗算法单独拿出来，在强化学习中效率还是比较低的。所以会结合其他的方式进行应用。这些我们会在后面具体算法中讲到。

在这一篇中，希望大家能够理解两点： 1. G的意义：在某个路径上，状态S到最终状态的总收获。 2. V和G的关系：V是G的平均数。

到这里要注意一点：V和策略是相关的，那么在这里怎么体现呢？这个非常重要，因为在PPO算法中，离线策略就与这个有关。这里可以稍微先说一下。

我们仍以上图为例子，以策略A进行游戏。其中有100次经过S点，经过S点后有4条路径到达最终状态，计算G值和每条路径次数分别如下：

策略A采用平均策略，这时候 V = 5。

现在我们采用策略B，由于策略改变，经过某条路径的概率就会产生变化。因此最终试验经过的次数就不一样了。

最终计算的 V = 7.55。

蒙地卡罗的缺陷

在实际引用中，蒙地卡罗虽然比动态规划消耗要少一点；而且并不需要知道整个环境模型。

但蒙地卡罗有一个比较大的缺点，就是每一次游戏，都需要先从头走到尾，再进行回溯更新。如果最终状态很难达到，那小猴子可能每一次都要转很久很久才能更新一次G值。

时序差分算法

TD和MC的比较

TD算法对蒙地卡罗(MC)进行了改进。 1. 和蒙地卡罗(MC)不同：TD算法只需要走N步。就可以开始回溯更新。 2. 和蒙地卡罗(MC)一样：小猴需要先走N步，每经过一个状态，把奖励记录下来。然后开始回溯。 3. 那么，状态的V值怎么算呢？其实和蒙地卡罗一样，我们就假设N步之后，就到达了最终状态了。 - 假设“最终状态”上我们之前没有走过，所以这个状态上的纸是空白的。这个时候我们就当这个状态为0. - 假设“最终状态”上我们已经走过了，这个状态的V值，就是当前值。然后我们开始回溯。

TD原理的直观理解

我们可以把TD看成是这样一种情况：

我们从A状态，经过1步，到B状态。我们什么都不管就当B状态是最终状态了。

但B状态本身就带有一定的价值，也就是V值。其意义就是从B状态到最终状态的总价值期望。(这一点在之前Q值和V值那篇已经说明过，就不在赘述了。)

我们假设B状态的V值是对的，那么，通过回溯计算，我们就能知道A状态的更新目标了。

这就有点像从山顶像知道要下山的路有多长。 MC能直接走一趟，看一下到底有多远。 TD则轻巧一点，先走一段路看一下，看一下有没有路牌指示到山脚还有多远。如果有，那么就把刚刚走的那段路加上路牌指示到山脚的距离相加即可。但又同学可能会问，在一开始，我们根本没有路牌呀，所以也不知道到底到山脚有多远。没错，这是对的。但当我们走很多次的时候，路牌系统就能慢慢建立起来。例如第一次，只有到了山脚，我才知道山脚前一站离山脚的的真实距离。于是我更新了山脚前一站的路牌。第二次，我在山脚前一站路就能看到路牌，所以我就可以更新山脚前一站的路牌了…一直到山顶，就这样一直建立整座山的路牌系统。

更新公式

刚刚我们对TD有个直观的理解：TD并走走完整段路程，而是半路就截断。用半路的路牌，更新当前的路牌。所以我们只需要把MC的更新目标，改为TD的更新目标即可。在MC，G是更新目标，而在TD，我们只不过把更新目标从G，改成$r+gamma*V$