Markov 过程

随机过程

在随机过程中, 随机现象在某时刻 $t$ 的取值是一个向量随机变量, 用 $S_{t}$ 表示, 所有可能的状态组成状态集合 $S$ . 我们将已知历史信息 $(S_{1}, \dots, S_{n})$ 时下一个时刻状态为 $S_{t + 1}$ 的概率表示为 $P (S_{t + 1} ∣ S_{1}, \dots, S_{t})$

Markov 性质

我们称一个随机过程具有Markov 性质 当且仅当某时刻的状态只取决于上一时刻的状态. 也就是说, 当前状态是未来的充分统计量. 但是, 由于当前状态也由前一个状态决定, 所以Markov 性质也包含了历史的影响, 只是这种影响不是显式的.

见 Markov Property

Markov 过程

Markov 过程 指具有Markov 性质的随机过程, 也称为Markov 链. 我们通常用元组 $(S, P)$ 描述一个Markov 过程, 其中 $S$ 是有限数量的状态集合, $P$ 是状态转移矩阵. 假设一共有 $n$ 个状态, 此时 $S = {s_{1}, s_{2}, \dots, s_{n}}$ . 状态转移矩阵 $P$ 定义了所有状态对之间的转移概率

P = P (s_{1} ∣ s_{1}) ⋮ P (s_{1}, ∣ s_{n}) \dots ⋱ \dots P (s_{n} ∣ s_{1}) ⋮ P (s_{n} ∣ s_{n})

称矩阵中的每一个元素 $P (s_{j} ∣ s_{i}) = P (S_{t + 1} = s_{j} ∣ S_{t} = s_{i})$ 为状态转移函数, 状态转移矩阵中的每一行的和为 $1$ , 如果不能转移则定义概率为 $0$ . 如果一个状态不能转移到任何一个状态, 则称这个状态为终止状态

给定一个Markov 过程, 我们可以从某个状态出发, 根据它的状态转移矩阵生成一个状态序列 (episode), 这个步骤也被叫做采样 (sampling)

Markov 奖励过程

含有奖励函数 $r$ 和折扣因子 $γ$ 的Markov 过程称为Markov 奖励过程, 用四元组 $(S, P, r, γ)$ 表示, 其中

某个状态 $s$ 的奖励 $r (s)$ 指转移到该状态时可以获得的奖励的期望
$γ$ 为折扣因子, 范围是 $[0, 1)$ . 引入折扣因子的理由为远期利益具有一定不确定性, 有时我们更希望能够尽快获得一些奖励, 所以我们需要对远期利益打一些折扣. 接近 $1$ 的 $γ$ 更关注长期的累计奖励, 接近 $0$ 的更考虑短期奖励

回报

在马尔可夫奖励过程中, 一个状态的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值 (value). 所有状态的价值就组成了价值函数 (value function). 价值函数的输入为某个状态, 输出为这个状态的价值. 我们将价值函数写成

V (s) = E [G_{t} ∣ S_{t} = s] = E [R_{t} + γ R_{t + 1} + γ^{2} R_{t + 2} + \dots ∣ S_{t} = s] = E [R_{t} + γ (R_{t + 1} + γ R_{t + 2} + \dots) ∣ S_{t} = s] = E [R_{t} + γ G_{t + 1} ∣ S_{t} = s] = E [R_{t} + γV (S_{t + 1}) ∣ S_{t} = s]

这里 $R_{t}$ 表示时刻 $t$ 获得的奖励.

注意到 $r (s) = E [R_{t} ∣ S_{t} = s]$ 和

E [γV (S_{t + 1}) ∣ S_{t} = s] = γ s^{'} \in S \sum p (s^{'} ∣ s) V (s^{'})

于是

V (s) = r (s) + γ s^{'} \in S \sum p (s^{'} ∣ s) V (s^{'})

上式便是Bellman 方程, 对每一个状态都成立. 我们可以把一个 $n$ 个过程的Markov 奖励过程中的所有状态的价值表示为一个列向量 $V = [V (s_{1}), V (s_{2}), \dots, V (s + n)]^{T}$ , 同理也可以把奖励函数写成 $R = [r (s_{1}), r (s_{2}), \dots, r (s_{n})]^{T}$ , 由此把Bellman 方程写为

V = R + γ P V

也就是

V (s_{1}) V (s_{2}) ⋮ V (s_{n}) = r (s_{1}) r (s_{2}) ⋮ r (s_{n}) + γ P (s_{1} ∣ s_{1}) P (s_{1} ∣ s_{2}) ⋮ P (s_{1} ∣ s_{n}) P (s_{2} ∣ s_{1}) P (s_{2} ∣ s_{2}) P (s_{2} ∣ s_{n}) \dots \dots \dots P (s_{n} ∣ s_{1}) P (s_{n} ∣ s_{2}) P (s_{n} ∣ s_{n}) V (s_{1}) V (s_{2}) ⋮ V (s_{n})

计算得

V (I - γ P) V V = R + γ P V = R = (I - γ P)^{- 1} R

这个算法的时间复杂度是 $O (n^{3})$ , 其中 $n$ 是状态个数, 因此这种方法只适用很小的马尔可夫奖励过程. 求解较大规模的马尔可夫奖励过程中的价值函数时, 可以使用动态规划（dynamic programming） 算法、蒙特卡洛方法（Monte-Carlo method） 和时序差分（temporal difference）

Markov 决策过程

Markov 决策过程 (MDP) 在 Markov 奖励过程的基础上加上了动作 (action) , 其集合为 $A$ , 故一个MDP可以由元组 $(S, A, P, r, γ)$ 构成

注意MDP中的状态转移函数 $P$ 由转移矩阵拓展为了更一般的状态转移函数 $P (s^{'} ∣ s, a)$ , 表示在状态 $s$ 执行动作 $a$ 后到达状态 $s^{'}$ 的概率. 在状态和动作离散的情况下, $P$ 可用一个三维张量来表示

策略

不同于马尔可夫奖励过程, 在马尔可夫决策过程中, 通常存在一个智能体来执行动作. 马尔可夫决策过程是一个与时间相关的不断进行的过程, 在智能体和环境 MDP 之间存在一个不断交互的过程: 智能体根据当前状态 $S_{t}$ 选择动作 $A_{t}$ ; MDP 根据奖励函数和状态转移函数得到 $S_{t + 1}$ 和 $R_{t}$ 并反馈给智能体. 智能体的目标是最大化得到的累计奖励. 智能体根据当前状态从动作的集合中选择一个动作的函数, 被称为策略.

策略通常用 $π (a ∣ s) = P (A_{t} = a ∣ S_{t} = s)$ , 表示在输入状态 $s$ 时采取动作 $a$ 的概率. 当一个策略是确定性策略（deterministic policy） 时, 它在每个状态时只输出一个确定性的动作, 即只有该动作的概率为 $1$ , 其他动作的概率为 $0$ ；当一个策略是随机性策略（stochastic policy） 时, 它在每个状态时输出的是关于动作的概率分布, 然后根据该分布进行采样就可以得到一个动作.

在MDP中的状态价值函数和策略 $π$ 有关, 定义为

V^{π} (s) = E_{π} [G_{t} ∣ S_{t} = s]

同时再定义一个动作价值函数 (action-value function)

Q^{π} (s, a) = E_{π} [G_{t} ∣ S_{t} = s, A_{t} = a]

由此可以推出两个价值函数之间的关系

V^{π} (s) = a \in A \sum π (a ∣ s) Q^{π} (s, a)

Bellman 期望方程

两个状态函数的 Bellman 期望方程

V^{π} (s) Q^{π} (s, a) = E_{π} [R_{t} + γ V^{π} (S_{t + 1}) ∣ S_{t} = s] = a \in A \sum π (a ∣ s) (r (s, a) + γ s^{'} \in S \sum p (s^{'} ∣ s, a) V^{π} (s^{'})) = E_{π} [R_{t} + γ Q^{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s, A_{t} = a] = r (s, a) + γ s^{'} \in S \sum p (s^{'} ∣ s, a) a^{'} \in A \sum π (a^{'} ∣ s^{'}) Q^{π} (s^{'}, a^{'})

求解MDP

为了求解MDP中的各个状态的价值函数, 可以对策略的动作选择进行边缘化 (marginalization)

定义

r^{'} (s) = a \in A \sum π (a ∣ s) r (s, a)

和

P^{'} (s^{'} ∣ s) = a \in A \sum π (a ∣ s) P (s^{'} ∣ s, a)

这构建了一个MRP $: (S, P^{'}, r^{'}, γ)$ . 也就是说, 当策略 $π$ 函数确定时, 一个MDP可以退化为MRP来求解** **

Monte-Carlo 方法

Monte-Carlo 方法使用重复随机抽样, 然后运用概率统计方法来从抽样结果中归纳出我们想求的目标的数值估计

求解一个状态的价值, 也就是求解它的期望回报, 这时候就可以根据策略在MDP上采样很多条序列, 然后计算从这个状态出发的回报再求其期望

V^{π} (s) = E_{π} [G_{t} ∣ S_{t} = s] \approx \frac{1}{N} i = 1 \sum N G_{t}^{(i)}

采样次数越多, Monte-Carlo 方法估计的期望值越精确

占用度量

定义MDP的初始状态分布为 $ν_{0} (s)$ , 用 $P_{t}^{π} (s)$ 表示采取策略 $π$ 时智能体在 $t$ 时刻处于状态 $s$ 的概率, 则有 $P_{0}^{π} (s) = ν_{0} (s)$ . 由此定义策略的状态访问分布 (state visitation distribution)

ν^{π} (s) = (1 - γ) t = 0 \sum \infty γ^{t} P_{t}^{π} (s)

其中 $1 - γ$ 是用来使得概率加和为 $1$ 的归一化因子. 状态访问概率表示一个策略和 MDP 交互会访问到的状态的分布, 它的一个转移方程是

ν^{π} (s^{'}) = (1 - γ) ν_{0} (s^{'}) + γ \int P (s^{'} ∣ s, a) π (a ∣ s) ν^{π} (s) d s d a

此外, 我们还可以定义策略的占用度量 (occupancy measure)

ρ^{π} (s, a) = (1 - γ) t = 0 \sum \infty γ^{t} P_{t}^{π} (s) π (a ∣ s)

它表示动作状态对 $(s, a)$ 被访问到的概率, 二者之间存在如下关系

ρ^{π} (s, a) = ν^{π} (s) π (a ∣ s)

进一步得出

定理1

智能体分别以策略 $π_{1}, π_{2}$ 和同一个MDP交互得到的占用度量 $ρ^{π_{1}}, ρ^{π_{2}}$ 满足

ρ^{π_{1}} = ρ^{π_{2}} ⟺ π_{1} = π_{2}

定理2

给定一合法占用度量 $ρ$ , 可生成该占用度量的唯一策略是

π_{p} = \frac{ρ ( s , a )}{\sum _{a^{'}} ρ ( s , a ^{'} )}

以上提到的 "合法"占用度量 是指存在一个策略使智能体与 MDP 交互产生的状态动作对被访问到的概率.

最优策略

定义最优状态价值函数

V^{*} (s) = π max V^{π} (s)

和最优动作价值函数

Q^{*} (s, a) = π max Q^{π} (s, a)

它们之间的关系

Q^{*} (s, a) = r (s, a) + γ s^{'} \in S \sum P (s^{'} ∣ s, a) V^{*} (s^{'})

另一方面

V^{*} (s) = a \in A max Q^{*} (s, a)

由此可以构造出最优策略

π^{*} (a ∣ s) = ⎩ ⎨ ⎧ 10 if a = a \in A argmax Q^{*} (s, a) otherwise

最优策略满足

\forall s \in S, \forall π, V^{π^{*}} (s) \geq V^{π} (s)

Bellman 最优方程

即最优价值函数的转移方程

V^{*} (s) = a \in A max {r (s, a) + γ s^{'} \in S \sum p (s^{'} ∣ s, a) V^{*} (s^{'})} Q^{*} (s, a) = r (s, a) + γ s^{'} \in S \sum p (s^{'} ∣ s, a) a^{'} \in A max Q^{*} (s^{'}, a^{'})

Lin's Notes Garden

Explorer

Markov Decision Process, MDP

Markov 过程

随机过程

Markov 性质

Markov 过程

Markov 奖励过程

回报

Markov 决策过程

策略

Bellman 期望方程

求解MDP

Monte-Carlo 方法

占用度量

定理1

定理2

最优策略

Bellman 最优方程

Graph View

Table of Contents

Backlinks