In information theory, the analog of the law of large numbers is the asymptotic equipartition property (AEP). It is a direct consequence of the weak law of large numbers.
Asymptotic Equipartition Property Theorem
AEP theorem
AEP. If are i.i.d. , then
Proof. Functions of independent random variables are also independent random variables. Thus, since the are i.i.d., so are . Hence, by the weak law of large numbers
Typical set
The typical set with respect to is the set of sequences with the property
As consequence of the AEP, we can show that the set has the following properties:
- If , then
- for sufficiently large.
- , where denotes the number of elements in the set .
- for sufficiently large.
Thus, the typical set has probability nearly , all elements of the typical set are nearly equiprobable, and the number of elements in the typical set is nearly
Consequences of the AEP : Data Compression
Let be independent, identically distributed random variables drawn from the probability mass function . We wish to find short descriptions for such sequences of random variables. We divide all sequences in into two sets: the typical set and its complement.
We order all elements in each set according to some order (e.g. lexicographic order). Then we can represent each sequence of by giving the index of the sequence in the set. Since there are sequences in , the indexing requires no more than bits (the extra bit may be necessary because may not be an integer). We prefix all these sequences by a , giving a total length of bits. Similarly, we can index each sequence not in by using not more than bits. Prefixing these indices by , we have a code for all the sequences in .
We use the notation to denote a sequence . Let be the length of the codeword corresponding to . If is sufficiently large so that , the expected length of the codeword is
where can be made arbitrarily small by an appropriate choice of followed by an appropriate choice of . Now we can have the following theorem
Let be i.i.d. . Let . Then there exists a code that maps sequences of length into binary strings such that the mapping is one-to-one (and therefore invertible) and
for sufficiently large. Thus, we can represent sequences using bits on the average.
High-Probability Sets and the Typical Set
It's clear that is a fairly small set that contains most of the probability. But from the definition, it is not clear whether it si the smallest such set. We will prove that the typical set has essentially the same number of elements as the smallest set, to first order in the exponent.
For each , let be the smallest set with
We argue that must have significant intersection with and therefore must have about as many elements.
Let be i.i.d. . For and any , if , then
Thus, must have at least elements, to first order in the exponent. But has elements. Therefore, is about the same size as the smallest high-probability set.
Q & A
AEP和典型集
核心思想: 渐近均分割特性 (AEP)
理解典型集首先要理解 AEP 定理. AEP 定理告诉我们, 对于一个由独立同分布 (i.i.d.) 随机变量组成的很长的序列 (每个变量都遵循概率分布 ), 那么这个序列的实际联合概率 会非常接近一个特定的值 .
更准确地说, 表达式 会随着 的增大, 在概率上收敛于香农熵 . 这意味着, 对于任意小的 , 当 足够大时, 下式成立的概率非常接近 1:
这个不等式可以改写为:
两边乘以 (注意不等号方向改变):
取以 2 为底的指数 (假设 是指 , 这在信息论中很常见, 并且与定义中的 的幂次一致):
典型集的定义 典型集 正是包含了所有满足上述 AEP 结果 (在 容忍度内) 的具体序列 的集合. 也就是说, 一个序列 属于典型集 , 当且仅当它的联合概率 满足:
直观上讲, 典型集就是那些 "看起来像是" 从 分布中生成的、具有 "预期" 概率的序列的集合.
典型集的关键性质 材料中列出的四个性质进一步阐明了典型集的特点:
- 等价定义: 性质 1 只是将典型集定义的概率不等式转换回 AEP 定理中更常见的对数概率形式. 它确认了典型集中的序列确实是那些满足 AEP 条件的序列.
- 高概率性: (当 足够大时). 这是 AEP 定理 (依概率收敛) 的直接结果. 它意味着, 如果你随机生成一个长序列 , 这个序列落在典型集内的概率非常高 (接近 1). 绝大多数可能的序列都在典型集里.
- 大小上界: . 典型集的大小 (包含的序列数量) 不会太大. 总共有 个可能的序列 (其中 是单个符号的字母表大小), 而典型集的数量级大约是 . 因为 (通常严格小于, 除非是均匀分布), 所以典型集通常只占所有可能序列的很小一部分.
- 大小下界: (当 足够大时). 结合上界, 这表明典型集的大小确实非常接近 .
总结典型集的特点:
- 高概率: 几乎所有随机生成的序列都属于典型集.
- 小体积: 相对于所有可能的序列空间 ( ), 典型集包含的序列数量相对较少 (大约 个).
- 近似等概率: 典型集中的每个序列的概率都大致相等, 约为 . 这是因为它们的概率都被限制在一个由 控制的狭窄区间内 .
典型集的意义 (以数据压缩为例) AEP 和典型集的概念在信息论中至关重要, 尤其是在数据压缩方面. 其思想如下:
- 既然几乎所有的序列都落在典型集 中 (性质 2), 并且这个集合相对较小 (大小约为 , 性质 3 和 4).
- 我们可以设计一种编码方案:
- 对于典型集中的序列: 我们只需要大约 比特来唯一标识它们 (材料中给出的更精确的上界是 比特). 我们可以给这些短码加上一个前缀 (如 '').
- 对于不在典型集中的序列: 这些序列非常罕见 (总概率小于 ). 我们可以使用一种通用的、可能较长的方法来编码它们, 例如用 比特来表示 (材料中给出的上界是 比特). 给这些长码加上另一个前缀 (如 '').
- 由于典型序列出现的概率极高, 这种策略的平均编码长度将非常接近 比特, 即每个源符号平均需要 比特. 这表明 是无损压缩的理论极限.
简而言之, 典型集是一个虽然体积相对较小 (约 个序列), 但几乎包含了所有可能发生情况 (概率接近 1) 的序列集合. 集合中的每个序列都具有大致相同的概率 (约 ). 这个概念解释了为什么我们可以将数据压缩到接近其熵 比特/符号的程度.
高概率集
材料解读 我们知道典型集 概率很高 (接近 1) 并且大小约为 . 但它是不是达到这个高概率的 "最小" 集合呢? 也就是说, 会不会存在另一个概率同样很高的集合, 但它包含的序列数量远少于 个? 这段话旨在说明, 典型集 在指数级别上, 基本上就是满足高概率条件的最小集合.
为了论证这一点, 材料引入了一个新的集合:
- : 对于给定的概率阈值 (其中 是一个小的正数), 是所有 的子集中, 包含序列数量最少但其总概率 至少为 的那个集合.
- 如何构造 : 想象一下将 中的所有 个序列按照它们的概率 从大到小排序. 然后, 从概率最大的序列开始, 依次将序列加入集合, 直到集合的总概率首次达到或超过 . 这样构成的集合就是 .
材料接着指出 和 必须有显著的交集 (significant intersection). 这是因为 的概率接近 1 (比如 ), 的概率也接近 1 ( ). 两个概率都接近 1 的集合, 它们的交集的概率也必然接近 1 (至少是 ). 这意味着它们共享了大部分高概率的序列.
核心定理及其意义 核心论证依赖于以下定理 (材料中陈述但未证明):
定理: 设 是独立同分布 . 对于任意 使得 (通常我们关心 很小, 例如小于 如材料所述, 但这对于证明不是本质要求) 且对于任意 , 如果 是 中满足 的最小集合, 那么当 足够大时, 有
注: 原文定理用的是严格大于号 , 但用 也可以说明问题, 并且更容易从下面的证明推导出来. 在 足够大时, 两者差别不大. 原文的 条件可能在某些更精细的证明或上下文中需要, 但对于我们这里的证明不是必须的. 这里假设 是以 2 为底的对数.
定理的意义: 这个定理说明, 即使是设计出来的最小的、能包含至少 概率的集合 , 它的大小 在指数上也必须至少是 . 因为 可以任意小, 这意味着 的增长率下界基本上由 控制.
将定理与典型集比较: 我们知道典型集 的性质:
- (对于足够大的 )
- (对于足够大的 )
定理告诉我们, 任何概率至少为 的集合 (包括最小的那个 ), 其大小至少约为 . 而典型集 的大小也正好约为 .
结论: 这说明典型集 的大小与满足高概率条件的最小集合的大小, 在指数级别上是相同的 ( ). 典型集虽然不是通过 "最小化大小" 来定义的, 但它自然地实现了接近最优的大小压缩, 同时保持了极高的概率覆盖.
定理的证明 我们可以利用典型集 的性质来证明关于 大小的定理. 思路是考察这两个集合的交集 .
- 交集的概率下界: 我们知道 . 因为 , 所以 . 对于 和 , 当 足够大时, . 我们已知 . 因此, 交集的概率满足:
只要我们选择 和 足够小, 使得 , 这个交集的概率就是正的, 并且可以很接近 1.
- 利用典型集性质限制交集概率: 考虑交集中的任意序列 . 因为它属于典型集 , 根据典型集的定义 (或性质 1) , 它的概率满足:
- 联系交集概率和 的大小: 我们可以将交集的总概率表示为其中所有序列概率的总和:
由于交集 是 的一个子集, 我们可以用 中的序列数量 和这些序列概率的上界来放缩:
因为 中的序列个数不可能超过 的总序列个数 , 所以:
结合步骤 1 的结果, 我们得到:
- 导出 的下界: 从上面的不等式, 我们可以解出 的下界:
现在, 我们对两边取 :
- 处理极限和 : 这个不等式对于任意满足 的 以及足够大的 都成立.
我们要证明的是: 对于给定的 和任意 , 当 足够大时, . 在上面的不等式中, 当 时, (因为 是一个常数).
因此, 对于任意给定的 , 当 足够大时, 会比 小很多. 更具体地, 对于我们想要的任何 , 我们可以选择一个 使得 . 例如, 取 (并确保 , 这对于小的 通常满足).
那么, 对于这个选定的 , 存在一个 , 使得对于所有 , 有:
这意味着:
代入之前的 的不等式:
将 代入:
这就证明了定理 (我们得到了严格大于号, 如果需要大于等于号, 论证会更宽松) .
总结证明思路: 我们利用了典型集 的两个核心属性: 它的概率接近 1, 并且其中每个序列的概率都有一个上界 . 通过考察 和最小高概率集 的交集, 我们可以将 的大小 与 联系起来, 最终证明 的增长率下界也是由 决定的.