简单整理一下概率论大数定律部分的内容,感觉这部分真的厉害,借用公理化把概率真正讲清楚了。
注:这部分的基础大量建立在“各种收敛”的概念上。
以及吐槽一句,这个 MathJax 难用极了,不知道为什么需要先 \begin{aligned} \end{aligned} 一下才能用 \xrightarrow,有时间考虑搬一下博客。
Motivation
实验中发现,大量重复实验的结果呈现某种规律性,即每个事件出现的频率(在实验次数很大的时候)趋近于一个定值(在没有公理化时,这个就可以作为某种概率的定义)。
伯努利实验场合下的极限定理
伯努利实验是一个很简单的模型,我们可以首先借其来研究,而后我们再研究独立同分布的情况。
假设我们记 \(X_1, X_2, \dots, X_n\) 是 n 次伯努利的结果(0/1,不发生/发生),这样频率即为发生次数/总次数,也即 \(\frac{\sum_{i=1}^n X_i}{n}\).
之后我们为了方便会记一个前缀和 \(S_m = \sum_{i=1}^m S_i \).
注意到“概率”这个概念在每个伯努利实验中是一个常量 \(p\)(简单的模型就是爽),我们前面说的那种“规律性”即为
$$
\frac{S_n}{n} \rightarrow p
$$
左侧是一列随机变量,收敛到右侧一个常量(可以理解为常随机变量)。既然涉及到随机变量列的收敛,当然我们要考虑是什么收敛。这里我们先研究弱大数定律:规定若其依概率收敛到 p,那么其满足 弱大数定律。
当然,对于伯努利实验场景,成功率 p 是个定值。那对于一般的情况,应该收敛到什么呢?答案是
$$
\frac{S_n-\textbf{E}S_n}{n} \rightarrow 0
$$
即样本均值收敛到总体均值。特别地,若 \(\textbf{E}X_k = a\),那么这个式子可以写成 \(\frac{S_n}{n} \rightarrow a\),即我们所熟悉的“那个常数”,那个常数即是数学期望。
注意逻辑关系:我们的数学期望是用积分定义的,但我们本能地感觉到如果我们很多次重复进行这个实验,最终我们的平均结果会趋近于期望——大数定律保证了这件事。但是大数定律需要一些条件满足,也就是说不是每列随机变量都“符合大数定律”。
总之我们有了第一个大数定律,由于是作为引入,它当然非常地弱,以至于我们后面会借助更强的大数定律直接得出它:
伯努利大数定律
对独立的 n 次伯努利实验有
$$
\begin{aligned}
\frac{S_n}{n} \xrightarrow{P} p
\end{aligned}
$$
我们来证的第一个定理叫切比雪夫大数定律,它可以直接由切比雪夫不等式得出,因此叫这个名字。它不限制于伯努利实验中。
切比雪夫大数定律(《概率与测度》9.1.3)
(切比雪夫)设 \(X_1, X_2, \dots, X_n, \dots\) 是两两不相关的随机变量序列,且每个随机变量方差有公共上界:
$$
\exists C, \forall i \in \mathbb{Z}^+, \textbf{D}X_i \le C
$$
其中两两不相关即 \(cov(X_i, X_j) = 0\), 当然在这里只需要使用到等价条件:\(\textbf{D}(X_i+X_j) = \textbf{D}X_i + \textbf{D}X_j\).
那么有其满足弱大数定律。
Proof: 首先有切比雪夫不等式
$$
P\{|X-\textbf{E}X| \ge \epsilon\} \le \frac{\textbf{D}X}{\epsilon^2}
$$
这个不等式可以直接由 Markov 不等式推出来:
$$
P[X \ge \epsilon] \le \frac{\textbf{E}X}{\epsilon}
$$
即
$$
P\{|X-\textbf{E}X| \le \epsilon\} = P\{(X-\textbf{E}X)^2 \le \epsilon^2\} \le \frac{\textbf{E}(X-\textbf{E}X)}{\epsilon^2}
$$
我们考虑证原命题。对于任意的 \(\epsilon > 0\),
$$
P[|\frac{S_n - \textbf{E}S_n}{n}| \ge \epsilon]
\le
\frac{\textbf{D}\frac{S_n}{n}}{\epsilon^2} \le \frac{C}{n \epsilon^2} \rightarrow 0
$$
证毕. 我们来借其说明一下伯努利大数定律。对于每个 \(X_i\),有 \(\textbf{D}X_i = p(1-p)\) 有界,故切比雪夫大数定律条件满足。而
$$
\frac{\textbf{E}S_n}{n} = \frac{\sum_{i=1}^n \textbf{E}X_i}{n} = p
$$
得证.
其它
(马尔可夫大数定律)注意到证明中只要
$$
\frac{\text{D}S_n}{n^2} \rightarrow 0
$$
即可,把有界条件改成这一条件即为马大数。
(泊松大数定律)推广伯努利实验过程,假设这些实验的 p 不等,即设第 k 次实验成功概率为 \(p_k\). 那么有
$$
\frac{S_n - \sum_{i=1}^n p_i}{n} \xrightarrow{P} 0
$$
注意到虽然概率不同,但是第 k 次的方差为 \(p_k(1-p_k) \le \frac{1}{4}\) 有界。
辛钦大数定律
切比雪夫的不好之处就在其用到了二阶矩,但是在独立同分布场合其实不需要这个要求,辛钦对切比雪夫的推广就是其只用到了一阶矩的信息,就可以研究独立同分布的随机变量序列情况。
(辛钦)设 \(X_1, X_2, \dots, X_n, \dots\) 独立同分布,且具有有限的数学期望
$$
\textbf{E} X_i = a
$$
那么其满足弱大数律。
Proof: 证明需要用到特征函数的工具,这里写一下大纲。
由于其独立同分布,设 \(X_i\) 特征函数为 \(f(t)\),那么 \(\frac{S_n}{n}\) 的特征函数即为 \(f(\frac{t}{n})^n\). 由于一阶矩存在,可以对特征函数进行一阶泰勒展开
$$
f(\frac{t}{n})^n = (1 + \frac{t}{n}ia + o(\frac{t}{n}))^n
$$
两边对 \(n\) 取极限,可知其特征函数收敛到 \(e^{iat}\),即“恒等于 \(a\) 的随机变量的特征函数”。由逆极限定理知道其依分布收敛到常数 \(a\),那么知其依概率收敛到常数 \(a\)。
顺便把关于特征函数和依分布收敛的知识补充在这里。
特征函数
定义:对于随机变量 \(X\),设其分布函数为 \(F_X(x)\),则其特征函数定义为
$$
f_X(t) = \textbf{E} e^{itX} = \int_{-\infty}^{+\infty} e^{itx} dF_X(x)
$$
(实变量的复值函数)
意义:特征函数包含了随机变量的所有数字信息(\(k\) 阶矩),特征函数和分布函数互相唯一确定,进而和随机变量的概率分布互相唯一确定。
(性质1 基本特征)
- \(f(0) = 1\)
- $$
|f(t)| \le \int_{-\infty}^{+\infty} |e^{itx}| dF_X(x)
\le \int_{-\infty}^{+\infty} dF_X(x) = f(0) = 1
$$ - \(f(-t) = \overline{f(t)}\) (共轭)
事实上,
$$
f(t) = \textbf{E} e^{itX} = \textbf{E} [\cos tX + i\sin tX]
= \textbf{E} [\cos tX] + i \textbf{E} [\sin tX]
$$
(性质2 一致连续)
先证明 \(\forall h \in \mathbb{R}\),
$$
|f_X(t) - f_X(t+h)|^2 \le 2[1-\textbf{Re}(f_X(h))]
$$
考虑到
$$
\begin{aligned}
|f_X(t) - f_X(t+h)|^2 &= |\int_{-\infty}^{+\infty} (e^{itx} - e^{i(t+h)x)}) dF_X(x)|^2 \\
&= |\int_{-\infty}^{+\infty} e^{itx} (1 - e^{ihx}) dF_X(x)|^2\\
&= |\int_{-\infty}^{+\infty} (1 - e^{ihx}) dF_X(x)|^2 \\
&\le \int_{-\infty}^{+\infty} [2-(e^{ihx}+\overline{e^{ihx}})] dF_X(x) (\text{千万注意!复数的平方!}) \\
&= 2[1-\textbf{Re}(f_X(h))]
\end{aligned}
$$
那么一致收敛只要求
$$
\lim_{h \rightarrow 0} \textbf{Re}(f_X(h)) =
\lim_{h \rightarrow 0} \textbf{E}[\cos hX] =
\textbf{E}[\lim_{h \rightarrow 0} \cos hX] =1
$$
注意到 \(|\cos h X| \le 1\),(对于概率测度,有界函数函数都是可积的)由控制收敛定理极限可交换,故一致收敛得证。
(性质3 独立随机变量之和)
对于独立随机变量 \(X_1, X_2\),有
$$
f_{X_1+X_2}(t) = \textbf{E} e^{it(X_1+X_2)} =
\textbf{E} e^{itX_1} \textbf{E} e^{itX_2} = f_{X_1}(t) f_{X_2}(t)
$$
(不难得到复随机变量 \(e^{itX_1}, e^{itX_2}\) 也是独立的)
此外,由此很容易得到随机变量在特征函数上的线性变换
$$
f_{aX+b}(t) = \textbf{E} e^{it(aX+b)} = e^{itb} \textbf{E} e^{itaX} = e^{itb} f_{aX}(t)
$$
(性质4 特征函数与 \(k\) 阶矩)
$$
f_X^{(k)}(0) = i^k \textbf{E}^k[X]
$$
直接求导即可得到。那么有推论:若此随机变量的 \(k\) 阶矩存在,则其特征函数可作如下展开:
$$
f(t) = 1 + it \textbf{E}X + \frac{(it)^2}{2!} \textbf{E}X^2 + \dots + \frac{(it)^k}{k!} \textbf{E}X^k + o(t^k)
$$
下面我们来考虑为什么特征函数和分布函数是互相唯一确定的。由分布函数确定特征函数是显然的(计算式),那么反过来有如下结果:
(逆转公式)设随机变量的分布函数为 \(F(x)\),特征函数为 \(f(t)\),那么有
$$
\frac{F(x_2) + F(x_2-)}{2} - \frac{F(x_1)+F(x_1-)}{2} =
\lim_{T \rightarrow \infty} \frac{1}{2\pi} \int_{-T}^{T}
\frac{e^{-itx_1}-e^{-itx_2}}{it} f(t) dt
$$
Proof: 记
$$
\begin{aligned}
I_T &= \frac{1}{2\pi} \int_{-T}^{T} \frac{e^{-itx_1}-e^{-itx_2}}{it} f(t) dt \\
&= \frac{1}{2\pi} \int_{-T}^{T} \frac{e^{-itx_1}-e^{-itx_2}}{it} dt \int_{-\infty}^{+\infty} e^{itx} dF(x) \\
&= \frac{1}{2\pi} \int_{-T}^{T} \int_{-\infty}^{+\infty} \frac{e^{-itx_1}-e^{-itx_2}}{it} e^{itx} dF(x) dt
\end{aligned}
$$
先证明被积函数的有界性。
$$
\lvert \frac{e^{-itx_1}-e^{-itx_2}}{it} e^{itx} \rvert \le
\frac{|e^{it(x-x_1)} - 1|}{|t|} + \frac{|e^{it(x-x_2)} - 1|}{|t|}
\le |x-x_1| + |x-x_2| = x_2 - x_1
$$
交换积分次序有
$$
\begin{aligned}
I_T &= \frac{1}{2\pi} \int_{-T}^{T} \int_{-\infty}^{+\infty} \frac{e^{-itx_1}-e^{-itx_2}}{it} e^{itx} dF(x) dt \\
&= \frac{1}{2\pi} \int_{-\infty}^{+\infty} dF(x) \int_{-T}^{T} \frac{e^{-itx_1}-e^{-itx_2}}{it} e^{itx} dt \\
&= \frac{1}{2\pi} \int_{-\infty}^{+\infty} dF(x) \int_{-T}^{T} \frac{\sin t(x-x_1)-\sin t(x-x_2)}{t} dt \\
\end{aligned}
$$
一个很重要的结果(Dirichlet 积分),证明这里略去:
$$
\lim_{T \rightarrow \infty} \int_0^T \frac{\sin(ax)}{x} dx = \frac{\pi}{2} \text{sgn}(a)
$$
那么
$$
\begin{aligned}
I_T &= \frac{1}{2\pi} \int_{-\infty}^{+\infty} dF(x) \int_{-T}^{T} \frac{\sin t(x-x_1)-\sin t(x-x_2)}{t} dt \\
&= \frac{1}{2} \int_{-\infty}^{+\infty} [\text{sgn}(x-x_1) - \text{sgn}(x-x_2)] dF(x) \\
&= \frac{1}{2} P(X=x_1) + \frac{1}{2} P(X=x_2) + F(x_2) - F(x_1) \\
&= \frac{F(x_2) + F(x_2-)}{2} - \frac{F(x_1)+F(x_1-)}{2} \\
\end{aligned}
$$
特别地,对于连续点有
$$
F(x_2) - F(x_1) =
\lim_{T \rightarrow \infty} \frac{1}{2\pi} \int_{-T}^{T}
\frac{e^{-itx_1}-e^{-itx_2}}{it} f(t) dt
$$
(唯一性定理)特征函数唯一确定分布函数。在连续点上可以令 \(x_1 \rightarrow -\infty\),则连续点的值都能确定。而分布函数的不连续点至多可数(这是因为分布函数单调),那么对于任意一点,一定能(从右边)找一列连续点逼近。证毕。
(特征函数与密度函数)对于特征函数,若满足
$$
\int_{-\infty}^{+\infty} |f(t)| dt < \infty
$$
则其相应分布函数的导数存在并连续,且有
$$
F'(x) = \frac{1}{2\pi} \int_{-\infty}^{+\infty} e^{-itx} f(t) dt
$$
(连续型随机变量,特征函数和密度函数差一个傅里叶变换)
Proof: 由逆转公式,对于连续点 \(x\),
$$
\begin{aligned}
\frac{F(x+\Delta x)-F(x)}{\Delta x} &= \lim_{T \rightarrow \infty} \frac{1}{2\pi} \int_{-T}^{T} \frac{e^{-itx}-e^{-it(x+\Delta x)}}{it\Delta x} f(t) dt = \frac{1}{2\pi} \int_{-\infty}^{+\infty} \frac{e^{-itx}-e^{-it(x+\Delta x)}}{it\Delta x} f(t) dt
\end{aligned}
$$
取极限
$$
\begin{aligned}
F'(x) &= \lim_{\Delta x \rightarrow 0} \frac{F(x+\Delta x)-F(x)}{\Delta x} \\
&= \lim_{\Delta x \rightarrow 0} \frac{1}{2\pi} \int_{-\infty}^{+\infty} \frac{e^{-itx}-e^{-it(x+\Delta x)}}{it\Delta x} f(t) dt \\
&= \frac{1}{2\pi} \int_{-\infty}^{+\infty} \lim_{\Delta x \rightarrow 0} \frac{e^{-itx}-e^{-it(x+\Delta x)}}{it\Delta x} f(t) dt \\
&= \frac{1}{2\pi} \int_{-\infty}^{+\infty} e^{-itx} f(t) dt
\end{aligned}
$$
依分布收敛
我们很早就考察过分布函数收敛到某个值的事情,但是我们知道分布函数 \(F_n\) 收敛到 \(F\) 并不意味着 \(F\) 也是一个分布函数。例如:
$$
F_n = \frac{1}{\pi} \text{arctan} (\frac{x}{n}) + \frac{1}{2}
$$
其收敛到 \(y=\frac{1}{2}\),显然不是分布函数。
同时我们注意到另一点:如果要求处处收敛,那么一列分布函数可能并不会像我们想的那样收敛到某个地方。一个例子:
$$
F_n(x) = \begin{cases}
0,\ x \le -\frac{1}{n} \\
1,\ x > -\frac{1}{n}
\end{cases}
$$
我们自然会想其收敛到
$$
F(x) = \begin{cases}
0,\ x \le 0 \\
1,\ x > 0
\end{cases}
$$
但是对于不连续点 \(x=0\),\(F_n(0)=1\),而 \(F(0) = 0\). 因此我们考虑放宽条件,只对连续点收敛。
(定义)随机变量 \(X_1, X_2, \dots, X_n, \dots\) 的分布函数分别为 \(F_{X_1}, F_{X_2}, \dots, F_{X_n}, \dots\), 随机变量 \(X\) 的分布函数为 \(F_X\),且对于 \(F_X\) 的所有连续点 \(x\),都有
$$
\lim_{n \rightarrow \infty} F_{X_n}(x) = F_X(x)
$$
则称 \(\{X_n\}\) 依分布收敛到 \(X\),记作 \(X_n \xrightarrow{d} X \)。
对于区间 \((a, b]\),若 \(a, b\) 均为 \(F_X\) 连续点,称其为连续区间。对于连续区间有此性质:
$$
\lim_{n \rightarrow \infty} \mu_{X_n}((a, b]) =
\lim_{n \rightarrow \infty} F_{X_n}(b) - F_{X_n}(a) =
F_X(b) - F_X(a) = \mu_X((a, b])
$$
(依分布收敛的等价刻画)我们知道分布函数和概率分布其实可以说是一个东西,这条等价刻画更加实用(也可以作为定义),它反映的是从概率分布这个测度的眼光来看,依分布收敛实际上是积分的等价性:
\(X_n \xrightarrow{d} X\) 当且仅当对于任意的 \(\mathbb{R}\) 上的有界连续函数 \(f\),有
$$
\lim_{n \rightarrow +\infty} \int_{\mathbb{R}} f(x) \mu_{X_n} (dx) = \int_{\mathbb{R}} f(x) \mu_X(dx)
$$
也即 \(\mu_{X_n}(f) \rightarrow \mu_X(f)\) 或者 \(\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]\)。
(Proof Sketch)这个推原定义:考虑如果对于任意的连续区间 \((a, b]\),取 \(f = 1_{(a, b]}\),有
$$
\lim_{n \rightarrow +\infty} \int_{\mathbb{R}} f \mu_{X_n}
= \int_{\mathbb{R}} f \mu_{X}
$$
即
$$
\lim_{n \rightarrow +\infty} \mu_{X_n} ((a, b]) = \mu_{X} ((a, b]) \Longrightarrow \lim_{n \rightarrow +\infty} F_{X_n}(b) - F_{X_n}(a) = F_X(b) - F_X(a)
$$
那么再令 \(a\) 趋于负无穷就结束了。问题是 \(f\) 不是有界连续函数:可以用有界连续函数逼近。
原定义推这个:原定义相当于在示性函数上成立积分相等,那非常经典地可以用示性函数逼近连续函数。
关于依分布收敛,最重要的定理还是这个:
(特征函数刻画依分布收敛)设 \(\{X_n\}, X\) 是随机变量,\(\{f_n\}, f\) 为相应的特征函数。那么
$$
X_n \xrightarrow{d} X \Longleftrightarrow
\lim_{n \rightarrow +\infty} f_n(t) = f(t), \forall t \in \mathbb{R}
$$
可惜证明很繁琐。这里提一个简单的方向(左推右):考虑特征函数也是一个特殊的积分式子,因此由依分布收敛的积分相等的性质得证。左推右需要用到 Prohorov 定理,这里略去。
(概率论这个课程的本质就是,定理很优美很有用,但是超级难证,因为公理化的工作太恶心人了,所以有的就当艺术鉴赏吧)
依分布收敛和其它收敛的关系
- 若 \( X_n \xrightarrow{P} X\),则 \(X_n \xrightarrow{d} X\)。
- 设 \(\{X_n\}\) 在同一个概率空间下,则 \(X_n \xrightarrow{d} C \Longleftrightarrow X_n \xrightarrow{P} C\)。
(1)只要证明对于任意有界连续函数 \(f\),都有 \(\textbf{E}[f(X_n)] \rightarrow \textbf{E}[f(X)]\)。对于任意的 \(\omega\),我们记 \(x_n = X_n(\omega)\),\(x = X(\omega)\)。由于 \(f\) 一致收敛,对于任意的 \(\epsilon > 0\),存在 \(\delta > 0\),使得若 \(|x_n-x| < \delta\),则 \(|f(x_n)-f(x)| < \epsilon\)。
$$
\begin{aligned}
|\textbf{E}[f(x_n)] - \textbf{E}[f(x)]| &\le \textbf{E}[|f(x_n) - f(x)|] \\
&= \textbf{E}[|f(x_n) - f(x)| 1_{\{|x_n-x|\le \delta\}} ]
+ \textbf{E}[|f(x_n) - f(x)| 1_{\{|x_n-x|> \delta\}} ] \\
&= \epsilon + 2C P(\{|x_n-x|> \delta\})
\end{aligned}
$$
令 \(n\) 趋于 0 得第二项为 0,由于 \(\epsilon\) 任意,那么有 \(|\textbf{E}[f(x_n)] - \textbf{E}[f(x)]|\) 趋于 0,毕。
(2)只要左推右。对于任意的 \(\epsilon > 0\),
$$
\begin{aligned}
P(\{|X_n - C| \ge \epsilon\}) &= P(\{X_n \ge C + \epsilon\})
+ P(\{X_n \le C - \epsilon\}) \\
&= 1 - F(C+\epsilon-) + F(C-\epsilon) \\
&\rightarrow 1 - 1 + 0 = 0
\end{aligned}
$$
毕。
中心极限定理
大数定律说明了样本均值(相当于是一堆独立同分布随机变量之和,乘个系数)在大量取样之下逼近实际均值。而中心极限定理直接给出这个“随机变量之和”在取样趋于无穷大时趋近正态分布的结果。
为什么是正态分布呢?一种解释是,正态分布的特征函数是傅里叶变换的不动点(稳定点)。后面可以从证明感受一下。
中心极限定理可以推出大数定律,这是因为大数定律只给了期望(即正态分布那个高峰)。研究中心极限定理我们要非常频繁地用到特征函数。
独立同分布的CLT
设 \(\{X_n\}\) 为独立同分布随机变量,且 \(\textbf{E}[X_1]=0\),\(\textbf{E}[X_1^2]=1\),则 \(\frac{Sn}{\sqrt{n}} \rightarrow N(0, 1)\)
(Proof)只需证
$$
f_{\frac{S_n}{\sqrt{n}}}(t) \rightarrow e^{-\frac{t^2}{2}}
$$
那么有
$$
\begin{aligned}
f_{\frac{S_n}{\sqrt{n}}}(t) &= \prod f_{\frac{X_1}{\sqrt{n}}}(t) \\
&= (1+\frac{(it)^2}{2!n}+o(t^2))^n \\
&= e^{-\frac{t^2}{2}}
\end{aligned}
$$
可以看到和一阶矩为 0、二阶矩有限关系很大。
考虑一般的独立同分布,\(\textbf{E}[X_1]=a\),\(\textbf{D}[X_1]=b^2\),那么 \(\frac{X_1-a}{b}\) 即为标准情况。所以我们一般不直接考虑 \(\frac{S_n}{\sqrt{n}}\),而是考虑标准化和
$$
\zeta_n = \frac{S_n - na}{\sqrt{n}b}
$$
这样我们就有独立同分布 CLT
$$
\lim_{n \rightarrow \infty} \frac{S_n - na}{b\sqrt{n}} \rightarrow N(0, 1)
$$
也即 Lindeberg-Levin 定理。在分布函数上的应用即为
$$
\lim_{n \rightarrow \infty} P\{\zeta_n \le x\} =
\frac{1}{\sqrt{2\pi}} \int_{-\infty}^n e^{-\frac{t^2}{2}}
$$
(注意:出现“随机变量求和”这种感觉的东西,或者参数带 n,都注意一下 CLT)
一般情况 CLT 的充要条件
现在考虑不独立同分布的情况。设 \(a_k = \textbf{E}X_k\),\(b_k^2 = \textbf{D}X_k\),那么 \(\textbf{E}[S_n] = \sum_{k=1}^n a_k\),\(\textbf{E}[S_n] = \sum_{k=1}^n a_k\),\(\textbf{D}[S_n]=\sum_{k=1}^n b_k^2\) 此时标准化和数变为
$$
\zeta_n = \frac{S_n - \textbf{E}[S_n]}{\sqrt{n}\sqrt{\textbf{D}[S_n]}}
$$
令 \(B_n^2 = \sum_{k=1}^n b_k^2 \),即为
$$
\zeta_n = \sum_{k=1}^n \frac{X_k - a_k}{B_n}
$$
我们首先希望的是上述 \(\sigma\) 号中各项“均匀地小”,即对于任意的 \(\tau > 0\),如下概率
$$
P\{\max_{1 \le k \le n} |X_k - a_k| > \tau B_n \} \rightarrow 0
$$
而
$$
\begin{aligned}
P\{\max_{1 \le k \le n} |X_k - a_k| > \tau B_n \} &=
P\{\bigcup_{1 \le k \le n} [|X_k - a_k| > \tau B_n] \} \\
&\le \sum_{1 \le k \le n} P\{[|X_k - a_k| > \tau B_n]\} \\
&= \sum_{1 \le k \le n} \int_{|x - a_k| > \tau B_n} dF_{X_k}(x) \\
&\le \sum_{1 \le k \le n} \frac{1}{(\tau B_n)^2} \int_{|x - a_k| > \tau B_n} (x-a_k)^2 dF_{X_k}(x)
\end{aligned}
$$
故我们引出了 Lindeberg 条件:对于任意的 \(\epsilon > 0\),有
$$
\sum_{1 \le k \le n} \frac{1}{B_n^2} \int_{|x - a_k| > \epsilon B_n} (x-a_k)^2 dF_{X_k}(x) \rightarrow 0
$$
其为 CLT 的充分条件。而要充要,还需要引入 Feller 条件:
$$
\max_{1 \le k \le n} \frac{b_k^2}{B_n^2} \rightarrow 0
$$
我们声称 Feller + CLT 等价于 Lindeberg。由于证明比较繁琐,这里就粗浅地看一下一个方向:Lindeberg 推 Feller + CLT。这里我们令期望均为 0,方便讨论,则 Lindeberg 变为
$$
\sum_{1 \le k \le n} \frac{1}{B_n^2} \int_{\frac{x^2}{B_n^2} > \epsilon } x^2 dF_{X_k}(x)
$$
那么
$$
\begin{aligned}
b_k^2 &= \int x^2 dF_{X_k}(x) \\
&= \int_{\frac{x^2}{B_n^2} > \epsilon } x^2 dF_{X_k}(x) + \int_{\frac{x^2}{B_n^2} \le \epsilon } x^2 dF_{X_k}(x)
\end{aligned}
$$
$$
\frac{b_k^2}{B_n^2} \le L + \epsilon
$$
其中 L 是 Lindeberg 那一项。先由 \(\epsilon\) 任意性,再令 n 趋于无穷,Feller 得证。
强大数定律
强大数定律主要借用“尾”这个概念刻画了收敛到常数的一些概念。具体来说,
$$
\frac{X_1 + X_2 + \dots + X_n}{n} \xrightarrow{a.s.} C
$$
相当于事件 \(A\):\(\{ \omega \mid \lim_{n \rightarrow +\infty} \frac{X_1 + X_2 + \dots + X_n}{n} \text{存在} \} \) 的概率为
$$
P(A)=0, 1
$$
(定义)对于一列独立的随机变量 \(X_1, X_2, \dots\),令
$$
\mathcal{D} = \bigcap_{n=1}^\infty \sigma \{\{X_k\}_{k=n}^{+\infty} \}
$$
称 \(\mathcal{D}\) 为关于随机变量列 \(\{X_n\}\) 的尾事件。(形象理解:改变前有限项随机变量的取值,不影响尾事件的发生概率)。
显然之前提到的 \(A\) 就是尾事件。下面介绍的 Kolmogorov 0-1 律就是要说明,尾事件的概率为 0 或 1。为此我们先引出一个引理:
(Borel-Cautelli)设 \(\{A_n\}\) 为一列事件。
- $$
\sum_{k=1}^{+\infty} P(A_k) < +\infty \Longrightarrow P(A_k \text{i.o.}) = 0
$$
注:\(\{A_k \text{i.o.}\} = \overline{\lim_{k \rightarrow +\infty}} A_k = \bigcap_{n=1}^{+\infty} \bigcup_{k=n}^{+\infty} A_k \),即为 \(\{A_k\}\) 发生无穷多次。(事件列上极限:样本属于无穷多个 \(A_k\);下极限:样本从某个下标开始就一直属于,即至多不属于有限个 \(A_k\))。 - 若此为独立事件列,则
$$
\sum_{k=1}^{+\infty} P(A_k) = +\infty \Longrightarrow P(A_k \text{i.o.}) = 1
$$
(Proof)第一点,
$$
P\{\bigcap_{n=1}^{+\infty} \bigcup_{k=n}^{+\infty} A_k\}
\le P\{\bigcup_{k=n}^{+\infty} A_k\} \le \sum_{k=n}^{+\infty} P(A_k) \rightarrow 0
$$
第二点,记 \(B_n = \sup_{k \ge n} A_k = \bigcup_{k=n} A_k \)。注意到
$$
P(\bigcap_{k=n}^{+\infty} \overline{A_k}) = \prod_{k \ge n} [1-P(A_k)] \le e^{-\sum_{k \ge n} P(A_k)} = 0
$$
因此对每个 \(B_n\),
$$
P(B_n) = 1 - P(\bigcap_{k=n}^{+\infty} \overline{A_k}) = 1
$$
得证。
(Kolmogorov 0-1 律)尾事件 A 的概率为 0 或 1。
证明很简单,由尾事件定义可以推出 A 与 A 独立,从而就有
$$
P(A) = P(A)^2
$$
(竣工牌)
Comments | NOTHING