1. 中心极限定理
大数定律说明平均值与期望值之间的偏差小于任意给定正的常数的概率趋于1,如果有方差有限的条件,会有更精确的结果
1.1 林德博格-勒维Lindeberg-Levy
中心极限定理:设\({x_n}\)是独立同分布的随机变量序列,若期望\(E(X_1) = \mu\),方差\(Var(X_1) = \sigma^2\),则对每一个固定的y有
\[\lim\limits_{n \to \infty}{P(\frac{X_1 + X_2 + … + X_n - n\mu}{\sigma\sqrt{n}} \leq y)} = \Phi(y) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{-\frac{t^2}{2}}\mathrm{d}\boldsymbol(t)\]
实际上,对于独立同分布的随机变量序列\({X_n}\),则
\[X_1 + X_2 + … + X_n \sim N(E(X_1 + X_2 + … + X_n), Var(X_1 + X_2 + … + X_n))\]
\[E(X_1 + X_2 + … + X_n) = n\mu, Var(X_1 + X_2 + … + X_n) = n \sigma^2\]
\[X_1 + X_2 + … + X_n \sim N(n\mu, n\sigma^2)\]
标准化得:\(\frac{X_1 + X_2 + … + X_n - n\mu}{\sqrt{n}\sigma} \sim N(0,1)\)
1.2 棣莫弗 - 拉普拉斯定理
若\(X \sim B(n, p)\),则对任何两个常数a和b,\(-\infty < a < b < +\infty\)
\[\lim\limits_{n \to \infty}{P(a < \frac{X - np}{\sqrt{np(1-p)}} < b)} = \int_{a}^{b}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\mathrm{d}\boldsymbol(x)\]
即\(n\rightarrow\infty\)时,\(X \sim N(np, np(1-p))\)。
考虑n个独立的0-1随机变量\(X_k \sim B(1,p), k = 1,…,n\),则\(X = X_1 + X2 + … + X_n\)
\(E(X_k) = p, Var(X_k) = p(1-p)\),所以\(X \sim N(np,np(1-p))\)
2. 大数定律与中心极限定理的应用
2.1 蒙特卡洛(Monte Carlo)算法
计算机出现以后,利用概率模型近似计算的方法,其理论基础是大数定律
2.2 伪随机数和随机模拟
目前人们广泛采用的伪随机数生成算法大约是2000年左右提出的
设随机变量U服从[0, 1]上的均匀分布,函数\(F\)为定义在实数集合\(R\)的连续单调递增函数,且对任何\(x \in R\)有\(F(-\infty) = 0 \leq F(x) \leq 1 = F(+\infty)\)。则随机变量\(X = F^{-1}(U)的概率分布为F(x)\)
3.参数的区间估计
3.1 大样本置信区间
样本容量足够大时,根据中心极限定理可以利用渐近正态分布构造置信区间
3.1.1 贝伦斯-费舍尔(Behrens-Fisher)问题
样本\(X_1, … , X_m\)来自正态总体\(N(\mu_1, \sigma_1^2)\),样本\(Y_1, …, Y_n\)来自正态总体\(N(\mu_2, \sigma_2^2)\),\(\mu_1\)、\(\mu_2\)未知,\(\sigma_1^2\)、\(\sigma_2^2\)未知,且假设这两个样本相互独立,求\(\mu_1 - \mu_2\)的\(1-\alpha\)置信区间
\[\bar{X} \sim N(\mu_1, \frac{\sigma_1^2}{m})\]
\[\bar{Y} \sim N(\mu_2, \frac{\sigma_2^2}{n})\]
\[\bar{X} - \bar{Y} \sim N(\mu_1 - \mu_2, \frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n})\]
\[\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}}} \sim N(0, 1)\]
由于\(\sigma_1^2\)和\(\sigma_2^2\)未知,因此这个标准正态分布的构造不能直接用来做枢轴量
当m和n较大时,\(S_x^2 \approx \sigma_1^2,S_y^2 \approx \sigma_2^2\),有如下近似
\[\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{S_x^2}{m} + \frac{S_y^2}{n}}} \sim N(0, 1)\]
以此作为枢轴量,可以得到\(\mu_2 - \mu_1\)的\(1 - \alpha\)置信水平的近似区间估计
\[[\bar{X} - \bar{Y} - \mu_{1 - \frac{\alpha}{2}}\sqrt{\frac{S_x^2}{m} + \frac{S_y^2}{n}}, \bar{X} - \bar{Y} + \mu_{1 - \frac{\alpha}{2}}\sqrt{\frac{S_x^2}{m} + \frac{S_y^2}{n}}]\]