1. 回归分析
1.1 回归分析的概念
1.1.1 回归分析、相关分析与方差分析的异同
都是研究变量之间的关系的,这些变量可以是随机的,也可以是非随机的,但不能全部为非随机,不同之处在于:
- 回归分析着重在寻求变量之间近似的函数关系
- 相关分析致力于寻求一些数量性的指标,以刻画有关变量之间关系深浅的程度
- 方差分析着重考虑一个或一些变量对特定变量的影响有无及大小,其方法是基于样本方差的分解而得名
1.1.2 定义
设在一个问题中有因变量\(Y\)及自变量\(X_1, …, X_p\),可以设想Y的值由两部分构成:一部分由\(X_1, …, X_p\)的影响所致,这一部分表为\(X_1, …, X_p\)的函数形式\(f(X_1, …, X_p)\),另一部分则由其他众多未加考虑的因素,包括随机因素的影响所致,它可视为一种随机误差,记为\(e\),得到模型
\[Y = f(X_1, …, X_p) + e.\]
e为随机误差,要求其均值为0,即
\[E(e) = 0.\]
于是得到:\(f(X_1, …, X_p)\)就是在给定了自变量\(X_1, …, X_p\)的值的条件下,因变量\(Y\)的条件期望值,可写为
\[f(X_1, …, X_p) = E(Y | X_1, …, X_p)\]
函数\(f(x_1, …, x_p)\)称为\(Y\)对\(X_1, …, X_p\)的回归函数,而方程
\[f(x_1, …, x_p)\]
则称为\(Y\)对\(X_1, …, X_p\)的回归方程,有时在回归函数和回归方程之前加上“理论”二字,以表示其直接来自模型,也可以说是模型的一个组成部分,而由数据估计所得,后者称为“经验回归函数”和“经验回归方程”
设\(\xi\)为一随机变量,即\(E(\xi - c)^2\)作为\(c\)的函数,在\(c = E(\xi)\)处达到最小,由这个性质,可以怼理论回归函数\(f(x_1, …, x_p)\)做如下解释:如果我们只掌握了因素\(X_1, …, X_p\),而希望利用它们的值以尽可能好地逼近\(Y\)的值,则在均方误差最小的意义下,以使用理论回归函数为最好。
1.1.3 非参数回归与参数回归
实际问题中,理论回归函数一般是未知的,统计回归分析的任务,就是根据\(X_1, …, X_p\)和\(Y\)的观察值,去估计这个函数,以及讨论与此有关的种种统计推断问题,如假设检验问题和区间估计问题,所用方法,在相当大的程度上取决于模型中的假定,也就是对回归函数\(f\)及随机误差\(e\)所做的假定。
对于回归函数\(f\),一种情况是对\(f\)的数学形式并无特殊的假定,这种情况称为非参数回归;另一种情况,是假定\(f\)的数学形式已知,只是其中若干个参数未知,需要通过观察值去估计,这种情况称为参数回归
1.1.4 线性回归
参数回归在应用上最重要且理论上发展得最完善的特例,是\(f\)为线性函数的情形:
\[f(x_1, …, x_p) = b_0 + b_{1}x_1 + … + b_{p}x_p\]
这种情况称为线性回归,是今后讨论的主要对象,其限制看似较强,不过若自变量变化的范围不太大,而曲面\(y = f(x_1, …, x_p)\)弯曲的程度也不过分,则在该较小的范围内,它可以近似地用一个平面(即线性函数)去代替,而不致引起过大的误差,其次有些形式上看似非线性的回归函数,可能通过自变量的代换转化为线性的。
1.1.5 随机误差\(e\)的方差\(\sigma^2\)
对随机误差\(e\),已假定其均值\(E(e) = 0\),\(e\)的方差\(\sigma^2\)是回归模型的一个重要参数,因为
\[E[Y - f(X_1, …, X_p)]^2 = E(e^2) = Var(e) = \sigma^2,\]
\(\sigma^2\)越小,用\(f(X_1, …, X_p)\)逼近\(Y\)所导致的均方误差就越小,回归方程也就越有用,\(\sigma^2\)的大小由以下两点决定:
- 在选择自变量时,是否把对因变量\(Y\)有重要影响的那些都收进来了,如果是这样,则未被考虑的即作为随机误差去处理的那些因素,总的起作用就较小,因而\(\sigma^2\)也就会较小;反之,若遗漏了,或因条件关系,使某些对\(Y\)有重要影响的因素未被考虑,则其影响进入随机误差\(e\),将导致\(\sigma^2\)增大
- 回归函数的形式是否选得准
在实用回归分析中,常假定误差服从正态分布,经验证明,对多数应用问题来说,这个假定是可以接受的,如果没有这个假定,则需要使用大样本方法
1.1.6 回归分析的应用
- 纯描述性的,只是对数据的一种总结,只涉及现有数据,不超出其外,用统计的语言来说,它并不企图对数据\((X_1, Y_1), … , (X_n, Y_n)\)所来自的总体做任何推断
- 估计回归函数\(f\)
- 预测,即在特定的自变量\((x_10, … ,
x_{p0})\)之下,去预测因变量\(Y\)将取的值\(y_0\)
- 预测问题与回归函数虽然在实际上很不一样,但两者的解则一样
- 预测的精度要比估计回归函数的精度差,因为在预测中,除了估计回归函数有一个误差外,还要再加上一个随机误差\(e_0\)
- 控制,在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,目标是把输出值控制在给定的水平\(y_0\),若通过数据估计出了经验回归方程\(y = \hat{f}(x_1, …, x_n)\),则根据这方程可调整自变量\(X_1, …, X_p\)的取值,以达到上述目的
1.2 一元线性回归
1.3 多元线性回归
2. 相关分析
3. 方差分析
4. 卡方分布
5. 参考内容
- 陈希孺,《概率论与数理统计》,中国科学技术大学出版社,2009年2月第1版