2008年4月22日星期二

Fwd: 预测模型中的自变量共线性问题



---------- Forwarded message ----------
From: iNeZha.com <noreply@inezha.com>
Date: 2008/4/21
Subject: 预测模型中的自变量共线性问题
To: brucezou <oskyline@gmail.com>


If you can't read this mail, please click: http://iNezha.com
Mon, Apr 21, 2008
预测模型中的自变量共线性问题(Sun, 20 Apr 2008 20:39:19 GMT+8)

moyi @ 2008-04-17:

庄主:请问一下,如果自变量间存在不完全共线性能用多元回归建模吗?我是做预测的,实际上自变量间完全无关的情况很少吧?我看见很多文章都是不考虑自变量间的关系直接用多元回归的,这样可以吗?

庄主 @ 2008-04-19:

这里涉及的两个基本问题:一是多元回归中自变量之间的共线性问题;二是数据导向的预测性研究与理论导向的解释性研究之异同。你的真正兴趣是在后者、但大多数读者可能对前者更有兴趣,所以我分别讨论之。

共线性 (multicollinearity) 指多元回归模型中各自变量之中至少有两个完全或高度相关。自变量之间完全相关的情况很少见,一般是因为一个自变量是另一个自变量的线性转换值。而且,SPSS或任何其它统计程序无法执行带有完全相关的自变量的回归分析,会自动将其中一个剔除掉,所以自变量完全线性相关不是一个现实问题。相比之下,各自变量高度相关的情况更为常见,尤其是总体层面的数据中。如,国际传播学者常用的世界银行或联合国教科文组织发布的国家层面数据,各变量(如GDP与其它经济、社会和文化指标)之间往往有很高的相关。

自变量之间的高度相关,不会影响它们的回归系数之大小、但会扩大回归系数相对应的标准误差 (standard errors)。大家知道,回归系数除以标准误差的比值,就是检验该回归系数是否显著的t值。如果标准误差被人为扩大了、其t值也就被人为缩小了,从而导致回归系数达不到统计显著,无法拒绝一个错误的零假设(也就是Type II error)。另外,自变量之间的极高度相关,有时会导致有关回归系数的正负方向与其实情况相反,可以想像这种情况有多么烦人。

moyi说的对,除了控制实验的数据之外,自变量之间完全无关的情况很少见。那么,自变量之间的相关达到什么程度,会出现以上各种问题呢?统计学家中对此没有完全统一的意见。保守的学者认为相关系数不能超过0.7;自由派的则认为可以放宽到0.9(见以下讨论)。但是,大家也许知道,相关系数不是一个独立的参数,而是需要与样本大小、各自变量与共同因变量之间的相关程度等因素放在一起考虑。样本越小、或自变量与因变量之间相关越低,自变量之间的相关程度就越不能过高。反之亦然。

如果你希望知道自己数据中自变量之间的共线性程度,SPSS(以及其它统计软件)的回归分析程序会替你计算并显示与每个自变量相对应的两个参数:Tolerance和VIF (variance inflation factor)。Tolerance = 1 - R2, 其中R2是以该自变量(如X1)为因变量、以其它所有自变量(如X2-X10)为自变量的回归方程的R2值,即反映X1与X2-X10的相关(或共线性)程度。显然,R2越大,Tolerance也就越小。一般认为,Tolerance不应小于0.2,也就是说R2不应大于0.8、其根号R(X1与X2-X10)的相关系数不应大于0.9。 VIF则是Tolerance的倒数。因此,R2越大、即Tolerance越小、而VIF越大(variance inflation不 就是标准误差被灌了水的意思吗?)。如果Tolerance不能小于0.2,其倒数VIF就不能大于5。

下表是从John Fox (1991)中抄来的。其中R、Tolerance、VIF的定义已在上面介绍过。最后一列反映的是某自变量与其它自变量的相关程度对该自变量回归系数(b)的标准误差(SE)的影响。当相关系数R = 0时、该影响为1(即SE等于原来的值),而当R = 0.75时,SE已经被放大50%;而当R = 0.87时,SE被放大了100%。因此,R = 0.87 (或简约成0.9)则被认为是高度相关的上限。

R Tolerance VIF Impact on SEb
0.00 1.00 1.00 1.00
0.40 0.84 1.19 1.09
0.60 0.64 1.56 1.25
0.75 0.44 2.25 1.50
0.80 0.36 2.78 1.67
0.87 0.25 4.00 2.00
0.90 0.19 5.26 2.29

数据导向的预测模型 (data-driven predictive models) 主要用在经济学中,其它社会科学研究更多使用的是理论导向的解释模型(theory-driven explanatory models)。在我们今天讨论的范畴中,两者之间的主要区别在于对回归模型结果的要求不同。前者追求的是模型拟合度(goodness of fit,以R2为指标)的最大化。这里的假定是:R2越大,模型对已有数据(即"训练集")的拟合越好,因此也越可能(注意:"可能"就是其中的假定)预测将来数据("测试集")的取值。大家知道,R2的大小与自变量的个数有一定关系。将尽可能多的自变量引入预测模型,是提高R2的一种常见策略。至于这些自变量之间是否高度相关,并不需要关心和担心。因为自变量之间的共线性只会影响回归系数的标准误差、显著度及方向,并不影响其系数本身。而预测模型只需用到系数大小的信息就够了。

而此推论,moyi的问题(如果只做预测,是否可以不管自变量之间的共线性),答案一般说来是对的。当然,既然我用了"一般"这个词,就隐含事情总是(也许往往)有例外。这里的例外,一是取决于你的训练集数据的质量(如样本大小、自变量个数、自变量与因变量的关系强度等)、二是取决与训练集数据与测试集数据之间的相似性(时间上是否靠近、外部条件是否一致等)。如果训练集数据质量不高、或与测试集数据相差较大,那么自变量之间的共线性问题还是值得关注的,因为这种数据训练出来的模型并不稳定。

最后说一下共线性与解释性模型的关系。解释性模型是大部分社会科学的家常菜。这里,研究者追求的不是模型拟合度的极大化(当然不能太差,如R2小于10%),而是每个回归系数的四个特征:显著性、影响方向、影响强度、关系形式(线性还是非线性)(具体参见前文"解释变量关系时必须考虑的四个问题")。? 如上所说,自变量共线性会直接改变这四者中的前两者,所以做解释研究的社会科学家,一定要时时处处提防自变量共线性问题。

引用文献?

Fox, J. (1991). Regression Diagnostics. Thousand Oaks, CA: Sage Publications.

Copyright 2007 inezha.com All Rights Reserved. About inezha | Terms of Service | Privacy Policy | Usage Help



--
Cheers
Bruce

没有评论: