抽样调查是获得不同时间,不同范围某方面信息最具成本效益的方法,其理论和应用在近70年取得到了明显的进展[1]。大多数调查不仅要求获得整个研究总体的估计量,也要求得到某些子总体的估计量。抽样理论中把这些子总体称之为域(domains)或子域(subdomains),如地理区域或者社会人口统计学分组或者其他一些子总体。如果域样本量足够大,可以进行足够精度的估计,就认为此域是大区域(large areas)。不过,当域样本量很小,甚至某些域样本量为0时,估计量会极不稳定,不大可能提供可靠的统计学推断。文献里把域或样本量较小或为0的子总体称为小区域(small areas)。
近年来,对可靠小区域统计量的需求大大增加,因为在制订政策、拟定计划、分配资金和区域规划时日益增加了对小区域统计量的应用。获得有效的小区域估计量多年来一直是统计学深入研究的重点。已经提出了许多的小区域估计方法,大致可分两类:直接估计和间接估计。其中每类又包括了基于设计和基于模型这两种方法。现将常用的小区域估计方法综述如下(不包括方差及均方误MSE估计)。
1 直接估计(direct estimation)
抽样调查中,仅仅基于特定域样本数据进行的域估计称为“直接”估计。直接估计也可以利用已知辅助信息,如与研究变量y 有关的辅助变量 x的总数。直接估计一般“基于设计”(designbased),但也可以“基于模型”(modelbased)。
1.1 基于设计方法
基于设计的估计方法使用调查权重,相关推断则基于在总体值固定的情况下抽样设计所服从的概率分布。在考虑了与小区域估计有关的调查设计问题之后,有时,直接估计方法就足够了。
1.1.1 扩展估计(expansion estimation)
1959年Hartley[2]提出了适用于任何设计的域估计简单、统一的理论,只要求总数估计及其方差估计的标准公式。假设Ui 表示有关的域(或子总体), Ui里的个体数Ni 已知或者未知,把域总数Yi 写成运算形式Y(yi) 并定义:
yij=yi 如果 j∈Ui ,0 其它
aij=1 如果 j∈Ui ,0 其它 域总数的扩展估计量为:
i=(yi)=j∈swjyij=j∈siwjyj(1)
其中si 表示属于域Ui 的样本个体。调查权重wj=1/πj , πj 是观察个体j 的抽样概率。域均数i=Yi / Ni=Y(yi) / Y(ai) 的估计量为:
i^=(yi)(ai)=ii (2)
如果yi 是0或1变量,则i^ 简化成域概率Pi 的估计量i 。
1.1.2 广义回归(GREG)估计
“模型辅助”(modelassisted)的直接估计也是基于设计的,目的是在模型定义可能错误的情况下,使得推断“稳健”。例如,使用域特定辅助向量Xi 的广义回归估计。
假设总数Xi=(Xi1,…,Xip)T=Y(xi) 已知,其中若j∈Ui ,则xij=xj ,否则xij=0 。在此情况下,Yi 的GREG估计量为:YiGR=j∈swijyij(3)
其中wij=wjgij 且gij=1+(Xi-i)Tj∈swjxijxTij/ cj-1 xij/ cj j(>0) 是特定常数。
(一)在单一辅助变量x 且域总数Xi 已知的特殊情况下,设定cj=xj 得到比估计量为:YiR=ii Xi(4)
(二)如果特定域事后分层格子计数Nig 已知,则根据GREG估计量,事后分层格子计数(PS/C )估计量为:
YiPS/C=gNigig ig (5) 其中ig=sigwj, ig=sigwj yj
(三)如果辅助变量x 的格子计数总数Xig 已知,则使用事后分层比(SP/R )估计量:YiPS/R=gXigig ig(6)其中 ig=sigwj xj
基于设计(或概率抽样)方法一直备受非议,因为虽然无假设前提,但相关推断是参照重复抽样而不是已抽中的特定样本s 。
1.2 基于模型的方法
1939年Cochran[3]引出了超总体(superpopulation)的概念:“有限总体本身就可以看作是某无限总体的一个随机样本”。基于模型的推断方法假设总体结构遵从一个特定的超总体模型。由假设模型导出的分布提供了所抽中特定样本的相关推断。
基于模型的方法已被用来研究直接估计及其相关推断,包括线性模型、非线性模型及随机效应模型。就已抽中的特定样本而言,这些方法提供了真实有效的条件推断,而不用考虑抽样设计[4~6]。但是,在模型定义错误的情况下,随着域样本量的增大,基于模型的方法可能很差。例如,Hansen,Madow和Tepping[7]介绍了一个定义错误的模型,此模型用样本量为400的显著性检验仍然不能检测,后来证明重复抽样包含了基于模型总体均数 置信区间的概率远远低于理想水准,样本量减小时,概率更低。造成该情况的原因是相对于Hansen等所使用的分层随机抽样设计,基于模型估计的设计渐进不一致性。
不过,基于模型的方法在小区域估计中可能起重要作用,因为小区域(或域)的样本量可能很小,甚至为0。
2 间接估计(indirect estimation)
要以足够的精度对小区域进行估计,就有必要使用“间接”估计,即通过研究变量的取值从相关区域或时间间隔“借用信息”(strength or information)以增加“有效”样本量[8~10]。与y 相关的辅助信息是通过连接了相关区域或时间间隔的显式或隐式模型而引入估计过程的。
2.1 基于设计的方法
基于隐式连接模型的传统间接估计包括综合估计和复合估计。这些估计一般都是基于设计,其设计方差(与抽样设计所服从的概率分布有关的方差)一般小于直接估计的设计方差。不过,间接估计一般都是设计有偏,其偏倚不会随总体样本量的增加而有所减少。如果隐式连接模型近似为真,设计偏倚就小,其设计均方误(MSE)明显小于直接估计量的MSE。减小MSE才是使用间接估计量的主要原因。
2.1.1 综合估计
如果大区域包含了几个小区域且其特征相同,则使用可靠的大区域直接估计作为小区域的间接估计就称之为综合估计[11]。1968年美国国立卫生统计中心开拓性地使用综合估计法来估计美国国家卫生访谈调查(NHIS)中各州残疾失能情况和其他一些健康特征[12]。
(一)假设得不到人口辅助信息但又要估计小区域均数i ,此种情况下i 的综合估计量为: ^iS=^= (7)
其中^ 是整个总体均数 的直接估计量,=s wjyj , =s wj 。^iS 的设计偏倚(p偏倚)近似为-i ,相对于i 而言,如果i≈ ,偏倚就较小。因此如果小区域均数近似等于总体均数这一隐式模型满足的话,综合估计就非常有效,因为其MSN很小。
(二)如果可以获得形如已知总数Xi 这样的域特定辅助信息,那么就可以使用回归综合估计量XTi 来估计域总数Yi :iGRS=XTi。 (8)
iGRS 的p 偏倚近似等于XTiB-Yi ,其中B=(UxjxTj / cj)-1(Uxjyj / cj) 是总体回归系数。如果特定域的回归系数Bi=(UixjxTj / cj)-1(Ujxjyj / cj) 逼近B 且Yi=XTiBi ,则p 偏倚相对较小。因此,当小区域i对回归系数的单独影响不很强时,综合回归估计就很有效。
(三)如果辅助变量为单变量x ,比综合估计量iRS 就是综合回归估计量iGRS 的特例。若已知特定域事后分层计数Nig (g=1,…,G ),计数综合估计量iS/C 就是iGRS 的特例。更一般而言,如果已知辅助变量的格子总计数Xig 就可得到比综合估计量。
2.1.2 复合估计
均衡综合估计量(如i2 )的潜在偏倚和直接估计量(如i1 )的不稳定性的一个简单方法是对i1 和i2 进行加权平均。选定了合适权重fi (0#fi 1 )后,小区域总数Yi 的复合估计量可表示为:iC=fii1+(1-fi)i2 (9)
(一)最优估计 使(9)式MSE最小化求得的近似最优权重为:f*i= MSEp(i2) / MSEp(i1) +MSEp(i2)
近似最优权重f*i 的范围为[0,1] 。
实际应用中,要么预先猜测最优值f*i ,要么根据样本数据估计f*i 。假设直接估计量i1 设计无偏或者总体样本量增加时近似设计无偏,使用mse(i2)≈(i2-i1)2-v(i1) 估计最优权重。用mse(i2) 替换分子MSEp(i2) ,用(i2-i1)2 替换分母 MSEp(i1)+MSEp(i2): *i=mse(i2)(i2-i1)2(10)
不过f*i 的这一估计量可能极不稳定。解决方法之一是对好几个变量或者“相似”区域或者两种情况的权重估计值*i 取平均值。根据对偏离最优权重的不敏感性,所得到的复合估计量应当表现良好。
(二)样本大小依赖估计(Sample Size Dependent,SSD) 是权重fi 只依赖于域计数i 和Ni 或者辅助变量域总数i 和Xi 的复合估计。设计这些估计量最初用来处理期望样本量足够大的域,使得只要已实现的样本量超过了期望样本量,直接估计量就满足可靠性的要求[13]。
使用权重:fi=1 如果i / 3 d i / (dNi) 如果i /
其中i=siwj 是Ni 的直接扩展估计量而d 主观选定借以控制综合估计量的作用。 i 随域样本量的增大而增大。(11)式中以i / Xi 替换i / Ni 求fi 是另一种选择,通常选定d=1 。
2.2 基于模型的方法
目前,在间接估计量的研究中,一般认为需要使用显式模型。该模型通过辅助信息把不同的小区域连接起来,并通过小区域随机效应来说明域与域之间的残差变异。小区域模型可以划分为两大类:①把小区域直接估计量和特定区域协变量关联起来的区域水平模型。如果不能获得个体水平的数据,此类模型是必要的。②把研究变量的个体取值和特定个体协变量关联起来的个体水平模型。
数理统计理论中所使用的许多随机效应方法都与小区域估计相关,包括经验贝叶斯(Empirical Bayes,EB),经验最优线性无偏预测(Empirical Best Linear Unbiased Prediction,EBLUP)以及基于模型参数先验分布的等级贝叶斯(Hierarchical Bayes,HB)。Rao[14]全面叙述了这些方法。EBLUP适用于连续性应变量 的线性混合模型,SAS[15]软件中的MIXED过程步可用于实现EBLUP方法。而EB和HB一般来说更有效。目前,HB方法广泛用于小区域估计,因为此法直接,推断“精确”并且运用马尔科夫链蒙特卡罗(MCMC)方法可以处理复杂的问题。免费软件包BUGS[16](使用Gibbs抽样的贝叶斯推断)可实现HB方法。