服务热线
400-115-2002
(三)样本容量(续)
下列程序用于抽取n=5名实地访问员的简单随机样本。因为N=15,所以使用两位的随机数。在随机数表中我们选择介于0.1至15之间的五个不同的数。等于00或大于15的数以及任何重复的数字都不要。从随机数表中我们发现第一个满足这些条件的两位数是12,随后是04,01,06和11。
抽取样本后(见表6-1),你,初级分析员,开始估计每天完成访问数的平均值和方差。注意到总体的有限性和n/N>20%,你决定使用fpc“修正的”方差公式。应用表达式(6-1)和(6-5)产生下列结果:
在这一点上,你已拥有决定满足所需精确水平的样本容量所需的所有信息。
因为不可能对0.16个访问员进行抽样,92也不能提供足够的精确度。在这个情况下,你决定在目标样本中包括93名访问员。
用百分比决定样本容量的公式为
当p=50%时,所取最大值,当及r为一定时,所需样本容量n*最大。实际原因是,当p=50%时,一半的受访者持一种观点,另一半受访者持另一种相反的观点,这时样本的变异性最大,为了在相同的置信水平(可靠性系数)上获取相同的精确度(可接受相对容许水平),必须加大样本容量。当p=0或p=100%时,变异性为0,所需样本容量最小,理论上只需一个样本元素即可代表整个总体。
我们在第一节曾谈到容量不超过2000的样本就可以令人满意地代表几乎无限大的总体。以美国的全国性民意测验为例。它们所代表的总体可以认为是无限大。大多数全国性民意测试宣称±3%的精确度。使用95%的置信水平( ),假设变异性最大(p=50%),这个计算将是
换言之,如果这些全国性测验在95%置信水平上要达到±3%的精确度,它们将需要1067的样本容量(或者大的1100名受访者)。
如果市场研究人员希望在他或她的估计值中达到99%的置信水平( )又会如何呢?计算如下:
这样,如果一项调查在99%的置信水平上要达到±3%的精确度,它将需要1850的样本容量,假设存在最大的变异性(50%)。
2.分层抽样下的样本容量
在定义分层随机抽样下总体特征的估计时,我们使用和简单随机抽样中相同的符号。下面所有的公式都只用于分层随机抽样下对总体平均值的估计。
设想一个包括N个元素的总体,该总体分为H个互斥和尽举的层。让N1,N2,…,NH代表每一个层中元素的数目,或者说,分总体的大小。因为整个总体(N)被分为H层,所以N=N1+N2+……+NH。从每一个层中选择的样本容量表示为nn,则n=∑ni,这里n是总的样本容量。后面我们还将讨论给定总的样本容量(n)在两类分配原则下如何决定每个层中的样本容量(nn)。
在分层随机抽样下,在整个目标总体中与一特征相关的平均值和抽样误差可以估计如下:
最重要的是,从公式(6-12)和(6-13)我们看出,分层抽样下对平均值的标准误的估计仅取决于层内变异性。换句话说,存在于不同的层之间的差异性没有进入整个分层样本的标准误的计算。而标准误代表抽样误差,所以相对于简单随机抽样,分层样本抽样误差更少,精确度更高。
当我们在一个规定的置信水平上在一个规定的误差限制内估计总体平均值时,我们能够估计样本容量。在简单随机抽样中,在目标总体中测量的特征的预期方差必须已知;对于分层随机抽样,所有层的层内方差的估计值也必须已知。
分层随机抽样下的样本容量公式如下
例
假设保存有所有店内促销研究最近五年的记录。例行记录的信息是(1)测试品牌的产品类别,(2)数量,(3)货架空间分配,(4)促销活动,(5)测试位置。表6-2给出了关于位于布法罗(层1),辛辛那提(层),堪萨斯城(层3),明尼阿波利斯(层4)和菲尼克斯(层5)试验市场的250家商家售出数量分布的信息。初级分析员决定使用这些信息为将在这些地区执行的受控产店促销试验编制计划。根据历史记录,在未来的促销试验中售出数量的预期平均数将可能是
为了计算分层随机抽样下保证估计的售出数量平均数处于实际平均数20%的范围内所需的商店数,需要知道的预期值,使用表6-2和关系(6-16),初级分析员计算层内方差的加权平均数是
所以初级分析员计划抽取146家商店的样本。
分层抽样中的一个重要决定是,在对所有层总共抽样n个元素的约束下,从每个层中抽样的元素数。在实际中,两个程序用于在H个层中分配全部样本容量n。一个程序,比例分配,保证分层随机抽样至少有简单随机抽样的效率。另一个程序,最优分配或非比例分配,对于一个固定的样本容量n和事先确定的层数使估计的总体参数的标准误最小,尽管它比比例分配更难应用。
在这一部分我们演示这两种程序。我们将我们的讨论限制在分层随机抽样,这样,不管何种分配程序,一旦元素数nn已确定,简单随机抽样程序就用于从每一层中选择元素。
比例分配
在比例分配中,从层h中选择的元素数与该层中的总体大小成比例。换句话说,对于比例分配,抽样比fn=nn/Nn对所有的层都是恒定的,这一点的必然结果是整体的抽样比十二n/N就是每一层的抽样比。在这一分配程序下,从每一层中抽取的样本容量很容易计算,从每一层中抽取的元素数nn以下式给出
最优分配本质上涉及一个双重加权组合;从某一给定层中抽取的样本元素数与下列数值成比例:(1)层的相对大小,(2)该层中元素间所考虑的特征的分布的预期标准差()。这个双重加权程序的理论基础很简单。首先,容易是重要的,因为所含元素数多的层在决定总体平均值时更重要。第二,层的变异性也是重要的,因为如果所考虑的特征的分布在一特定层中有一个大的标准差,那么从该层中必须选择相对多的元素以获得层参数的可靠估计。从特征分布的标准差更小的层中必须选择更少的元素。
例
已决定抽样146家商店后,初级分析员下一步检查在比例和最优分配下样本如何在层间分配。
在比例分配下样本将如下分配给五个层:
如果使用最优分配,研究下特征的标准差的某种估计必须是可以得到的。使用表6-2中的信息和表达式(6-18),样本将如下在层间进行分配:
为了应用最优分配,我们需要知道,所考虑的变量的分布的标准差。在实际中,这很少是已知的。然而,有两种方法可以继续。
①基于以前调查了相似的抽样变量和使用了相似的分类变量的研究调查,取得——通过平均或某种其它方法——每一层内抽样变量的分布的标准差的估计。下一步,使用这些估计值计算从每层中抽取的元素的最优分配。
②从每个层中抽取一个小的“附属”样本。下一步,在附属样本的基础上计算抽样变量的抽样分布的标准差。使用,计算从每一层中抽取的元素的最优分配。作为预防性步骤,在假定的最优分配程序的基础上抽取样本后,需要检查样本的标准差,与附属样本的标准差对照。如果一致,继续。如果不一致,那么抽取另一附属样本继续前述相同程序。
- END -
您可能喜欢:
继续阅读与本文标签相同的文章:
没有更多评论内容了