• 1.66 MB
  • 2022-09-01 发布

《抽样推断统计学》PPT课件

  • 189页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第九章抽样估计一、抽样调查的概念又称为抽样推断,是指按照随机原则从总体中抽取部分样本单位进行调查,利用这部分单位的实际资料计算样本指标,并据以推算总体相应指标的一种统计方法。第一节 抽样调查的概念及作用\n抽样调查是一种非全面调查目的在于推断总体的数量特征3.抽样必须遵循随机原则4.抽样调查必然存在可控误差二、抽样调查的特点\n三、抽样调查的作用对于不可能进行全面调查,但又需要掌握其全面情况的现象,只能采取抽样调查的方式。2.对于理论上存在全面调查的可能性,但实际中却不可能进行或经济上不合算或资料的质量无法保证的现象,只能采用抽样调查。3.对于某些时效性要求较高的调查,往往采用抽样的形式。4.抽样调查能满足经济性的要求。5.抽样调查可以补充和修正全面调查的结果\n1.全及总体:也称母体,简称总体,指所要认识的研究对象全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。2.样本总体:又称子样,是从总体中抽取出来,作为代表这一总体的那部分单位组成的集合体。第二节 抽样推断的一般问题一、总体与样本\n1.参数:反映总体某种属性的综合指标。是根据总体各个单位的标志值或标志属性计算的,所以参数的数据是由总体各单位标志值或标志特征决定的。2.统计量:是根据样本各单位标志值或标志属性计算的综合指标。在抽样调查中,总体参数的具体数值事先未知,需用样本统计量来估计。二、参数和统计量\n参数(总体指标):也称总体特征数,是说明总体数量特征或规律性的数字。(1)设总体单位数为N(2)∑X为标志总量(3)总体平均数为:(4)总体方差\n(5)总体标准差(6)P=M/N为总体成数总体成数方差、标准差。\n统计量(样本指标)(1)样本容量为n(2)∑x称为样本标志总量(3)样本平均数:(4)样本方差(5)样本标准差(6)p=m/n称为样本成数总体成数方差、标准差\n样本统计量总体未知参数样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量抽样分布样本统计量所有可能值的概率分布主要样本统计量平均数 比率(成数) 方差\n均值分布的数学期望和方差抽样方法均值方差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样抽样误差\n成数分布的数学期望和方差抽样方法均值方差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样根据中心极限定理,只要样本足够大,的分布就近似正态分布。(np和nq大于5时)抽样误差\n1.重复抽样和不重复抽样三、抽样方法和样本可能数目重复抽样:也称重置抽样。指从一个总体N个单位中每次抽取一个单位,把结果登记下来,又重新放回原总体,参加下一次抽取。不重复抽样:也称不重置抽样。指每次从一个样本中抽取一个单位,连续进行n次抽取构成一个样本,但每次抽出的单位就不放回参加下一次抽取。\n2.考虑顺序抽样和不考虑顺序抽样考虑顺序抽样:指从总体N个单位中抽取n个单位组成样本,不但要考虑样本各单位的性质是否相同,还要考虑不同性质各单位的中选顺序。不考虑顺序抽样:指从总体N个单位中抽取n个单位组成样本,只考虑样本各单位的成分如何,而不考虑各单位的中选顺序。\n3.把抽选方式和是否考虑样本中各单位的顺序结合起来的四种情况及其样本可能数目(M):1)考虑顺序的重复抽样2)考虑顺序的不重复抽样3)不考虑顺序的重复抽样4)不考虑顺序的不重复抽样\n1.大数定律及其重要意义四、抽样调查的数理基础大数定律:又称大数法则,是说明大量的随机现象的平均结果具有稳定性质的法则。说明如果被研究的总体数量特征是由大量的相互独立的随机变量形成的,而且每个变量对总体的影响都相对地小、那么对大量随机变量加以综合平均的结果,变量的个别影响相互抵消,而显现出他们共同作用的倾向,使总体数量特征具有稳定性。\n即:如果随机变量总体存在着有限的平均数和方差,则对于足够多的抽样单位数n,可以以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小,即对任意小的正数,有\n从理论上解释了样本与总体之间的内在联系,即随着样本单位数n的增加,样本平均数有接近于总体平均数的趋势,或说,样本平均数在概率上收敛于总体平均数。大数定律对于抽样推断的重要意义\n2.正态分布的有关定理若总体很大且服从正态分布,则从该总体中抽取容量为n的样本平均数也服从正态分布,且其平均数等于总体平均数,标准差(重复抽样)或(不重复抽样).而标准随机变量则服从标准正态分布N(0,1)(1)正态分布再生定理\n若总体很大且变量X的平均数和标准差都是有限的数,但不服从正态分布,只要样本足够大(n≥30),样本平均数的分布就趋近于正态分布,且有,标准差(重复抽样)或(不重复抽样)。而标准随机变量则服从标准正态分布N(0,1).(2)中心极限定理\n第三节 抽样推断的基本原理一、抽样估计的优良标准无偏性一致性有效性\n评价准则的数学期望等于总体参数,即该估计量称为无偏估计无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意则称是的一致估计。估计量\n二、抽样误差1.抽样误差的概念和意义抽样误差是指抽样指标与总体指标之间的离差。抽样误差不包括下面两类误差:①登记性误差:在调查过程中由于观察、测量、登记、计算上的差错而引起的误差。②系统性误差:由于违反抽样调查的随机原则,造成样本的代表性不足所引起的误差。\n2.抽样误差的影响因素①总体各单位标志值的变异程度。在其他条件不变的情况下,总体各单位标志值的变异程度愈大,抽样误差也愈大,反之则愈小。②样本单位数的多少。在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小,反之则愈大。③抽样方法。抽样方法不同,抽样误差也不同。一般,重复抽样的误差比不重复抽样的误差要大。④抽样的组织形式。不同的抽样组织形式,有不同的抽样误差。\n三、抽样平均误差1.抽样平均误差概念样本平均数(样本成数)对总体平均数(或总体成数)的标准差。表示样本平均数的平均误差,表示样本成数的平均误差,M表示样本可能数目。则:\n2.抽样平均误差的计算①当抽样方式为重复抽样时它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。②当抽样方式为不重复抽样时\n例:有5个工人的日产量分别为:6,8,10,12,14件,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平,则抽样平均误差为多少?解:总体均值:总体标准差:抽样平均误差:\n若用不重复抽样的方法:在计算抽样平均误差时,通常得不到总体标准差的数值,一般用样本标准差来代替总体标准差。\n根据样本平均误差和总体标准差的关系,可得到样本成数的平均误差的计算公式:1.在重复抽样下:2.在不重复抽样下:\n例:某企业生产的产品,按正常生产经验,合格率为90%。现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差。解:在重复抽样条件下:不重复抽样条件下:\n四、抽样极限误差抽样极限误差是指样本和总体指标之间误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕总体指标上下波动的,它与总体指标之间既有正离差,也有负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。也称作允许误差、误差范围、误差置信限。\n设Δx与Δp分别表示样本平均数与样本成数的抽样极限误差,则有:上述公式变换为不等式可表示成:\n抽样误差的概率度把极限误差除以相应的抽样平均误差,便得到数值Z,表示误差范围为抽样平均误差的Z倍。Z是测量估计可靠程度的一个参数,称为抽样误差的概率度。其公式为:\n抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。抽样时,估计抽样误差的范围大小称为抽样估计的精确程度;估计这一范围的概率是多少称为抽样估计的可靠程度。抽样误差范围增大时,抽样估计的置信度也大,抽样精确程度则降低,反之亦然。四、抽样估计的置信度\n由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。\n68.27%95.45%99.73%\n当z=1时,F(z)=68.27%当z=1.96时,F(z)=95%当z=2时,F(z)=95.45%当z=3时,F(z)=99.73%常用概率度Z值及相应的概率保证程度为:\n六、抽样推断的方法抽样推断的方法,即参数估计就是以所计算的样本指标来估计相应的总体指标。参数估计有点估计和区间估计两种形式。\n(一)点估计也称定值估计,即直接以抽样指标值代表总体指标的估计值。通常评选估计量优良有三个标准,即:*无偏性*有效性*一致性\n点估计的方法*矩估计法*顺序统计量法*最大似然法*最小二乘法\n点估计的缺点由于一次只随机抽取一个样本,因样本不同,估计值会有很大差异,因此一次只随机抽一个样本的点估计值不能恰当代表所要估计的总体参数,即点估计的主要缺点是没有解决参数估计的精确度与可靠性问题。\n(二)区间估计对于总体的未知指标X,根据样本构造的两个统计量x1、x2,(x1<x2),使随机区间(x1,x2)包含X的概率等于给定值1-α(0<α<1),即P(x1≤X≤x2)=1-α则称1-α为置信概率,也就是估计的可靠程度,也称为置信度。α为显著水平,(x1,x2)称为X的置信区间,x1,x2分别称为置信下限和置信上限。\n根据所给条件不同有两种方法:根据已给定的置信度的要求,利用概率表查出这个概率保证程度所对应的概率度Z,然后结合抽样所得的抽样平均误差,最后求出抽样误差可能范围(极限误差)。2.根据已给定的允许误差范围(极限误差Δ),然后结合抽样所得的平均误差,将极限误差Δ除以平均误差,求出概率度Z值,在从概率表中查出有关Z值所对应的置信度F(Z).\n1.总体平均数的区间估计表达式其中,为极限误差\n步骤⒈计算样本平均数;⒉搜集总体方差的经验数据;或计算样本标准差,即\n⒊计算抽样平均误差:重复抽样时:不重复抽样时:⒋计算抽样极限误差:⒌确定总体平均数的置信区间:\n【例A】某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求在95﹪的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。\n按日产量分组(件)组中值(件)工人数(人)110~114114~118118~122122~126126~130130~134134~138138~14211211612012412813213614037182321186433681221602852268823768165605887006489284648600784合计—100126004144100名工人的日产量分组资料\n解:\n则该企业工人人均产量及日总产量的置信区间为:即该企业工人人均产量在124.797至127.203件之间,其日总产量在124797至127303件之间,估计的可靠程度为95﹪。\n【例B】某乡水稻总面积20000亩,以不重置抽样方法从中随机抽取400亩实割实测求得样本平均亩产645公斤,标准差72.6公斤。要求极限误差不超过7.2公斤,试对该乡水稻的亩产和总产量作估计。\n第一步:计算抽样平均误差第二步:计算平均亩产和总产量的上下限亩产下限=645-7.2=637.8(公斤)亩产上限=645+7.2=652.2(公斤)\n第三步:计算概率度总产量下限=20000×637.8=1275.6(公斤)总产量上限=20000×652.2=1304.4(公斤)以95.45%保证该乡水稻平均亩产在637.8至652.2公斤之间,总产量在1275.6至1304.4万公斤之间。\n(二)总体成数的区间估计表达式其中,为极限误差\n步骤⒈计算样本成数;⒉搜集总体方差的经验数据;⒊计算抽样平均误差:重复抽样条件下不重复抽样条件下\n⒋计算抽样极限误差:⒌确定总体成数的置信区间:\n【例B】若例A中工人日产量在118件以上者为完成生产定额任务,要求在95﹪的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。\n按日产量分组(件)组中值(件)工人数(人)110~114114~118118~122122~126126~130130~134134~138138~142112116120124128132136140371823211864合计—100100名工人的日产量分组资料完成定额的人数幻灯片47\n解:\n则该企业全部工人中完成定额的工人比重及完成定额的工人总数的置信区间为:即该企业工人中完成定额的工人比重在0.8432至0.9568之间,完成定额的工人总数在843.2至956.8人之间,估计的可靠程度为95﹪。\n①保证抽选样本时按照随机原则进行。——抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位。②考虑样本合适的容量。③要兼顾抽样组织形式和抽样方法。④必须重视调查费用这个基本因素。——在其他条件相同的情况下,选择费用最少的方案。一、抽样方案设计的原则第四节抽样组织设计\n二、抽样方案的检查(一)准确性检查所谓准确性检查,看是否超过了方案所允许的误差的范围。若误差限小于或等于允许的误差,即:△x≤允许误差,则说明方案的设计符合准确性的要求,可以实施。若,△x>允许误差,则说明方案不符合准确性的要求,就要对方案进行检查和修正,直至符合准确性的要求为止。\n(二)代表性检查所谓代表性检查,是将方案中的样本指标与过去已掌握的总体同一指标进行对比,看其比率是否超过所规定的要求。\n㈠编制抽样框㈡确定抽样方法㈢确定抽样组织方式㈣确定样本容量三、抽样方案设计的主要内容\n(一)抽样框指包括全部抽样单位的名单框架或清单表,仅对有限总体而言总体单位名称表地段抽样框\n区域抽样框在商场的大门口在微波炉柜台前在某个住宅小区中山路…桥西区桥东区… 华北地区东北地区居民一组 居民二组…某公司在大连进行微波炉市场调查:在市区街道旁边\n(二)确定抽样方法重复抽样又被称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行。\n不重复抽样又被称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行。是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。\n1.简单随机抽样简单抽样也称纯随机抽样,是在总体单位均匀混合的情况下,按随机原则逐个抽出样本的抽样方法。比较适合于在总体单位标志变异较小,总体单位数不是很多的情况。(三)确定抽样组织方式\n①计算样本平均数②计算样本标准差③计算抽样平均误差(重复)(不重复)④推断。若已知置信度,对置信区间作出推断;若已知允许误差范围,对置信度作出判断。简单随机抽样推断步骤(1)总体平均数的推断\n①计算样本成数②计算抽样成数方差③计算成数抽样平均误差(重复);(不重复)④推断。若已知置信度,对置信区间作出推断;若已知允许误差范围,对置信度作出判断。(2)总体成数的推断\n①重复抽样②不重复抽样必要抽样数目的确定(1)样本平均数给定时必要抽样数目的确定计算结果通常向上进位\n【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45﹪的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?\n解:\n①重复抽样②不重复抽样(2)样本成数给定时必要抽样数目的确定\n【例B】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93﹪、95﹪、96﹪,为了使合格率的允许误差不超过3﹪,在99.73﹪的概率保证程度下,应抽查多少件产品?【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93﹪。\n解:\n2.类型抽样类型抽样又称分层抽样,是指在抽样之前,先将总体依照某种标准划分为若干互不重叠且穷尽的子总体,即每个单位必属于且仅属于一个子总体,称这些子总体为类或层,然后,在各层中独立抽取样本单位,总体样本由各层样本组成,根据各层样本汇总对总体参数作出估计。这种方式应用最为广泛。\n类型抽样能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标。总体N样本n等额抽取等比例抽取······\n类型抽样分组是要遵循的原则①层内的齐一性,即被划入同一层的个体单位要尽可能的近似。②层间的差距性,即在不同层内的单位尽可能使其有较大的差异。\n类型抽样的估计量和推断步骤(1)类型抽样的估计量①抽样误差的确定重复抽样下:样本平均数的平均误差:其中,\n样本成数的平均误差:其中,不重复抽样下:样本平均数的平均误差:样本成数的平均误差:\n②必要抽样数目的确定重复抽样下:样本平均数的必要抽样数目:样本成数的必要抽样数目:\n不重复抽样下:样本平均数的必要抽样数目:样本成数的必要抽样数目:\n(2)类型抽样推断的步骤①计算各组的组平均数其中,i=1,2,…,k;j=1,2,…,fi②计算各组的组内方差i=1,2,…,k;j=1,2,…,fi③计算抽样的样本平均数\n④计算抽样样本的组内方差的平均数⑤计算抽样的平均误差(重复抽样)⑥计算抽样推断的极限误差,或确定抽样推断的置信度F(z).\n【例C】某厂有职工3300人,根据工作性质不同分为管理人员和工人两部分,其中管理人员300人,工人3000人。现按比例抽选10﹪职工进行月工资调查,这330人的月工资资料如下表所示,要求在95﹪的概率保证程度下(Z=1.96)对其平均收入做出区间估计。\n解:计算各组平均数:各组组内方差:\n样本平均数:组内方差的平均数:抽样平均误差:抽样极限误差:则该厂职工的平均月工资收入为[707.27-11.39,707.27+11.39],即以95%的置信度推断该厂职工平均工资收入的置信区间为[695.88,718.66]。\n结论第一,根据总体方差等于组间方差与组内平均方差之和的定理,所以类型抽样的平均误差一般小于简单随机抽样的平均误差,只有当组间方差等于0时,两者才相等。第二,由于总体方差是唯一确定的数值,因此在类型抽样分组时应该尽可能扩大组间方差,缩小组内方差,即各组间的差异可以大,而各组内的差异必须小,这样就可以减少抽样误差。\n整群抽样也称集团抽样,是指在组织抽样调查时,将总体单位的某些特征将总体分为若干部分,每一部分称为一个群,把每一群作为一个抽样单位,按群进行抽样,然后,对抽中的群进行全面调查的组织形式。3.整群抽样\n例:总体群数R=16样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差\n进行整群抽样的原则①群内单位的变异性,即同一群体内的各单位,其统计特征值相差大一些好。②群间的齐一性,即群与群之间的统计特征值相差小一些好。\n整群抽样的估计量及其抽样平均误差设总体的全部N单位划分为R群,每群包含M单位。则N=RM。现在从总体R群中随机抽取r群组成样本,并分别对中选r群的所有M单位进行调查。第i群的样本平均数样本平均数可看出,整群抽样实质上以群代替总体单位,以群平均数代替总体单位标志值之后的简单随机抽样。\n整群抽样都采用不重置抽样的方法,所以抽样平均误差为:整群抽样是对中选群进行全面调查,所以只存在群间抽样误差,不存在群内抽样误差。类型抽样分组的作用在于尽量缩小组内的差异程度,达到扩大组间方差的目的。整群抽样分组的作用在于尽量扩大群内的差异程度,达到缩小群间方差提高效果的目的。群间方差为:\n【例C】某厂生产某种灯泡,在连续生产的720小时中,每隔24小时抽取1小时的全部产品加以检验,根据抽样资料计算结果,灯泡平均寿命为1200小时,群间方差为60小时。计算样本平均数的抽样平均误差,并以95﹪的可靠程度推断该批灯泡的平均使用寿命。解:由题意样本平均数的抽样平均误差为:以95%的概率保证程度估计该批灯泡的平均使用寿命在[1200-1.96×1.385,1200+1.96×1.385]即[1197.29,1202.72]小时之间。\n等距抽样也称系统抽样或机械抽样,是将总体各单位按某一标志顺序排列,然后按照一定的间距抽取样本单位。等距样本都是不重复抽样。随机起点半距起点对称起点(总体单位按某一标志排序)等距抽样的组织方法4.等距抽样\n等距抽样的估计量可采用简单随机抽样的形式来估计。按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。\n例:在某省100多万农户抽取1000户调查农户生产性投资情况。第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)——将整个抽样过程分成若干阶段,然后逐阶段进行抽样。5.多阶段抽样\n多阶段抽样的估计推断例:二阶段抽样首先将总体划分为R组,每组包含Mi个单位。抽样第一阶段从R组中随机抽取r组,第二阶段再从中选的r组中分别从各组Mi单位随机抽取mi个单位,构成一个样本,这种抽样就是两阶段抽样。各组的单位数可以是相等的也可以是不等的。各组抽取的单位数可以是相等的,也可以是不等的。为了简化起见,假定总体R组中每组的单位都等于M,则有N=MR,而且从各组抽取的单位数也相等,都为m,则有n=mr。两阶段抽样可以看作是整群抽样和类型抽样的结合。即整群抽样第一阶段从总体的全部组中,随机抽取部分的组,和类型抽样第二阶段从中选组中抽选部分单位两个程序的结合。\n从总体R组中随机抽取r组,并从r组中,每组M个单位中抽m个单位构成样本。样本平均数可以这样计算:先计算第i组的样本平均数:再计算样本的平均数:\n两阶段抽样的平均误差是由两部分构成的,第一部分是第一阶段从总体全部组抽部分组所引起的组间误差,第二部分是由第二阶段在中选组中抽部分单位所引起的组内平均误差。在总体R组中抽取r组,又在r组中每组M个单位抽取m个单位的情况下,样本平均数的抽样平均误差为:应用以上公式,在得不到总体资料的情况下,可以用样本资料来代替。\n第十章假设检验第一节 假设检验的原理什么是假设?对总体参数的一种看法总体参数包括总体均值、比例、方差等分析之前必需陈述我认为该企业生产的零件的平均长度为4厘米!\n一、假设检验的概念对总体参数或分布做出假设,用样本统计量来推断总体参数,但不是推断总体参数在什么范围内,而是推断总体参数是否与假设参数相符合。特点采用逻辑上的反证法依据统计上的小概率原理\n假设检验中的小概率原理什么小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率(小概率事件),因此就有理由怀疑该假设的真实性,拒绝这一假设。2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定\n总体(某种假设)样本(观察结果)检验(接受)(拒绝)小概率事件未发生小概率事件发生抽样\n总体假设检验的过程(提出假设→抽取样本→作出决策)抽取随机样本均值X=20我认为人口的平均年龄是50岁提出假设拒绝假设!别无选择.作出决策\n二、假设检验基本思路1.设立假设(原假设和备择假设)2.确定显著性水平α及相应的临界值3.构造检验统计量4.确定拒绝域5.作出决策\n提出原假设和备择假设什么是原假设?(NullHypothesis)1.待检验的假设,又称“0假设”2.如果错误地作出决策会导致一系列后果3.总是有等号,或4.表示为H0H0:某一数值指定为=号,或或例如,H0:500(克)为什么叫0假设\n什么是备择假设?(AlternativeHypothesis)1.与原假设对立的假设2.总是有不等号:,或3.表示为H1H1:<某一数值,或某一数值例如,H1:<3910(克),或3910(克)\n什么检验统计量?1.用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑:是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为:确定适当的检验统计量\n规定显著性水平什么显著性水平?1.是一个概率值2.原假设为真时,拒绝原假设的概率被称为抽样分布的拒绝域3.表示为常用的值有0.01,0.05,0.104.由研究者事先确定\n作出统计决策计算检验的统计量根据给定的显著性水平,查表得出相应的临界值Z或Z/2将检验统计量的值与水平的临界值进行比较得出接受或拒绝原假设的结论\n第二节假设检验的方法一、假设检验的类型1.参数检验2.非参数检验二、假设检验的形式1.单侧检验2.双侧检验\n双侧检验与单侧检验假设研究的问题双侧检验左侧检验右侧检验H0m=m0mm0mm0H1m≠m0mm0\n双侧检验双侧检验属于决策中的假设检验。也就是说,不论是拒绝H0还是接受H0,我们都必需采取相应的行动措施例如,某种零件的尺寸,要求其平均长度为10厘米,大于或小于10厘米均属于不合格建立的原假设与备择假设应为H0:=10H1:10原假设与备择假设的确定\n确定假设的步骤1.例如问题为:检验该企业生产的零件平均长度为4厘米2.步骤从统计角度陈述问题(=4)从统计角度提出相反的问题(4)必需互斥和穷尽提出原假设(=4)提出备择假设(4)有符号\n显著性水平与拒绝域抽样分布H0值临界值临界值a/2a/2样本统计量拒绝域拒绝域接受域1-置信水平双侧检验\nH0值临界值临界值a/2a/2样本统计量拒绝域拒绝域接受域抽样分布1-置信水平显著性水平与拒绝域\nH0值临界值临界值a/2a/2样本统计量拒绝域拒绝域接受域抽样分布1-置信水平\n原假设与备择假设的确定检验研究中的假设将所研究的假设作为备择假设H1将认为研究结果是无效的说法或理论作为原假设H0。或者说,把希望(想要)证明的假设作为备择假设先确立备择假设H1单侧检验\n例如,采用新技术生产后,将会使产品的使用寿命明显延长到1500小时以上属于研究中的假设建立的原假设与备择假设应为H0:1500H1:1500例如,改进生产工艺后,会使产品的废品率降低到2%以下属于研究中的假设建立的原假设与备择假设应为H0:2%H1:<2%\n检验某项声明的有效性将所作出的说明(声明)作为原假设对该说明的质疑作为备择假设先确立原假设H0除非我们有证据表明“声明”无效,否则就应认为该“声明”是有效的\n例如:某灯泡制造商声称,该企业所生产的灯泡的平均使用寿命在1000小时以上.除非样本能提供证据表明使用寿命在1000小时以下,否则就应认为厂商的声称是正确的建立的原假设与备择假设应为H0:1000H1:<1000提出原假设:H0:25选择备择假设:H1::25例:学生中经常上网的人数超过25%吗?(属于研究中的假设,先提出备择假设)\n单侧检验显著性水平与拒绝域H0值临界值a样本统计量拒绝域接受域抽样分布1-置信水平\n左侧检验(显著性水平与拒绝域)H0值临界值a样本统计量拒绝域接受域抽样分布1-置信水平观察到的样本统计量\nH0值临界值a样本统计量拒绝域接受域抽样分布1-置信水平左侧检验(显著性水平与拒绝域)\nH0值临界值a样本统计量拒绝域接受域抽样分布1-置信水平观察到的样本统计量右侧检验(显著性水平与拒绝域)\nH0值临界值a样本统计量接受域抽样分布1-置信水平拒绝域右侧检验(显著性水平与拒绝域)\n二、Z检验与t检验(一)Z检验检验统计量一般用与临界值对比来决定是否接受原假设。(二)t检验在假设检验中,若总体标准差未知,而需用样本标准差来代替时,则统计量不服从正态分布,而服从t分布。\n一个总体的检验:Z检验(单尾和双尾)t检验(单尾和双尾)Z检验(单尾和双尾)2检验(单尾和双尾)均值一个总体比例方差三、假设检验的应用\n总体平均数的假设检验(1)总体为正态分布且方差已知Z检验(2)总体为正态分布,但方差未知t检验(3)两个样本均值之间差异的显著性检验\n检验的步骤建立总体假设H0,H1抽样得到样本观察值12选择统计量确定H0为真时的抽样分布3根据具体决策要求确定α确定分布上的临界点C和检验规则计算检验统计量的数值比较并作出检验判断7456\n几种常见的假设检验总体均值的检验条件检验统计量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μz0z0正态总体σ2已知\n【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为=0.025。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(=0.05)均值的双侧Z检验\nH0:0=0.081H1:00.081=0.05n=200临界值(s):检验统计量:决策:结论:-2.831.96,所以拒绝H0表明新机床加工的零件的椭圆度与以前有显著差异Z01.96-1.96.025拒绝H0拒绝H0.025\n【例】某橡胶厂生产汽车轮胎,根据历史资料统计结果,平均里程为25000公里,标准差为1900公里。现在从新批量的轮胎中随机抽取400个作试验,求得样本平均里程为25300公里。试按5﹪的显著性水平判断新轮胎的平均耐用里程与通常的耐用里程有没有显著的差异。\n第一步:建立原假设第二步:给定显著性水平,α=0.05由于是双侧检验,两边拒绝域的概率各为0.025,即下临界值为-1.96,上临界值为1.96\n第三步:根据样本信息,计算Z统计量的值第四步:检验判断由于实际Z值3.16>上临界值1.96,所以我们有理由拒绝原假设,即推翻新批量轮胎的平均耐用里程和原来没有显著差异的假设。\n【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡?(=0.05)均值的单侧Z检验\nH0:1000H1:<1000=0.05n=100临界值(s):检验统计量:-2<-1.645,所以在=0.05的水平上拒绝H0表明这批灯泡的使用寿命低于1000小时。决策:结论:-1.645Z0拒绝域\n【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?(=0.05)\nH0:01020H1:0>1020=0.05n=16临界值(s):检验统计量:2.4>1.645,所以在=0.05的水平上拒绝H0有证据表明这批灯泡的使用寿命有显著提高。决策:结论:Z0拒绝域0.051.645\n几种常见的假设检验总体均值的检验条件检验统计量拒绝域H0、H1(1)H0:μ=μ0H1:μ≠μ0z(2)H0:μ≤μ0H1:μ>μ0(3)H0:μ≥μ0H1:μ<μ0t0正态总体σ2未知(n<30)0t\n【例】某罐头厂生产肉类罐头,按规定自动装罐的标准罐头净重为500克。现在从一班生产中抽取10瓶罐头实测罐重(克)的结果如下:505,512,497,493,508,515,502,495,490,510给定α=0.01,问装罐车间的生产是否正常。\n第一步:建立原假设第二步:给定显著性水平,α=0.01由于是小样本,所以采用t统计量,自由度为10-1=9,两边拒绝域的概率各为0.025,即下临界值为-3.25,上临界值为3.25。\n第三步:根据样本信息,计算t统计量的值第四步:检验判断由于实际t值1<上临界值3.25,所以我们不能拒绝原假设,即认为装罐生产属于正常。\n【例】某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?均值的双侧t检验\nH0:0=1000H1:01000=0.05df=9-1=8临界值(s):检验统计量:-2.306<-1.75<2.306,在=0.05的水平上接受H0有证据表明这天自动包装机工作正常决策:结论:t02.306-2.306.025拒绝H0拒绝H0.025\n【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?(=0.05)均值的单侧t检验\nH0:040000H1:0<40000=0.05df=20-1=19临界值(s):检验统计量:0.894>-1.7291,在=0.05的水平上接受H0表明轮胎使用寿命显著地大于40000公里决策:结论:-1.7291t0拒绝域.05\n两个总体均值之差的检验条件检验条件量拒绝域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2(2)H0:μ≤μ2H1:μ>μ2(3)H0:μ1≥μ2H1:μ1<μ2t0t00两个正态总体已知\n【例】有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知,第一种方法生产出的产品其抗拉强度的标准差为8公斤,第二种方法的标准差为10公斤。从两种方法生产的产品中各抽取一个随机样本,样本容量分别为n1=32,n2=40,测得x1=50公斤,x2=44公斤。问这两种方法生产的产品平均抗拉强度是否有显著差别?(=0.05)\nH0:1-2=0H1:1-20=0.05n1=32,n2=40临界值(s):检验统计量:决策:结论:2.83>1.96,拒绝H0表明两种方法生产的产品其抗拉强度有显著差异.Z01.96-1.96.025拒绝H0拒绝H0.025\n2.总体成数的假设检验(1)总体成数的双侧检验检验统计量(2)总体成数的单侧检验原理同平均数单侧检验一样,只是计算抽样平均误差的公式不同。\n总体成数的检验条件检验条件量拒绝域H0、H1(1)H0:P=P0H1:P≠P0z(2)H0:P≤P0H1:P>P0(3)H0:P≥P0H1:P<P0z0z00np≥5nq≥5\n一个总体成数的Z检验【例】某研究者估计本市居民家庭的电脑拥有率为30%。现随机抽查了200的家庭,其中68个家庭拥有电脑。试问研究者的估计是否可信?(=0.05)\nH0:p=0.3H1:p0.3=0.05n=200临界值(s):检验统计量:-1.96<1.234<1.96,在=0.05的水平上接受H0表明研究者的估计可信决策:结论:Z01.96-1.96.025拒绝H0拒绝H0.025\n【例】某公司宣称有75%以上的消费者满意其产品的质量。一家市场调查公司受委托调查该公司此项声明是否属实。随机抽样调查625位消费者,表示满意该公司产品质量者有500人,试问在0.05的显著性水平下,该公司的声明是否属实。\n第一步:建立原假设第二步:给定显著性水平,α=0.05由于是单侧检验,所以F(Za)=1-2a=1-0.1=0.9,则查表得=1.645\n第三步:根据样本信息,计算Z统计量的值第四步:检验判断由于实际Z值2.887>1.645,所以拒绝原假设,即认为该公司的声明属实。\n3.总体方差的假设检验用分布来确定临界值。检验统计量为:其中,为样本方差。是服从自由度df=n-1的分布,记为\n【例】根据长期正常生产的资料可知,某厂所产维尼纶的纤度服从正态分布,其方差为0.0025。现从某日产品中随机抽取20根,测得样本方差为0.0042。试判断该日纤度的波动与平日有无显著差异?(=0.05)\nH0:2=0.0025H1:20.0025=0.05df=20-1=19临界值(s):统计量:8.907<31.92<32.852,在=0.05的水平上接受H0表明该日纤度的波动比平时没有显著差异2032.8528.907/2=0.05决策:结论:\n【例】炮弹火药装配车间,规定炮弹的火药重量服从标准差为20克的正态分布,现在从生产线中随机取16枚炮弹实测样本标准差为24克。请以0.02的显著性水平,检查炮弹的火药重量是否有显著的变异。\n第一步:建立原假设第二步:给定显著性水平,α=0.02自由度=16-1=15查分布表,得下临界值,上临界值\n第三步:根据样本信息,计算统计量的值第四步:检验判断由于5.229<21.6<30.578,所以我们不能拒绝原假设,而认为总体方差没有异常的变异。\n四、假设检验的两类错误1.第一类错误(弃真错误)原假设为真时拒绝原假设会产生一系列后果第一类错误的概率为被称为显著性水平2.第二类错误(取伪错误)原假设为假时接受原假设第二类错误的概率为\nH0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H01-a第二类错误(b)拒绝H0第一类错误(a)功效(1-b)假设检验就好像一场审判过程统计检验过程\n错误和错误的关系你不能同时减少两类错误!a和的关系就像翘翘板,a小就大,a大就小\n影响错误的因素1.总体参数的真值随着假设的总体参数的减少而增大2.显著性水平当减少时增大3.总体标准差当增大时增大4.样本容量n当n减少时增大\n第三节常用非参数检验方法非参数检验是指对总体分布不做任何限制性假设的统计检验方法。也称之为自由分布检验或无分布检验。\n共同点二者共同点在于都对总体的某种数量特征作出假设,建立原假设和备择假设,都给定检验的显著性水平,并根据实际的统计量来判断对原假设的取舍。不同点参数检验要求总体的分布类型已知,所不知道的只是其中某个参数是否有变动。非参数检验不依赖总体的分布。非参数检验与参数检验的区别与联系:\n当定距或定比尺度测量的数据能够满足参数检验的所有假设,非参数检验方法虽然也可以使用,但效果远不如参数检验。优点缺点①非参数检验对总体分布假定不多,适用面广②假定条件少③具有稳健性\n一、检验属于拟合程度检验,它是利用随机样本对总体分布与某种特定分布拟合程度的检验。即检验观察值与理论值之间的紧密程度。\n检验步骤:①确立原假设和备择假设。②按照“原假设为真”的假定,导出一组期望频数或理论频数。③计算统计量。若统计量的值较大,拒绝原假设。\n例:假定四种不同品牌的空调A、B、C、D,随机抽取100名顾客,根据个人偏好编制频数分布表(如下表),要求判断顾客对四种品牌空调的偏好有无差异?(a=0.05)喜欢的牌子人数A20B30C15D35合计100\n分析:如果顾客对这四种牌子空调偏好无差异,那么每种牌子的的空调偏爱者人数应该相等。即各占25%。解:假设H0:F(x)为均匀分布H1:F(x)不是均匀分布则统计量:查分布表得临界值检验统计量10>7.815,所以拒绝原假设。说明顾客对四种品牌的空调偏好有差异。\n二、符号检验1.单样本位置的符号检验一个随机样本,有n个数据x1,x2,…,xn,其实际的总体中位数为M,假定的中位数是某个特定值,记做Me。位置检验是检验真实的中位数和假定的中位数的关系:大于、等于还是小于。检验所用的差别标准是由二项分布临界值提供的,在大样本情况下可由正态分布来逼近。判别标准\n方法思想假设总体中位数的真值M=Me,并且从实际抽取容量为n的样本中,按每个观察值x1,x2,…,xn相应减去Me,只记录其差数的符号,即然后分别计算“+”号的个数和“-”的个数,如果遇到xi=Me的场合,则将其剔除。从理论上说,当中位数Me=M为真时,所得的正号个数和负号个数应该接近或相等。如果从样本中得到的正号的个数和负号的个数相差较远的话,就有理由认为原假设是不能被接受的。\n例从入伍的新兵中,随机抽取20名,测量其身高数据如下(公分):172,168,165,176,167,173,157,158,174,170,169,155,178,171,165,170,176,182,168,175。给定显著水平0.1,用符号检验判定新兵总体的身高中位数是否与165公分有显著差异。解:(1)设立假设H0:Me=165公分;H1:Me≠165公分\n(2)将样本各个数据减去原假设成立时的假定中位数165公分,并把正负号记录下来。其中相减等于0就略去不计。这样我们就有:+++++--+++-+++++++(3)显著性水平为0.1,由于是双侧检验,每侧为0.05,n+=15,n-=3,n=n++n-=18,查二项分布临界值表,当n=18时,临界值为14。(4)检验判断。由于正号个数15大于14,落入拒绝域,所以拒绝原假设,接受备择假设,即认为新兵总体身高中位数不等于165公分。\n2.配对样本的符号检验假定n1,n2是两个选自不同总体,样本容量大小相同的随机样本,将两个样本的数值一一配对,得到系列配对值。然后将两个配对组相减并记录下其差数符号,计算正号的个数总数n+和负号的个数总数n-。如果两个样本所选自的总体在位置差异方面不存在显著差别,则n+和n-出现的概率应该一致各为0.5,反之则认为两个总体存在本质差别。\n设有关联样本的两组成对的数据xi与yi,比较各对的大小。若xi>yi,记作“+”;若xi<yi,记作“-”;若xi=yi,删去,并相应减少n对数据方法思想配对符号检验是二项检验的一种应用。由于P=0.5的二项分布呈对称型,所以,只要n>25,即可按正态分布近似处理。\n检验步骤(1)抽样。将样本资料配对比较,计算(+)、(-)号个数(2)建立假设:H0:P=0.5H1:P≠0.05(双侧)H1:P(+)>P(-)或P(+)<P(-)(单侧)(3)计算检验统计量n≤25时,统计量为“+”个数;n>25时:(4)设定显著性水平α,查表确定临界值或否定域(5)比较并作出判断\n例1:随机抽取13个单位,放映一部描述吸烟有害健康的影片,并调查得到观看电影前后各单位职工认为吸烟有害的人数的百分比。检验该电影宣传是否有效果(α=0.05)。单位:%\n现检验统计量(+)=10(即10个正号),10<11,所以,原假设H0:P=0.5在5%显著性水平上不能被拒绝。也即不能认为职工在观看影片前后的认识有显著差异。解:H0:P=0.5H1:P≠0.5查表得临界值=11\n例:随机抽取60名消费者对甲、乙两种品牌的饮料评分,甲、乙得分之差为“+”号者35个,“-”号15个,“0”号10个。以显著性水平α=0.05检验两种饮料是否同等受欢迎。解:H0:P=0.5,H1:P≠0.5∵n>25,∴按正态分布近似处理该成数抽样分布的均值和标准差分别为\n2.82>1.96,所以,拒绝原假设。认为两种饮料并不受到同等欢迎。且乙种优于甲种。\n威尔科克森秩和检验曼—惠特尼U检验用Excel做区间估计和假设检验

相关文档