- 768.50 KB
- 2021-06-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第65讲 用样本估计总体
考试说明 1.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.
2.理解样本数据标准差的意义和作用,会计算数据标准差.
3.能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.
4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.
5.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.
考情分析
考点
考查方向
考例
考查热度
用样本估
计总体
总体分布的估计
2015全国卷Ⅱ18,2016全国卷Ⅲ4,2017全国卷Ⅲ3
★☆☆
总体特征数的估计
2014全国卷Ⅰ18,2017全国卷Ⅱ18
★★★
茎叶图
2015全国卷Ⅱ18
★☆☆
真题再现
■ [2017-2013 课标全国真题再现
1.[2017·全国卷Ⅲ 某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是 ( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
[解析 A 由题图可知,2014年8月至9月的月接待游客量在减少,故A选项错误.
2.[2016·全国卷Ⅲ 某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是 ( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20℃的月份有5个
[解析 D 平均最高气温高于20℃的月份有七、八2个月.
3.[2017·全国卷Ⅱ 海水养殖场进行某水产品的新、旧 箱养殖方法的产量对比,收获时各随机抽取了100个 箱,测量各箱水产品的产量(单位: g),其频率分布直方图如图所示:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 g,新养殖法的箱产量不低于50 g”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99 的把握认为箱产量与养殖方法有关;
箱产量<50 g
箱产量≥50 g
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附: ,
2=.
解:(1)记B表示事件“旧养殖法的箱产量低于50 g”,C表示事件“新养殖法的箱产量不低于50 g”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 g的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 g的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 g
箱产量≥50 g
旧养殖法
62
38
新养殖法
34
66
2=≈15.705.
由于15.705>6.635,故有99 的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 g的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 g的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+≈52.35( g).
4.[2015·全国卷Ⅱ 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76 78
86 95 66 97 78 88 82 76 89
B地区:73 83 62 51 91 46 53 73 64 82 93
48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
记事件C:“A地区用户的满意度等级高于B地区用户的满意度等级”.假设两地区用户的评价结果相互独立.根据所给数据,以事件发生的频率作为相应事件发生的概率,求C的概率.
解:(1)两地区用户满意度评分的茎叶图如下:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;CA2表示事件:“A地区用户的满意度等级为非常满意”;CB1表示事件:“B地区用户的满意度等级为不满意”;CB2表示事件:“B地区用户的满意度等级为满意”.
则CA1与CB1独立,CA2与CB2独立,CB1与CB2互斥,C=CB1CA1∪CB2CA2,所以P(C)=P(CB1CA1∪CB2CA2)=P(CB1CA1)+P(CB2CA2)=P(CB1)P(CA1)+P(CB2)P(CA2).
由所给数据得CA1,CA2,CB1,CB2发生的频率分别为,,,,故P(CA1)=,P(CA2)=,P(CB1)=,P(CB2)=,所以P(C)=×+×=0.48.
■ [2017-2016 其他省份类似高考真题
1.[2017·北京卷 三名工人加工同一种零件,他们在一天中的工作情况如图所示,其中点Ai的横、纵坐标分别为第i名工人上午的工作时间和加工的零件数,点Bi的横、纵坐标分别为第i名工人下午的工作时间和加工的零件数,i=1,2,3.
①记Qi为第i名工人在这一天中加工的零件总数,则Q1,Q2,Q3中最大的是 ;
②记pi为第i名工人在这一天中平均每小时加工的零件数,则p1,p2,p3中最大的是 .
[答案 Q1 p2
[解析 由图示看出Q1=A1的纵坐标+B1的纵坐标>Q2=A2的纵坐标+B2的纵坐标>Q3=A3的纵坐标+B3的纵坐标.由图示看出Q1与Q2接近,但是第2名工人所用的时间明显偏少,因此p2最大.
2.[2016·山东卷 某高校调查了200名 生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30 ,样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30 .根据直方图,这200名 生中每周的自习时间不少于22.5小时的人数是 ( )
A.56 B.60
C.120 D.140
[解析 D 由频率分布直方图得,每周的自习时间不少于22.5小时的人数是(0.16+0.08+0.04)×2.5×200=140.
3.[2016·四川卷 我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5 分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85 的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
解:(1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5 中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,
解得a=0.30.
(2)由(1)可知,100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
故可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5≤x<3.
由0.30×(x-2.5)=0.85-0.73,
解得x=2.9.
所以,估计月用水量标准为2.9吨时,85 的居民每月的用水量不超过标准.
【课前双基巩固】
知识聚焦
1.(1)最大值 最小值 (2)组距 组数 (3)分组
(4)频率分布表 (5)频率分布直方图
2.(1)中点 (2)所分的组数 组距
3.随时
4.(1)最多 从小到大 中间 (2)样本数据 样本容量 样本平均数
对点演练
1.25 [解析 依题意知,月均用水量在[2,2.5)范围内的频率为0.5×0.5=0.25,故所求居民人数为100×0.25=25.
2.乙 [解析 从茎叶图可以看出,乙的数据分布更加集中,所以乙运动员的发挥更稳定.
3.0.016 [解析 易得射击成绩的平均数为9.5,故方差s2=×[(9.4-9.5)2+(9.4-9.5)2+(9.4-9.5)2+(9.6-9.5)2+(9.7-9.5)2 =0.016.
4.3 [解析 设这100个成绩的平均数为,则==3.
5.5 8 [解析 由中位数的定义可知x=5,因为(y+5+8)+30+9+24=5×16.8,所以y=8.
6.40 [解析 前3个分组的频率和为1-(0.037 5+0.012 5) ×5=0.75,所以第2个分组的频率为×0.75=0.25,所以抽取的 生人数为=40.
7.s2>s1>s3 [解析 由标准差的几何意义得,数据越稳定,标准差越小.又数据越接近均值,数据越稳定,因此s2>s1>s3.
【课堂考点探究】
例1 [思路点拨 (1)画出女性用户和男性用户的频率分布直方图,由图可得女性用户评分的波动小,男性用户评分的波动大;
(2)利用分层抽样的方法从男性用户中抽取20名用户,评分不低于80分的有6人,其中评分小于90分的人数为4,从6人中任取3人,记评分小于90分的人数为X,根据X的取值计算对应的概率,求出X的分布列和数 期望.
解:(1)对于女性用户,各分组的频率分别为0.1,0.2,0.4,0.25,0.05,
其相对应的小长方形的高分别为0.01,0.02,0.04,0.025,0.005;
对于男性用户,各分组的频率分别为0.15,0.25,0.30,0.20,0.10,
其相对应的小长方形的高分别为0.015,0.025,0.03,0.02,0.01.
频率分布直方图如图所示:
由直方图可以看出,女性用户比男性用户评分的波动小.
(2)利用分层抽样的方法从男性用户中抽取20名用户,则评分不低于80分的有6人,
其中评分小于90分的人数为4.从6人中任取3人,
记评分小于90分的人数为X,则X的可能取值为1,2,3,
P(X=1)===,P(X=2)===,P(X=3)===,
所以X的分布列为
X
1
2
3
P
故X的数 期望E(X)=1×+2×+3×=2.
变式题 解:(1)由直方图知,T∈[4,8)时交通指数的中位数为5+1×=,
T∈[4,8)时交通指数的平均数为4.5×0.2+5.5×0.24+6.5×0.2+7.5×0.16=4.72.
(2)设事件A为“一个路段严重拥堵”,则P(A)=,
则3个路段中至少有2个路段严重拥堵的概率P=××1-+×=.
(3)由题意知,所用时间X的分布列如下表:
X
30
35
45
60
P
0.1
0.44
0.36
0.1
则E(X)=30×0.1+35×0.44+45×0.36+60×0.1=40.6,
所以此人早高峰时所用时间的数 期望是40.6分钟.
例2 [思路点拨 (1)利用景点甲中的数据的中位数是125,景点乙中的数据的平均数是124,直接求解x,y的值;
(2)求得景点甲每一天的游客数超过120人的概率,判断是独立重复试验,满足二项分布,然后求解概率即可;
(3)易得出η的所有可能取值为0,1,2,求出概率得到分布列,然后求解期望即可.
解:(1)由景点甲中的数据的中位数是125,可得x=3,由景点乙中的数据的平均数是124,可得=124,解得y=4.
(2)由题意知,景点甲每一天的游客数超过120人的概率为=,
任取4天,即是进行了4次独立重复试验,其中有ξ次发生,
故随机变量ξ服从二项分布,则P(ξ≤2)=1-4+3+2=.
(3)从图中可得,景点甲的数据中符合条件的只有1天,景点乙的数据中符合条件的有4天,
所以在景点甲中被选出的概率为,在景点乙中被选出的概率为.
由题意知,η的所有可能取值为0,1,2.
则P(η=0)=×=,P(η=1)=×+×=,P(η=2)=×=,
所以η的分布列为
η
0
1
2
P
故E(η)=0×+1×+2×=.
变式题 (1)B (2)D [解析 (1)由茎叶图知,a1=80+=84,a2=80+=85,故选B.
(2)甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是=84.5,乙生产的零件尺寸的中位数是=85,故A错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比甲生产的零件质量好,故B,C错误.故选D.
例3 [思路点拨 (1)直接根据分层抽样的特点,可得高三年级的教师共有300×=120(名);(2)根据互斥事件、独立事件的概率公式求解;(3)先求出三组总平均值==9.9,再求出新加入的三个数8,9,10的平均数为9,即可分析得出结论.
解:(1)抽出的20名教师中,来自高三年级的有8名,
则根据分层抽样的特点,估计高三年级的教师共有300×=120(名).
(2)设事件Ai为“甲是现有样本中高一年级中的第i个教师”,其中i=1,2,3,4,5,
事件Cj为“乙是现有样本中高二年级中的第j个教师”,其中j=1,2,3,4,5,6,7.
由题意知P(Ai)=,P(Cj)=,
P(AiCj)=P(Ai)P(Cj)=×=.
设事件M为“该周甲的备课时间比乙的备课时间长”,由题意知,
M=A2C1∪A3C1∪A4C1∪A5C1∪A4C2∪A5C2,
所以P(M)=P(A2C1)+P(A3C1)+P(A4C1)+P(A5C1)+P(A4C2)+P(A5C2)=6×=,
故P()=1-P(M)=.
(3)==8,==10,
==11,
则三组总平均值==9.9,
新加入的三个数8,9,10的平均数为9,比小,故拉低了平均值,∴<.
变式题 (1)D (2)C [解析 (1)一级和二级都是质量合格空气,观察统计图可以看出,1月、2月、6月、7月、8月这五个月的空气质量合格天数均超过了20天,故选项A叙述正确;1月、2月、3月相比于4月、5月、6月,整体上空气质量较好,故选项B叙述正确;8月份的空气质量合格天数为30天,且一级达到了14天,所以8月是1月至8月中空气质量最好的一个月,故选项C叙述正确;5月份空气质量合格的只有13天,四级及以上甚至有4天,所以5月是1月至8月中空气质量最差的一个月,所以选项D叙述错误.故选D.
(2)(1)班数据的平均数为=101,(2)班数据的平均数为=99.2,故A正确;(1)班数据的方差为×(0+9+0+1+16)=5.2,(2)班数据的方差为×(4.22+0.64+3.22+5.82+0.64)=12.56,故B正确;在第1次考试中,(1),(2)两个班的总平均分为=98,故D正确.故选C.
【备选理由】例1考查的是频率分布直方图的识别与理解;例2考查茎叶图的应用及对方差的理解.
1 [配合例1使用 某中 有初中 生1800人,高中 生1200人.为了了解 生本 期课外阅读的时间,现采用分层抽样的方法从中抽取了100名 生,先统计他们课外阅读的时间,然后按“初中 生”和“高中 生”分为两组,再将每组 生的阅读时间(单位:小时)分为5组:[0,10),[10,20),[20,30),[30,40),[40,50 ,并分别加以统计,得到如图所示的频率分布直方图.
(1)写出a的值;
(2)试估计该校所有 生中阅读时间不少于30小时的 生人数;
(3)从阅读时间不足10小时的样本对应的 生中随机抽取3人,并用X表示其中初中生的人数,求X的分布列和数 期望.
解:(1)a=0.030.
(2)由分层抽样知,抽取的初中生有60名,高中生有40名.因为初中生中阅读时间不少于30小时的频率为(0.02+0.005)×10=0.25,
所以所有的初中生中阅读时间不少于30小时的约有0.25×1800=450(人).
同理,高中生中阅读时间不少于30小时的频率为(0.03+0.005)×10=0.35,所有的高中生中阅读时间不少于30小时的人数约为0.35×1200=420.
所以该校所有 生中阅读时间不少于30小时的约有450+420=870(人).
(3)初中生中阅读时间不足10小时的频率为0.005×10=0.05,样本中该分组内的人数为0.05×60=3.
同理,高中生中阅读时间不足10小时的分组内的人数为(0.005×10)×40=2.
故X的所有可能取值为1,2,3,
则P(X=1)==,P(X=2)==,P(X=3)==.
所以X的分布列为
X
1
2
3
P
所以E(X)=1×+2×+3×=.
2 [配合例2使用 甲、乙两位 生参加数 竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84
乙:92 95 80 75 83 80 90 85
(1)用茎叶图表示这两组数据,并写出乙组数据的中位数.
(2)经过计算知,甲、乙两人预赛的平均成绩分别为=85,=85,甲的方差为=35.5,乙的方差为=41.现要从中选派一人参加数 竞赛,你认为选派哪位 生参加较合适?请说明理由.
(3)若将预赛成绩中的频率视为考试中成绩的概率.记“甲在考试中的成绩不低于80分”为事件A,其概率为P(A);记“乙在考试中的成绩不低于80分”为事件B,其概率为P(B).则P(A)+P(B)=P(A+B)成立吗?请说明理由.
解:(1)作出茎叶图如图所示,易得乙组数据的中位数为84.
(2)选派甲参赛比较合适,理由如下:
∵=85,=85,=35.5,=41,
∴=,<,
∴甲的成绩较稳定,∴选派甲参赛比较合适.
(3)不成立.
由已知可得P(A)=,P(B)=,则P(A)+P(B)=.而0≤P(A+B)≤1,所以P(A)+P(B)=P(A+B)不成立.