《社会统计学》ppt课件 109页

  • 5.45 MB
  • 2022-08-13 发布

《社会统计学》ppt课件

  • 109页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
第一章统计学简史一、统计学的起源(一)统计技术:古埃及;中国(大禹治水)(二)统计学:17世纪中叶Status(事物的状态)——Statistik(德语);Statistics(英语)1.国势学(康令)2.政治算术(威廉﹒配第)\n第一章统计学简史HermannConring,1606-1681\nHermannConring,1606-1681康令(HermannConring,1606-1681)第一个在德国黑尔姆斯太特(Helmstadt)大学以“国势学”为题讲授政治活动家应具备的知识,后人尊称为“统计学之父”。\n康令手稿\nUniversityofHelmstedtinthe17thcentury(17世纪的黑尔姆斯太特大学)\n第一章统计学简史二、国势学派(17世纪的德国)(一)H·Coring(康令)用文字记录(概括记录)一个国家的状况和制度。(二)G·Achenwall(阿亨瓦尔,哥廷根大学)Statistik:(第一次给出Statistik(统计学)的名称。用文字记述(概括记述)国家显著事项。\nUniversityofGöttingen(哥廷根大学)\nUniversityofGöttingen(哥廷根大学)让哥廷根成为世人瞩目的科学中心的是其自然科学,尤其是数学。被称为“最重要的数学家”的高斯就于18世纪任教于此并开创了哥廷根学派。此后,黎曼、狄利克雷和雅可比在代数、几何、数论和分析领域做出了贡献。到19世纪,著名数学家希尔伯特和克莱因更是吸引了大批数学家前往哥廷根,从而使德国哥廷根数学学派进入了全盛时期。到20世纪初,哥廷根已成为无可争辩的世界数学中心和麦加圣地。  这一时期,哥廷根大学在全欧乃至世界上的学术地位达到了顶峰。哥廷根大学曾经拥有44名诺贝尔奖获得者。\nWilliamPetty,1623-1687\nWilliamPetty,1623-1687威廉•配第(WilliamPetty,1623-1687)出生于英国汉普郡(Hampshire)腊姆济(Romsey)城一个贫苦纺织工人家庭。十四岁时充当商船侍役去法国,他利用业余时间学习法语和航海术。1643-1645年,又到荷兰和法国学习医学和解剖学,1646年回国。1649年获得牛津大学医学博士学位。继之,任牛津大学解剖学教授兼格瑞夏姆学院副院长和音乐教授职务。\nWilliamPetty,1623-1687他热心教育事业,颇得好评。1652年,任爱尔兰总督的私人秘书,后来又担任爱尔兰土地分配总监。他乘机掠夺了大量土地,还创办和经营捕鱼场、铁厂和铅矿,很快成为一个大地主兼资本家。1661年被封为爵士。他是英国皇家学会的创始人之一,1673年被选为该会的副会长。\n第一章统计学简史三、政治算术学派(17世纪的英国)WilliamPetty(威廉﹒配第):《政治算术》:用数字说明国家的特征。《政治算术》共分十章,可归纳为三个部分:第一部分,包括第一、二章,是荷兰和法国国力的对比;第二部分,包括第三、四、五章,是英格兰与法国国力的对比;第三部分,包括第六、七、八、九、十章,是英格兰国力的增长。全书引用数字资料,用计量和对比的方法,力图证明英国可以超过荷、法两国,充分反映了英国资产阶级要求称霸海上的强烈意图。\n第一章统计学简史配第是在批判早期国势论的研究方法时提出计量方法的。他在《政治算术》所的序言里写道:“我进行这种工作所使用的方法在目前还不是常见的。因为我不采用比较级或最高级的词语进行思辨式的议论,相反地采用了这样的方法(作为我很久以来就想建立的政治算术的一个范例),即用数字、重量和尺度来表达自己想说的问题,只进行诉诸人们的感觉的议论,借以考察在自然中有可见的根据的原因”。\n第一章统计学简史四、统计学在我国的传播与发展统计学在近代传入我国。早期著名统计学者如郁达夫、孟森以及许宝騄等为统计学在我国的传播与发展做出了较大贡献。\n第一章统计学简史五、汉语“统计”考高庆丰:曾任教于中国人民大学,著有《欧美统计学史》。二十世纪初,日本统计学家横山雅男说:“汉语‘统计’一词的含义,与‘合计’、‘总计’相同”。继之,他的学生沈秉诚更说:“我国‘统计’二字流传亦久,,惟其义创用之于动词,如‘合计’、‘总计’等字是”。二十世纪三十年代,我国统计学家吴大钧说:“我国统计肇端最早,自三代以迄有清,统计资料散见于历代官书,惟虽有统计之实,向无统计之名”。\n第一章统计学简史我国统计史学家卫聚贤说:“按‘统计’二字在我国有共统一起计算之义”,又说:“日人初译此名词为‘政表’、‘综计’、‘国势’、‘政算’等。至明治十四年(公元1881年)统计院成立,此名始确定。中国用‘统计’二字是自日本搬来的。”\n第二章社会学研究与统计分析第一节社会学研究程序一、确定课题社会学研究课题除了少部分来源于社会学理论外,大部分来源于社会现实问题的研究。例如:为研究我国目前构建和谐社会中存在的问题,可以选择“我国社会现阶段各阶层利益分配问题研究”;“效率与公平问题研究”等课题。\n第二章社会学研究与统计分析二、建立假设确定课题之后,即可运用个案调查以及典型调查等调查方法进行探索性研究,从而建立假设。例如:对于“关于生育意愿问题的研究”这一课题,我们即可对个别家庭以及典型家庭的生育意愿进行探索性分析,观察希望生育子女数与文化程度以及地区等因素之间的相互关系。\n第二章社会学研究与统计分析在上述探索性研究的基础上,我们可以建立如下两种假设:(一)差异式:仅在于说明现象之间存在相互关系。例如:地区不同,则生育意愿也不同。(仅说明地区与生育意愿之间存在相互关系)(二)函数式:不仅说明现象之间存在相互关系,而且还在于说明现象之间变化的方向。A高则B高(正比)A高则B低(反比)例如:文化程度愈高,则生育意愿愈低;文化程度愈低,则生育意愿愈高。(不仅说明文化程度与生育意愿之间存在相互关系,而且进一步说明文化程度与生育意愿之间的变化方向:二者之间呈反比变化方向)。\n第二章社会学研究与统计分析三、统计分析在确定课题以及建立假设之后,即可进行统计分析。统计分析的目的在于明确现象之间的数量关系(数量表述较之于文字表述更为客观与明确,这正是统计学的独到之处,也正是统计学的立足之地。如:我们可以说A与B“过从甚密”,我们也可以说A与B之间的相关系数为0.90。前者即较为主观与模糊,后者即较为客观与明确),由此即可验证所建立假设与客观实际是否相符。\n第二章社会学研究与统计分析第二节社会统计学的基本内容一、社会调查资料的特点(一)随机性随机性即非确定性,是指现象在某种条件下可能发生也可能不发生的性质。社会现象大都是随机现象。例如:如果两性具有同样的价值观,则他们就可能结为伴侣,但是这里只是“可能”而不是“一定”。\n第二章社会学研究与统计分析(二)统计规律性统计规律性即对随机现象进行大量观察所发现的内在数量规律,也即前人所说的“从纷繁中发现秩序”。例如:各家各户生男生女纯属偶然,但大量观察的结果显示,男、女婴儿的性别比例却一直在50%左右摆动。这里,“50%”即是大量观察所得的统计规律。\n第二章社会学研究与统计分析二、社会统计分析的基本内容(一)统计描述(statisticaldescription)统计描述即对观测对象(样本,sample)的数量特征(平均值;标准差)所进行的描述。例如:某村新生婴儿的平均体重。(二)统计推断(statisticalinference)统计推断即对全部对象(总体,population)的数量特征(平均值;标准差)所进行的推断。例如:全世界新生婴儿的平均体重。\n第二章社会学研究与统计分析三、社会统计分析方法的选用社会统计分析方法的选用,应以数据的特点为依据。一、全面调查(Completeenumeration)与非全面调查(Incompleteenumeration)对于显著事项(如全国人口数字),应采用全面调查;对于一般事项(如离婚率),采用非全面调查即可。\n第二章社会学研究与统计分析二、单变量(Univariate)与多变量(Multivariate)1.单变量:描述及推断单变量的数量特征(平均数;标准差)2.多变量:描述及推断多变量的数量特征及相互之间的数量关系。\n第二章社会学研究与统计分析三、变量层次(Levelofvariate)1.定类层次(Nominallevel)定类层次的变量其取值只有类别、属性之分而无大小、程度之别。例如:民族:汉族;少数民族(变量值是类别,无等级之分:民族平等)定类变量只能进行=(是)或≠(不是)的运算。2.定序层次(Ordinallevel)定类层次的变量的取值不仅具有类别、属性之分,而且还具有等级、次序之别。例如:教育程度:中学;大学(变量值不但是类别,且有等级之分:大学高于中学)定序变量不但能进行=(是)或≠(不是)的运算,而且还可以进行>(高于)或<(低于)的运算。\nSyriapromisesreferendumresultsasEUimposesnewsanctions在上面标题中,“Syria”和“EU”即定类层次变量的变量值。那么,谁是定类层次的变量呢?\nCalifornia,nearLosAngeles,ahighschoolstudent18morning,carryingillegalgunsfire,killingatleasttwostudentswereinjured标题中,“ahighschool”即定序层次的变量值。那么,谁是定序层次的变量呢?\n第二章社会学研究与统计分析3.定距层次(Intervallevel)定距层次的变量以定类及定序变量为基础,其取值除了类别与次序之外,还可取数值距离之值(数值相减;具体数值)。例如:家庭子女数:如A家庭3个孩子,B家庭2个孩子,则3-2=1(人),即A家庭较B家庭多1个孩子。定距层次的变量不但可以进行=、≠以及>、<的数学运算,而且还可以进行+、-运算(关键是减法,加法只是用减法求距离的前提)。在社会统计学中,只有智商(IQ)属于单纯的定距变量(智商IQ的比率无意义)。\nSilentmovieTheArtisthastriumphedattheOscars,winningfiveawards标题中,如果5个奖品减去1个奖品,那么,5个奖品与1个奖品之间的数值距离是多少?\n第二章社会学研究与统计分析4.定比层次(Rationlevel)定比层次的变量以定类、定序及定距为基础,其取值除了属性、次序及距离之外,还可取数值比率之值(数值比较;抽象数值;具有绝对零点:抽象数值无计量单位,具有普遍的可比性)。例如:甲30岁,乙10岁,则30岁/10岁=3(倍)(或300%),即甲较乙年长3倍。定比层次的变量,除了可以进行=、≠,>、<,+、-运算外,还可以进行×、÷运算(关键是除法,乘法是用除法求得比率的前提)。\nMarketData图中,股票指数的计量单位是什么?股票指数是具体数值还是抽象数值?股票指数属于什么层次的变量?\n第三章单变量统计描述第一节统计分布一、分布(Distributions)分布指变量的各种情况出现的频次,又称频次分布(Frequencydistribution)。其作用在于表明各种情况的相对重要程度。例如:通过上表我们可以看出:家庭类型这一变量的三种情况,核心家庭出现的频次最多,联合家庭出现的频次最少,因此,核心家庭最具代表性(“核心家庭”即均值)。由此,我们可得初步结论:现代家庭主要由核心家庭组成,从而迥异于传统的联合家庭(即四合院式的大家庭)。家庭类别(变量)频次(个)直系家庭核心家庭联合家庭5200\n第三章单变量统计描述分布的两要素:1.变量(Variate):变量用大写字母X表示,变量的各种可能取值(Valueofthevariate)(即变量可能发生的各种情况)用带下标的小写字母xi表示;2.频次(Frequency):次数变量的各种取值出现的次数用带下标的小写字母ni表示。次数可以是绝对数形式(具有实际计量单位):频次分布;次数也可以是频率形式(样本的百分比形式的次数,可观测的):频率分布;次数也可以是概率形式(总体的百分比形式的次数,不可观测的):概率分布。\nMrPutinhimselfappearedwithtearsinhiseyes,withmorethan99%oftheballotscounted,MrPutinsecurednearly64%ofthevotes.(64%:频率?概率?)\n第三章单变量统计描述变量取值应注意的问题:1.完备(Exhaustion):使所有的被访问者(或称每一个观测值)一一无遗地进行归类。2.互斥(Mutualexclusion):每一个被访问者(或称每一个观测值)只能归入一类。由连续变量分组形成的重叠组限遵循“上限不计”原则。如:100—200;200—300:“200”归入第二组。\n第三章单变量统计描述二、统计表(Statisticaltables)统计表就是表示变量分布的表格。按照主词的不同,统计表可分为:(一)定类变量统计表:主词为定类变量(社会学、政治学:重点)家庭结构频次(频率)分布表家庭类型(主词栏)频次(宾词栏)核心家庭(典型)直系家庭联合家庭其他家庭1050(49.3%)720(33.8%)110(5.2%)250(11.7%)总计2130(100%)\n第三章单变量统计描述(二)定序变量统计表:主词为定序变量(主词必须顺序排列)(社会学、政治学:重点)某社区对武侠片态度频数(频率)统计表由上表可以看出,频次(频率)分布无明显集中趋势,应重新设计主词分类,以使频次(频率)分布呈现明显集中趋势。喜爱程度频次(人)频率(%)非常爱看爱看一般(典型不爱看(典型)很反感791010317.923.125.625.67.7总计39100(99.9)\n第三章单变量统计描述(三)定距变量统计表:主词为定距及定比变量1.离散变量(整数计数):主词为单项式数列适用:主词变量取值范围较小的情况某社区家庭拥有笔记本电脑台数频次统计表家庭拥有笔记本电脑台数频次(家)1(典型)210020\n第三章单变量统计描述2.连续变量(小数计量):主词为组距式变量(变量为一个数量范围)适用:主词变量取值范围较大的情况(1)标明组界(间断组界)统计表*适用:离散变量取值范围较大的情况(与社会统计学所讲不同)某社区儿童年龄频次统计表年龄(岁)人数(个)1-23-45-6202518\n第三章单变量统计描述(2)真实组界(重叠组界)统计表适用:连续变量(若不采用重叠组界,则变量值统计会有所遗漏!)某社区儿童年龄统计表注意:该统计表的表格形式与前面统计表有何不同?是否合理?年龄(岁)人数(个)0.5-2.52.5-4.54.5-6.5253530\n统计数据类型的拓展统计数据仅仅局限于“数字”吗?统计数据可以是定比变量(数字比率),可以是定距变量(数字距离),可以是定序变量(文字次序),可以是定类变量(文字名称),那么,进一步思考:统计数据还可以是什么?或者说,统计是从定类变量开始的吗?康德曾说:“吾人之一切知识皆起于经验,此不容置疑者也”(《纯粹理性批判》,蓝公武译),人类的认识总是从感性认识上升到理性认识,据此,则经验形态的感觉是否要加以考虑呢?也就是说,人类对事物的感觉认识是否可以拓展为统计数据呢?“普遍感觉”,,,\n第三章单变量统计描述三、统计图统计图一般借助Excel实现。(一)圆瓣图(Piegraphs)圆瓣图是将资料展示在一个圆形平面上,通常用整个圆形代表现象总体,用每个圆瓣代表现象的某一种情况,其大小代表变量取值在总体中所占的百分比。圆瓣图多用于定类变量。\n第三章单变量统计描述(二)条形图(Bargraphs)条形图用长条的高度表示资料类别的次数或百分数。长条一般为等宽,其宽度没有意义;长条之间通常留有空隙间隔。条形图多用于定序变量。\n第三章单变量统计描述(三)直方图(Histograms)直方图由连续无空隙间隔的长条组成,若长条宽度相等,则仅由其高度表示变量值出现次数或频率的多少;若长条宽度不等,则由其面积大小表示变量值出现次数或频率的多少。直方图用于定距变量。直方图示例见下页(Excel无法制作直方图,Minitab15.0中文版具有明晰实用的制作直方图功能)。\n直方图示例(Minitab软件制作)\n第三章单变量统计描述(四)折线图(polygon)折线图可使资料频次或频率分布的趋势一目了然。\n第三章单变量统计描述四、累计频数分布1.向上累计频数分布是先列出各组的上限,然后由标志值低的组向标志值高的组依次累计频数。2.向下累计频数分布是先列出各组的下限,然后由标志值高的组向标志值低的组依次累计频数。\n累计频数分布例题\n洛伦兹曲线(Lorenzcurve)通过络伦兹曲线,可以直观地看到一个国家收入分配平等或不平等的状况。画一个矩形,矩形的高衡量社会财富的百分比,将之分为五等份,每一等分为20的社会总财富。在矩形的长上,将100的家庭从最贫者到最富者自左向右排列,也分为5等分,第一个等份代表收入最低的20的家庭。在这个矩形中,将每一百分的家庭所有拥有的财富的百分比累计起来,并将相应的点画在图中,便得到了一条曲线就是洛伦兹曲线。整个的洛伦兹曲线是一个正方形,正方形的底边即横轴代表收入获得者在总人口中的百分比,正方形的左边即纵轴显示的是各个百分比人口所获得的收入的百分比。从坐标原点到正方形相应另一个顶点的对角线为均等线,即收入分配绝对平等线,这一般是不存在的。实际收入分配曲线即洛伦兹曲线都在均等线的右下方。\n洛伦兹曲线(Lorenzcurve)\n第三章单变量统计描述第二节集中趋势测量在统计学中我们既可用分布全面地研究变量,也可用典型变量值或特征值——集中趋势(Centraltendency)对变量进行简明扼要的研究。Todrawconclusionsfromdatayoucomparesummaryvalues,ameasureofaverageandameasureofspread.Anaverageindicatesthetypicalvalueofasetofdata.Mean,medianandmodearealltypesofaverage.Rangeisameasureofspread.\n第三章单变量统计描述集中趋势:概括与典型的数据信息(数据的主要特征)损失信息:具体与琐碎的数据信息(数据的次要特征)提炼数据的集中趋势,概括数据的主要特征,可以变量值的频数多少为依据(频数多者为典型变量值),也可以变量值的位置前后为依据(位置居中者为典型变量值),更可以变量值自身大小为依据(由抽象、概括而得的平均变量值为典型变量值)。\n集中趋势(Centraltendency)1.一组数据向其中心值靠拢的倾向2.测度集中趋势就是寻找数据的代表值3.不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据\n集中趋势(Centraltendency)\n第三章单变量统计描述一、众值(Mode)M0众值就是用频数最多的变量值表示变量的集中值。1.变量值的频数愈多,则变量值的代表性愈高。2.对于定距变量,用组中值表示变量的众值。3.众值适用于类、序、距、比四个层次的变量。4.众值尤其适用于单峰对称的情况。\n众数 (众数的不唯一性)\n定类变量的众数\n定序变量的众数\n数值变量的众数\n数值变量的众数\n中位数 (Median)\n中位数 (Median)Myfamilywasinamiddleposition,neitherverypoornorveryrich.Myfatherthoughtthiswasthebestkindoffamilytobelongto.__\nOutliers(极端值)Watchforparticularlyloworparticularlyhighscoreswhencalculatingamean.Certainlywatchforoutliers.Veryloworveryhighscoresmayproduceameanthatisnotverytypicalofmostscores,especiallywhenthenumberofcasesissmall.4,8,10,11,9,600:themeanwouldbe107,whichisnottypicalorrepresentativeofwhatthesixscores“really”are.Themedian----10.5----worksbetterasanaverage.----,WilliamFox\n第三章单变量统计描述二、中位值(median)Me中位值是数据序列之中央位置之变量值。因其居于中央位置,兼具左右之特性,故可代表全体。中位值适用于序、距、比三个层次的变量。1.未分组数据(1)观测总数N为奇数(Odd)时:中位值位于的地方(该处数值即为中位值)。(2)观测总数N为偶数(Even)时:中位值位于的地方(中位值为相邻数值的平均值)。2.已分组数据(采用下界公式或上界公式计算)\n定序数据的中位数\n数值型未分组数据的中位数 (奇数个数据的算例)\n数值型未分组数据的中位数 (偶数个数据的算例)\n数值型分组数据的中位数(要点及计算公式)\n数值型分组数据的中位数 (算例)\n均值 (概念要点)\n第三章单变量统计描述三、平均值(Mean)平均值是指一组数据中所有数据之和除以该组数据个数所得的反映数据一般水平的结果。平均值适用于定距以上变量。1.未分组数据(1)根据原始资料求平均值(各变量值的频次相等:简单算术平均法)\n第三章单变量统计描述(2)根据频次求平均值(各变量值的频次不等:加权算术平均法)平均值不但受大小不等的变量值的影响(变量值大,对平均值的影响就大;反之,变量值小,对平均值的影响就小),而且还受各变量值的大小不等的频次的影响(频次大,对平均值的影响就大;反之,频次小,对平均值的影响就小。频次对平均值具有权衡轻重的作用,因此称为权数。)。\n均值 (计算公式)\n简单均值 (算例)\n加权均值 (算例)\n加权均值 (权数对均值的影响)\n均值 (数学性质)\n众数、中位数和均值的关系(横轴:变量值;纵轴:频次)中位数始终居中,众数始终最高,均值有大小。\n第三节离散趋势测量法 (MeasuresofVariation)1.反映各变量值远离其中心值的程度,因此也称为离中趋势2.从另一个侧面说明了集中趋势测度值的代表程度3.不同类型的数据有不同的离散程度测度值\n第三节离散趋势测量法 (MeasuresofVariation)Amandrownedcrossingastreamwithanaveragedepthofsixinches.Thatoldtaleisenoughtoremindusthatthereisfarmoretoattendtoaboutvariablesthanjusttheiraverages.(变化多端,恒常唯一,故变化甚于恒常)Distributionshavevariationsaswellasaverages,andsometimesvariationsarefarmoreimportantthanaverages.\n第三节离散趋势测量法 (MeasuresofVariation)\n第三节离散趋势测量法 (MeasuresofVariation)\n异众比率 (VariationRatio)1.非众数组的频数占总频数的比率2.用于衡量众数的代表性(反比关系)式中:Fi为各组频次;Fm为众数组频次\n异众比率 (VariationRatio)\n第三节离散趋势测量法 (MeasuresofVariation)\n四分位数(Quartile) (概念要点)\n四分位数 (位置的确定)\n定序数据的四分位数(算例1)\n定序数据的四分位数(算例2:与算例1比较,那个更准确?)\n数值型单项分组数据的四分位数(7个数据的算例)\n数值型单项分组数据的四分位数 (6个数据的算例)\n数值型组距分组数据的四分位数(计算公式)\n数值型组距分组数据的四分位数(计算示例)\n四分位差(QuartileDeviation) (概念要点)\n四分位差 (定序数据的算例)\n第三节离散趋势测量法 (MeasuresofVariation)\n极差(Range)(概念要点及计算公式)\n平均差(MeanDeviation) (概念要点及计算公式)\n平均差 (计算过程及结果)\n方差和标准差(VarianceandStandarddeviation)(概念要点)\n总体方差和标准差 (计算公式)\n总体标准差 (计算过程及结果)\n样本方差和标准差 (计算公式)\n样本方差 自由度(degreeoffreedom)\n样本方差 (算例)\n样本标准差 (算例)\n方差 (简化计算公式)\n

相关文档