§5 用样本估计总体
5.1 估计总体的分布
知识点一 频率分布直方图
[填一填]
1.极差的概念
极差是一组数据的最大值与最小值的差,它反映了一组数据的差值,极差又叫全距.
2.频数、频率的概念
将一批数据按要求分为若干组,对落在各个小组内数据的个数进行累计,这个累计数叫作各个小组的频数,各个小组的频数除以样本容量,即得该小组的频率.
3.频率分布直方图
在频率分布直方图中,纵轴表示频率与组距的比值,各小长方形的面积等于落在各小组内的频率,所有长方形面积之和等于1.
[答一答]
1.将数据的样本进行分组的目的是什么?
提示:从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息.如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况.用样本估计总体,是研究统计问题的一种基本思想方法,而对于总体的分布,我们总是用样本的频率分布对它进行估计.
知识点二 频率分布折线图
[填一填]
(1)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就得到一条折线,我们称之为频率折线图.
(2)当样本容量不断增大时,样本中落在每个区间内的样本数的频率会越来越稳定于总体在相应区间内取值的概率.也就是说,一般地,样本容量越大,用样本的频率分布去估计总体的分布就越精确.
(3)随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小,相应的频率折线图就会越来越接近于一条光滑曲线.
[答一答]
2.绘制频率分布折线图的作用是什么?
提示:频率分布折线图也是用一个单位长度表示一定的数量.但是,它是根据数量的多少在图中描出各个点,然后把各点用线段顺次连接成的折线.因此,它不但可以表示出数量的多少,而且能够以折线的起伏,清楚而直观地表示出数量增减的变化情况.
几种表示频率分布的方法的优缺点
1.频率分布表反映具体数据在各个不同区间的取值频率,但不够直观、形象,对分析数据分布的总体态势不太方便.
2.频率分布直方图能够非常直观地表明数据分布的形状,一般是中间高、两端低、左右对称的“峰”状结构.但是从直方图本身得不到具体的数据内容,也就是说,把数据表示成直方图后,原始数据不能在图中表示出来.
3.频率分布折线图的优点是它能够反映数据的变化趋势.如果样本容量不断增加,分组的组距不断缩小,那么折线图就趋近于总体分布的密度曲线.
4.列频率分布直方图的步骤:
(1)计算数据中最大值和最小值的差.知道了极差就知道了这组数据的变动范围有多大;
(2)决定组数和组距.组距是指每个小组的两个端点之间的距离;
(3)决定分点;
(4)列频率分布表;
(5)绘制频率分布直方图.