单变量统计分析-历史百科网

[拼音]：danbianliang tongji fenxi

[外文]：univariate statistic

在一个时间点上对某一变量的描述和推论。根据数据获取方式的不同，对单变量的统计分析采用统计描述和统计推论两种方式。

单变量统计描述

当数据的获取包括了研究的全体对象时采用。它分为研究变量的全貌和典型特征两部分。变量的全貌是通过分布来描述的，即将资料简化为变量值和频次对的。为了使这种分布更直观，常采取统计表式统计图的形式（见表）。变量的典型特征由一系列特征值描述，变量的层次不同，使用的特征值也不同，最常见的特征值有集中值和离散值。集中值又称集中趋势，表明一组数据的典型情况和平均水平。离散值又称离散趋势，反映变量值的分散程度或波动范围。

常用的特征值有：

（1）众值М0 和异众比例γ。适用于各种层次的变量，但以定类变量最为适用。众值М0 用来表示变量的集中值，异众比例γ用来表示变量的离散值。

众值М0＝数据中具有频次较高的变量值，如表中生育孩子数是2时，频次为48，即是众值。

式中N为观察总数；fmo为众值的频次。

（2）中位值Мd和极差R或四分互差Q。适用于定序以上层次的变量，但以定序变量最为常用。中位值Мd用来表示变量的集中值，极差R或四分互差Q用来表示变量的离散值

中位值Мd为数据中居中位置的变量值。对于未分组资料，当资料按序排列后，对应（N+1)/2位置的变量值，即为中位值，表中数据的中位值为3（孩子数）。对于分组资料，则累计频率达50％点的变量值即为中位值。

极差 R为数据中变量较大值与小值之差。表中极差为12。四分互差Q为数据分布中累计频率达25％或75％点变量值之差。

（3）均值μ和标准差。仅适用于定距以上变量。均值μ用来表示变量的集中值，是数据总和的平均。标准差用来表示变量围绕均值μ 的平均分散程度。计算公式为

式中N为观察总数；Xi为观测值。

标准差的平方称作方差。方差也可用来表示定距以上变量的离散值。

单变量统计推论

当资料的搜集只包括研究对象的一个随机样本时采用。它分为参数估计和假设检验两部分。参数估计就是根据抽样结果，科学地估计总体特征值的大小或范围。用样本的均值塣、成数p和标准差s作为总体的特征值，均值μ、成数 p和标准差的估计值，称作参数的点估计。例如，根据样本的人均收入，估计总体的人均收入。

式中Xi为样本中的观察值;为样本的容量；为所研究的类别在样本中的数目。

参数的区间估计是对总体的特征值所在范围作出估计。例如，根据样本的人均收入，估计总体的人均收入在什么范围。在样本容量不小于30时，总体均值的区间估计为

总体成数的区间估计为

根据公式确定：区间估计公式中，估计正确的概率为1-α（见图）。

假设检验是根据抽样结果在一定可靠性的基础上对原假设作出接受或拒绝的判断。例如，为了确信某地生育率是否已控制在15‰，可进行一次抽样调查。根据抽样结果，来检验生育率为15‰的假设是否可以接受。这样的判断都带有概率的性质，百分之百判断正确是不可能的。衡量判断中可靠性大小，一般用显著性水平大小来表示。

使用统计推论技术的条件是：赖以抽样的总体名单必须是齐全的；抽样是概率抽样。同时非抽样误差在推论中没有涉及。如果数据的非抽样误差太大，统计推论的结果将失去其应有的正确性。

严正声明：本文由历史百科网注册或游客用户万景依自行上传发布关于» 单变量统计分析的内容，本站只提供存储，展示，不对用户发布信息内容的原创度和真实性等负责。请读者自行斟酌。同时如内容侵犯您的版权或其他权益，请留言并加以说明。站长审查之后若情况属实会及时为您删除。同时遵循 CC 4.0 BY-SA 版权协议，尊重和保护作者的劳动成果，转载请标明出处链接和本声明内容：作者：万景依；本文链接：https://www.freedefine.cn/wenzhan/81306.html

相关阅读