个别差异诊断测量-历史百科网

[拼音]：gebie chayi zhenduan celiang

[外文]：diagnosis and measurement of individual difference

个别差异是客观存在的。我国古代最早的教育文献《学记》就论述了在规定的九年时间内，对学生的阅读能力、知识广度、学识运用、论学本领以及学习兴趣、专业思想、集体观念、师生关系、意志坚定性各方面的个别差异进行考查的事情。

在教育过程中个别差异的诊断越来越受到重视。诊断就是对各个领域中个人的作业进行比较，来确定它们的相对优点和缺点。一般说来，当学生在学习某一学科遇到困难的时候就需要进行诊断。一旦看出某种能力缺陷的迹象，就应当采取纠正的措施。例如一种阅读诊断测验可能提供语音、词义、句义、段落意义以及阅读速度的分数。其目的在于识别学生的特殊缺点和优点，以便安排相应的处理方案进行帮助。学业方面个别差异的诊断具有这样的目的，智力、能力倾向和性格各方面个别差异的诊断也是如此。准确的诊断也是评级、分班、选拔、安置等决策的基础。

孟轲提出：“权然后知轻重，度然后知长短。物皆然，心为甚。”这句话说明了个别差异测量的可能性和必要性。测量的意义就是按照一定的尺度对所测的对象作出量的描述。就心理的个别差异说来，这种对象就是人的行为的各种属性（学识、智能、性格）。测量的结果明确了一个人在某些行为维度测试连续统上的相对位置。例如，记忆力的强弱是一条连续统，推理速度的快慢是另一条连续统，性格的内向到外向又是一条连续统，如此等等。

所谓量的描述，其初级形式就是按顺序排列的等第量表，这是心理测量相对性的现实反映。例如孔丘从他的学生中选出标兵，按品德、能力分类排队。德行：颜渊、闵子骞、冉伯牛、仲弓；言语：宰我、子贡；政事：冉有、季路；文学：子游、子夏。又如，唐代初期科举考试中的秀才科，注重博识高才。测试方略策五条，录取标准如下：文理俱高者为上上，文高理平、理高文平者为上中，文理俱平者为上下，文理粗通为中上，凡四等，为及第，文劣理滞为不第（《通考·选举考》）。目前的五级计分制基本上就是一种等第量表。

心理测验是一种高级形式的测量法。在我国还没有出现标准化的测验之前就有人提出过关于心理测验的基本原则。约在公元245年刘劭写了《人物志》这本书，书中说道: “众人之察不能尽备”，“观其感变以审常度”。这指出了，在心理观察中不可能把所有的行为变量都包括在内，所得到的只是一定条件下具有代表性的行为样例。这个原则的不足之处在于它没有说明行为样例的处理问题。

根据A.阿纳斯塔西“心理测验实质上是行为样例的客观的和标准化的测量”的看法，F.G.布朗提出，测验是测量行为样例的一种系统程序。一般认为这两个定义是比较典型的。刘劭的原则和阿纳斯塔西与布朗的典型定义都强调行为的样例。所谓样例，它不是有关行为的全体，而只是它的具有代表性的部分。另外，所测到的只是被试人对测验（观察）项目的反应，因而所从事的不是直接的测量，而是从项目反应中推理出被试的个性特征。如果测验项目所揭露的行为适当地反映了所要测量的内容结构，则测验将能提供有用的信息；否则，根据测验分数进行推理就毫无意义。

上述两个有关测验的典型定义提到“客观的和标准化的测量”，或者“测量的系统程序”，这是十分重要的。客观化、标准化或系统程序要求测验的编制、施行和计分都要按规定的法则进行。测验项目应该有计划地加以选择，以便符合测验的规范。应使用同样的（或等值的）项目向所有受试者施测。对全体受试应一律使用同一的说明语和时限。答语的评分标准应预先制定，以保证不同计分员之间标准一致。

心理测量和物理测量相比，有着显著的不同。首先，在心理测量中有着更多的变量要加以控制。例如当测量阅读速度的时候，要注意的有：项目的性质（长度、词汇、词的表达方式），测验的条件（说明语、时限、物理环境），受试者的身心状态（动机、健康情况）。这些变量不至于显著地影响物理测量。其次，心理测量不如物理测量准确，假设一位教师按五级计分法评定一篇作文的成绩时，一级之差不是很清楚的，可是用一个合适的量具，就有可能成功地测量万分之一的长度。第三，在心理测量中受试者知道他是在被观察的情境中，有人感到不安而急躁；有人则异常努力，以取得好成绩。不论何种情况，都会影响测量结果。但在物理测量中，没有类似的情况。

因为心理测量具有这些特殊性，它特别注意在下列几方面满足测量学的基本要求。

第一，标准条件。测验的目的是要尽较大可能取得对受试人作业的准确估计。也象其他科学领域一样，心理测验中的准确估计依靠误差的控制，即尽量缩小那些与测验目的无关的因素的影响。这就要求使所有受试的测验情境尽可能保持一致。上述标准条件包括测验过程的三个主要方面：测验的内容、测验的施行、测验的计分。

第二，信度，亦称可靠性。指测验结果的一致性或稳定性。它表现在：

（1）一个测验内部各项目的得分是否基本相符。

（2）两次测验的分数是否基本上前后一致。一种测验如果没有信度，就等于用橡皮尺进行长度的测量，随着尺的任意拉长，而得到不同的结果，这就无从知道一次测试所得的分数能否代表受试人作业的正确指标。一种可靠的测量必须对那些在不同时间内或不同条件下可能产生不稳定分数的变量进行控制。方法之一就是利用上述的标准测验条件。另外必须编出意义明确的项目，通过加多项目，增加测验的长度。应用意义明确的项目和标准化的测验条件都会减少无关因素的影响。由于机遇因素（如猜测）的作用倾向于相互抵消，所以增加项目提高了测验的信度，从而形成较准确的估计。

第三，效度，亦称准确性。指测验确能测出它所要测量的特征或功能的程度。一种测验如果提不出效度的证据，则无从知道它真正测得的是什么特征，它将起什么作用，因而就不能对测验分数进行解释。怎样确定一种测验的效度，视测验内容结构的性质和测验的目的而定。效度的确定方法有三大类：

（1）内容效度，旨在系统地检查测验内容的适切性，主要分析测验项目是否反映出足够的典型行为样例并具有适当的比例分配。在学业测验中项目必须切合教材的内容并依据教学目标就学生行为变化的不同层面加以评量，而内容效度的高低视测验所包括的项目是否适当地反映教材内容的重点与行为目标的层次而定。

（2）和效标相关的效度是以测验分数和效标（如教师的评定，在校学业成绩、就业后的工作成绩等）之间的相关系数来表示测验效度的高低。

（3）构念效度，旨在用心理学的某种理论观点来说明、分析测验分数的意义。在构念效度考验的过程中，应先从某一构念的理论出发，导出各项关于心理功能或行为的基本假设，并根据这些假设去设计和编制测验，然后由果求因，以相关、实验和因素分析等方法，检查测验结果是否符合这种理论观点。

第四，分数。上面的探讨只有一个目的，即保证测验的分数能够提供有用的信息。如果一个测验不可靠、不正确，那就无从保证它能提供信息用来进行实际决定或理论验证。同时，可靠的和正确的分数是通过审慎的测验编制策略(其中包括标准化条件的运用)而求得的。为了便于比较，通常使用百分等级分数以及各种形式的标准分数来表示一个人的作业成绩在团体中居于何种位置。这些分数称为参照常模的分数。另外还有两种分数：参照能量的分数（又称参照效标的分数，强调不同专业受试人所应达到的水平）和参照后果的分数（预测受试人在另一种量度上将达到的水平）。

第五，实用性。测验的施行、作答和计分的手续愈简便，就愈容易得到准确和有用的结果。如果说明语不清楚，就会被误解；如果测验的手续过于复杂，就可能不被遵循；如果计分困难，将会造成错误。另外，还有两点要着重考虑：一是时间，不仅施测所需的时间，还有计分和解释结果所需的时间。二是费用，包括直接费用和间接费用。但在条件许可的情况下，应该首先保证的是测验的质量。

参考书目

A. Anastasi ， Psychological Testing ，New York，Macmillan Publishing Co.，1982.

F. G. Brown ， Principles of Educational ɑnd Psychological Testing，New York， Holt， Kinchart and Winston，1983.

严正声明：本文由历史百科网注册或游客用户埼坤自行上传发布关于» 个别差异诊断测量的内容，本站只提供存储，展示，不对用户发布信息内容的原创度和真实性等负责。请读者自行斟酌。同时如内容侵犯您的版权或其他权益，请留言并加以说明。站长审查之后若情况属实会及时为您删除。同时遵循 CC 4.0 BY-SA 版权协议，尊重和保护作者的劳动成果，转载请标明出处链接和本声明内容：作者：埼坤；本文链接：https://www.freedefine.cn/wenzhan/101133.html

相关阅读