联系我们
联系电话:400 666 2002
地址:北京市回龙观文化园区北方工商管理学院(102206)
传真:(010)52886016
邮箱:nibmpxb@126.com
网址:http://www.nibmchina.org
教学管理
当前位置:首页 >> 教育教学 >> 教学管理 >>
测验等值的比较研究


摘 要 本文对测验等值的几种设计和方法进行分析比较,并讨论如何使用这些设计和方法,同时指出一些尚待进一步研究的问题。

  关键词 测验等值 等值设计 等值方法


一、等值的意义和作用

  人们有种种理由要求比较、解释不同时间、不同地点、不同考生的测验分数,以便对试卷或试题的质量,对不同学年的考生水平作出公正的评价、合理的解释,特别是高考、自考这种规模大、影响广的全国统一考试,它决定数百万考生的命运因而备受社会各界关注。人们当然想知道,各年度试卷的难度水平是否有变化?各年度考生的实际水平是否有提高?不同年度考试之间的考试分数究竟有何关系?如果我们能够把不同年度、不同考生的考试成绩转化到同一个单位系统上去,则上述问题就能得到解决。在教育与心理测量中,把测量同一种心理特质的不同测验分数,通过一定的数学模型转换成同一单位系统中的过程就称为测验的等值,可见测验等值是心理与教育测量中一个重要的研究领域。根据等值对象的不同,测验等值包含两方面的内容,如果我们想把不同次测验所得到的分数进行等值,这种等值称为测验分数等值,例如在自学考试中,我们想知道去年的高数考试成绩60分究竟等同于今年的高数成绩多少分。如果我们想对测验题目的参数如难度、区分度进行等值,这种等值就称为项目参数等值,本文主要讨论测验分数等值,项目参数等值的思想方法与之相似。


二、等值的条件

  等值是有条件的,不是任意两个测验都可以进行等值。首先,要求等值的两个测验必须是测量同一心理物质的。很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能转换成另一次内容难度近似的数学测验分数。其次,只有当测量同一特质的两次测验的信度即可靠性相同或相近时才能进行等值。信度值相差太大的两次测验不能进行等值,第三,测验等值转换关系应具有公平性。公平性的意思是:若两个或多个测验可以进行等值,则无论以其中任何一个作为基准来进行转换都是可行的,这样考生接受其中任何一个测验,其分数经等值变换后都不会低估或高估其实际水平。第四,测验等值转换关系应具有唯一性,因为测验等值是两个或多个测验之间客观存在的实际关系,虽其等值的转换关系源于样本,但等值转换方程的求得应独立于被试样本的特点和实测时的具体情境,因而适用于需要进行等值转换的所有场合。第五,当应用项目反应理论来进行等值时,由于目前广泛使用的模型都是单维模型,因而要求等值测验的潜在特质也必须是一维的。


三、等值设计方法与比较分析

  要对不同次测验进行等值,就必须收集可以用于等值的数据,如果两个不同测验间的分数没有统计关系.则无法使用统计方法使之产生联系。为此须对测验的编制或施测的过程进行设计,称此工作为测验等值设计,测验等值设计方法一般有以下几种:

  1、单组设计:即把应予等值的两个或多个测验同时向同一被试组施测,然后借助于同一被试组把应予等值的测验联系起来,这时两组测验分数的差异主要是由于两个测验的难度不同而引起的,因而从理论上来说这种等值设计既简单又无抽样误差。但实际上由于练习效应、疲劳及厌倦等因素的影响,会给等值结果带来偏差不明的误差。

  2、等组设计:从同一总体中随机抽取两组考生,这两组考生被认为在能力分布上是相同的或很接近,让这两组考生分别接受两份不同测验X和Y,然后把所得测验分数加以等值。这种设计方案可克服练习效应和疲劳等因素的不利影响,但由于两组考生的能力分布可能不一样,从而给等值带来偏差。

  3、等级交叉设计:这件设计方法是把1、2两种设计结合起来而产生的。把考生随机分成两组,第一组考生先测X测验后测Y测验,第二组考生则先测Y后测X,这种方法兼有1、2两种设计的优点,但仍无法克服练习效应和测试则间太长的缺点。

  4、铆测验设计:把应予等值的测验分别向不同的考生组施测,但这两个测验都附加由共同项目组组成的附加测验称之为“铆测验”。由其作为桥梁把测验X和Y联系起来,这种设计不要求两个被试样组的能力分布完全一样,也不会给考生带来太大的练习效应和疲劳因素,因此它兼有第一、第二两种设计方案的长处,又克服了其短处。

  5、共用被试设计:把考生随机分为三个组分别记为组1、组2和组3,组1和组3的考生接受测验X,组2和组3的考生接受测验Y,其中组3的考生同时接受了测验X和测验Y,利用这部分被试作为桥梁建立测验X和Y的等值方程。


四、等值方法与比较分析

  根据等值设计得到成批数据之后,就可以采用适当的方法对测验进行等值,常用的等值方法有以下几种:

  1、百分位数等值法:这种等值法的定义是,对于测量同一特质的测验X与Y,若其上的两个分数X与y相对于各自样本组的百分等级相同,则认为这两个分数等值。这种方法的定义直观,也容易理解,对两个测验的分布是否相同也无要求。只要分别计算出两个样本中被试得分的相对累积频数,则分数X的百分位等级分数就等于比X分数小的考生占全体考生的百分比,而在这两个样本中同一百分等级所对应的原始分数就是等值分数。百分位等值法有两个明显的缺点,一是分数等值转换关系的求得依赖于所选用的样本,当抽取的样本改变之后,具体的等值关系就会发生变化,因此唯一性要求没有得到满足;其二,百分位等值法通常要使用平滑化处理方法,这无疑增大了等值的误差。

  2、线性等值法:所调线性等值法其实质是,对于两个平行测验上的分数,如果它们在任意给定被试组上各自的标准分数都相等,则被认为这两个分数等值,即有公式:



  式中x、y是两测验的原始分数,分别是测验X和Y上原始分数的平均值和标准差,把上式整理后即得:


  以上是在单组设计时的线性等值方程。若在随机分组情况下,等值方程就要复杂得多。例如设把考生随机分为组和组,组考生先测X后测Y,组考生正相反,在两测验信度相等时线性等值方程是:

(3.1)

  其中

分别是考生组在测验X与Y 上的样本方差与均值,的意义相仿。

  在铆测验设计中,设组的考生完成测验X和铆测验U,组的考生完成测验Y和U,令,在两测验信度相等的情况下,若两组考生之间的能力无明显差异,则线性等值方程仍为(3.1),但此时

(3.2)

  这里

      式中表示对组考生而言X在U上的回归系数,的意义相似。

      若两组间能力有差异,这时线性等值方程仍为(3.1),表示式仍同(3.2),此时

       

       

       表示由组考生所得的X的信度系数,共余符号意义同上。

      用线性等值法对两种测验进行等值,要求两个测验除了在均值和方差不同之外,它们的分数分布是相同的,因此该方法所需的假设条件比百分位等值法要强,但在计算上线性等值并未从根本上突破百分位等值的一些局限性,因此有必要寻找更好的等值方法。

      3、项目反应理论等值法。项目反应理论的优越性在于:试题参数的估计独立于被试样本,而被试的能力估计与试题无关。当项目参数在同一量表上,则无论被试参加的测验难易差异如何,在不考虑抽样误差的消况下,同一被试的能力估计值不变,不同被试的能力估计值在同一量表上,因而可比,且不存在等值问题。

      在项目参数未知时,情况就不同了。由于能力表带有随意性,因此首先必须确定能力参数或难度参数b的量表。对于单参数模型只要令能力(或难度b)的均值为量表原点,而对双参数或三参数模型,一般以能力(或难度b)的均值为量表原点,以(或b)的标准差为量表的单位1,这样就解决了量表问题。根据上述想法,假设同一组被试参加两个测验X和Y(测量同一种潜在特质),对于单参数模型,若确定难度的均值为量表原点,则有等值关系:

        (4.1)

      对于双参数和三参数模型,若确定难度b的均值为量表原点,标准差为量表单位,则有

        (4.2)

      式中分别表示在测验X上,被试能力的均值和标准差,表示类似的意义,上面两个式子的形式与经典测验理论的线性等值变换相类似,但在项目反应理论中这种关系是根据理论推导而得出的。令,则(4.2)式变为:称为等值常数,只要确定了常数,则从理论上来说两个测验的能力等值化就完成了。但从实际应用上来说,由于都是理论参数,我们只能得到它的估计值,而这种估计值中包含有误差。至于如何估计等值参数,限于篇幅就不讨论了。

      以上讨论了测验等值的意义和作用,等值应满足的条件,几种等值的设计与比较,几种等值的方法与比较等。在这个研究领域还有许多尚待进一步研究的问题,比如在测验等值与测验编制和评分的关系方面,在等值误差的控制方面,对现有的等值设计和等值方法进行修正或提出性能更优的设计和方法等等,有许多问题需要深入研究。


    参考文献
     

      [1]张厚粲,测验的等值化,第三届全国高校招生考试改革科研讨论会论文选,高等教育出版社,1989年

      [2]漆书清,戴海崎,项目反应理论及其应用研究,江西高校出版社,1992年

      [3]叶佩华,张厚粲等,测验等值,广东高教出版社,1990年


    Compaping Research of Equating From Different Tests

    Chen Xizhen Lu Zhengyong

    (Putian College, Fujian 351100)


      Abstract: In this paper some designs and methods of equating were analysised and compared, and how to use these designs and methods were discussed. Some problem which need to research were pointed.

      Key Words: Equating from different tests, Design of equating, Methods of equating


    作者简介


      陈希镇,硕士,莆田高等专科学校经管系、数学系副主任、副教授,全国教育统计与管理学会理事。从事教育统计与测量研究多年,主持全国教育考试科研九五规划课题等多项研究,在全国权威核心期刊上发表学术论文18篇,获全国统计科技进步二等奖等多项政府或学会成果奖,享受政府特殊津贴。
Copyright © 2006-2010 .All rights reserved.北方工商管理学院 版权所有
地址:北京市回龙观育荣国际教育园区 邮编:102206
京ICP备1101140007号