如果把式(10-24)至(10-27)代入式(10-28),经化简后,将会得到式(10-29):
基于项目特征曲线的等值系数估计方法有多种。海巴拉最早提出基于项目特征曲线的等值法。下面介绍的两种等值系数估计方法均基于共同题设计模式(锚测验设计)。
海巴拉方法的等值系数估计过程如下,符号使用也尽量按照海巴拉的习惯。
①选择某个项目反应理论模型,分别独立估计出两个测验的被试参数和项目参数,我们称这两个测验为T1和T2。
②我们将测验T1定为量表测验,测验T2上的参数需要进行单位转换。
③为了让测验T2上的能力值与测验T1上的能力值具有可比性,就必须进行单位量制转换,θj,1=β·θj,2+α,其中,θ的第二个下标表示测验单位。海巴拉还特别说明,任何非线性形式的量表转换都将违反逻辑模型关于项目特征曲线形式的基本假设。
④完美的等值应该意味着,对于所有的共同题(,锚题)i(i=1,2,…,m)都有:
在这里,参数的第二个下标仍然表示测验单位。
⑤接下来的等值工作,就是找到能使式(10-30)对所有共同题都成立的β和α的值。
⑥海巴拉认为,在实际等值工作中,由于抽样误差和模型匹配问题,式(10-30)的两边不可能对所有共同题都能保证完全相等。所以,我们就应该找到使两边的值尽量接近β和α的值。于是,需要定义一个反映式(10-30)偏离程度的标准函数(fun),并找到使该标准函数最小化的β和α值。
⑦对于题目i(i=1,2,…,m)和被试j(j=1,2,…,n),定义差异变量:
并定义损失函数来标志各种偏离造成的信息损失,于是,题目i的等值误差(equatingerror)可以表示为:
总的等值误差为:
⑧能使Q值最小化的β和α值,就是损失函数L的最佳等值系数估计值。
海巴拉还给出了具体估计β和α值的方案:首先对反应函数的差异如式(10-31)进行平方运算,消除正负符号;然后对锚测验项目逐个地求所有被试的反应函数差异平方均值;然后累加所有锚测验项目的差异平方均值;最后估计能使这个累加和最小化的等值系数,求解能使函数最小化的参数的问题,经常会转化为函数对未知参数求一阶导,并令其为0的过程,而解一阶导方程的方法经常就是采用牛顿-拉夫孙迭代方法。具体的求导和解一阶导方程的过程在此就不详细叙述了,有兴趣的读者可以参看相关文献,或者使用现成的程序。
斯托金-洛德基于项目特征曲线法提出了另外一种等值系数估计的方案。斯托金-洛德方法在构建等值方程估计等值系数时与海巴拉方法稍有不同,他们首先定义被试在测验上的真分数为他在所有项目上的正确反应概率之和:
在共同题等值设计中,会有两套独立估计的锚测验项目参数。但是,斯托金-洛德方法认为,只要项目参数经过了单位转换,同一个被试在锚测验的两套已知参数上计算出来的真分数应该是相等的,于是有:
这就是斯托金-洛德方法建构的等值方程,接下来的问题又是找到能使F达到最小时的β和α的估计值。问题的解决仍然是转化为函数对未知参数求一阶导,并令其为0的过程,而解一阶导方程的方法仍然采用牛顿-拉夫孙迭代方法。具体的求导和解一阶导方程的过程在此就不详细叙述了,有兴趣的读者可以参看相关文献,或者使用现成的程序。
从以上介绍可以看出,海巴拉方法与斯托金-洛德方法的不同在于,海巴拉方法是基于各个被试在单个项目上的反应函数的差异,而斯托金-洛德方法则是基于各个被试在所有共同项目上的反应函数累加和(真分数)差异。读者在选择时可以任意挑选一个。
3。基于认知诊断评价理论的等值过程
基于认知诊断评价理论的等值研究还非常少,辛和张(Xin&Zhang,2015)研究了认知诊断模型下观察分数的局部等值方法。许和冯戴维研究了基于GDM模型的等值问题。
冯德林顿和威伯格(vanderLinden&Wiberg,2010)提出了基于潜在真值的观察分数等值转换方法——局部等值(localequating)法。他们首先假设两个等值测验测量了相同的潜在特质结构,于是有以下观察分数转换模式:
θ为被试潜在能力水平;Fy|θ是测验Y上潜在能力水平为θ的被试的观察分数累积分布;Fx|θ是测验X上潜在能力水平为θ的被试的观察分数累积分布。
上式表达的转换过程类似于经典测验等百分位等值转换过程,首先求取某观察分数x在测验X上的百分等级,然后对应该百分等级在测验Y上转换回等值分数。当然,这个转换过程的内在逻辑与经典测验等百分位等值有着本质的不同,局部等值是基于潜在真值的转换,而经典测验等百分位等值是完全基于观察分数本身的转换。
辛和张研究了局部等值法在认知诊断模型中的观察分数等值问题。首先,他们假设两个等值测验测量了相同的潜在特质结构,拥有相同的邻接矩阵或可达矩阵,即Ax=Ay或Rx=Ry,于是两个测验就会有相同的被试属性掌握模式(AMP)集;同时假设相同的被试属性掌握模式代表了相同的被试领域水平。基于此,局部等值法就可以应用于认知诊断模型的观察分数等值转换中。
由于各种误差因素的存在,相同属性掌握模式的被试可能会有不同的观察作答反应模式(ORP)或观察分数(observedscore),这些不同的观察作答反应模式或观察分数将形成一个分布。于是有以下观察分数转换模式:
α是被试属性掌握模式,在实际等值转换过程中,α可以用估计值代替。
二、垂直量表化
垂直量表化也叫垂直链接,指的是在某个特质领域内,在纵向发展的不同水平(如年龄、年级)群体之间,建立关于群体或个体特质水平发展状况的评价参照体系的过程。从概念上可以看出,垂直量表化是针对不同年龄或年级被试群体进行的,进行量表化的内容领域是相同的,如一般认知能力、语言能力、数学能力等。量表化的目的是建立不同年龄段或年级段之间的统一量表体系,从而可以评价和发现个体或群体的动态发展水平和趋势。进行垂直量表化的测验对于不同年龄或年级被试来说,虽然测试领域是相同的,但题目的具体内容和难度是不一样的,因此,这样的测验就不能称为平行测验,也就不能通过等值的方法进行统一量表化。不过,在许多进行垂直量表化的方案中,可能会在相邻的两个年龄段或年级段测验之间设置部分共同题目,以便建立测验分数之间的连接关系,这与等值方案中的共同题(锚题)设计思想却又是相同的。
(一)垂直量表化设计
在进行垂直量表化时,一般可能会涉及多个年龄段或年级段。其中一种设计方案是用一个统一的锚测验,也叫量表测验,施测于所有年龄段或年级段的被试,从而建立垂直量表,然后,不同年龄段或年级段的被试在非锚测验上的得分就可以链接到该垂直量表上。然而这种设计方案可能存在问题,因为锚测验中有的题目对于低年龄段或低年级段的被试来说太难了,甚至根本就没有学过,而有些题目对于高年龄段或高年级段的被试来说又太容易了。这两种情形下的题目,对于相应年龄段或年级段的被试水平估计均不能提供任何信息。根据这种想法,锚测验对于不同年龄段或年级段被试的信度就可能存在很大差异,从而导致所建立的垂直量表不稳定。
垂直量表化的另一种设计方案是,先找一个起始年龄段或年级段,首先建立它与相邻年龄段或年级段之间的链接,然后进一步建立该相邻年龄段或年级段与下一个相邻年龄段或年级段之间的链接,以此类推,从而建立起所有年龄段或年级段之间的垂直量表。这种设计方案可能也需要使用锚题,然而,锚题对于相邻年龄段或年级段来说,信息量衰减不会太明显。因此,通过相邻年龄段或年级段建立链接来进行垂直量表化,应该是一个更合理的选择。下面介绍的量表化过程主要就是围绕这种设计模式。
1。共同题设计
这种设计模式与前面等值部分介绍的共同题设计模式本质上是一致的,只是需要链接的被试组别更多,而且相互之间是纵向发展的。具体设计模式参考图10-5。