图10-5垂直量表化-共同题设计模式
根据这种设计模式,3年级被试组需要作答本年级非锚测验T3,同时需要作答适合3、4年级的锚测验C34,4年级被试需要作答本年级非锚测验T4,同时需要作答两个锚测验:适合3、4年级的C34和适合4、5年级的C45。因此,除了最低年级组和最高年级组,其余各年级组均需要作答2个测验,为了避免被试出现作答疲劳现象,就需要考虑结合下面介绍的随机等组设计。
随机等组的概念与等值部分内容中的概念是一致的,只是对于垂直量表化来说,随机等组是在同一个年级组或年龄组内抽取,而且需要抽取更多个被试组。具体设计模式参看图10-6。
图10-6垂直量表化-随机等组设计模式
根据图10-6所示的设计模式,除了最低年级组和最高年级组之外的其他年级组均需要抽取3个随机等组被试组,其中一组作答与水平更低相邻年级组的锚测验,一组作答只属于本年级组的测验,另外一组则作答与水平更高相邻年级组的锚测验。而最低年级组和最高年级组只需要作答与其相邻的一个锚测验和一个只属于本组的测验。
根据以上介绍,共同题设计和随机等组设计其实是相互渗透、相互组合的。不管是哪种设计模式,不同年级或年龄水平被试总体之间不可能存在等组设计模式(即使找到等组,也不具有年级或年龄代表性),因此,不同年级或年龄水平之间总是要通过锚测验进行链接。不同年级或年龄组之间的等值转换关系也总是基于锚测验来建立。
(二)等值关系转换方法
根据不同的设计模式,可以运用本章第二节所讲述的等值转换方法,建立不同测验分数之间的等值转换关系。在这里专门介绍一下另一种经常用于垂直量表化的转换方法:瑟斯顿绝对量表法(Thurstoesgmethod)。
应用瑟斯顿方法要满足两个严格的假设:①进行转换的被试样本总体服从正态分布;②由潜在特质决定的特质分数是严格单调上升的,也就是潜在特质水平越高,则其观察分数也必定会越高,这样才能保证所有转换关系的一致性。
我们先简要地介绍一下在这两个假设基础上,瑟斯顿绝对量表法涉及的几个基本式子。同时,在垂直等值设计中,不同水平群体必须通过锚测验进行链接。所以,下面叙述的内容情境也是专门参照这种设计进行理解的。如果被试群体水平不同,又没有设计锚测验进行链接,下面式子中的各种变量关系将无法理解。
对于锚测验上某个任意观察分数x,可以分别计算出它在两个被试组得分分布中的位置指标——z分数:
这个就可以表示为瑟斯顿绝对量表法关于两个被试组的分数之间的转换关系式。如果我们把第一组(变量下标为1者)规定为量表测验组,第二组规定为原始测验组(变量下标为2者),那么,式(10-41)可以表示某个相同观察分数,在原始测验组上的位置转换到量表测验组之后的相应位置。也就是说,式(10-41)可以表示相同观察分数在原始测验组与量表测验组之间的位置对应关系。我们也可以这样来理解式(10-41)表达的意义:在原始测验被试组上处于某个位置的被试,在量表测验被试组中将会处于什么位置。从形式上,瑟斯顿绝对量表法还经常会通过一个等值转换表来呈现,在这个等值转换表中,第一列为观察分数;第二列为观察分数在量表测验上对应的位置;第三列为观察分数在原始测验上对应的位置。
不过,在实际等值设计中,常见的情形是,锚测验只是整个测验的一部分,我们是希望通过锚测验设计来等值被试在整个测验上的得分。于是,我们还必须了解更多的相关式子。
瑟斯顿根据两组被试水平之间与两组题目难度之间有相同转换关系模式的假设,认为式(10-41)与式(10-43)的斜率和截距应该对应相等,即有:
有了这两个式子,就可以估计原始测验组被试在作答量表测验组整个测验后的得分的平均数和标准差。
瑟斯顿绝对量表法等值转换结果的可靠性可以通过两个方面进行评价:一方面是通过直观观察,看观察分数对应的两列位置分数在坐标平面上的散点图是否是直线关系,越接近直线,等值转换结果越可靠;另一方面是通过计算两列位置分数之间的皮尔逊相关系数进行统计评价,线性相关系数越接近1,说明等值转换结果越精确可靠。在绘制散点图时,一般横坐标为原始测验的位置分数,纵坐标为对应的量表测验的位置分数,散点表示相同观察分数分别在原始测验和量表测验上的对应位置,如图10-7所示。
图10-7分数地位散点图
在实践中,瑟斯顿绝对量表法经常也会先将观察分数进行正态化转换,具体过程如下:
①分别绘制两组原始分数的简单次数和累积次数分布表,并把累积次数转换为相应的百分比例。
③按照式(10-41)对两列正态化分数进行等值转换。需要特别注意的是,在这里,正态化z分数代替了前面讲的观察分数。式子中的平均数、标准差是根据两列正态化z分数,也就是z′计算得到的。
正态化转换是非线性转换,它会改变分数的分布形态,但是不会改变分数之间的排列顺序,因此,正态化z分数更大的值仍然对应原始观察分数中更大的值,这就保证通过正态化z分数仍然可以找到对应的原始观察分数。
关于瑟斯顿绝对量表法在实际使用中的效果,有许多评价。基于瑟斯顿绝对量表法的等值转换效果必须是在各个假设条件成立的前提下才能保证。首先,来自正态分布总体的被试样本的得分分布也应该服从正态分布。其次,由潜在特质水平决定的观察分数或转换分数很难保证严格的单调关系,它们总会受到各种随机因素的影响,这当然就会进一步影响基于这个假设的等值转换关系式的精确性。另外,关于“两组被试水平之间与两组题目难度之间有相同转换关系模式”的假设应该成立,然而,这一点在垂直等值情形中很难做到,当然,如果所有被试测试的题目完全一样,结果会更好。也许垂直等值方法需要进行更多研究。另外,锚测验要对整体测验具有很好的代表性,这样才能保证两个被试组在锚测验上的分布性质,能够被推广到他们在整个测验的作答分数分布形态上。
本章小结
本章主要介绍了认知诊断评价中涉及的两个重要研究领域,即信息量和等值。然而,目前这两个领域并未得到广泛深入的研究,因此在此独立成章一并进行简要介绍。
认知诊断评价首先需要实现对被试认知状态的精确估计,为此,需要收集被试在测验项目上的作答信息,并以此为基础确认对被试认知发展状态的认识。
在认知诊断评价中,信息反映了不同项目在认识被试或鉴别不同被试认知发展状态时的价值大小。信息量反映了不确定度的大小、认识误差的大小或测量误差的大小。信息的大小与项目本身(信息源)的特征有关系,同时与被试本身(信息接收者)的特征也有关系。为了能够精确地估计或鉴别不同被试水平,经常借助信息量指标作为参照,挑选能够为被试带来更大信息的项目进行测试,以实现有目的的、更加高效的测试评价过程。
认知诊断评价理论中的项目和被试参数化方式与项目反应理论存在着较大的差异,因此,其信息量的计算表达方式也不相同,但根本原理却是一致的。部分指标的具体应用请参看认知诊断计算机化自适应测验一章中的相关内容。
等值是大规模评价的必要过程,它能够保证不同群体在不同时间、不同测试模式之间的可比性。认知诊断评价领域关于等值的研究还非常少,本章只是简要介绍了两个已有研究中的等值方法,而对于模型参数的等值转换研究还未发现。希望通过对各种等值方法的介绍能够为进一步的等值研究提供参考借鉴。
思考题
1。信息、信息熵和信息量的概念是什么?
2。综合前面章节所学到的知识,你了解的评价信息量的主要方法有哪些?
3。等值的意义是什么?等值设计的主要方法有哪些?