第三,缺失整套题目的算分表转换方案。在老SAT中,考生会被随机分配一个和正式算分的阅读、语法、数学中某一个section完全一模一样的section作为加试,时间长度、题目结构都完全一致。而新SAT的加试仅有20分钟,比阅读、语法、数学的时间长度都短,且考生知道那个部分是加试。
更重要的是,新题测试的数据可能不准,给未来组卷带来压力。做加试最重要的是学生不知道哪个部分是加试。比如在托福的阅读和听力中,学生不知道哪篇文章、那个section是加试,这就会让学生非常认真地对待每一道题目。
但在新SAT考试中,虽然官方声称任何section都可能含有算分的题目(operational items)和加试题目(pretest items),但从实际操作来看,加试的题目几乎都在第五个section。笔者还没有遇到考试学生汇报带essay和不带essay的前4个section有不一样的情况。
而在老SAT考试中,考生在考试中是无法知道哪个section是加试的,因为加试的section和正式考试的section结构完全一样。只有出了考场同学们相互沟通,才会知道有哪个section不是所有人都遇到的。
所以,在这样的环境下,学生对于additional section的态度大不如以前认真,因为他们有充足的理由相信这部分不会算分。因此测试的结果也不会准确。
综上所述,利用additional section来进行新题的算分表的制作并不具有信服力。同时因为加试学生不认真对待,对于考试前选择试题难易程度组卷也没有特别充分的数据支撑。如果新SAT仍然沿用旧SAT的方式,采用这种externalanchor的方式计算equating,或许能部分解释为什么现在的算分表很不稳定。
有没有可能新SAT在一套form真正投入使用前就已经确定了算分表了呢?笔者对于这样的想法也持怀疑态度。如果在考试前就确定算分表,ETS大概率不会允许这种和OG相差较大的算分表。而且考前通过招募大量考生确定算分表,劳民伤财而且还容易导致题目泄漏。所以算分表大概率是在第一次投入使用时,结合考后学生数据确定的。
还有更糟糕的一点是,有些题目第一次考试时,参考人数可能较少。在人数较少时使用并确定算分表可能导致算分表“畸形”。而这套题目之后再大规模使用,就可能会带来灾难。
比如,2018年6月份使用的多套题目,一些都在下半年进行了复用。比如2018年12月的亚太和北美都重复了6月份的某套题目,而且这套题目并不是6月份主流的那套题目。但是我们充分理解CB的用意,试想,在北美3,5,10月这三场考试,考后都需要公开题目的,因此全美必须使用统一的一套卷子。
所以能用多套题目进行测试的月份只有6,8,11,12和school day test的几个月份。至于今年为什么只在6月份使用了多套题目,还没有想到合理的理由。有可能是试题开发速度不够快。但单从这几个月的考量来看,笔者猜测6月应该是整体相对较少的,因此在6月测试多套题目显得格外的不明智。
目前没有任何公开材料表明新SAT的equating是采用何种技术,以及新SAT如何保证新题测试的准确性。如果读者发现了相关资料,希望能够和我分享,这也是我的困惑之一。