对话 | 剑桥专家为你一键解锁计算机自适应考试

点击领取>>>KET/PET官方真题汇总、官网样卷试题、听力阅读答题卡、高频必备单词表



“人工智能赋能英语学习”在线系列讲座是2020剑桥英语节的重要主题之一,由剑桥大学英语考评部首席研究经理徐兢博士作为主讲嘉宾,为大家深度解读英语测评的基本概念和人工智能在英语测评领域中的应用。


本期文章将回顾该系列讲座的第三讲:“自适应测试:让定制化测试成为现实”(Building personalised assessment via Computer Adaptive Testing )


本文包括:第三讲的讲座回放、要点总结、专家问答和知识小测。文末我们将公布上期三道小测验的答案及幸运读者名单,赶紧阅读文章看看你有做对吗?


视频回顾


错过了直播或者想要温故知新的观众们,以下是徐兢博士第三讲的精彩内容!同样,看完视频,记得完成文末的三道小测验。我们将随机抽选答对的幸运读者,送上Write&Improve专属福利!上期没有被选中的读者请继续加油,我们期待你的答案!




要点总结



本讲主要包括五部分:


  • 计算机自适应考试(CAT)是什么

  • 自适应英语测试的优势

  • 计算机自适应考试如何衡量考生的英语水平

  • 解析剑桥领思的阅读与听力试题

  • 剑桥领思的试题总览(见视频)




计算机自适应考试(CAT)是什么?



计算机自适应考试(CAT, Computer Adaptive Test)的特点在于“自适应”,意为“自动调整试题难度来适应考生在做题过程中的实时表现”。传统考试中的试题题目是提前设置的,是静态的,而计算机自适应考试可以根据考生在考场中的实时答题情况,在试题库中抽取测试题目难度值与考生能力水平相对应的下一道测试题目,直到最终得到反映考生真实能力水平的结果,其出题和评分过程是动态的。因此,计算机自适应测试可以实现为每位考生实时“量身定制”试卷。


剑桥领思考试中的考生test journey样本



自适应英语测试的优势?



“自适应”是剑桥领思考试的一大特点,其具有以下优势:


  • 高效精准:水平高的考生无需回答过多简单试题,水平有限的考生也不会遇到太多难题,从而可以确保在短时间内获得较为精确的测评结果。

  • 安全便捷:由人工智能加持,通过远程监考,并配合计算机自动评分,可以实现随时随地进行考试。

  • 降低考生焦虑情绪:每位考生遇到的题目难度不会超出其承受水平,这可以有效降低考生的焦虑情绪,让考生在考试中充分发挥其语言水平。



计算机自适应考试如何预测考生水平?



语言能力是大脑的隐性特征,无法通过物理方法进行测量,因此我们需要通过合理的试题设计引导学生展现相应的语言能力,再通过计算机算法量化预测其语言水平。剑桥领思的测评算法是基于项目反应理论(Item Response Theory, 简称 IRT),又称为隐性特征理论。该理论构建了一整套数学模型来描述考生能力(test taker ability) 、题目特性 (task difficulty) 与考生答对率 (probability of correct answer)之间的关系。


其中,作为项目反应理论模型中的一种 - Rasch模型规定,当某个题目的难度和考生的能力相当,那么考生能够答对该题的概率为50%。这个数值也可以通过以下公式推导得出:


Rasch模型基本公式


在Rasch模型中,当一道题目难度中等,我们将该题赋值为0;当某位考生水平中等,则该考生水平也赋值为0,那通过以上公式可推导出该考生答对该题概率为50%。计算过程见下图。



该结果若通过指数函数表现出来则更为直观(如下图),中间的实线曲线b即为以上公式体现的函数曲线。可以看到(黄线标明处),当题目难度适中、考生水平适中时(横坐标为0),该考生答对该题的概率为50%(纵坐标数值0)。



依此类推,当同位考生遇到题目a时(下图中的虚线曲线a),由于a题目更为简单,所以该考生的答对率在87%左右(纵坐标0.87)。



由此可见,以上公式可以通过题目难度和考生能力,计算出考生答对题目的概率。但在计算机自适应考试中,计算机能够实时获取考生的答题结果。因此通过将该公式反向推导,计算机可以根据每位考生对一系列考题的答题对错与否和相应考题的难易程度,反向估算出考生最有可能的语言能力水平。考生答题越多,能力估算就越精确。考试在达到预设的精确度后就会自动停止,给出最终结果。

 

在经典测试理论(Classic Testing Theory)中,对于一整份考卷,每个考生的答题表现可以总结到一个表格中(如下图)。其中,顶部横项为题目,左侧纵向为考生名字(化名),数字1代表考生答对该题,数字0代表考生答错该题。经典测试理论通过累计考生答对题目的总数量来计算考生的水平。但这样做有一个缺点,因为答对一道简易题和答对一道难题所获得的分值是一样的,这样不利于有效区分考生之间的水平差异。例如:在此表中题目11的难度系数一定会比题目3要大,因为答对题目11的考生人数要比答对题目3的考生人数少得多。理所当然,答对题目11的考生更有可能是高水平考生。相比之下,由项目反应理论加持的计算机自适应考试会把试题难度作为预估考生能力的一个变量,从而能够通过更少的试题来精确衡量一个考生的能力水平,因此考试也会变得更高效。


Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.



解析剑桥领思考试的阅读与听力试题



剑桥领思考试中的所有阅读和听力试题的研发均以欧洲共同语言参考框架(CEFR)中的能力描述为基础,这使我们可以对通过计算机算出的考生分数解读和预测考生的英语语言能力。


下面为剑桥领思听力B1级别的一个例题,听力对话中两个人在讨论决定旅游出行的酒店地点。选项有三个,酒店分别在山间度假村、港口旁和海边沙滩上。


剑桥领思B1级别听力例题


这个题目旨在测试考生能够听懂有关旅游和住宿的基本对话的能力(can understand basic dialogues about accommodation and travel),符合CEFR中的B1级别。若考生答对该题,则计算机在下一题很有可能会分配一个B2级别的题目给考生,通过多次测试,以最终确定考生的听力水平。

 

根据徐兢博士在2016年的试测研究(Pretesting),在剑桥领思考试中,考生完成阅读测试的平均时长为26分钟,听力部分为22分钟,阅读评分的人机信度达到0.94,听力为0.92。可见,剑桥领思考试在保证评分准确性的同时,有效地缩短了传统线性考试所需的时长。


专家问答



徐博士有哪些关于项目反应理论(IRT)的参考资料推荐?


如果你对项目反应理论感兴趣,可以参考以下文献。


章节(对项目反应理论的简要介绍)

· Ellis, D. P., & Ross, S. J. (2014). Item response theory in language testing. In A. J. Kunnan (Ed.), The companion to language assessment (Vol. III, pp. 1262-1281). Chichester, West Sussex: John Wiley & Sons.

· Ockey, G. J. (2012). Item response theory. In G. Fulcher & F. Davidson (Eds.), The Routledge handbook of language testing (pp. 336-349). London: Routledge.


教科书(对项目反应理论的系统介绍)

·de Ayala, R. J. (2009). The theory and practice of item response theory. New York, NY: Guilford.

·Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologist. Mahwah, NJ: Lawrence Erlbaum Associates.

·Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Norwell, MA: Kluwer Academic Publishers.

·Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Erlbaum.





IRT可以运用到Speaking吗?


到目前为止,基于项目反应理论的自适应考试还没有被应用到口语测试上。那是因为口语测试的评分并不是非对即错和有标准答案,而是由考官依据一个详细的打分标准(rating scale)对语言表现进行主观评分。


但是项目反应理论中的单一参数模型(One-Parameter Model)也叫Rasch模型,自上世纪九十年代开始已经被应用于口语测试的效度和信度的研究上。这些研究包括对考官打分严厉程度的比较,考题难度的比较,以及考试环境对考分的影响等等。大家有兴趣的话可以阅读以下参考文献。


McNamara, T. F. (1990). Item response theory and the validation of an ESP test for health professionals. Language Testing, 7(1), 52-75.

McNamara, T. F. (1996). Measuring second language performance. London: Longman.

McNamara, T. F., & Knoch, U. (2012). The Rasch wars: The emergence of Rasch measurement in language testing. Language Testing, 29(4), 555-576.

Yan, X. (2014). An examination of rater performance on a local oral English proficiency test: A mixed-methods approach. Language Testing, 31(4), 501-527.






剑桥领思考试适合K12学生吗?会取代MSE系列考试吗?


剑桥领思考试是针对16岁及以上的青年和成年考生设计的,并不适合年幼的少年英语学习者。剑桥领思的考题内容(比如阅读理解)涵盖超出年幼考生认知范围和语言使用范围的话题,因此并不适合这个人群。同时少年考生对计算机的使用(比如在计算机上快速写作)还没有驾轻就熟,所以他们或许并不能在计算机化考试中发挥出自己应有的水平。对于少年英语学习者,剑桥大学英语考评部有推出量身定做的考试,叫做Young Learners English Tests (YLE),即剑桥少儿英语。同时,青少年学习者还可以根据自身实际情况选择参加剑桥通用英语五级系列考试。


https://img.jzlt100.com/uploads/files_user49/question/5ec64705177d8154134.png


扫码添加“家长论坛”微信好友(微信号 16619908263

获取KET/PET官方真题汇总、官网样卷试题、听力阅读答题卡、高频必备单词表

咨询北京KET PET相关课程请拨打电话 16619908263 (同微信号)


已邀请:

要回复问题请先登录注册