论本科教学中题库建设的意义及质量评价体系
论本科教学中题库建设的意义及质量评价体系
论本科教学中题库建设的意义及质量评价体系
陈晟1,江昀2,赖朋1
摘要:本文结合作者在题库建设中的实际工作,对本科教学中的考试题库建设的意义、作用,以及题库建设中需要重视的难点做出了综述,并对题库的深入应用、题库的质量评价指标做出了探讨。
关键词:考试;题库;区分度
基金项目:本文系2015年西华大学教育教学改革研究项目《制药工程专业卓越人才的培养模式探索》的研究成果之一
作者简介:陈晟,理学博士,讲师。
在高等教育中,考试是一个必不可少的环节,借此来检验学生对知识的掌握程度,也间接体现教师的教学工作是否达到了预计的效果。因此,如何设计考题,真实、可信地反映学生的学习成果,就是高等教育中一个极为重要的问题。
一种解决思路,就是为某一门课程设计题库,以后每年的考试均从题库中抽取若干题目组成考卷。本文将从题库建设的意义、题库建设的重点与难点、题库的质量评价指标等方面进行一些新的探讨。
一、题库建设的意义
题库建设的意义,已经有相当多的教师做出过论述。而本文作者在几门本科课程的题库建设的过程中,对题库建设的意义有了一些新的认识。
(一)考察的范围更加规范、全面
作为一门课程的主讲教师,当然有权决定把哪些知识点作为考察的重点。同时,这种权力又应该受到培养目标、教学大纲的制约,不能因为教师个人的好恶而随意地改变知识点的权重。特别是对于那些复杂、抽象的知识点,往往要求教师花费更多的时间与精力才能真正将其阐释清楚,在实践中就存在教师“讲课时一笔带过,考察时故意回避”,将该知识点擅自忽略的可能。尽管绝大多数教师的职业道德水平,决定了这种可能性实际上非常小,但它依然是一种制度性的风险。
同时,对于同一个考点,不同的命题人可能对其重要程度的看法不同,因而影响到考察的深度和广度,这会直接体现在题型和分值的差异上。比如,某个知识点在一张试卷上可能只是2分的选择题,在另一位教师出题的试卷上却可能是一道10分的论述题:尽管都考察了这个知识点,但却影响了考试对于学生学习水平的评价的可信性和有效性,是命题者应该尽量避免的情况。
而题库的设立,能从根本上降低上述两种风险。题库建设是由所有担任该课程教学任务的教师共同参与讨论,并由教研室、学院两级依据教学大纲进行审核验收,因而能够保证入库的题目质量:既能全面地覆盖大纲要求的知识点,又能在每个知识点的考察要求上保持深浅一致。临考前再从题库中随机抽取题目而产生考卷,就能把因教师认识差异而造成考点覆盖不全面、考察深度不稳定等现象尽可能地避免,保持该科目逐年考察要求的相对稳定性和连贯性,更好地实现教学大纲所要求的知识掌握目标。
(二)有利于新题型的创造与应用
在一门课程的试卷中,大部分题目通常应当是常规性的题型且难度适中,目的是考察学生是否已经达到“识记”、“理解”层次的知识水平;同时,又最好能有少量(题量和分值上都较少)的非常规性的新题型,考察学生是否能够达到灵活“应用”该知识点的层次,甚至可能在一道题目中综合考察几个相关的知识点。这两类题目的重要程度不分伯仲,前者保证考察的全面性,属于基础;后者则可以体现考察的区分度,让不同学生之间的掌握程度差异得以真实地体现出来,属于“拔尖”。
然而,在以往教师单独命题时,保证这两类题目的均衡实际上是较为困难的。因为基础性的常规题型数量较大、覆盖面较广,消耗了命题人较多的时间与精力,再想要设计出具有创新性、综合性的题型,则往往力所不及。
而有了题库之后,教师在命题时的精力得到了极大的解放:大量的、常规性的考题直接由题库抽取产生,教师可以将精力集中在研究、创造新的题型上,并在例行的年度题库维护中将其补充入题库中。这样,新型的考题能够得到更好的创造与应用,保证了题库的质量不断提高。
(三)有利于防范考试作弊行为的发生
尽管在绝大多数高校中,学生考试作弊都是极其个别、偶发的现象,但从教育者的角度来说,当然是希望把这种可能降至最低。除了加强诚信教育、严明考试纪律外,(www.ixbw.com)我院也尝试了通过题库建设,从技术上杜绝作弊的可能性。
具体而言,当某一门课程的题库建好后,临考前抽取试卷时,教务人员会借助简单的计算机程序,对部分考题的题号顺序、部分选择题的选项顺序加以随机打乱,从而产生2~3套不同的试卷,分发给同一个考试的学生使用。
这样,尽管试卷上的试题本质上是完全相同的,但相邻座位的两名考生拿到的试卷却可能有很大的差异,比如A1卷上的第5题变成了A2卷上的第8题,或者第3题的正确答案由“A”变成了“C”,使得抄袭他人答案、传纸条等作弊手段就完全失去了意义。同时,试题的覆盖面和难度都没有发生任何实质变化,对所有考生都是公平对待的。这种同题多卷的模式,增大了作弊者的难度,确保了考察结果的真实性、可信性。
另外,因为试卷是临考前由学院教务部门随机抽取,连授课教师自己也并不知晓当次的具体考题,在很大程度上就避免了考试前给学生“画重点”的不恰当做法,促使学生端正学习态度,平时认真听课、考前全面复习,真正实现了“为学而考”而非“为考而学”的目标。
(四)可以作为教学改革的辅助评价依据
我院近年来一直大力推动本科教学质量工程建设,并参照工程类专业认证的要求进行教学改革,每年都有大量的教学改革课题立项、实施。然而,如何评价一项教学改革是否成功,依然是一个较难把握的问题。
在实施题库建设之后,由于考题范围、难度都相对稳定,学生的考试成绩更真实地反映了其知识水平,所以也可以作为评价一项教学改革是否成功的辅助依据。当然,考试成绩并不能说明一切问题,但如果学生的平均成绩没有明显提高,则该教学改革的效果应当是很有限的。
(五)未来的探索方向
此外,基于题库建设,我们也在考虑可否将考试进一步改为“多题多卷”的模式,彻底地杜绝抄袭作弊的可能。
展望未来,我们还在积极探索将题库建设和在线无纸化考试相结合的可能性,更好、更方便地评价学生的学习水平,同时也为适应未来在线教育(如MOOC课程等)预留了升级空间。
二、题库建设中的重点与难点
在本院的题库建设工作中,我们也总结出了一些经验,供各位教师参考。
(一)坚持以教学大纲、教学目标作为题库的基础
考试从来就是手段而非目的,题库建设也应当是服从于、服务于教学工作。因此,在题库建设伊始,所有参与命题的教师就必须统一认识,严格按照教学大纲、教学计划(包括各章节的学时数安排)来设计考题,力求绝大部分题目的深度都恰好达到教学大纲的要求,既不过深又不太浅,以实现教学目标为衡量标准。
(二)确保试题重复率低于一定比例
理论上说,每一届学生考试后的试卷是要当场收回的,但在多年的教学实践中,我们也发现一些学生能通过各种渠道获得前几届的考试试卷。这就意味着,我们的题库必须保持足够大的题量,控制考题的重复率,否则考试就失去了意义。这样,哪怕学生获知了以往的考试题目,依然不能因此而推测出今年的考题,保证考试的严肃性和公平性。
为此,我们制定了一个经验性的规则:每一个知识点,在题库中至少要有两个不同题型的题目加以考察,重要的知识点至少要有6道不同的题目存在于题库中;同时,任何一道题目,在连续随机抽取20次的情况下,被抽中的概率累计不能超过15%(即不能被抽中3次以上),并以此作为题库验收的强制性标准之一。
(三)对题库的定期维护
如上所述,为了避免历年考题的雷同,当一道题目被抽中使用之后,至少在次年的考试中不应再将其列入。然而,如果将考过的题目一律弃之不用,又会造成题库逐年萎缩的尴尬场面。
解决方案,就是对题库进行定期维护,对已经使用过的部分考题“冷藏”,1~2年内不再使用,同时对该知识点进行补充;冷藏、补充的题目比例,不低于当年考题总数的30%。
同时,在每年的教研活动中,鼓励任课教师为题库补充新的题目,特别是新题型,以及综合性、应用性较强的题目,并将一部分学科研究的前沿动态作为题目背景引入,不断地保持和提高题库的质量与时效性。
(四)题库的验收制度
为确保题库建设质量,在题库建设中,采取了教研室、学院两级验收的制度。教研室主要是结合教学大纲,确认知识点得到了全面的覆盖且考察的难度适中;学院层面则由教务部门牵头,通过随机多次抽取核对试题重复率、抽查知识点在题库中被考察的题目数等技术指标来保证题库的容量。
另外,为全面评价题库的质量与难易程度,每一门课程的题库验收时,均需组织一次模拟测试,参加测试的人员为1~2名担任本课程教学的教师,加上1~2名经过短暂复习的研究生同学(本次题库建设仅涉及为本科生开设的课程),以此来评估试题的难度和数量是否适合绝大多数应考学生的水平。
三、对试题库质量的评估体系
在一道试题没有被实际使用之前,对它所做出的评价多少带有主观色彩。同时,囿于教师与学生的知识水平差异,这种评价有时候甚至会出现相当大的偏差。
为此,参考国内外的研究成果,结合课程实际,我们制定了一些试题评估的指标,在每一年考试结束之后,由教研室组织对当年的试卷进行评估,回顾式地评价试题质量,并作为试题库维护和调整的重要依据。
(一)重视试题的区分度指标
试题的区分度D,是目前较为公认的试题定量评价四个指标之一,它体现了一道试题在辨别、区分学生知识水平上所产生的贡献。不同的文献中,提出了多种区分度的计算方法,本院采取的计算方法是:先按照全卷总分,对全体考生由高到低进行排序,取排在前27%的考生称为高分考生,排在最后27%的考生称为低分考生。然后,对每一道题目,分别统计高分考生的平均分(PH)和低分考生所获得的平均分(PL)。则:D=PH/PL
因此,D值越大,则说明此题目区分高分考生和低分考生的效果就越明显;而此指标过高或过低,都不利于考察全体学生的学习水平。经过调研和讨论,我们认为,每道题目的D值的合理区间定在2~5比较恰当,个别考题允许D值达到7,以此来拉开考分差距,但全卷的平均D值应当控制在2~3之间。
(二)确保试题的难度系数指标
试题的难度系数P,也是通行的四个评价指标之一,其计算方式为:
统计所有考生在某一个题目上的得分,计为x,而该题设定的满分为w,则:P=1-x/y.
参考国内外的研究文献,结合以往考试的实际情况,我们认为,将P值的区间定在0.4~0.6之间较为合理,允许个别题目的P值处于0.3~0.8的区间,全卷的平均P值最好处于0.3~0.5之间。
在回顾性的分析中,如果某一道题目实测的D值或P值,严重偏离了我们预计的范围,则需要对该题目进行讨论,决定是否加以修改、替换。
(三)院外、校外专家的评分制度
因为试卷对于考生都是一次性使用,不可能重测,所以很难通过回顾性的统计数据来评价考题的信度(Reliability)和效度(Validity)指标。为此,我们邀请了院外、校外教授相同学科的资深教师,抽取题库中的部分题目进行了评估。具体方式为:
对一道题目,按照题目与它所考察的知识点之间的关系进行打分,最高5分(紧密吻合),最低1分(基本无关),取几位专家的打分平均值,以此来评价其效度。经过实际评分,送评的题目基本上都达到了4分以上,证明我们建设的题库质量还是较高的。
而对于信度指标,我们采取的是将一道题目的P值,与近5年来考察该知识点的题目的平均P值进行比较的方式,但考虑到各届学生实际情况不同,加上近年来教学质量工程的推进,这种评估方式未必合理,还有待于进一步的研究。
四、结语
综上所述,我们认为,为本科课程建设配套的考试题库,有利于全面、客观、有效地评价学生的学习成果,有利于教学改革的推进与评价;更有助于端正学风、考风,促使教师更用心地授课,学生更认真地听课、复习,真正达到全面推动教学质量提高的目的,而这也正是高校教学改革的最终目标所在,具有较强的积极作用。
参考文献:
[1]刘静。关于高校试题题库建设的若干思考[J].中国社会医学杂志,2009,(3):143.
[2]李光明。如何做好题库建设———来自英美考试机构的启示[J].中国考试,2011,(12):3.
[3]李光明。关于题库建设若干问题的思考[J].中国考试,2014,(9):3.
[4]傅强。浅析中药药理学教考分离和试题库建设[J].海峡药学,2014,(9):150.
[5]李永华。网络化考试的题库建设及应用研究[J].高教论坛,2013,(10):57.
[6]郑群。医学微生物学题库建设的实践与探索[J].继续医学教育,2013,(10):78.