自本课堂
当前位置:网站首页 > > 教学科研 > 自本课堂
如何进行试卷分析

发布时间:2015-03-08  作者:管理员 浏览次数:6

 考试作为教学过程控制的重要环节,在学校教学工作中应受到足够的重视,并且发挥积极的教学评价与工作导向作用。我们从每次的考试分数中能获得许多信息,如学生的学习兴趣、学术水平、教师的教学水平与教学中的薄弱环节等等,而仅限于单科结业成绩上报是远远不够的。传统的考试统计学方法只能对学生集体水平给出总结性评价,对学生个体的差异没有引起足够重视。而个体差异的确存在,且对学生的学习和心理品质的形成有重要影响。因此,在对学生集体水平进行分析评价的同时注重学生的个体差异将是今后试卷分析工作的重点。

  随着教育信息技术的发展,现代教育手段和技术也为试卷分析工作提供了更为广阔的发展平台。考试统计学势必要跟上信息化的步伐,突破传统理论和技术的弊端,不断完善和创新。

一、研究课题的提出

  (一)传统考试统计理论的不足

  个体差异的普遍存在使“因材施教”成为教育学的理想教育原则。虽然在现实中我们很容易“……把表达思想不清楚的天才与表达思想清楚的白痴区分开来——表现为前者通过运算和结论,显示出对科学的深刻体会,但不大能够‘说出它是怎样的’;后者看上去充满恰当的词汇,却没有相应能力去利用这些词汇所代表的观念;亦即好的教育工作者凭籍其多年教学经验很快会对学生的天赋和潜能做出判断。但借助于正式的测验却往往很难达到应有的效果。因为当今的学绩测验及智力测量主要是以再认或再现方式测量学生能够有意识提取的外显记忆知识以及对这种知识的运用能力,而对学生的内隐学习与内隐记忆等无意识加工能力则很难测出,但这种内隐加工能力却又确实存在,且对学生的学习及其基本心理品质的形成具有重大影响。对这种加工能力的测量将有助于对学生的全面理解与因材施教,因为测评的目的不是为了给学生贴上优劣的标签,而是为了将儿童置于合适的教育环境中,尽可能帮助学生扬长避短,在加强外显记忆能力训练的同时注意开发其内隐心理潜能,多方位、多侧面地进行综合培养。

  经典的测验理论在整个测验的水平上分析测验结果,忽视了个体差异以及不同的项目反应模式,混淆了相同测验分数所包含的不同性质的特征。有研究表明,相同数目的正确反应很可能是由于不同反应模式的结果,而这种反应模式的差异恰恰反映出真正的心理特征或某种心理定势。现代测量理论中的潜特征理论及其发展即项目反应理论则力图克服这一缺点,在一定程度上确定了测量结果与那些不可直接观察测定的心理特征之间的关系。

  (二)专门化统计分析工具的缺乏

  由于考试统计学是一门集教育学、数理统计学、计算机科学于一身的综合性交叉学科,而目前市场上的统计分析软件面向各行各业,单用于教育统计有很多的功能浪费及功能不足,且分析结果过于抽象,不能深入浅出的阐明给使用者。因此,设计出专门化的考试统计分析工具,就成了提高考试质量的当务之急。

  (三)项目反应理论的崛起提供了数据分析的新工具

  70-80年代,在测量理论中,最显著的进步是项目反应理论的应用,它是继经典测量理论之后的一个重要的测量里程碑。项目反应理论之所以优于经典测量理论,在于它克服了后者分析数据对“考分=能力”的局限,而将能力看作是一个潜在的变量,又将项目的难度、区分度等重要参数看作是项目本身的固有特性,独立于被试团体。目前该理论主要应用于客观性考试、试题库的建立、不同团体被试在不同测验中能力反应的等值化、跨文化比较等多种测量领域。在发达国家的人才测评数据分析中,项目反应理论已经成为一种常规的分析工具。

  二、研究目标及意义

  首先介绍从宏观层面运用传统教育统计方法分析试卷,将试卷质量及学生整体水平的反馈信息提供给教学管理者,帮助其改进教学工作与决策。其次,针对传统教育统计方法的弊端,从微观层面进行试卷分析。运用项目反应理论,重视学生内隐学习和内隐记忆,通过项目反应模式的差异突破“考试=能力”的局限,反映出学生真正的心理特征或某种心理定势,对试卷分析结果进行形成性评价。形成性评价(与总结性评价相比,形成性评价能提供更多的有关日常教学情况的信息)的目的不仅在于要诊断和评价学生的学习状况,还要审查、评价教学内容和教学方法。

  试卷的宏观分析

  一、试卷宏观分析的需求分析

  测试可以在短时间内,省时省力地获得有关教学的大量信息,有助于教学管理者作出改进教学工作的决策,通过对试卷的分析获得反馈信息,了解教师和学生在教学中存在的问题。有计划的通过考试对教学措施进行检查和研究,是管理者改善教学管理的重要依据,也是管理者掌握教师教学情况,进行具体帮助、指导和控制的重要依据之一。

教学管理者与学科教师通过对试卷的宏观分析,可以把握学生集体知识水平、集体走向等重要信息,及时调整教学策略与方法。

  二、试卷宏观分析案例

  本层面统计分析的主要内容为:试卷分数的总体分布形态,平均值,总体难度,差异系数,偏态量数,标准差及其频数与频率分布,试卷难度及区分度分布,试卷总体构成差异,试卷信度,试卷结构效度、内容效度等。

本案例对上海市复旦中学高一(2)班第二学期期末成绩SPSS(Statistics Package for Social Science)用进行了全距、标准差、中位数、频数分布、试卷难度、试卷信度、试卷区分度的分析。分析结果如下。

  (一)全距

  全距是一群数据中最大值与最小值之差,它指的是两个极端值间的全部差距,常用符号R表示:

图片1.png

图片2.png

图片3.png

  用全距可以用来表示数据的离散程度或差异程度,如果全距R比较大,说明考生的考分差异较大,如果R比较小,则说明考生的考分比较集中,在这样的状况下,如果能够再就试题的平均得分进行对比,就能很容易地了解全体考生该知识点掌握的水平高低。

  由表中数据,数学试卷的全距为77,可见学生该科目考试成绩差距较大,而数学平均分为70.2708,说明总体水平较好但差生过差,要提起注意。而语文、历史和政治的全距较小,平均分也较高,说明总体水平较好,学生间差异不大。这也体现了理科与文科的差异。

  (二)标准差

  表示变量值与其平均值离散的程度,是反映事物发展变化平均状况的数字指标。在考试中可以用来衡量学生成绩的差异程度[][3],以便来对此次考试的区分程度有大概的了解,计算公式为:

图片4.png

  式中,S为标准差;为各观测值;为平均数;N为观测值的个数。一般情况下每次考试的标准差控制在9-15分之间比较恰当。如果标准差小于8分,说明成绩分布较为集中,试卷区分度太小,中等难度的题目偏多;标准差如果大于16分,则说明成绩过于分散。

图片5.png

  考试的标准差控制在9-15分之间比较恰当,因此数学和外语考试的成绩分布正常。而政治、语文、物理、化学、历史的成绩过于集中,说明试题的区分度不够好。

  (三)中位数

  中学的成绩通常采用百分制,因此考试成绩分布并不会有明显的集中趋势,所以一般不采用众数这一统计量,而采用中位数计量。其公式为:

中位数位置=图片8.png   (2.3)

图片9.png

图片10.png

  以数学试卷为例,众数为60,中位数为71。说明考分出现最多的是60分,处于中间位置的分数为71。这表明试卷难度适中,稍偏低。而外语试卷中位数为56.5,说明试卷偏难,学生普遍成绩较低。历史试卷中位数为90,相对简单,学生普遍分数较高。

  (四)频数分布

  一般情况下,考试分数接近正态分布,但在实际考试中,考试成绩有以下四种分布形态(如图所示)。反映出试题质量信息各自不同

图片11.png

  其中,A图反映出试题难度分布正常;B图中,正态分布反映出低分人数较多,平均分较低,说明难度大的试题占分比例较大;负偏态分布说明高分人数较多,平均分较高,难度小的试题占分比例较大;C图中,高峰形频数分布表明学生分数集中在平均分周围,中难试题占分比例较大;平峰形频数分布表明学生分数差异较大,易、中、难三类试题占分比例接近;D图反映出高低两类分数集中,试题难度梯度大,中难试题占分比例较小。

  以数学试卷为例,全班48人的分数频数分布图如下:

图片12.png

  由图可知,数学试卷考生分数频数分布为负偏态分布。说明高分人数较多,平均分较高,难度小的试题占分比例较大;绝大部分考生分数在60~80之间;从10~20到40~50有断层,即没有考生成绩在20~40分,说明差生过差,应特别提起注意。

  (五)试卷难度分析

  试卷总体难度的计算公式为:

图片1.png

  试卷难度的评价标准为:

难度

大于0.55

0.45~0.55

小于0.45

标准

交易

适中

较难

  分析本次考试试卷难度得出:


政治

语文

数学

外语

物理

化学

历史

p

0.8350

0.7500

0.7027

0.5650

0.8200

0.8650

0.9000

  难度系数>0.55认为试卷难度较易。可见七门学科试卷难度偏易,外语相对较难而历史相对过于简单。但因为此次期末考试为知识水平测试,不是选拔性考试,所以认为试卷难度仍属正常。

  (六)信度分析

  信度指标是测试结果可靠性的测评指标。它反映试题或试卷测试结果是否代表了考生的真实水平。信度高的试题很少受偶然因素的影响,对任何学生的多次测定,都会产生比较稳定的、前后一致的结果。我们采用库德- 里查逊( Kuder-Richardson) 公式作为客观试题信度指标的度量,称为信度系数,记作rit,客观试题信度系数的计算公式:

图片1.png

  式中,K—测试题目数;p —答对率,q —答错率,p+ q = 1,S2 —被试各题得分之和的方差。

  信度计算结果的参照标准如下:

信度指标

0.60以上

0.40-0.59

0.39以下

评价标准

可靠

一般

较差

  以数学试卷为例:r=0.63,我们认为r>0.6信度可靠,因此该数学试卷可信。 

试卷的微观分析

  一、试卷微观分析的需求分析

  学科教师通过对试卷的微观分析,可以针对学生个体差异进行个别化教学。帮助学生找到其问题之所在。

  学生通过对试卷的分析,可以正确地估计自己的成绩,判定自己以往学习的优劣和活动方式、方法的优劣,并进而制定出较适合自己具体学习情况的学习方案,在今后的“教”“学”活动中,选择最佳的学习方法,消除和避开不利因素,发挥自己的优势,并努力配合教师的“教”,以取得更好的学习效果。另外,从教学相长的角度说,学生全面、深刻、细致的试卷分析也可以帮助教师认识学生和做好自己的试卷分析工作。

  二、相关理论综述

  (一)项目反应模式

  所谓项目反应模式,简单来说,就是指测验中被试对项目所作反应的正误组合形式。[][4]

不同的项目反应模式对应着不同的能力水平,反映了不同被试对学习内容的掌握程度。特别是,在异常反应模式中,包含了很多重要的诊断、评价信息。因此,仅仅将测验总分作为教学评价的依据,我们将失去很多有用信息。只有综合总分与项目反应模式的分析结果,才能达到诊断学生学习状况和调整教学计划的双重目的。日本学者佐藤隆博等人开发的S-P表分析法,则是一种把每一个学生的答对、答错模式与团体的反应模式进行对照分析,从而获得所需要的信息的方法。

  (二)教学模式识别

  模式识别的功能结构如图所示:

未标题-1.jpg

  在课堂教学信息处理中,:

  教学信息的采集:通过各种测验获得学生的得分和反应时间;

预处理:统计每个学生答对的每个项目和每个项目正答人数,然后进行排序;

特征提取:根据原始数据和预处理的结果作进一步的分析与综合,以取得有关教与学的各种特征参量值,作为分类识别的依据。

  最后进行模式分类,并对各种教学模式之优劣作出判断。

  (三)形成性评价

  形成性评价是指在教育活动进行过程中评价活动本身的效果,用以调解活动过程,保证教育目标实现而进行的价值判断。形成性评价这一概念是1967年由美国哈佛大学的斯克里芬(M.Scriven)在课程研究中提出的。在具体的教学过程中,形成性评价就是为了测定评价对象某一具体教学内容的掌握程度,并指出还没有掌握的那部分任务或者在学习过程中存在的问题和不足,其目的不是给学生评定成绩或作学业的证明,而是既帮助学生也帮助教师把注意力集中到要达到的掌握知识的程度上。当然,在教学过程中,教师要对学生进行形成性评价,教师也可以对自己的整个教学工作进行形成性评价,以促进教师教学水平的提高。

相比较而言,总结性评价侧重于对已完成的教学效果进行确定,属于“回顾式”评价;而形成性评价侧重于教学的改进和不断完善,属于“前瞻式”评价。

  (四)S-P表分析法

  所谓S-P表,是把考题的测验分数变成1(答对)或0(答错)的数据,并按一定规则排列的每人每题得分表,排表规则为:学生顺序按得分多少由上到下排列,考题顺序按答对人数的多少由左到右排列。并画出学生的分曲线,称S(Student)线,画出考题答对人数曲线,称P(Problem)线,这就是所谓S-P表。

  对于第I个学生回答第j个问题的得分,用来表示,

  对于客观性试题,规定

  对于主观性试题,规定

  S线是学生得分分布线,它是这样画出的,对于第I个学生,使该线左方的数字个数等于该学生的得分总数,一般用实线表示,呈阶梯状。

  P线是问题正答分布线,它是这样画出的,对于第j个问题,使该线上方的数字个数等于被正答题的总数,一般用虚线表示,呈阶梯状。

  通过观察S曲线,每个学生的到达度、全班学生的到达度分布以及平均水平一目了然。P曲线给出的是全部测验项目的答对率分布情况。在教学实践中,我们认为用S-P表评价法评价考试成绩不失为一种很好的选择。该方法的最大优点是简单易行,直观形象,信息量大,它的主要评价功能有:(1)测量学生总体的学习倾向,测评学生群体的总水平,判断学生有无两极分化,了解学生的优势部分和劣势部分等;(2)评价学生个体的学习情况,如学习中的漏洞异常以及学生在集体中所处的位置等;(3)评价所出题目的难度、稳定性及信度和效度。[][5]

  三、试卷微观分析案例

  本案例引用长安大学工程机械学院设9910班的两次“理论力学”的考试成绩绘制的s-p表进行微观层面的分析。

图片1.png

  (一)试题难度与信度:

  在用S-P表分析法时,应首先对实体的难度和信度进行评价。如果试题的难度和信度不正常则对学生学习情况的分析与评价就毫无意义。

  线幅反映了学生对试题的正答区间,反映了试题难易程度的差别。P曲线中间如出现较长的竖直部分,则说明试题难度出现两极分化现象,这将影响试题的效度,P线上方“1”的个数越多,表明该题应答稳定性越好。

  试题难度=1-平均正答率

  试题信度=1-差异系数

  一般来说,试题难度在0.5以内而信度在0.6以上较为合适;从表1可以看出,本次试题难度与信度正常。

  (二)总平均答对率:

  观察S-P表时,首先注意到的是S曲线与P曲线所在的位置。S曲线左侧的面积或P曲线上侧的面积占S-P表总面积的比例,表示学生团体在该测验中的平均答对率。因此,在S-P表中,S曲线越偏右,或P曲线越偏下,学生团体的平均答对率就越高。

图片1.png

  其中,图片1.png,为S-P表的总平均答对率;

  图片1.png表示S曲线与X和Y轴在其左上方所谓的面积;

  图片1.png表示P曲线与X和Y轴在其左上方所谓的面积;

  Nn表示S-P表的总面积。

  利用公式(3.1)得表1的学生总平均答对率:x1=0.69,认为可以接受。

  (三)S-P曲线的偏离度

  S曲线与P曲线之间的偏离程度的量化指标是差异系数。

图片1.png

  N为学生数,n为问题数,p为总平均答对率。

  利用公式(3.2)得  D1=0.10

  本次考试的D值在0.1~0.2之间,该班的整体稳定性比较好。

  从S-P曲线形状可以看出:

  S线幅的大小是学生得分范围的大小,它反映了学生之间的差别程度。从表1可以看出在S线中间部分的水平部分其长度均没有超过S线幅长的1/3以上,因此可以认为S线没有出现断层,表明该班学生成绩优劣不悬殊,群体中没有出现两极分化现象。

  S线左右两边“1”和“0”的个数的多少反映了学生个体应答的稳定性。学习稳定的学生,其“1”值应基本在S线左边,例如表1中序号为1、2号的稳定性较好,其次是3、4号学生,而27、28号学生稳定性较差。 

  (四)注意指数

  1.学生注意指数:

图片1.png

  在S-P表中,异质反应模式的异质程度,实际上是根据全体学生的反应倾向,即S-P表中所有的“1”和“0”的分布状况来确定的。当大部分学生的答对和答错的模式相同或相似时,S-P表中S曲线左侧和P曲线上侧的“0”,以及S曲线右侧和P曲线下侧的“1”就少,S曲线与P曲线之间的偏离也小。然而,异质反应模式的“0”、“1”分布,一般与整体分布状况明显不同。

  例如表1中序号为30和31的学生,尽管这两人的测验分数都是5分,但他们的反应模式却大不相同。将这两个学生的反应模式与P曲线(项目的答对率分布)进行对照,就可以看出,序号为30的学生答对的是团体中大部分学生都答对了的项目,而答错的都是答对率低,难度大的项目。这种项目反应模式意味着序号为30学生的学习情况较为正常。然而,序号为31的学生答对的多是团体中多数学生答错了的、难度大的项目,而对大部分学生答对了的项目却总是答错。这种项目反应模式是异质的,它意味着序号为31的学生学习欠稳定。

  一般认为,C.S=0为完全正常,C.S<0.5无需注意,C.S>0.5需引起注意,而C.S>0.75且正答率<0.85需引起特别注意。再以表1中序号为29的学生为例,由公式(3.3)得其注意指数为C.S=0.89,正答率0.55,需引起特别注意。

  由于学生注意指数所反映的是学生个体与整体应答倾向之间的偏离程度,因此,学生是否被警告,不是取决于他个人成绩的好坏,而是取决于他的正答题目是否与大多数人正答题目相一致。[[6] 樊丽俭,冯振宇,《科学评价考试成绩 努力提高教学质量》,交通高教研究2001年第4期。][6]例如表1中序号为1的学生与序号为33的学生其成绩相差很大,但他们注意指数都为0,均不需警告。但表1中序号为15的学生,他的成绩并不差,但他的注意指数为0.83,且正答率小于0.85,需引起特别注意。而序号为30的学生成绩并不好,但他的注意指数仅为0.29,反而不需警告。因此从这个意义上说,注意指数对于学习成绩中等偏上的学生是一种督促,促使其知识掌握得更全面、更牢固,还需要指出的是,学生注意指数是一个可以大于1的数。

  2.问题注意指数:

    图片1.png

  观察S-P表,根据P曲线我们可以发现,有些问题的难度偏大(如表1第七题),团体中只有个别学生能正确回答。另外还有这样一类题目,其答对率与其他试题大致相同,但团体中许多成绩居于上位的学生却做错了。对于这种问题,在S-P表的上方可以看到许多“0”。造成这种项目得分排列模式的原因通常有测验内容异质以及描述和说明不清楚等,它们极易导致学生看错题、理解错误,作出错误的回答,使得测验分数不能正确地反映学生的学业水平。

  以表1中第六大题为例,由公式(3.4)得C.P=0,该题无需引起注意,说明该题的难度、区分度良好。

  在分析学习到达度测验以及操练、练习等形成性测验的数据时,为了能对每一个学生的学习作出正确诊断,重点要把握的是“大部分学生都答对了的问题是哪些?”和“多数学生答错的问题是哪些?”。对大部分学生都答对了的问题,需要把注意力集中在对答错了该问题的少数学生的异质反应模式的分析上;而对于多数学生答错了的问题,应该重点检查问题本身以及与之相关的学习内容、教学方法是否适当,即进行题目的反应模式分析。可见,在S-P表分析法中,学生与问题的反应模式分析应该结合起来进行,也只有这样,才能对学生的学习情况和测验项目的质量做出正确地分析。

  四、对案例分析结果的进一步思考

  一般来说,如果教学内容和教学方法不恰当,学生的学习不充分、理解不深入,学生的学习积极性较差,测验内容与教学内容不一致,或出题方法不佳,那么两曲线之间的偏离程度就比较大。

  例如,在学习到达度测验或操练、练习题的S-P表中,如果S曲线与P曲线偏离过大,就说明其中可能存在问题。当偏离异常时,应当从以下方面进行形成性评价。

  教学指导不充分;

  学习目标和内容与到达度测验的内容不一致;

  测验项目的安排顺序以及各项目的前后关系的配置欠妥,项目的内容、表达方式和要求  不恰当;

  教学与测验之间的时间间隔太长;

  练习不够,学生的学习没有得到巩固;

  在居于中位和上位的学生中,学习成绩不稳定者居多;

  学生的学习积极性不高;

  评分标准不一致,评分点不明确;

  误判或计分错误。

  检查以上种种因素,就可能找出异常偏离的原因。

  当S曲线与P曲线过于接近时,可从以下几方面找原因:

  学生的学习所达到的水平在整体上都很低;

  学习到达度测验对学生团体来说太难;

  团体中两极分化现象严重;

  测验项目区分度低;

  S曲线与P曲线非常接近可能表示多种情况,因此,我们在考虑两条曲线接近程度的同时,还要研究S曲线与P曲线的形状,只有将两者综合起来考虑,才能找到一场的真正原因。

研究反思及展望

  针对教育工作者不同层面的需求,将试卷分析分为:宏观分析,运用传统考试统计方法(经典考试统计方法)分析学生集体水平,把分析结果提供给教育管理者;微观分析,弥补传统统计方法的不足,分析学生的异质反应模式,将分析结果提供个学科教师和学生个人,促进教学相长。

  对于任课教师来说,试卷分析本身就是教学工作的一部分,它是改进教学,提高教学质量的环节。因此,任课教师作试卷分析,着重应对学生考试成绩作统计描述,并对实体的质量及其失分的主要原因进行分析。对于实施教考分离的命题、组卷人员来讲,作试卷分析的目的,主要为今后的进一步提高命题组水平与试题质量积累经验,为建立与完善题库奠定基础。因此,主要应分析与试卷、试题质量有关的项目。作为教学管理部门除了组织、指导、督促上述两类人员做好有关项目的试卷分析外,通过试卷分析主要为掌握本校各专业、各班级、各课程的教学动态,从中发现教学与考试中存在的问题和评价过程中存在的倾向性问题,总结经验,提出对策,为今后指导教学、教学评价及教务等方面的工作提供依据。因此,在任课教师或命题组卷人员做好试卷分析的基础上,教学管理部门或教学研究部门,还可以对全校各专业、各班级、各课程的考试成绩特征与分布状况、合格率或达标率等作动态分析与质量监控,并检查有关评卷、印卷等方面的工作质量。


                                                    温州州市越秀学校

                                                      2015年3月8日





地址:龙湾区永中街道秀南路 电话:0577-55560818 传真:0577-55560818 邮编:325024
温州市越秀学校 版权所有 Copyright © 2017 www.yuexiuschool.com All Rights Reserved. 浙ICP备09007576号 技术支持:优谷科技