这几天,一年一度的高考正在如火如荼的进行,我们今天谈点跟高考有关的内容,高考是量表吗?需要做信效度吗?进一步引申,和量表是一回事吗?需要做信度和效度吗?
问卷
试卷
评价
我曾不止一次在审稿中发现,有的人进行问卷调查
效度分析怎么做
,然后在文章中不断强调,本问卷已经过信度和效度评价,结果显示,信度和效度都很高,说明问卷结果可靠。等等之类的话。这些真的有必要吗?
(1)问卷和量表是否一回事?
首先澄清一个概念,问卷和量表是否一回事?否!二者不是一回事,问卷的英文是questionnaire,量表的英文是scale。但从词意就可以看出,问卷主要是问一些问题,收集这些答案;而量表是一把尺子,目的是衡量某个事物。
尽管二者形式上很像,都是问题和选项,但收集的内容很不一样。问卷主要是收集一些常规的、客观的内容,比如性别、年龄、每周运动多少次、吸烟多少、每月喝多少饮料、睡觉是否打鼾,等等这些。
而量表所有的问题都是为了集中获得对某一事物的评价,这个评价不像吸烟多少、运动多少这么容易直接获得,而是需要很多问题反映出来。例如幸福感,不是你在大街上找个人问一下说“你幸福吗?”,然后这个人回答“我幸福”。不是这么来的,而是通过多个方面的问题进行测评。再比如抑郁,有时甚至你自己都不知道是不是抑郁,但是通过一些问题却可以反映出你是否有抑郁倾向。
所以量表是一把尺子。我们可以想象一下,如果你要测量一个人的身高,需要一把尺子。但是如果这把尺子不准,那你量的身高也不会准。所以,在量身高的时候,理论上,你应该找一个校准过得尺子。同样,量表这个尺子不是量身高,而是量抑郁、满意度、生存质量等非客观的内容,但是在量之前也需要这个尺子是准确的。那么,怎么知道这个尺子是准确的呢,这就是量表的信度和效度评价。不评价,你就不知道这个尺子准不准,那你就不知道量出来的结果是否可靠。
而对于问卷而言,它所要收集的内容不需要这么隐晦,大多是直接而客观的。要对问卷进行评价,评价什么呢?如果我们通过问卷调查一个人的吸烟情况,如何评价出这个人回答的准不准确呢?如果有人说他一天吸烟3支,那这个数据就收集上来了,没什么可评价的。如果有人说他46岁,那也没什么可评价的。
但对于量表就不是这样了,比如抑郁量表SDS,会有多个问题,如”我感到体重减轻“、”我比平时更容易激怒“等,这些问题综合起来得到一个分值,根据得分情况来判断是否有抑郁倾向。信度效度评价的目的是,这些问题综合起来能否判断一个人是否有抑郁倾向。
曾有人做过这样的分析,连续2年评价某机构的能力。听起来像是量表,而且实际内容确实也做了信度和效度评价,比如做了2次评价内容的相关性,称为重测信度。但是其评价的内容主要是该机构的设备、人员、学历等。其实这些仍然是问卷,收集了相关信息而已。尽管做了2次评价,但这并不是重测信度。可以想象一下,如果第二年人员发生变动,肯定2次测量的相关性很弱,这说明信度不好吗?非也!只是客观信息发生变化了而已。那对这种如何进行评价吗? 这就不是量表评价了,而是可以考虑采用综合评价的方法,通过专家打分、赋予权重、综合评价,这样来评价该机构的能力。
(2)高考试卷是量表吗?
高考试卷也是量表的一种形式。量表的目的主要是为了测量一些一下子难以直接看出来的东西,比如生存质量、焦虑状态、睡眠质量、能力潜质等。试卷实际上是测量一个人的学习能力的(这里不讨论是否真能反映出这个能力),所以通过试卷中的多个试题,综合评价一个人的学习掌握能力如何。
显然,如果我直接问你,你掌握这学期的学习内容了吗?你可能会回答:掌握了。那我如何相信呢?必须有一个办法能真正测量才行,尽管高考被不少人所诟病,但考试本身并没有错。试想,如果没有考试这一客观门槛,仅凭主观评价,那寒门可能就更难出贵子了。
对于高考试卷,也像是一把尺子,目的是测量一个人的学习能力大小。所以这个尺子必须准确,要准确,就得有对它的评价才行。一般对于考试类的量表而言,不仅关注信度和效度,其实区分度和难度也是非常重要的。因为考试的目的要把学习好的和学习差的区分开
效度分析怎么做
,所以区分度非常关键。
如果区分度很低,比如所有的试题都非常容易,几乎每个人都得分在90分以上,这就叫天花板效应;而如果试题太难,所有人都不及格,这就叫地板效应。一个好的试卷,应该有一个高的区分度,此时对应一个大约0.5的难度(也就是说,不太难也不太容易)。
(3)小结
总之,一定要明确自己到底要获取什么内容,不要只看目的或某个字眼就认为一定是量表。对某事物评价,不一定是量表,也有可能是综合评价而已(综合评价有自己的一系列方法,如主成分法、TOPSIS法、秩和比法等)。不是所有的内容都需要信度和效度评价的,实际中一定要分清楚这一点。
最后,预祝各位有孩子或亲戚朋友参考高考的,希望能够被很好地区分到”好“的一类中,找到自己心中理想的学校。