心理测验测量的各种维度数以百计,所涉范围从人格到智力到各种具体症状。在接下来的部分,我们将提供一个关于不同种类心理测验的概述,这些测验可测量的维度有人格特征、心理功能的一般水平、智力以及行为。
1.人格测验
人格测验(personality test)的选择取决于它的目的以及它评估的是健康人还是临床样本,当然也有许多人格测验测量的是重叠概念。最著名的人格测验应该是明尼苏达多相人格问卷(Min-nesota Multiphasic Personality Inventory,MMPI),1943年由明尼苏达大学心理学家哈撒韦(Starke Hathaway)和精神病学家麦金利(J.Charnley Mc-Kinley)编制(Graham,2000)。他们编制出了有567道题的纸笔测验,并使用当时的创新技术克服了早期评分方法的主观性。他们使用实证效标(empirical keying)的方法,提出了用来识别不同群组(如抑郁患者和非抑郁患者)的项目和分数类型的统计分析方法,只有能区分群组的项目可被保留。MMPI也包括用效度量表来评估应测行为。例如,谎言量表能识别那些不想准确描述自己的人。诈病量表可以确定被测者是不是“伪装好”(把自己描述得比实际要心理健康)或者“伪装坏”(把自己描述得比实际有更多心理痛苦),此外还有临床量表能评估特定的心理特征。
MMPI的修订版本MMPI-2,包括9个临床分量表:疑病量表、抑郁量表、癔病量表、精神病态量表、男子气-女子气量表、妄想量表、精神衰弱(焦虑)量表、精神分裂症量表和轻躁狂量表。MMPI-2通过电脑程序计分并产生出一份测验心理学家可以解释的人格剖面图(见图3-3)。然而,MMPI-2在少数民族群体的使用引起了人们的关注,因为该测验最初是由白人样本标准化的(Butcher et al.,1989)。
图 3-3 MMPI剖面图样本 MMPI由电脑计分并生成临床分量表分数及一个人格剖面图。百万临床多轴问卷(Million Clinical Multiaxial Inventory,MCMI)是一个175项对错判断题的问卷,对应着8个基本的人格风格(分裂样、回避型、依赖型、表演型、自恋型、反社会型、强迫型、被动攻击型,参见第11章),3种病理性人格综合征(分裂型、边缘型、偏执型)和9个症状障碍量表(焦虑症、躯体形式障碍、轻度躁狂、心境恶劣障碍、酗酒、药物滥用、精神病性思维、精神病性抑郁、精神病性妄想)。MCMI有足够的信效度,医生一般也更喜欢使用它而不是MMPI,因为完成这个测试所需要的时间要短很多。但是,MCMI同样也存在一些问题,它不能很好地与DSM分类系统所描述的障碍类型相匹配,并且MCMI也同样存在文化偏差。
2.心理功能的一般测验
这类评估收集参与健康对照研究的人们心理功能的一般信息,也可用于比较群体或人口心理功能的一般水平,或者比较人们在某特殊事件或干预之前之后的心理功能变化。它们并不集中于某一特定症状如抑郁或者焦虑,而是给出一个人的心理功能运作有多么好的广泛概述。
功能整体评估量表(Global Assessment of Functioning Scale,GAF;见图3-4),是一个由医生安排的评估,来描述患者的整体功能和健康程度。医生会从0~100的数字中选择一个数字来表述患者现在的功能状态。评价包括两个方面,症状的严重程度以及在社会关系、工作或学校表现中的损害水平。GAF分数的比较可以作为临床改善的广泛指示器。
图 3-4 功能整体评估量表 资料来源:Adapted with permission from the Diagnostic and Statistical Manual of Mental Disorders,Text Revision,Fourth Edition,(Copyright 2000).American Psychiatric Association.另一个常用的精简问卷是12项一般健康问卷(General Health Questionnaire,GHQ)(Goldberg&Hillier,1979)。GHQ给出一个最近几周心理健康状态的初步印象,并且可以提供有意义的转换分数。每项都用四分量表来表示偏离个体寻常经验的程度。比如有一些问题是:你最近……在做什么事情的时候,能集中精神吗?有由于过分担心而失眠的情况吗?能享受日常活动吗?以及总的来看,感到适度的愉快吗?
3.神经心理学测验
神经心理学测验通过简单或复杂的任务检测认知功能损害,这些认知功能包括语言、记忆、注意与专注、运动技能、知觉、抽象思维与学习能力。被测者在任务中的表现可以让人们深入了解大脑的功能。
一个被广泛使用的、评估脑损害的测验是Halstead-Reitan神经心理成套测验(Halstead-Reitan Neuropsychological Battery,Reitan&Davidson,1974),这个测验可以评估脑损害的存在,可以区分健康个体和皮层损害患者。该测验含10项对记忆、抽象思维、语言、感觉-运动统合、知觉和运动灵活性的测量。
另一个常用的神经心理学评估是威斯康星卡片分类测验(Wisconsin Card Sorting Test,WCST),这个测验测量定势转换(set shifting),也即思维随任务目标变化而灵活转换的能力(见图3-5)。由主试呈现四张刺激卡片,每张分别呈现的是一个红色的三角、两个绿色的五角星、三个黄色的十字和四个蓝色的圆。之后主试给出反应卡片并要求被试将每一张都与四张刺激卡片相匹配。主试并不告诉被试如何匹配卡片的规则,但是会基于主试制定的特殊规则告诉被试他的匹配正确与否。当被试匹配对了之后,规则会变化。测验会做128次匹配或者当所有的规则都改变完,或者到“完成正确分类”为止(Resources,2003)。
图 3-5 威斯康星卡片分类测验 这个测验测量定势转换,也就是思维灵活转换的能力。它是用来测验大脑疾病患者的。WCST的完成需要注意、工作记忆和视觉加工的参与。WCST可以作为额叶测试,因为额叶病变者的WCST成绩很差。WCST用来区分是否有前额叶损害,并常被用来检测精神分裂症、脑外伤患者,以及神经退化疾病如痴呆或帕金森氏症(Resources,2003)。
其他常用神经心理学评估包括本德尔视觉运动完形测验(Bender Visual Motor Gestalt Test,见图3-6),一个通常被用于检测儿童视觉运动发展以及一般的脑损害和神经损害的简单筛选工具(Piotrowski,1995)。还有Luria-Nebraska神经心理成套测验(Luria-Nebraska Neuropsychological Battery;Golden et al.,1980)。Luria-Nebraska测验与Halstead-Reitan测验类似,但在测量器质性脑损害上表现更精确。与许多其他成套测验不同,Luria-Nebraska测验使用非结构的定性方法,生成14个分数,包括运动、节奏、触觉、言语表达、书写、阅读、计算、记忆、智力加工以及左右脑功能。执行神经心理学成套测验需进行专门的培训,因为这些评估的操作和计分时间长而且复杂(Gur et al.,2001)。这种培训确保了一个标准化的方法,使不同测验者的得分可以相互比较。
图 3-6 本德尔视觉运动完形测验 该神经心理学测验常被用来检验脑损害或神经损害。让患者复制图形(A)来看其是否有损害或损害存在(B)。 资料来源:Nevid/Rathus/Greene,Abnormal Psychology in a Changing World,5e,p.91.Copyright©2008 Pearson/Pren-tice Hall.Reprinted by permission.4.智力测验
虽然结果往往被曲解,智力测验(intelligence tests)仍是心理学家最常用的测验。如后所述,智力测验的最初目的是为了预测在学校的成就。智商(intelligence quotient,IQ)最初是指一名儿童的心理年龄(通过针对特定年龄的问题得到正确答案的评估)除以他/她的实际年龄。目前智商的分数意义有所变化,侧重于对比个体与同龄人的表现。IQ分数的标准化为:平均分为100,标准差为15。这就意味着一个IQ为130的人超过平均数两个标准差,也说明其智力相对于其他人要好许多。
历史上智力测验开始于20世纪交替时的法国心理学家阿尔弗雷德·比奈(Alfred Binet)和他的同事西奥多·西蒙(Theodore Simon),他们在法国政府的授权下编制了一个测验来预测学业成就。1916年,刘易斯·推孟(Lewis Terman)在斯坦福大学用英语翻译修订了比奈量表,随后被命名为斯坦福-比奈智力量表。
自此以后,斯坦福-比奈智力量表经过数次修订,目前是其第5版。在斯坦福-比奈测验中有评估言语与非言语技能的分测验。最新版本在4800人基础上进行标准化,测验项目考虑到被测者的人口学特征可能出现的各种偏见(基于性别、民族、年龄等对某些项目的反应是否会出现偏见)。测验的效度由其他效度良好的智力测验评估,包括先前版本的斯坦福-比奈智力量表和韦克斯勒成人智力量表,后者是非常有名的智力测验,我们会在后文讨论。大量研究表明,斯坦福-比奈智力量表测量从智力低下到天才智商这一连续体上的人们的智商都做得很好。
韦克斯勒成人智力量表(WAIS-IV)(Wech-sler,2008)首次由韦克斯勒(David Wechsler)发表于1955年,现在是其第4版。韦克斯勒成人智力量表是目前最常用的智力测验之一,用于评估患者、学生、职员、罪犯以及其他人群的智力。测验最初用于军队。该测验基于韦氏对智力的定义“智力是个人行动有目的、思维合理、应付环境有效的、聚集的或全面的才能”(Wechsler,1939,p.229)。
WAIS-IV有4个指数分:言语理解力指数(VCI)、工作记忆指数(WMI)、知觉推理指数(PRI)和加工速度指数(PSI)。这4项指数分联合产生综合的全量表智商(FSIQ)分数。VCI和PRI可以产生另一个指数即一般能力指数(GAI)。4个索引指数分中的每一个都能反映出个体在一组测量类似智力技能的分测验中的表现。例如,言语理解力分测验通过由言语操作和回答的测验来测量理解力。分测验中的具体任务是测量言语推理(例如,叙述两个物体如何相似的能力)、知识一般储备、给字词下定义的能力和社交表达理解力(例如,一石二鸟)。工作记忆分测验也通过言语施测,但其分测验通过要求人们回忆之前之后的数字顺序、做心算题以及记忆字母和数字顺序以专门评定人们的注意、专注和记忆力。知觉推理和加工速度分测验均要求被试尽可能快地完成特定任务。例如,知觉推理分测验测量如对细节的注意(例如,某一图片缺了什么)、非言语推理(拼图)以及空间知觉(安排积木以匹配已印好的图案)等技能。加工速度分测验通过要求被试确定目标符号是否在一排符号中,并且抄写与格子中的符号相一致的数字来测量视觉运动协调和视知觉。对于这些任务,速度和精确性都在考虑中。
WAIS-IV(Wechsler,2008)通过60多分钟的测试来评定16~90岁人的认知功能,与美国2005年人口普查资料相匹配,并考虑到了不同的性别、社会经济地位、种族、学历和地理位置。16岁以下的个体适用韦克斯勒儿童智力量表(Wechsler Intelligence Scale for Children,WISC-IV,7~16岁)和韦克斯勒学龄前和学龄初儿童智力量表(Wechsler Preschool and Primary Scale of Intel-ligence,WPPS-III,2.5~7岁)。
智力测量向来备受争议。这是一个先后天之争异常激烈的领域。除了智力如何受影响的问题外,智力的概念也在不断改变。与韦克斯勒早期测量认知功能的方法相比,现在的智力测验识别和评估智力的各种细微差别和成分。更有趣的是,神经科学上的进步使我们可以研究大脑和与各种反映智力不同方面的任务相联系的脑活动的性质。
另一个争论涉及智力测量在性别、社会经济地位、种族以及文化背景方面的偏见问题(Shuttleworth-Edwards et al.,2004)。一个存在已久的争论是,智力测验以白人男性做标准,这不适用于少数人群,包括女性、少数民族、非英语人口和残疾人(Suzuki et al.,2001)。为开发出以这些因素为基础的公平测验的研究还在进行中。
智力测验还有一些缺陷。最重要的是,它们不能反映出智力的所有种类。智力是一个多面的复杂概念,许多人认为它的测量不应局限于注意、知觉、记忆、推理和言语理解力(Gottfredson,1997)。这样的测验无法涵盖如迈克尔·乔丹在篮球场或莎士比亚在文学上的天赋等智力的其他方面。但是,如果智商分数不被用作广义智力概念上的测量,那它就有用处了,最显著的是体现在对学术成就的预测,以及对成绩不足和不平等、认知损害和精神发育迟滞的评估。
5.投射测验
投射测验(projective tests)源于精神分析理论。被广泛应用的两个投射测验是罗夏墨迹测验和主题统觉测验(TAT)。罗夏墨迹测验(Rorschach Inkblot Test)由德国[1]精神病学家罗夏(Hermann Rorschach)研发并于1921年首次发表。在这个测验中,呈现给患者的是越来越复杂和模糊的墨迹(见图3-7)。第一张墨迹是很简单的黑白印记,之后的墨迹愈加复杂和色彩鲜艳。测验的基本原理是在被给予如此模糊的刺激时,患者投射出对它们的独特的理解,反映出他们潜在的无意识过程和冲突。你能马上看出来罗夏墨迹测验的信度和效度是需要我们考虑的工作。虽然罗夏在研制出一个可靠的评分系统之前就去世了,临床心理学家约翰·艾科纳(John Exner)为测验的标准化和评分编制了一套严密系统,即综合系统(Comprehensive System,CS)。CS是一项把墨迹测验分解成复杂的变量矩阵的卷帙浩瀚的工作。对这些变量的解释和评分建立一个结构化总结,医生可以用此总结来理解被试的人格特质和心理功能(Exner,2005)。尽管罗夏墨迹测验的结构化尝试很勇敢,但仍有很多批评,致使它的有效性被高度质疑(见“证据检验:罗夏墨迹测验”)。
图 3-7 一个和罗夏墨迹测验相似的墨渍 对你来说它像什么?证据检验 罗夏墨迹测验
·事实 尽管最近几年罗夏墨迹测验的流行程度稍微有所下降,但它仍然是一个被广泛应用的心理测验,临床心理学学生经常被训练如何使用它(Lilienfeld et al.,2000)。艾科纳的综合系统(CS)是最被普遍讲授的操作和计分程序。180多个CS结果分归为CS得分。但该测验的效用是心理学领域热议的话题,有许多科研论文支持或反对它。它的拥护者认为它从患者那里引出了一种其他心理测量无法得出的信息,这些信息对于临床判断的得出非常重要。它的批评者指出了三个主要局限:测验的信度、常模资料的充分程度以及分数的效度。罗夏墨迹测验有用吗?让我们检验一下证据。
·证据
1.关于信度的证据,拥护者指出75%的CS得分有足够的评定者间一致性(Wood et al.,2006),总体CS得分(基于各项目分数的总和)的信度要高于个体项目的信度(Hibbard,2003)。
2.关于常模资料的充分程度,拥护者指出在将近600个人(包括非患者的成年人、儿童以及不同患者组)中收集的数据在对心理评估的解释上是充足的。和常模样本相比,其他组心理健康问题的过度诊断(该测验的明显问题)可以这样解释:即常模样本更健康,自原始常模数据收集后评分程序的改变,社会上日渐增多的心理病理学问题,以及(或)后续研究中计分不充分(Hibbard,2003)。
3.关于效度,拥护者指出研究中的效度系数可能会低估测验的效用,因为当将患者反应整合进个性化评估中时,罗夏墨迹测验是非常有用的(Meyer et al.,2001)。换句话说,当医生的临床判断将罗夏墨迹测验结果和其他评估手段的分数结合时,效度就会增加。也许罗夏墨迹测验的过程太复杂以致难以证实其效度(Meyer et al.,2001)。
·检验证据
1.25%的CS分数不满足传统的评定者间一致性信度意味着什么(Wood et al.,2006)?在这种类型的测验中,是否75%的评定者间一致性信度就已足够可靠?此外,大多数得分的重测信度都未得到足够检测(Lilien-feld et al.,2000)。
2.由艾科纳和他的同事发表的常模数据已经过期了。它们是在20世纪七八十年代收集起来的,没有根据新近确定的计分程序来计分。这就导致了一些个体心理健康问题的过度诊断,可事实上他们并没有心理健康问题(Garb et al.,2005)。
3.180多个CS分数中只有20个存在足够效度,包括那些探查精神病性障碍、从属物和疗效的项目。另外160个CS分数至今未被论证为有效,但是它们继续被用来帮助做出关于人们心理状态的重要判断(Wood et al.,2006)。
·结论 罗夏墨迹测验的批评者和提倡者都赞成实证数据支持了一些用作特定目的的CS分数的效用。他们也同意很多CS分数至今未被充分地研究以评价它们的有效性。在这些方面意见的分歧很大程度反映了在评估过程中心理学家是依靠经验资料还是医生的判断的分歧(Garb et al.,2005)。以科学为基础的心理学家反对那些没有被证实有效的评估工具的使用,因此他们不支持在做心理学判断时使用未被证实有效的CS分数。在这个阵营的人也指出缺乏证据支持临床判断促进预测的观点(见本章关于临床判断与统计预测的讨论)。但是很多罗夏墨迹测验的拥护者界定自己为科学家-实践者,在实证数据不支持时依然认为患者的反应是有临床效用的。而反对者则选择将这些墨迹挂在墙上作为纪念心理学过去的艺术品。
第二个流行的投射测验是主题统觉测验(Thematic Apperception Test,TAT),于1935年由哈佛心理诊所的研究人员开发。这个评定包括31张黑白图片,要求被试根据图片上的图像编故事。主测在没有规范计分系统的情况下解释故事,根据自己的理论倾向自由评价被试的回答。和罗夏墨迹测验一样,据说所提供的描述可以深入洞察被试的心理过程和无意识。考虑到测验材料的定性特点以及测验缺少严密的计分及解释方法,TAT仍然是一个主观测验。
尽管有很多弱点,投射测验仍然在一些圈子内很流行。甚至即便不将测验作为实际诊断的一部分,很多医生也会在这两种情况下使用它,一是在治疗的初始阶段用来“让患者张嘴说话”;二是在对谈及感情有困难的患者使用,以使他们对自己的感受更贴近。
6.特定症状的测验
除了一般心理功能的测验,我们也需要能够对特定类型的症状如抑郁和焦虑提供可靠有效测量的评估工具。当评估一个治疗时,我们想知道某一疗法对于减轻某一特定障碍的症状有多大成效(例如,两种疗法中哪一个能更好地减轻抑郁症状)。当一位治疗师治疗某个人的特定问题时,例如考试焦虑,他或她会在治疗进程中用能够测量出考试焦虑严重程度的问卷做评估以查看干预的效果。仅仅为了这个目的,已经开发出很多量表。一些是医生的评估,其他的是自我陈述。
简明精神病评定量表(Brief Psychiatric Rating Scale,BPRS)(Overall&Gorham,1988)是一种医生评价用于评估多种心理症状的量表,包括关心躯体健康、焦虑、情绪性退缩、罪恶感、紧张、装相和作态、抑郁心境、敌对性、猜疑、幻觉、动作迟缓、不合作、不寻常思维内容、情感平淡、兴奋和定向力障碍。BPRS评估许多特定症状。其他测验评估范围则局限于评估某特定障碍的症状。实际上每种精神病性障碍都有这种障碍指向的量表。例如,人们常用贝克抑郁问卷(Beck Depression Inventory-II,BDI-II)(Beck et al.,1996)评估抑郁症,它是一个含21个项目的自陈问卷。贝克焦虑问卷(Beck Anxiety Inventory,BAI)(Beck&Steer,1993)也是一个含21个项目的自陈问卷,用以测量焦虑症状的程度。不同研究者对这种特定量表的使用有着在不同研究和患者群体间进行治疗效果比较的优势。用这些测量的医生也更能够评价他们的患者在治疗中的进步。
[1]应是瑞士,原文误。——译者注