这才是心理学(第11版) 基思·斯坦诺维奇

引言

  • 大众媒体和图书里面有不少伪心理学
  • 本书为心理学入门经典
  • 传授老师在课堂上不可言传的隐性知识?

心理学的与众不同之处

  • 心理学是一门容易引起误解的学科。心理学与我们生活密切相关。
  • 大多数心理学教材只灌输心理学知识,没说心理学知识怎么来,为什么正确

心理学家与众不同之处:

  • 批判性思维
    • 不相信个人智慧
    • 相信科学方法
  • 概率性思维
    • 学科的不确定性

译者序

心理学的误解:

  • 心理学不包括,星座、属相、血型、玄学、人生哲理及各种心灵鸡汤。以前研究过,但是被各种科学方法所证伪并剔除出去了
  • 心理学不是无所不能。心理学不能读心算命,不能操控行为
  • 心理学不是弗洛伊德精神分析,弗洛伊德所构建的理论难以实证验证
  • 心理学是一门科学:
    • 研究的问题是实证可解决的问题
    • 方法上必须遵循系统的实证主义
    • 实验结果必须可重复,经过同行审评

什么阻止公众了解和认识真正的科学心理学:

  • 对心理学的渴求使大众对心理学产生了特殊的期待,心理学无法有针对性地解决个体所有的心理问题
  • 术语体系产生阻隔
  • 心理学研究与大众生活有一定距离
  • 学院派心理学工作者没有对心理学成果进行普及,反而让江湖术士推广了

序言

  • 经由大众媒体传播的“心理学”知识,很多都是虚假错误的
  • 不幸的是,研究发现,一般的心理学入门课程并不能有效地纠正学生们对这个学科的诸多误解[1][I]

第1章 心理学充满生机(在科学阵营里表现不俗)

弗洛伊德问题

  • 把“媒体心理学家”排除,讯问关于对心理学做出卓越贡献的心理学家,弗洛伊德在大众中会位居榜首
  • 在美国心理学协会中,关注弗洛伊德精神分析的会员数非常低,低于5%
  • 大多数弗洛伊德的概念对曾经且现在被大多数实证取向的心理学家所排斥
  • 在现代心理学家所关注的各种问题,数据和理论中,弗洛伊德的工作只占了极小部分

  • 弗洛伊德不采用控制实验。弗洛伊德认为,个案研究可以证明理论真实或谬误

解决弗洛伊德问题:

  • 现代心理学的多样性
  • 现代心理学的统一特征,用科学的方法寻求对行为的理解

现代心理学的多样性

  • 美国心理学协会有54个分支。包括精神分析
  • 心理学科学协会同样分支众多

多样性的影响

  • 心理学不是由一个能解释行为方方面的宏大理论构成,而是由能解释行为有限方面的许多不同理论构成
  • 所有心理学家都一致认为,心理学理论统一是一项极为困难的任务
  • 心理学不统一不意味着心理学不是真正的科学,有许多其它科学领域也缺乏一个完备统一的概念体系

科学的统一性

心理学是一门独立的学科:

  • 心理学研究采用科学方法来探究人类及动物的所有行为
  • 从这些知识发展而来的实际应用是以科学为基础的

那么,什么是科学

科学三个重要且相互关联的特征:

  • 系统实证主义的运用
  • 公共知识的产生
  • 可解决问题的细察

系统的实证主义

  • 伽利略时代,人们认为获得知识的最佳途径是纯粹的思辨或诉诸权威
  • 伽利略宣称用望远镜看到环绕木星的卫星。一位学者试图驳倒伽利略,而不是用观察,雄辩概述为,人有七窍,有七种金属,一周为七天,所以只有七大天体,不会有环绕木星的卫星
  • 当时这被认为合理的辩驳,但经三个世纪,我们知道了实证方法的强大力量,但单纯的实证主义还不够,还需要系统性

可公开验证的知识:可重复性和同行评审

  • 科学知识是公开的,如果某个知识只存在于某个个体思维中,而不经受审查和批评,就不会获得科学知识的地位。科学也同样拒绝某些知识只能由某些群体获得
  • 一项发现需要公开后被其他科学家进行相同的实验并获得相同的结果,使发现具有重复性,可重复性避免了研究者的偏差和错误,这项发现才是科学知识
  • 江湖术士和伪科学从业者未经同行评审就直接在大众媒体上公开他们的发现
  • 同行评审是科学期刊的最低标准,但有同行评审并不意味着科学期刊上的信息正确

可实证解决的问题:科学家对可检验理论的探求

  • 科学处理的是可解决的,可具体指明的问题。这些问题可被实证方法解答
  • 科学进步过程:理论->预测->检验->理论修正
  • 当前不可解决的问题,有可能在技术,理论或科学方法更先进的时候变为可解决的问题

心理学和世俗智慧:“常识”的问题

  • 我们每个人都有一套解释行为的内隐模型
  • 我们会搬出世俗的智慧解释行为,但这些解释中有不少是不一致也是不可证伪的
    • 三思而后行|机不可失,时不再来。
    • 欲速则不达|时不我待。
    • 三个臭皮匠,顶个诸葛亮|人多误事。
    • 今日事今日毕|顺其自然。
  • 世俗智慧解释一切,同时意味着不可驳倒
  • 世俗智慧被重复多次,以至于一般人认为它就是一个事实
  • 世俗信念出现谬误的例子
    • 学习好的孩子都不擅长交际和体育(实际擅长)
    • 低自尊导致攻击行为(实际更可能因果倒转)
    • 多项答案选择不确定,不改答案(实际改了更好)
    • 我们只用了10%的脑力(没有任何神经科学根据)
    • “右脑型”,“左脑型”(大脑实际以整合的方式工作)
    • 千禧一代由于成长于充满科技产品的环境,因此具有同时处理多个任务的能力(几乎所有人多任务处理时表现都不佳)
    • 我们每个人都有属于自己的聪明才智(没有得到研究支持)
    • 快速阅读(快速阅读,理解就会有损失)

心理学是一门年轻的科学

  • 心理学家现在研究的一些主题极富争议
  • 即便是简单描述一些人类行为,也经常冒犯到一些人
    • 仅仅报道在单亲家庭中长大的孩子更有可能经历贫困和出现行为问题这一简单事实,就足以冒犯一些人[40]
    • 有研究者研究揭示压抑记忆与真实情况不符,为此遭到死亡威胁和诉讼
  • 有人害怕心理学威胁到自身的信念
  • 有批评者担心行为定律被用作控制人类

小结

科学方法并不是指一套严格的规则,它是由一些非常普遍的原则所界定的。最重要的三条是:

  • (1)科学采用系统的实证主义方法;
  • (2)它以获取可公开验证的知识为目标;
  • (3)它寻求的是可实证解决的问题并进而发展出可检验的理论

第2章 可证伪性:如何打败头脑中的小精灵

  • 在一场流行病中,本杰明·拉什(Benjamin Rush)这位的顶尖医生,尽管他的病人大多数已经死亡,但他却对他的治疗效果更加自信,这是为什么?
  • 有人总结:“他将每个好转的病例对归为治疗方法的疗效,而将每个死亡病例都归为病情的严重性”

理论和可证伪性标准

  • 在本杰明案例中,将病人康复看作是对疗法的有效肯定,而将病人的死亡看作是对疗法的否定,这才算公平。
  • 科学理论原则:从中得出的预测有可能被证明是错误的。也叫可证伪性标准
  • 可证伪性标准申明,理论要指出什么事会发生的同时,什么事不会发生。预测错误了,则修正理论
  • 科学家所说的理论,并不是指未经验证的猜想。

  • 科学上的理论是一组相互联系的概念,它能对一组数据做出解释,并对未来实验的结果做出预测。它们并非纯粹的猜想和直觉。
  • 目前科学所讨论的理论都已经在一定程度上被证实了

敲门节奏理论

  • 根据敲门节奏预测敲门的人是怎么样的
  • 理论预测越具体,预测出越多不该发生的事,理论越让人印象深刻
  • 坏的理论模糊笼统,以至于它们几乎注定是正确的
  • 好的理论可以被证伪,而坏的理论不会使自己处于危险境地,如“现在敲门的人不会超过100岁”

弗洛伊德与可证伪性

  • 20世纪初几十年里,波普尔一直在寻找一个答案“为什么一些科学理论似乎可以带来知识的进步,而一些理论则导致知识停滞不前”。
  • 爱因斯坦的广义相对论(如预测一个遥远恒星的光线经过恒星附近会弯曲),该理论的预测结构严密,很多可能发生的事都可能证伪它
  • 波普尔推断,一些使知识停滞的理论则不是这样。如弗洛伊德的精神分析只在事后做出解释,而不在事前做出预测。弗洛伊德的理论可以解释一切,这个属性使其毫无用处
  • 不可证伪理论的存在会造成实际的危害:
    • 对孤独症病因的解释
    • 抽动秽语综合征的历史
  • 只有当理论不试图预测一切,而是做出具体的预测,才会进步

小精灵

  • 举例小精灵在脑力控制一切,但是只要我们想观察它,它就会消失。
  • 再举例超感官知觉和超心理学,这类说法无疑来自大众媒体。科学家曾关注过这类说法,但没能重复这些发现
  • 许多科学家已经对超感官知觉研究失去了耐心
  • 其运作方式如下:当怀疑者要求加入实验控制后,超感官知觉就不再出现了。而信奉者则坚称是怀疑论者的“负面感应”瓦解这一“心理能量”
  • 超感官知觉的运作方式就像小精灵,不仔细观察它,它就存在。而去观察它,它就消失
超感官知觉理论有了正面证据则归因为证明理论正确,而有了负面证据则归因为外部因素干扰,且这外部因素无法验证,从而使理论永远正确,永远不用被修正。

并非所有的证实都等价

  • 非常具体,可能被证伪的预测比不可证伪的预测更有说服力

可证伪性与世俗智慧

  • 心理学会挑战我们所深信不疑的世俗智慧

承认错误的自由

  • 科学在公众面前犯错
  • 我们与他人争辩很少承认自己的错误

  • 假设确信为真的程度,与该假设是否为真无关
  • 科学不把感到真实作为证据
  • 科学的力量不是因为科学家的道德,而是他们的交叉检查

哲学家丹尼尔·丹尼特[21]曾说过,科学的本质就是“在公众面前犯错——在众目睽睽下犯错,希望他人能够帮助修正这些错误”(p. 380)。

诺贝尔奖得主彼得·梅达沃[23]提醒科学家要记住“一个假设被确信为真的程度,与该假设是否为真无关”(p. 39;原文为斜体)

喜剧演员斯蒂芬·科尔伯特在2005年10月17日的节目中,杜撰了“感实性”一词[24]。感实性是指“内心感到某样东西是真实的,但是没有证据支持”[25]。梅达沃所说的意思是,科学拒绝感实性。

在一篇关于著名实验心理学家罗伯特·克劳德(Robert Crowder)职业生涯的文章中,他的一位同事马扎林·巴纳吉(Mahzarin Banaji)被引述说:“他是我认识的最不维护自己理论的科学家。如果你发现一种方法证明他的理论有漏洞,或者他的实验结果有局限或缺陷,他会非常高兴,并和你一起计划如何推翻该理论”[26]。

科学的力量并不是因为科学家特别有道德,而是来自他们不断交叉检查彼此知识和结论的社会过程。

想法不值钱

  • 一个看似吸引人而不能被证实或证伪的想法,对科学来说没有什么价值
  • 不可证伪的理论如此容易构建,以致于有个叫做“糟糕的特设性假说大赛”的(BAH-Fest)活动

科学中的错误:逼近真理

  • 科学中很多关系已经被多次证实,可以看做是公理,且几乎不会被未来的实验推翻
  • 科学家感兴趣的是不太确定的边缘问题
  • 旧理论被证伪时,新理论要能解释旧理论能解释的事实和旧理论不能解释的新事实
  • 信念不必为真,但逼近真理

  • 最开始人类在平原上,地球看上去平坦,所以得出地球是平的
  • 亚里士多德后一个世纪,根据太阳在不同纬度上投射出的影子长度不同,算出地球是球体
  • 牛顿引力理论预测地球不是完美球体

  • 对科学的信念主张是一个连续体,而不是只有真和伪

小结

  • 好的理论能够做出具体的预测,而且具有高度的可证伪性。
  • 由于被证伪的预测所引发的理论修正,心理学这样的科学才能逐步向真理逼近

第3章 操作主义和本质主义:“但是,博士,这到底是什么意思?”

  • 讨论为什么科学不去回答这种本质主义问题,而是靠对概念进行操作性定义得以进步的。

为什么科学家不是本质主义者

  • 科学家不回答终极问题,如万物从何开始,生活的意义是什么
  • 终极答案,完美知识意味着不能进步

本质主义者喜欢咬文嚼字

  • 本质主义者在开始探求知识前关注理论概念的真正含义,也就是在词被用作概念前,对词涉及的所有潜在语言问题有全面清晰的理解
  • 科学领域中,确定某个词的意义是在与该术语有关的现象得到广泛研究后,而非研究前

操作主义者将概念和可观测事件联系在一起

  • 操作主义就是这样一种思想:科学理论的概念必须以某种方式建立在可观察事件的基础之上,或与之相关联,而这些可观察事件是可以被测量的。

  • 如包含可测量的食物剥夺时间或一些生理指标(如血糖水平)的定义是操作性的

  • 科学中的概念是由一组操作定义的
  • 美国食品药品监督管理局(FDA)提出了如下的操作性定义[7]:番茄汁中“不可接受”的污染水平是每100克有10个以上的苍蝇卵健康

信度和效度

  • 信度是指被测事物没改变时,测量也不变
  • 效度是测量工具是否测量了它本应测量的内容。
  • 测量出来的数字需要考虑背景

信度是指测量工具的一致性——如果你对同一概念进行多次测评,是否能够得到相同的测量结果。

如果在同一周的周一、周三和周五,我们用同一个IQ测验的不同形式测量同一个人的智力,得到的分数分别是110、109、110,我们会说这个IQ测验是非常可信的。


“结构效度”这个术语是指一个测量工具(操作性定义)是否测量了它本应测量的内容。

假设你想测测自己的智力,测试者让你伸出脚,放到一个像鞋码器的测量仪器里,然后测试者给出一个读数。当然,你会认为这是一个笑话。


归根结底,测量的目的是在有意义的背景下解释数字。如果没有适当的背景,一个简单的数字没有任何意义,甚至具有误导性。

数学教授乔丹·艾伦伯格[12]告诉我们,有一位博主曾警告说,飞机机舱内的加压空气中含有高浓度的氮气(“有时几乎高达50%”)。这位博主没说的是,地球大气中氮气的天然比例是78%!

同样,许多人惊讶地发现,30多年过去了,美国银行柜员的人数与1980年时一样多。他们很惊讶自动化并没有让很多柜员丢掉工作。但是自动化已经取代了许多这样的工作。这个说法(“与1980年时人数相同”)没有考虑到适当的背景。我们应该考虑到人口自1980年以来增长了40%这一事实。

直接和间接的操作性定义

  • 科学概念很少采用直接方式,更多是间接方式

很少有科学概念几乎完全是通过真实世界中可观测的操作来定义的。

大部分概念的定义采用更为间接的方式。例如,某些概念的使用是由一组操作以及特定概念与其他理论构念之间的关系所决定的。

科学概念的演进

  • 科学概念的定义并不是固定不变的,而是随着相关观测结果的丰富而不断变化

例如,人们曾经认为电子是一个围绕原子核旋转的带负电的微小球体。现在它被视为在某些实验条件下具有似波特性的概率密度函数。

心理学中的操作性定义

  • 心理学也用操作性定义
  • 同一概念在日常和心理学中有可能会不同

他们知道,如果科学家要讨论某一类型的化学反应、能量或者磁场,就必须有相应的方法来测量这些东西。遗憾的是,当人们想到或谈到心理学时,却经常无法认识到操作主义的必要性。

我们每个人都有关于人格和人类行为的直觉理论,因为我们在生活中一直在向自己“解释”自己和他人的行为。我们所有的个人心理学理论中都包含着理论概念(例如聪明、攻击和焦虑)。心理学中的许多专业概念都是用日常语言中的词汇命名的,这是误解产生的最大根源之一,也是在媒体上准确地呈现心理学发现的最大障碍之一。

这种日常用法为各种各样的误解敞开了大门。外行人很少意识到,当心理学家把“智力”“焦虑”“攻击”“依恋”等词语用作理论构念时,他们所指的含义不一定与大众使用这些词汇时的含义相同。

同样,在外行的用法中,“抑郁”一词的意思是“情绪低落”。相比之下,在《精神障碍诊断与统计手册》(Diagnostic and Statistical Manual of Mental Disorders)中,抑郁症的技术性定义占了十几页的篇幅[23],并且其含义与“情绪低落”有很大的不同。临床心理学家所说的抑郁,不同于外行人所说的抑郁[24]。

作为人性化力量的操作主义

  • 科学中,信念强度不作为依据
  • 科学公开知识,知识得以检验
  • 心理学概念不依赖某个人的个人定义

在科学中,一个知识主张的正确与否,并不取决于提出该主张的个体的信念强度

科学使知识主张公开化,这样,人们就可以用争论的各方都能接受的方式对相互冲突的观点加以检验。

心理学概念不能依赖于某人的个人定义,因为这类定义可能是不常见的、怪异的或者模糊的。

本质主义问题和对心理学的误解

心理学所面临的一个难题就是,公众要求心理学去回答本质主义问题,而对其他学科却通常没有这样的要求。

小结

操作性定义是用可观察的操作来表述的概念定义,而这些操作是可测量的。

我们保证某个理论具有可证伪性的主要方法之一,就是确保理论中的关键概念具有操作性定义,并且这些定义是用已经被重复过的行为观察来表述的。

用操作定义的概念使得科学知识可被公开验证。

第4章 见证和个案研究证据:安慰剂效应和了不起的兰迪

  • 博士的出生次序新理论
  • 媒体心理学会使用“临床经验”和“个案研究”作为证据
  • 个案研究和见证作为评估心理学理论和治疗的证据几乎是毫无价值的。

个案研究的地位

  • 个案研究在早期研究阶段或许比较有用
  • 个案研究和见证叙述是孤立事件,难以排除其它可能性
  • 弗洛伊德只通过个案提出假设,而没有进行实际检验
  • 几乎每一种疗法都有见证的支持
  • 科学为理论观点的自然选择创设了条件。有些理论观点经过实证检验留存下来,而另一些则被淘汰出局。

  • 孤证具有误导性,安慰剂效应可以证明这点

为什么见证叙述毫无价值:安慰剂效应

  • 每一种疗法都有一定数量支持者,事实上只是暗示接受某种治疗,就有许多人感觉病情好转
  • 在生物医学研究中,所有的新药研究程序都必须包括对安慰剂效应的控制

  • 安慰剂效应非常强大,在抑郁症中也有很高的效应
  • 贵的安慰剂比便宜的安慰剂更有效
  • 所有类型心理治疗都涉及安慰剂效应
  • 只是发现有人吃药后情况好转学不到任何东西

安慰剂效应在抑郁症治疗中是29%(即29%的病人服用安慰剂后报告症状缓解了),在十二指肠溃疡中是36%,在偏头痛中是29%,在反流性食管炎中是27%[8]。安慰剂效应可以非常强大,以至于曾有报告说有人对安慰剂成瘾[9],这些人需要服用剂量越来越大的安慰剂来保持他们的健康状态。

有研究发现[13],价格较贵的安慰剂比价格便宜的安慰剂更能缓解痛苦!

所有类型的心理治疗都涉及安慰剂效应[14]。许多有轻度至中度心理问题的人,在接受心理治疗后说他们的情况有所好转。然而,控制研究表明,这一康复比例中,有相当一部分是由于安慰剂效应以及时间的推移[15]。

正如认知心理学家丹尼尔·列维京[22]所言:“如果你把20个头疼的人带到一个实验室,给他们一种新的神奇头疼药,其中10个人好转了,你没了解到任何东西”(p.158)。你……没……了解到……任何东西。这很犀利,但的确如此。

“鲜活性”问题

  • 个人见证鲜活性让我们常常放弃一些可靠多的信息

个人见证的鲜活性常常令其他一些可靠得多的信息黯然失色。我们在购物前仔细收集了不同品牌的大量信息,最后却由于某个朋友或某则广告对另一产品的推荐,而在最后一刻放弃了自己的选择。

美国每周在高速公路上死于车祸的人数,相当于一架大型喷气式飞机的载员数,但我们对此漠然置之。为什么?这是因为“能坐满一架喷气式飞机的人死了”这一信息没有通过媒体以一种鲜活的形式传达给我们。

人们根据媒体展示的鲜活画面做出错误的个人判断,这种情况在其他领域里也广泛存在。一些研究调查了父母最担心他们的孩子遭遇哪种风险[32]。结果显示,父母最担心的是孩子遭绑架,而这一事件发生的概率是1/600000。相比之下,父母并不太担心孩子在车祸中身亡的危险,然而这种可能性比遭绑架要高出几十倍[33]。

单一个案的压倒性影响

  • 鲜活逸事信息压倒统计信息
  • 临床从业者需要努力摆脱个别案例的压倒性影响

关于人们如何对鲜活的逸事信息做出不同反应的一个著名例子,来自于20世纪60年代中后期媒体对越战的报道。随着战事的拖延,美军的死亡人数仿佛无休止地增加,媒体开始报道当周美军死亡的人数。一周又一周,这个数字在200至300之间徘徊,公众似乎已对这种报道习以为常了。然而,某主流杂志用连续几个版面的篇幅刊登了前一周阵亡者的个人照片。这时,公众在非常具体地看着在有代表性的一周内逝去的大约250个鲜活的生命。结果,此举导致了对这场战争造成的巨大损失的强烈抗议。250张照片所产生的影响是每周的数字报道所远不能及的。

作家弗兰辛·卢索[41]描述了弗吉尼亚大学的肿瘤学家威利·安德森面临的两难困境。安德森一直提倡控制性实验,并且定期招募一些病人来做有控制的临床测试。但是他仍然纠结于自己对突出个案的反应,那些鲜活的个案对他的决策产生了情感上的影响。

鲜活的逸事和见证为何如此有说服力

  • 我们天生设定处理问题时使用不费力的1型加工
  • 相比之下理解科学证据需要缓慢耗费精力的2型加工
  • 科学和统计思维可以通过练习达到自动化程度

我们天生的设定是在处理一个问题时使用最不费力的心理加工过程(称为1型加工)[43]

相比之下,理解科学证据需要更复杂的战略思维和逻辑思维,这是人类较晚才发展出的文化成就,需要缓慢而耗费精力的2型加工。

我们倾向于成为认知吝啬者,这常常阻碍我们完成更耗费精力的2型加工,而这是抑制1型加工并代之以统计思维所必需的。好消息是,科学和统计思维可以通过练习来达到自动化的程度,从而成为一种不那么耗费精力的选择。

了不起的兰迪:以彼之道,还施彼身

  • 用鲜活对抗鲜活
  • 为言论收集见证证据是很容易的

“了不起的兰迪”(Amazing Randi,他的艺名)通过揭穿所谓“通灵”能力的骗术和江湖医术来达到教育公众的目的。

心理学家们对这一效应进行了大量的研究[46],他们发现,绝大多数人会认为泛化的个性总结是对自己准确而独特的描述。

见证为伪科学打开方便之门

  • 伪科学带来的成本很大。当我们把时间花在伪科学上,就失去了时间花在在有价值的地方
    • 案例有:
    • 在美国,喝无氟的水
    • 警察聘请通灵师办案
    • 使用替代疗法
  • 能够逃脱既定权衡取舍的结果几乎不可信
  • 电视,网站,印刷媒体认为有受众就会宣传任何稀奇古怪的言论
  • 评估科学可信度没有捷径,甚至是大学课程也不能保证可信度

下面是由美国关节炎基金会发布的指南,曾被美国众议院老龄化问题委员会所引述,用于识别不道德的推销者(US Congress, 1984):

  • 他或许会提供一种用于治疗关节炎的“特别的”或“秘密的”处方或设备。
  • 他会做广告,用的都是“个案史”和来自满意“患者”的见证。
  • 他可能会许诺(或暗示)这是一种快速或简单的治疗方法。
  • 他或许会声称知道关节炎的成因,并且谈到“清除”你体内的“毒素”,同时“促进”你的健康。他会说外科手术、X光和医师所开的处方是没有必要的。
  • 他可能会指责“医疗机构”故意阻挠进步,或者迫害他……但是,他不允许人们用经过尝试和验证的方式,对他的方法加以检验。

当某人似乎在向你提供一种能够逃脱既定的权衡取舍的结果时,要注意提防。例如,众所周知,在投资中,风险与回报有关(投资回报越高,风险越大)。

重要的是要认识到,只要电视、网站和印刷媒体认为有受众,它们就会宣传心理学领域中几乎任何稀奇古怪的言论,无论这些言论与现有的证据多么矛盾。

例如,奥普拉曾宣传了某人用塔罗牌来诊断疾病的替代疗法,此人认为女性的甲状腺问题是“喉部能量阻滞”的结果,这是“一生都在压抑自己想说的话”所导致的[60]。

人们一旦涉入伪科学,就可能无法利用他们所能得到的真正的治疗方法。许多病人把时间浪费在追求虚假的治疗上,从而延误了接受医学治疗的时机。著名的计算机企业家史蒂夫·乔布斯在得知自己罹患胰腺癌之后,无视医生的建议,将手术推迟了9个月,转而选择未经证实的水果饮食法,向通灵者咨询,并接受虚假的水疗法[61]。

学习本书后面章节中的科学推理的原则是很重要的,因为评估科学的可信度没有捷径。例如,遗憾的是,大学本身并不能确保质量控制。许多大学课程都充斥着伪科学信息[68],而且大学里许多课程(确实,有时是整个院系!)的做法明显是反科学的。

小结

  • 个案研究和见证叙述在研究最初阶段有用。但在研究后期,当对理论进行特定检验时,个案研究就毫无用处了
  • 无法用见证来证明某种治疗的有效性,因为有安慰剂效应的存在
  • 鲜活性效应是指人们更容易提取记忆中鲜活的证据

个案研究和见证叙述在心理学(以及其他科学)研究的最初阶段是有用的,因为在此阶段,寻找有趣的现象和关键的变量以进一步研究很重要。

但在研究的后期,当对理论进行特定检验时,个案研究就毫无用处了。

安慰剂效应的存在,使我们无法用关于疗效的见证来证明某种心理(或医学)治疗的有效性。原因在于,无论采用何种治疗,安慰剂效应都会催生出证实其疗效的个人见证。

鲜活性效应是指人们过分看重更为鲜活并因此更容易从记忆中提取的证据。见证证据对大多数人来说就是一种格外鲜活的信息。

第5章 相关和因果:用“烤箱法”避孕

  • 有研究者发现,避孕工具的使用与家中电器的数量的相关性最强。
  • 有可能是社会经济地位同时导致避孕工具的使用和家中电器的数量
  • 相关性不必然表示有因果关系

第三变量问题

  • 导致另外两个变量之间产生误导性关联的第三变量,有时很容易看出来。

  • 相关证据的局限性并不总是像冰淇淋和烤箱的例子这么容易识别。

为什么戈德伯格的证据更好

  • 戈德伯格对关键变量进行了实际操控
  • 糙皮病的历史说明,如果依据相关研究所得到的错误推论来制定社会和经济政策,将使人类付出惨痛的代价。

  • 在某些情况下,只要有相关就够了(例如,当我们的目标是预测而不是决定原因的时候)

  • 有时,我们很容易陷入忽略可能存在的第三变量的陷阱。

    • 父母的养育行为与其孩子的心理特征之间存在相关,有可能遗传作为中介变量
    • 私立学校的学生学业成就更高可能和私立学校的教学效率没有任何关系,其真实原因或许是家庭经济条件优越的孩子学习更好,更有可能进入私立学校

    • 一些研究表明(使用统计回归技术)在控制了健康水平之后,快乐与长寿之间的相关就不复存在了[7]。

  • 幸运的是,还有许多复杂的相关统计方法,例如多元回归、偏相关、路径分析,可以用来解决这类问题[5]。

  • 使“高温假说”的可信度大为提高的是,他们发现即使在统计上对失业率、人均收入、贫困率、教育程度、人口规模、人口年龄中位数以及其他一些变量加以控制之后,气温和暴力犯罪之间的相关仍然显著[9]。

方向性问题

  • 一些教育工作者假设,眼动技能的缺失导致阅读障碍,研究者指出大部分因果是相反的。
  • 在教育和心理咨询领域里有一个非常流行的假设:学业成就问题、药物滥用问题、早孕、霸凌以及其他许多问题行为都是低自尊造成的,事实证明因果更可能是相反的。
  • 因果可能是双向的

研究方法教科书经常举一个例子:在新赫布里底群岛上生活的一群岛民认为,虱子使人健康,因为健康的岛民身上有很多虱子,但患病的岛民没有。事实上,几乎所有的岛民大多数时候身上都会有一些虱子。当虱子数量增加时,就会导致人发烧从而杀死虱子。不健康的人会更快地发烧,虱子也就随之消失了[13]。这就产生了这样一种现象:健康的人比不健康的人有更多的虱子。但因果关系是相反的:健康状况差导致虱子更少(健康状况好导致虱子更多),而不是虱子使人健康。

选择偏差

  • “自我选择偏差”一词指的是人们自己选择进入一个特定的群体,而不是被随机分配的情况

    • 呼吸系统疾病的人都喜欢搬到亚利桑那州,那里空气干净
    • 接受心理治疗的人他们的问题更难治愈,寻求心理治疗的人问题更严重
    • 第二次世界大战,飞回的飞机没有弹孔的地方是致命的位置
    • 我们无法知道是适度饮酒导致了积极的健康结果,还是适度饮酒群体的所有其他良好特征(运动水平、饮食等)导致了这一结果。

小结

  • 相关并不意味着因果关系。

  • 即使两个变量有因果关系,也不能只根据相关来判断因果关系的方向。

  • 在行为科学中,选择偏差是造成许多虚假相关的原因。

第6章 让一切置于控制之下:聪明汉斯的故事

斯诺与霍乱

在伦敦的一个市区,碰巧有两家自来水公司对同一个社区供水,而且不是系统性地分配供水。

比较、控制和操纵

  • 科学家排除不正确的理论:实验情景,自然情景

尽管市面上有很多关于科学方法论的大部头专著,但是对于一个可能永远不会真正进行实验的外行人士来说,完全没有必要熟悉实验设计的所有细节和错综复杂之处。

科学家们通过两种方法尽可能地排除不正确的理论:要么直接对实验情境进行控制,要么在可以比较各种可能解释的自然情境下进行观察。

随机分配与操纵共同定义了真实验研究

  • 随机分配可以确保不同实验条件下的被试在所有变量上基本一致,随着样本量的增加,随机分配可以抵消一些偶然因素。

  • 随机分配被试越多越好

控制组的重要性

  • 没有控制组会导致疗效被高估
  • 没有控制组会导致因果不明确
  • 有人因为实验的控制组违反“公平”理念而反感

罗斯和尼斯贝特[2]讨论了关于门腔静脉分流术的医学发现,该疗法是许多年前非常流行的一种肝硬化治疗方法。他们将关于此种治疗方法的研究进行汇总后,发现了一种有趣的现象。在96.9%的不包含控制组的研究中,医师们判断这种治疗方法的疗效至少达到了中等程度。在有控制组但没有使用随机分配的研究中(因此不属于真实验设计),这一比例是86.7%。然而,在使用真正的随机分配形成控制组的研究中,只有25%的研究被认为显示出至少中等程度的疗效。因此,这种治疗方法现在被认为是无效的,但在当时,由于没有进行完全的实验控制,治疗效果被大大高估了。

企业和政府越来越多地转向有控制的实验,以探寻如何进行政策优化,此类研究可能会带来意想不到的结果。几年前,美国俄勒冈州试图检验一个长期存在的观点,即为没有保险的公民提供医疗保险会降低政府的医疗支出,因为有保险的人不太可能到急诊室就医[6]。没有保险的人到急诊室就医,是政府和医院支出增加的原因之一。为了验证这个想法,看看省下了多少钱,俄勒冈州进行了一项真实验研究,他们随机选择了一些没有保险的人来接受保险,并让一个失去保险的同等规模的小组作为控制组。这种类型的研究被称为现场实验——在非实验室的环境中操纵变量。俄勒冈州实验的结果令人惊讶。接受保险的实验组并没有减少政府开支,他们甚至比控制组更多地在急诊室就医!然而,并不是所有的结果都是负面的:研究发现实验组的心理健康和生活质量都优于控制组。

不幸的是,许多纽约市民和团体并不这么认为。他们对“实验”这一生动的词语做出了情绪化的反应,并反对这项旨在让这座城市更好地花钱的控制研究。他们认为无家可归的人被当作豚鼠或实验室大鼠一样对待。这些批评者忘记了,没有人因为这个实验而被拒绝服务。无论是否随机分配,接受“家园”服务的人数都是同样的。唯一的不同是,只有通过收集控制组的信息,而不是简单地忽略那些不在该项目中的人,城市才能确定该项目是否真的有效!

人们似乎非理性地认为,因为实验需要一个不接受处理的控制组,所以它在某种程度上违反了“公平”的理念。这种态度的产生是因为控制组的标签似乎意味着一些人被“排除在外”。这是一个谬论,但这种错觉很强大,导致一些人非理性地反对实验。心理学家丹·艾瑞里[11]描述了一位同事想要对一所高中一半的学生提供激励,看看这是否会提高出勤率。学校反对这项研究,因为它“忽视”了学校一半的学生(控制组)。有了这次的经验,艾瑞里的同事尝试了另一种策略。他告诉一所学校的校长,他想给学生提供激励,但他的预算限制意味着他只能资助一半的学生。他向学校的工作人员征求关于如何分配奖金的建议。你猜对了,他们建议随机分配——这正是他想做的!当对同一个实验的表述,从“控制组没得到激励”变成“我们学校有一半的人得到激励”时,人们的态度突然之间完全改变了。

聪明汉斯——神马的故事

  • 用实验控制来排除对某种现象的不同解释是极为必要的。

  • 聪明汉斯的例子很好地揭示了仔细区分对现象的描述和对现象的解释是何等重要。

  • 我们没有考虑到它的其它可能。马敲出数学题的正确答案并不意味着它有算术能力
  • 简约原则:当两种理论拥有同样的解释效力时,我们倾向于选择那个比较简单的理论

此处有两种理论,一种认为这匹马具有算术能力,另一种则认为这匹马是在辨别行为线索,这两种理论在简约原则上的差异是很大的。后者不需要对先前的心理学和大脑理论做出根本性的调整,只需要我们稍微调整关于马对行为线索的敏感性的看法即可(我们已经知道这种敏感性很高)。前一种认为马真的能学习算术的理论,则需要我们修改进化科学、认知科学、比较心理学和脑科学中的很多概念。这可是极不简约的,因为它与其他的科学都不吻合,因此,如果我们认为这个理论是正确的,科学中的许多其他概念就需要改写了(第8章将讨论所谓的关联性原则)。

20世纪90年代和如今的聪明汉斯

  • 聪明汉斯的现代案例,孤独症“辅助沟通术”
  • 简约原则,“神奇子弹”解决问题可能性很小
  • 仔细区分现象的描述和现象的解释很重要

2016年4月2日的世界孤独症日,苹果公司(Apple)也插上一脚,推出了一段视频,声称一名孤独症儿童借助辅助沟通术在iPad上写字,在这个案例中,这种技术被称为“快速提示法”[27]。

我们在这里还要注意与简约原则的联系。孤独症儿童严重的语言障碍可以通过一颗“神奇子弹”(见第9章)来解决,这种看法与数十年来对孤独症儿童的认知、神经心理学和大脑特征的研究背道而驰[28]。它需要颠覆太多已知的认知和神经学知识。辅助沟通术的存在将表明它与其他科学领域没有任何联系(见第8章)。

最后,辅助沟通术的例子说明了之前在聪明汉斯的案例中讨论过的一点:仔细区分现象的描述和现象的解释很重要。

分离变量:创设特殊条件

  • 一个事件通常会有多个因素
  • 科学实验将单一变量的影响分离出来
    • 单词感知因素
    • 母婴依恋假设
    • 触摸性治疗法检验

哈洛想要检验一个关于母婴依恋的流行假设:依恋的产生是由于母亲为婴儿提供了食物来源。然而,问题是母亲提供的不仅仅是食物(还有舒适、温暖、爱抚、刺激等等)。哈洛对幼年猕猴的行为进行了研究,他让这些动物在“人造”母亲中做出选择,从而只分离出与依恋有关的一个变量。例如,他发现,相比铁丝网制成的“母亲”,幼猴更喜欢厚绒布制成的“母亲”所提供的接触舒适感。出生两周之后,幼猴更喜欢冰冷的厚绒布母亲,而不是温暖的铁丝母亲,这说明接触上的舒适感比温暖更吸引幼猴。最后,哈洛还发现,即使食物仅由铁丝母亲提供,幼猴仍然更喜欢厚绒布母亲。因此,依恋仅仅是由于母亲提供了食物的假设被证伪了。正是因为哈洛能够将现实世界中同时变化的变量分开进行考察,才会有这样的发现。

创设特殊条件来检验是否存在真正的因果关系,是防止伪科学信念像病毒一样攻击我们的一个关键工具[34]。让我们看一下治疗性触摸的案例,这是20世纪90年代席卷北美护理行业的一种时尚。使用治疗性触摸法的治疗师不是按摩病人的身体,而是病人所谓的“能量场”。也就是说,治疗师的手在病人身体上方游移,但不做真正的按摩。治疗师说这是在“感觉”病人的能量场。好吧,你猜对了。人们创设了类似于聪明汉斯和辅助沟通术中的特殊条件,对这种感应能量场的能力进行了验证。也就是说,测试这些治疗师在看不见的情况下,是否还能感觉出他们的手是否靠近人体。研究结果与聪明汉斯和辅助沟通术的案例一样,当视线被挡住之后,这种远距离的感应能力和随机水平差不多[35]。

直觉物理学

  • 一些世界上最伟大的思想家对下落的物体观察了几个世纪,也没有建立比现代高二学生所知的更精确的运动物理学。

  • 尽管人们对运动物体和下落物体有丰富的经验,但他们对运动的直觉理论是非常不准确的。

想象如下场景:一个人拿着一根绳子在头顶上绕圈,绳子的另一端系着一个球。从这个人头顶的正上方,我们可以看到这个球的运动轨迹是个圆圈,在纸上画个圆来代表这个圆圈。在这个圆的一处画一个点,然后用一条直线把这个点和圆心连接起来。这条线就代表绳子,那个点就代表特定时刻的球。想象一下,就在这一瞬间,绳子断了。你的第一项任务是用笔画出这个球在绳子断了之后的飞行轨迹。

第二个问题,想象你是一架轰炸机的飞行员,现在正以每小时500英里(约每小时805千米——译者注)的速度在20 000英尺(约6 096米——译者注)的高空飞向目标。为了简单起见,假设没有空气阻力。这里的问题是,你要在何处投掷炸弹才能击中目标:是在到达目标地点之前,还是目标的正上方,或者是在你飞越目标之后?无论你选择的是目标之前、目标正上方,还是飞越了目标之后,都请你指出投放点与目标的具体距离。

最后,想象你正拿着一把步枪从肩膀高度开火。假设没有空气阻力,且步枪与地面是平行的。如果一颗子弹从与步枪相同的高度落地需要0.5秒钟的时间,假设你现在从枪管中射出一发子弹,初速度是每秒2 000英尺(约每秒609.6米——译者注),那么这颗子弹落地需要多长时间?

直觉心理学

  • 个人经验并不能保证不会对人类心理学产生错误的信念

基思和拜因[47]提到,在他们的学生中,“通话不影响我开车”和“打电话可以防止我睡着”等陈述代表了关于手机和开车的典型看法。学生们似乎完全无视一个事实,即在开车时使用手机(即使是免提电话)会严重影响专注程度和注意力[48],是导致事故和死亡的原因之一[49],其危险性不亚于酒后驾车。开车时发短信尤其有致命的危险。

错误的流行信念可以列出一张长长的清单。例如,很多人认为满月会影响人的行为,其实并非如此[50]。有些人相信“相异相吸”,但事实并非如此[51]。有些人认为你不应该改变多项选择题的初始答案,他们也错了[52]。有些人认为“熟生蔑”,没有这回事[53]。有些人认为人在催眠状态下的行为就像机器人一样,这也不对[54]。这样的例子不胜枚举[55]。

小结

  • 实验方法的核心是操纵与控制。这就是为什么实验比相关研究能够做出更强的因果推论。

第7章 “但这不是真实的生活!”:“人为性”批评与心理学

为什么自然性并非总是必要的

  • 如果科学家仅仅局限于在“自然”条件下观察,那么一些现象就完全不可能被发现。

局限于真实生活情境会妨碍我们发现许多新事物。例如,生物反馈技术现在被广泛应用于各种领域,比如偏头痛和紧张性头痛的控制、高血压的治疗以及放松训练[1]。研究表明,如果我们能够通过视觉或听觉的反馈来监测体内正在进行的生理过程,就能学会在一定程度上控制这些过程。上述各种生物反馈技术正是由此发展而来。

随机取样与随机分配的混淆

  • 随机取样可能是相关研究,也可能是真实验
  • 随机分配是真实验所必需的条件

理论研究与应用研究的异同

  • 应用研究的目的是把研究数据直接应用于现实世界中,而基础研究则关注理论的检验。

  • 尽管很多科学家的初衷并非为了解决具体的实际问题,但他们的理论或发现最终解决了许多现实世界的问题。

    • 想研究关节炎结果推动溃疡性结肠炎的治疗
    • 找治疗心脏病的新药,结果发现伟哥
    • “棉花糖实验”应用于培养儿童自我控制技能项目(别高估该研究)
    • 驾驶时手机使用,免提电话导致注意力分散,引发交通事故

心理学理论的应用

  • 心理学理论的普遍性是否得到了检验?

  • 经典条件作用和操作性条件作用能解决很多问题
  • 动物的行为反应得出的理论和规律为我们提供了与人类行为非常相近的数据[12]

  • 心理学家知觉过程研究应用到各种问题
  • 判断和决策的心理学研究已经对医学、教育和经济等领域的决策产生了影响[19]

  • 简而言之,心理学已经在“现实生活”中得到了广泛的应用,但公众对此知之甚少。

想想经典条件作用和操作性条件作用这两个基本的行为原理。这些原理及由此推出的定律,几乎完全是从使用非人类被试(比如鸽子、大鼠)、在高度人为化的环境中进行的实验中发展出来的。然而,这些原理已经成功地用于解决人类的很多问题,包括孤独症儿童的治疗、酗酒和肥胖的治疗、精神病院住院病人的管理、失眠的干预以及恐惧症的治疗等等。这仅是一小部分而已。

这些应用背后的原理之所以能够被提炼出来,恰恰是因为在实验室研究中,研究者能够精确地细化环境刺激和行为之间的关系,而这是在自然条件下无法做到的,因为在自然情境下,许多行为之间的关系可能会同时起作用。

简而言之,心理学已经在“现实生活”中得到了广泛的应用,但公众对此知之甚少。专注于研究的心理学家已经找到了让人们为退休存更多钱以及增加器官捐赠的方法[23],发现了说服人们注射流感疫苗的方法[24],设计了旨在减少能源使用的行为干预项目[25],发现了方便屏幕阅读的方法[26],发现了让司机提高危险感知的方法[27],找到了让医疗卫生人员提高洗手率的方法[28],找到了降低医疗费用的方法[29],找到了减少手术开错部位的方法[30],发现了增加投票率的方法[31],并且找到了为什么孩子讨厌上学这一古老谜题的答案[32]。

“大二学生”问题

  • 大量的心理学研究是以大二学生作为被试的,所以人们质疑其研究结果是否具有可推广性。心理学家的回应:
    • 这种“大二学生问题”批评没有否定以前的结果,而是呼吁更多研究结果
    • 一些非常基础的心理学研究不太可能有“大二学生”问题
    • 研究的重复确保很大程度的推广
  • 心理学家正在努力纠正大二学生问题
    • 跨年龄
    • 跨文化
  • 认知心理学的研究成果已经通过了可重复性这一基本的检验。
  • 并不是所有的心理学研究结果都能重复。
  • 心理学还需要提高标准
  • 在其他科学领域中,结果和理论经常在确立之前就开始应用了

  • 我们不是等到理论完全正确才开始应用

正如先前提到的,认知心理学的研究成果已经通过了可重复性这一基本的检验。信息加工的许多基本规律在全世界几十个实验室中得到了验证。人们往往不了解,如果密歇根大学的一名心理学家取得了一项重要的研究成果,那么类似的实验很快就会在斯坦福大学、明尼苏达大学、俄亥俄州立大学、剑桥大学、耶鲁大学、多伦多大学以及其他大学进行。通过这种检验,我们很快会知道这项结果是不是由于密歇根大学被试的特殊性或研究的实验环境所造成的。

当然,并不是所有的心理学研究结果都能重复。相反,重复失败的情况确实会发生[43]。在过去几年中,心理学中的重复失败率一直是一个引发激烈讨论和争论的问题[44],另一个问题是心理学领域的重复失败率是否高于其他学科。这个问题很难回答,但心理学报告重复失败的可能性似乎比物理学要小[45],这表明心理学在提高其标准方面还有很长的路要走。然而,生物学和医学中重复失败的情况似乎与心理学一样普遍[46]。心理学中的元分析(第8章将讨论)数量正在增加,可见该领域关注其研究结果的一致性[47]。

虽然如此,仍有令人振奋的证据表明,大量源自实验室的心理学研究结果确实在真实的生活环境中得到了重复(尽管并非全部如此)。在迄今为止最全面的一项分析中,米切尔[48]对217个实验室与现场比较研究的数据进行了元分析(见第8章),这些比较研究来自心理学的不同领域,包括工业组织心理学、社会心理学和发展心理学。他发现,在实验室和现场研究中观察到的结果有很大程度的一致性,但是不同的心理学领域之间差异很大。实验室与现场研究结果的一致性程度最高的领域是工业组织心理学,而社会心理学则要低得多。在217项比较中,有187项的实验室和现场研究结果在方向上是一致的,但也有30项的实验室与现场研究结果在方向上是相反的,其中大多来自社会心理学领域。

客观看待真实生活和大二学生问题

  • 人为情境并不是实验研究的缺点,它们是为了分离变量而被故意设计出来的。

  • 如前所述,心理学领域的重复失败率虽然在行为科学中是典型的,但仍然令人担忧。

一些心理学家指出,心理学的数据分析程序太过弹性了[55]。最后,正如我们将在第12章中讨论的那样,心理学中一个日益严重的问题是,太多的心理学研究者(特别是大学中的研究者)都存在预设偏见,尤其是政治偏见[56]。

小结

  • 大部分心理学研究属于基础研究,一些心理学研究属于应用研究
  • 基础研究检验理论,应用研究将研究结果推广到自然情景

第8章 避免爱因斯坦综合征:聚合性证据的重要性

  • 科学的进步很少是突破式的

“生物学实验揭开生命的奥秘”“思维控制上的新突破”“加利福尼亚科学家发现延缓死亡的方法”——如你所见,模仿媒体(包括印刷媒体、电视和互联网)头版头条的“突破性”新闻简直易如反掌。由于这些头版头条经常出自那些最不负责任的媒体,所以大多数科学家建议公众对其持怀疑态度也就不足为奇了。

但是,本章的目的不仅仅是提醒你警惕那些通过夸大事实而得以传播的错误信息,或者是提醒你在评估科学进展报告时,必须考虑信息的来源。

关联性原则

  • 新的科学理论不仅要解释新的事实,还要兼容旧的事实,这样才会被认为是一个真正的理论进步。

消费者规则:警惕是否违反关联性原则

  • 伪科学家想要进入某一领域的策略:
    • 让理论变得不可证伪
    • 宣称先前的数据不相关
  • 补充和替代医学与其他科学领域没有任何联系,检验其的价值比较低

再举一个心理学的例子。设想现在已经开发出两种特殊的疗法来帮助有极度阅读困难的孩子。两种疗法的疗效均未经过直接的实证检验。第一种称为A疗法,是一个让孩子注意到语言有音节分段的培训项目。第二种疗法称为B疗法,是让孩子蒙着眼睛在平衡木上行走,以此来训练他们前庭的敏感性。即使这两种疗法都还没有证据的支持,但其中一种疗法在关联性原则上具有优势。A疗法与研究文献中的一个广泛共识有关联,即阅读障碍儿童是由于对语言的分段结构认识不足而产生阅读困难的[3]。B疗法与任何相应研究文献中的共识都没有关联。这种关联性的差异表明A疗法是更好的选择。

神经病学家史蒂文·诺韦拉[4]对补充和替代医学也提出了同样的观点。说补充和替代医学缺乏实证证据——事实的确如此[5]——在某种意义上也太过宽容了。诺韦拉[6]指出,这些疗法大都不值得对其进行实验检验,因为它们与其他科学领域没有任何联系。

“跃进”模式与渐进整合模式的比较

  • 科学实验很少能完全解决某个问题,也就是在支持某个理论的同时,排除所有其他理论。

  • 科学是累积性的工作,遵循关联性原则。

  • 科学家对大量各有局限的实验的总体趋势进行评估。

  • 科学拒绝承认只有少数特定的人才能获取的“特殊知识”。

  • 伪科学经常宣称某些权威和研究者拥有获取真理的“特殊”途径。

想想遗传学和分子生物学在过去100年中的突飞猛进。这些进步的产生不是因为一个爱因斯坦式的伟人在关键时刻出现,让一切都迎刃而解。相反,现代生物学的整合,是建立在数百个实验所产生的几十种洞见之上。

聚合性证据:在缺陷中进步

  • 研究结果一致,且所有实验局限性不同,我们对结论的信心就会增加
  • 当大量实验的证据指向类似的方向时,实验证据就有了聚合性。

  • 单个研究不说明任何问题

  • 科学媒体新闻误导读者期待从一个实验中得出令人震惊的发现
  • “科学是渐进式的,而媒体是跳跃式的”[9]

如果所有实验的局限性各不相同,我们对结论的信心就会增加,因为研究结果的一致性不太可能是由某个混淆了所有实验的干扰因素所造成的。

出于对聚合性证据原则的了解,退休医生哈丽雅特·霍尔[7]提醒我们,当我们在媒体或互联网上看到“最新研究显示”这个用语时,要对它持怀疑态度。你对这种话并不陌生:最新研究显示,吃金橘的人寿命要长40%。现在,你应该已经清楚保持怀疑的原因了:单个研究不说明任何问题!在我们得出结论之前,必须将许多研究综合起来,评估它们是否具有聚合性。

著名认知心理学家史蒂文·平克(Steven Pinker)也与此相呼应:“科学记者有一个习惯,就是把一个实验当作有报道价值的新闻。但是单个研究证明不了什么。某一学科的进展是缓慢的、断断续续的,而读者却被引导去期待从中得到令人震惊的发现”[8]。美国公共广播电台的科学记者乔·帕尔卡(拥有心理学博士学位)也同意平克的观点,他说:“科学是渐进式的,而媒体是跳跃式的”[9]。

聚合性证据的类型

  • 媒体宣称(无论是在纸媒、电视还是在互联网上)的突破性进展,总是应当引起怀疑,对心理学领域的主张尤其如此。

  • 知识大致是慢慢构建起来的,不太可能有神奇的子弹

  • 很多媒体几乎每年都会公布一种新疗法,很可能是虚假主张
  • 观看暴力节目(通过电视、电影或流媒体视频)似乎确实增加儿童做出攻击性行为的可能性。

  • 吸烟的人死于肺癌的概率比不吸烟的人高出15倍[21]。

  • 汽车中的交互式电子功能会提升车祸的风险,且是导致车祸的一个重要原因

媒体宣称(无论是在纸媒、电视还是在互联网上)的突破性进展,总是应当引起怀疑,对心理学领域的主张尤其如此。例如,有时似乎媒体每三个月就要公布一种治愈孤独症的新疗法。但这样的主张已经不断地发生20多年了。既然20年前就公布了一种治愈孤独症的疗法,19年前也公布了一种,18年前又公布了一种……,怎么现在还在公布新疗法呢?这当然表明20年前公布的疗法根本不是真正的治愈方法。这可能是一个虚假的主张。不过,更有可能的情况是,在对孤独症形成聚合性证据的漫长科学进程中,媒体宣传的研究只是其中的一小步。但这些研究被媒体过早报道了,让公众误以为孤独症的研究是非累积性的,也就是说研究者不是在慢慢地构建知识,而是在寻找一颗“神奇子弹”。

与孤独症一样,大概自1990年以来,媒体几乎每年都会公布一种治愈阅读障碍的“疗法”(神奇子弹)!例如,我随意翻阅了一大叠我收集到的这类过早公布的文章,看到1999年11月22日的美国《新闻周刊》杂志刊登了一篇题为《阅读障碍:阅读困难的孩子有了新希望》的封面文章[10]。2001年2月26日加拿大《国家邮报》上有一篇题为《解开阅读障碍之谜》的文章[11]。2003年7月28日美国《时代》杂志的封面标题是《克服阅读障碍:最新脑科学揭示了什么》[12]。最后还有一篇相对近期的文章,又是《新闻周刊》,日期是2016年3月31日,题为《电击有助于阅读障碍儿童提高阅读速度》[13]。这样的例子不胜枚举。这些文章中没有一篇有所谓的神奇子弹。我并不是说这些文章报道的研究不好或不对。要理解的重点是,媒体夸大了其报道的研究所具有的“神奇子弹”性质。它们都不是“治愈方法”,而是阅读障碍领域正在取得的缓慢进展中的一部分[14]。

让我们看看一个例子。有一个研究问题可以阐明聚合性证据原则的重要性,即接触暴力电视节目是否会增加儿童攻击性行为的倾向。对于这个问题,目前的科学共识是:观看暴力节目(通过电视、电影或流媒体视频)似乎确实增加儿童做出攻击性行为的可能性。这种影响虽然不是很大,但确实存在。科学家对这个结论的信心并非来自于单一的、决定性的研究,而是来自许多研究结果的聚合[17]。这一研究结论不仅适用于暴力的电视和电影,也适用于暴力的视频游戏[18],不过这种影响似乎也不大[19]。这些研究所采用的研究设计、被试人群和具体技术都有很大的差异,但现在我们应该已经清楚了,这些差异是该领域研究的优势,而非缺点。

电视网络高管和视频游戏行业的高管们,自然不愿接受他们所在行业对孩子产生负面影响的证据,他们发起了一场误导公众的运动,利用的正是公众未能认识到研究结论是建立在许多研究的聚合之上,而不是建立在决定这一问题的单一关键论证之上[20]。电视网络公司和视频游戏制造商们不断挑选出个案研究来进行批评,并暗示因为每一个研究都存在缺陷,所以不足以支持总体结论。殊不知,研究者常常坦率地承认某个研究存在缺陷。关键的不同之处在于,研究者并不认为承认某个研究存在缺陷,就否定了“影视暴力会对攻击性行为产生影响”这一普遍的科学共识,因为总体结论来自于研究的聚合。没有相关研究的特定缺陷的其他研究,其结果也指向了同一方向。这一研究或许本身也有问题,但另一些研究在纠正了这些缺陷之后,也得到了相似的结果。

这种情形类似于吸烟和肺癌的关系。吸烟的人死于肺癌的概率比不吸烟的人高出15倍[21]。过去,烟草公司的老板们经常试图去误导公众,暗示吸烟导致肺癌的结论只基于某些特定的研究,然后再去批评这些研究[22]。恰恰相反,这个结论得到了大量聚合性证据强有力的支持。来自多个不同类型研究的数据,其聚合性是很强的,不会因为对某个研究的批判而发生实质性的改变。

当下就有一个类似于吸烟导致肺癌的例子。科学上有很强的聚合性证据,表明在开车时用手机打电话(以及开车时看电子仪表设备)是极其危险的,并且是导致车祸的一个重要原因(即使打的是免提电话)。该结论的聚合性证据来自实验室研究、现场研究、相关研究、真实验研究以及与认知科学中的注意理论的联系。然而,手机公司和汽车公司跟之前的烟草公司一样,正试图向公众隐瞒一个事实,即围绕这一结论的科学证据是高度聚合的[23]。当科技公司和汽车公司试图通过在汽车中安装更多的交互式电子功能来获得竞争优势时,他们更是假装这些科学事实不存在。考虑到关于司机分心的科学研究,苹果公司开发的CarPlay车载系统,以及谷歌公司开发的Android Auto车载系统,存在的问题尤其突出[24]。科技公司和汽车公司仍在继续罔顾有关驾驶员风险的科学事实。虽然这些技术造成的死亡可以通过现有的电子修复技术来预防,但是这些现代企业的行径与几年前的香烟公司一样,不愿处理已知的消费者风险问题[25]。

科学共识

  • 在评估心理学的实证证据时,心中要想的是科学共识,而不是重大突破;是渐进整合,而不是大飞跃。

未能认识到科学是“共识而非突破”这一原则,阻碍了公众去理解“人类活动是全球变暖的原因之一”这一结论背后的证据[26]。事实上,科学界对这个结论没有太多的争论(就广义而言),因为这个结论不是建立在单一研究的基础之上。1993年至2003年期间,共有900多篇关于全球气候变化的论文发表,绝大多数论文都得出了人类活动与全球变暖有关的结论[27]。在建立结论时,没有一项研究起到了决定性的作用,所以很显然,推翻一项研究完全不会改变结论。

研究方法和聚合性原则

  • 心理学使用多样化的研究方法寻求聚合性证据来支持他们的理论

  • 早期的拼读教学有助于获得阅读技能[30]。

  • 老师按照学习风格教导学生,学生成绩就会提升没有得到证实

在一些教育心理学领域中,实验室结果和非实验室结果也具有相当高的聚合性。例如,不同课程体系的实验室研究和现场研究都表明,早期的拼读教学有助于获得阅读技能[30]。

长期以来,人们一直认为老师有办法测量每个孩子的“学习风格”。我不想在这里提及具体的风格,因为不同的作者对“风格”的分类不同(这也是问题的一部分)。总之,人们觉得老师应该能够按照学习风格对学生进行“因材施教”,这样所有学生的成绩都能提高。(有时也有人声称,如果这样做,学生们的成绩会更均衡。)问题是,在对这一想法进行了数百次研究之后,并没有证实这一点[31]。没有可重复的证据表明教师能够针对这些学习风格选择“相匹配”的教学方式,从而提高学习效果。

向更有效的研究方法迈进

  • 研究者通过个案提出较弱的假设,再用更严格的方法验证假设得出较强结论
  • 这个递进的顺序是,从个案研究到相关研究,再到操纵变量的实验研究。

  • 没有相关关系就没有因果关系,相关研究可以排除因果关系
  • 个案研究提出假设,相关研究找出相关关系的证据,实验研究找出因果关系的证据

  • 一些心理学组织在一些社会问题上表明的立场是错误的

在我们讨论科学共识的最后,还有一点需要注意。当我们说科学共识时,我们指的是证据在科学文献本身中的聚合性。科学共识不是200名科学家就一个与他们的专业特长无关的问题签署请愿书[36]。当然,科学家可以对任何社会或政治议题自由地签署请愿书,但这类文件与本章所讨论的科学共识不是一回事。我们将在第12章中看到,美国心理学协会在一些社会问题上表明立场是错误的,因为这些问题与它所出版的科学期刊的内容只有松散的联系(或者根本没有联系)。

不要对矛盾数据感到绝望

  • 元分析更为正式地将来自不同研究的证据结合起来形成一个结论
  • 通过元分析,我们得知:
    • 相比其他非系统性或无拼读教学的课程,系统的拼读教学对孩子阅读能力的发展作用更大

    • 已婚人士比从未结过婚的人更幸福,婚姻会带来更好的健康结果[44]。

    • 我们知道电视、广播和网络上宣传的“大脑训练”项目是没有用的。

    • 我们预测自杀的能力50年来没有什么提高[47]。

    • A型行为模式中的敌意和攻击性与心血管反应性(心率和血压)之间的关联确实存在。

  • 心理学领域进展缓慢,医学和其它科学研究领域也是进展缓慢

科学作家卡尔·齐默警告说,他的作家同行们有时想讲一个引人入胜的故事,“但事实是,科学通常是一个巨大而陈旧的烂摊子”[37]。

美国国家阅读委员会[43]在对阅读教育中几个问题的证据进行元分析时发现了这一点。例如,他们发现,对38个不同研究结果的元分析“强有力地支持下述结论,即相比其他非系统性或无拼读教学的课程,系统的拼读教学对孩子阅读能力的发展作用更大”(p. 84)。在报告的另一部分,美国国家阅读委员会报告说,对52项音位意识训练研究的元分析表明,“教孩子控制语言中的声音,能帮助他们学会阅读。在不同的教学、测验及参与者特征条件下,其效应量都显著大于随机水平,虽然这些效应量有大有小,但大部分都处于中等水平”(p.5)。

通过元分析得出结论,如今在心理学中很常见。通过元分析,我们知道已婚人士比从未结过婚的人更幸福,婚姻会带来更好的健康结果[44]。通过元分析,我们知道电视、广播和网络上宣传的“大脑训练”项目是没有用的。虽然人们在这些项目所训练的具体任务上有所提高,但长期来看,这些项目并没有改善整体的认知功能,也没有对现实生活方面的结果产生持久的影响[45]。通过元分析,我们知道“尽责性”这一人格特质与工作绩效相关[46]。在工作绩效文献中,许多针对该具体问题的研究结果并不显著,但是将大量此类研究合并起来的元分析表明,确实存在中等程度的关联。也是通过元分析,我们知道我们预测自杀的能力50年来没有什么提高[47]。

小结

  • 聚合性操作原则:没有一个实验可以一锤定音,但每个实验至少都能帮助我们排除一些替代解释,从而有助于了解真相。
  • 关联性原则:新的理论不仅要能解释新的科学数据,还必须能解释已有的数据。

第9章 打破“神奇子弹”的神话:多重原因的问题

  • 人的行为是由多重原因决定的。

  • 如果行为重要,控制其中的小部分原因也很有价值

我们得出变量A和行为B之间存在显著的因果关系的结论,并不意味着变量A就是引起行为B的唯一因素。例如,研究者发现,观看电视及其他媒体的时间与学业成绩之间存在负相关,但他们不会就此认为,看电视的时间是影响学业成绩的唯一因素。道理很简单,学业成绩在一定程度上还受到数目众多的其他变量(家庭环境、学校教育的质量、认知能力等)的影响。实际上,相对于这些变量,看电视只是影响学业成绩的一个次要因素而已。同样,贾菲等人[1]考察了有关青少年反社会行为潜在原因的文献。证据聚合在了几个不同的原因变量上,包括同伴行为偏常、生活在离婚家庭、父母抑郁、少女怀孕生子、强制性管教和贫穷。

交互作用的概念

  • 在某些情况下,每个风险因素本身对结果的影响都很小,但结合起来对结果的影响就很大。

    • 青少年学业成绩
    • 儿童认知功能损害
    • 抑郁症
    • 青少年司机交通事故率
  • 这些多重原因之间结合的方式可能不止简单的相加

  • 有心理学家认为因果关系是从强到弱的一个连续体,较强为充分因,较弱为必要因

例如,研究者可能会去研究青少年的学业成绩,看它是否受生活变化(如转校、青春期发育、住所迁移和家庭破裂)的影响。他们常常发现,没有单一的因素会对学业成绩产生巨大的影响,但当这些生活变化中的几个因素结合在一起时,就会导致学业成绩大幅下降。

生物因素和环境因素也可能发生交互作用。格兰特等人[5]发现,只有当儿童也经历了社会人口方面的逆境(母亲受教育程度低、母亲生育时未满18岁、低收入、单亲母亲)时,让儿童接触一种合成应激激素(合成糖皮质激素),才会对其认知功能产生负面影响。只要儿童没有经历过任何社会人口方面的逆境,应激激素就不会损害他们的认知功能。

研究发现,5-HTT基因的变异与人类的抑郁症有关[6]。携带一种变异型(S等位基因)的人比携带另一种变异型(L等位基因)的人更可能患抑郁症。然而,携带S等位基因的人只有在经历了多重创伤性生活事件(例如,儿童期被虐待或忽视、失业、离婚)时,患抑郁症的风险才会增大。这种基因与环境的交互作用在发展精神病理学领域很常见[7]。以单胺氧化酶A(MAOA)基因的变异与反社会行为的关系为例。该基因的一种变异型会增加反社会行为的可能性,但只有当其他风险因素(如儿童虐待、分娩并发症或恶劣的家庭环境)同时存在时,才会如此[8]。

以反刍思维(rumination,指反复思考不愉快的事情,自我强制性地进行思考和分析,接近于俗称的“钻牛角尖”——译者注)和抑郁的关系为例。反刍思维的倾向确实能够预测抑郁症状的持续时间,但它与认知风格存在交互作用,只有在消极的认知风格下,反刍思维才能预测抑郁症状持续时间的延长[9]。

发展心理学家丹·基廷[10]回顾了美国各州实施的驾驶执照分级项目对青少年驾驶安全的影响。这些项目确实有效——它们降低了青少年司机交通事故率及交通事故死亡率。然而,这些项目在不同的州是不一样的,每个州在几个基本组成部分上都有所不同,包括必需的驾驶培训、乘客限制、夜间驾驶限制、法定年龄、最低的驾驶练习要求以及实习期的长短。因此,问题就变成了这些组成部分是否都有因果效力,以及它们之间是否存在交互作用。研究表明,没有一个成分能独立降低青少年司机交通事故率或死亡率。但是,它们结合起来能使青少年的死亡率降低超过20%。

单一原因解释的诱惑

  • 复杂事件是由多重原因决定的
    • 经济结果成因
    • 心理问题成因
    • 肥胖不完全只是缺乏意志力
  • 人们带有强烈感情色彩的时候,会认为导致结果的原因只有一个
  • 大多数情况,人们认为不是这个原因,就是另一个原因
  • 某个复杂现象有多重原因,进行多方面干预会更有效

再考虑一下关于复杂经济结果成因的讨论。这些结果都是由多重因素决定的,因而很难准确预测。例如,过去几十年来,一个极富争议又具有重要社会影响的经济议题是:美国日益严重的财富不平等。这一事实不存在争议,有争议的是对这一事实的解释。这场争论最引人注目之处是,争论者都只关注单一的原因。争论的各方都只以某一个原因为立论基础,然后千方百计地攻击所有支持其他原因的观点。事实上,经济学研究已经关注了许多不同的变量[12]。其中之一是,非技术工人移民的不断增加,造成非技术劳动力供大于求,使得低收入工人的工资水平又被压低。此外还包括:全球化促进了劳务的外包、技术变革、税收政策、单亲家庭的增加、私营企业工会组织的衰落、互联网“赢者通吃”这一商业模式的兴起、选择性婚配、地理隔离。以上还只是一部分变量,还有很多其他的变量。针对这些可能原因的经济学研究发现了什么?你猜对了。几乎所有这些因素都或多或少地助长了美国社会日益严重的财富不平等现象。研究还发现,其中许多因素之间似乎存在交互作用。例如,非技术移民压低了非技术工人的工资水平,从而产生了另一个效应,那就是使现有的工会更难讨价还价。

和经济学问题一样,心理学家研究的复杂问题也几乎都是由多重原因决定的。以学习障碍为例,教育心理学家、认知心理学家和发展心理学家都对此进行了广泛的研究。结果发现,大脑异常与学习障碍有关[14]。还有研究发现,学习障碍有遗传方面的原因[15]。这两个研究结果似乎表明学习障碍仅仅是生物学上的大脑问题。这个结论将是错误的,因为也有研究发现,造成学习障碍的部分原因是早期学校教育缺乏某些方面的教学经验以及家庭环境不利[16]。学习障碍不是由单一原因引起的,而是生物天性与环境因素交互作用的结果。

加利福尼亚大学的《健康简报》警告说:“如果把肥胖的流行完全归咎于人们因缺乏意志力而吃得太多,以及久坐不动的生活方式,就太过简单化了。肥胖是由多重因素导致的,它是由遗传、代谢、行为、激素、心理、文化、环境和社会经济因素之间交互作用而形成的综合问题”(p. 1)[21]。科学作家吉娜·科拉塔[22]更加直截了当,她写了一篇关于肥胖的文章,标题就是:没有单一的答案。

小结

  • 复杂程度各异的大部分行为都是由多重原因决定的。

  • 有时多个因素组合在一起时会产生交互作用

第10章 人类认知的阿喀琉斯之踵:概率推理

  • 人们很难接受概率预测的现实——我们并不是生活在一个确定的世界中。

    • 预测心脏病
    • 预测地震
    • 预测选举
  • 心理科学揭示的几乎所有事实和关系都是用概率来表述的。

2008年夏天,深受大众喜爱的58岁政治播音员蒂姆·拉瑟特(Tim Russert)因心脏病去世,这给美国人在医学知识的概率性方面上了悲伤的一课。拉瑟特长期服用降胆固醇的药片和低剂量的阿司匹林,骑健身单车,每年都进行压力测试,但他还是很早就死于心脏病发作。他对健康极为关注,这让很多《纽约时报》的读者来信说,医生一定是遗漏了什么。这些读者不明白医学知识是概率性的。每个失败的预测并不是错误。事实上,他的医生没有遗漏什么。他们尽可能地把自己的概率性知识应用到最好,但这并不意味着他们能预测每一例心脏病发作。科学作家丹尼斯·格雷迪[2]告诉我们,根据拉瑟特先生的压力测试和最后一次检查时多种最先进检查方法的诊断结果,医生通过一个广泛使用的公式算出,拉瑟特在10年内心脏病发作的概率为5%。这意味着,100个身体状况与拉瑟特先生相似的人中,有95人在10年内都不会心脏病发作。拉瑟特先生恰恰是那不幸的5个人之一。概率性的医学科学无法提前告诉我们谁是那不幸的5个人。

科学作家纳塔利·安吉尔[3]讨论了一个问题:为什么有些人认为地质学家真的能够预测每一次地震,但他们为了不引起恐慌而不对外公布消息。一位地质学家曾收到一位女士的来信,请他将自己的孩子送到城外亲戚家时告诉她一声。通过这个例子,安吉尔指出人们似乎更愿意相信专家们在撒大谎,而不愿承认科学存在不确定性。

以政治民意调查专家为例,他们就学会了接受这种不确定性,尽管他们所服务的公众对此仍不适应。2016年美国总统大选之后,民调专家因错误预测而饱受抨击。但实际上,民调专家的预测结果与普选的结果非常接近。他们未能正确预测的是选举人团的结果。民调专家和统计学家奈特·西尔弗(Nate Silver)尤其受到公众对概率预测误解的伤害。在大选临近时,他预测希拉里·克林顿在选举人团投票中胜出的可能性为71%。而大多数其他民调专家认为希拉里赢得选举人团投票的可能性高于90%,这招来了民主党人对他的愤怒[4]。普林斯顿的一项民调显示,希拉里赢得选举人团投票的概率为99%!民主党的网站指责西尔弗的分析是故意偏袒唐纳德·特朗普。当然,选举结果出炉之后,西尔弗也没有得到什么赞誉,因为他仍然预测错了获胜者。尽管他提出的概率预测更准确地反映了选举中的不确定性,但没有被公众所称道。

在其他学科中,很多定律和关系也是用概率而非必然性来表述的。例如,群体遗传学的整个分支学科都基于概率关系。物理学家告诉我们,原子中电子的电荷分布也是通过概率函数来描述的。因此,虽然在心理学中,各种行为关系都是以概率形式来描述的,但这一事实并没有使它与其他学科产生天壤之别。

“某某人”统计学

  • 吸烟大大增加了患肺癌的概率,但并非必定导致肺癌。

  • 一个特例并不能让一个规律失效
  • 人类在概率推理方面非常薄弱

一个不吸烟的人引用吸烟导致肺癌的统计数据,试图说服一个瘾君子戒烟,得到的结果仅仅是对方的反唇相讥:“嘿,走远点儿!你看那个铺子里的老乔,他从16岁开始每天要吸三包骆驼牌烟!现在他已经91岁了,看上去还很健壮!”显而易见的推论是:这个个案在某种程度上推翻了吸烟和肺癌之间的关系。

概率推理以及对心理学的误解

  • 由于人们在处理概率信息方面存在问题,心理学的研究结果常常被误解。

  • 人们从没想过要用“某某人”的论据来反驳医学和物理学上的发现,却习惯于用之驳斥心理学的研究结果

  • 心理学的研究结果是概率的,但它依旧有价值

例如,教师可能会呈现如下的事实:儿童的学业成绩与家庭的社会经济地位以及父母的受教育程度相关。但这一表述常常会遭到至少一个学生的反对,他会说,他有个朋友是美国优秀学生奖学金的获得者,但是他的父亲不过中学毕业。甚至那些理解吸烟-肺癌例子的人,这时候态度也变得摇摆不定了。

没有人会因为医学知识是概率性的,不适用于所有情况,就怀疑它的价值。然而,对于许多心理学的研究结果和疗法,人们却不这么看。事实上,一旦心理学研究结果和心理治疗效果不能在所有情况下都适用,人们往往就对心理学的进展感到深深的失望和不屑。一旦面对心理学问题,人们常常忘记一个基本的原则,那就是知识不是要等完全确定后才有用——即便某些知识不能预测个体的具体情况,但如果能对群体的总体趋势进行准确预测,也是非常有益的。

2009年4月,意大利拉奎拉发生地震,造成309人死亡[8]。另有1500多人受伤。令人匪夷所思的是,2012年意大利一家法院因该国6名地震学家未能准确预测地震而对其做出有罪判决!这项判决在2016年被推翻,但它表明,对公众(甚至法院)来说,理解“概率预测无法对个案做出完美的预测”这一基本观念是多么困难[9]。

有关概率推理的心理学研究

  • 个人经验似乎不足以让人们获得对世界的基本理解

  • 社会越复杂,人们就越需要概率思维

概率理论初步发展的时间点,突显了一个重要的事实:在概率定律被发现之前,机遇游戏已经存在了好几个世纪。这又是一个例子,说明个人经验似乎不足以让人们获得对世界的基本理解(参见第7章)。对概率定律的正式研究揭示了机遇游戏的运作机制,而历史上成千上万的赌徒及其“个人经验”,并不足以发现机遇游戏的内在本质。

你或许有以下疑问:“为什么他们要提高我的保险费?为什么张三的保费比李四高,是不是社保局要倒闭了?我们州的彩票有黑幕吗?犯罪率到底是在上升还是在下降?为什么医生要安排这些检查?为什么在欧洲可以用一些珍稀药物来治疗病人,而美国就不行?在相似的工作岗位上,女性赚得真的比男性少吗?国际贸易真的减少了美国人的就业机会,并降低了他们的薪酬吗?日本的教育成就要比美国好吗?”这些问题都问得很好,都是关于我们的社会及其如何运作的具体而实际的问题。要理解每个问题的答案,我们就必须运用统计思维。

未充分使用概率信息

  • 那就是人们在做出决策时,具体的单个事件的信息,往往会压倒较为抽象的概率信息

  • 即使是经验丰富的决策者,也会倾向于忽视概率信息

即使是经验丰富的决策者,比如医生,也很难答对下面这个问题[12]:“如果每1000人中有1人携带人类免疫缺陷病毒(HIV),再假设有一种检查可以百分之百地诊断出真正携带该病毒的人。最后,假设这个检查有5%的假阳性率。也就是说,这项检查在没有携带HIV的人中,也会错误地检测出有5%的人是病毒携带者。假设我们随便找一个人来进行这项检查,结果呈阳性,表明此人为HIV携带者。假定我们对这个人的个人史或患病史一无所知,那么他真的是HIV携带者的概率是多少呢? 普遍的回答是95%,即使是经验丰富的医生,而正确的答案是约2%。

未能使用样本大小信息

  • 小的样本总是倾向于偏离总体的真正数值。

一个小镇里有大小两所医院。在大医院里每天大约有45个婴儿出生,小医院每天大约15个。如你所知,大约有50%的婴儿是男孩,但具体的百分比每天都不一样,有时候高于50%,有时候低于50%。每所医院都记录了一年内出生的男婴比例高于60%的天数。你认为哪一所医院记录的天数多? a. 大医院 b. 小医院 c. 基本一样 对于第一个问题,大多数人回答“基本一样”。剩下的人各有一半选择大医院或小医院。正确的答案是小医院,所以超过75%的人都给出了错误答案。

心理学家丹尼尔·卡尼曼[16]举了一个例子,说明如果不运用这一原则,我们就会在不需要因果理论的时候去徒劳地寻找。他指出,一项针对美国3141个县的研究发现,肾癌发病率最低的县往往是人口稀少的农村县。卡尼曼[17]指出,对于为什么会出现这种情况,人们很容易想到一个因果理论:“农村的生活方式较为干净卫生——没有空气污染,没有水污染,食物新鲜且不含添加剂”(p. 109)。这个因果理论唯一的问题是,它不能解释同一研究的另一个发现:肾癌发病率最高的县往往也是人口稀少的农村县!如果先告诉我们这一事实,我们可能会想出这样的解释,即农村地区有更多的人吸烟、喝酒及摄入高脂肪食物。但是,这一解释以及先前对低发病率县的解释,都没有切中要点。这里的问题就是之前讨论过的医院问题的现实生活版。人口稀少的农村县是小样本,必然会产生各种类型的极端值——可能极高,也可能极低。

当医生让你去验血时,从你身上采集的是血液样本,医生评估的也是这个样本,而非你整个血液系统的状态。这里的假设是,这个样本能代表你的整个系统;但这个假设是概率性的,只能在一定程度上是正确的。因为样本中的细胞及其组成和性质必然与整个系统的真实情况有一些偏离,而血液检验又无法检测你的整个血液系统,所以血液检验总归会有一些误差。简而言之,你的医生正在从一个极小的样本中对你的整个血液组成做出假设。

赌徒谬误

  • 即人们倾向于将过去的事件和未来的事件联系起来

  • 两个事件的结果是相互独立时,一个事件的出现不会影响另一事件出现的概率


  • 资深赌徒仍然出现赌徒谬误
  • 在编造随机序列时,常常不停地变换不是真实随机序列

问题A:假想你在掷一枚普通的硬币(硬币出现正面和反面的机会各为50%),已经连续出现了5次正面。对于第6次,你认为正面和反面的概率有多大?答案是正反面同样大

并非只有没有经验的赌徒才会陷入赌徒谬误。研究表明,即使是那些一周玩赌博游戏20小时以上的资深赌徒,仍然表现出赌徒谬误[19]。事实上,研究表明,因病态性赌博问题而在接受治疗的个体,比控制组的被试更可能相信赌徒谬误[20]。

心理学家、医生和婚姻顾问常常遇到一些已有两个女孩的夫妇,他们正计划要生第三个孩子,因为“我们想要个男孩,这回肯定是个男孩”。这就是赌徒谬误。在生了两个女孩之后,生男孩的概率(约50%)与生第一个孩子时完全一样,生了两个女孩不会增加第三个是男孩的概率。

大学心理学课上有时会进行这样一种演示,老师让一名学生准备由200个数字组成的序列,这200个数字从1,2,3这三个数字中随机重复抽取。完成之后,该序列不要让老师看到。接下来,让这名学生集中注意在第一个数字上,老师则来猜这个数字是什么。当老师说出他的猜测之后,这个学生再向全班同学及老师公布正确的答案。有人记录猜对的次数,直至猜完这200个数字。

因为纯粹随机的猜测也能猜中33%,所以要想让别人相信他有通灵术,猜中的比例就一定要超过33%,至少也得达到40%。班上大部分同学都会理解和认同这一个观点。演示结束后,那位老师猜中的比例果真超过了40%。这个结果令很多同学感到惊讶。

再谈统计与概率

  • 统计学中的功能性推理技能不像科学思维中的其他部分那么容易获得,需要通过某些形式的正规学习才能掌握。

  • 不精通统计学和概率论的人不可能成为称职的心理学家[36]

美国《金钱》杂志在其工商调查中列出了21项最有价值的职业技能[40],该榜单充满了统计和数据分析技能(数据挖掘、预测、统计软件设施、数据建模等等)。

曾担任美国心理科学协会(APS)主席的莫顿·安·格恩斯巴彻[37]列出了10个有智力价值的知识点,她认为这10个知识点是心理学训练特别要灌输的,而这其中有4个属于统计学和方法学领域。

小结

  • 和大多数学科一样,心理学研究得出的是概率性的结论——大多数情况下成立,但并不适用于所有情况。

  • 当人们遇到具体的、鲜活的证据时,就把概率信息抛到一边

  • 最后,人们表现出赌徒谬误

第11章 偶然性在心理学中扮演的角色

试图解释偶然性事件的倾向

  • 我们大脑的进化方式,让我们不懈地寻求世界中的各种模式。我们从身边发生的事物中寻找关系、解释和意义。

  • 当我们说一件事是出于偶然时,并不一定表示它是不确定的,只是说它目前是无法确定的。

  • 我们喜欢寻求结构的头脑会将无意义的理论强加在原本随机的数据上。

  • 金融分析师只是解释小波动,但波动大多只是随机波动
  • 只要样本够大,随机蒙也会有可能预测成功

掷硬币是偶然事件,但并不是说在对抛掷的角度、硬币的金属成分以及许多其他变量加以测量之后,也不可能确定抛掷的结果。实际上,这些变量确实决定了抛掷的结果。我们称掷硬币为偶然事件,是因为在每一次抛掷时,我们没有简单快捷的方法来测量所有这些变量。一次抛掷的结果并不是在原则上具有不确定性,只是在当下无法确定而已。

许多金融分析师的想法表明,在某些领域中,要想承认随机性的巨大影响是多么困难。金融分析师通常会对股市价格的每一次小的波动都做出精心的解释。事实上,这种变动大多只是随机波动[1]。我们在晚间电视节目中听到的应该是这样的报道:“由于一个复杂的交互系统出现随机波动,道琼斯指数今天上涨了27个点。”但你永远听不到这样的新闻标题,因为金融分析师想让你以为他们可以解释一切——市场行为的任何一个小动静。他们继续向其客户暗示(也许他们自己也相信)他们可以“打败市场”,即使有大量证据表明他们中的绝大多数人做不到这一点。过去几十年的大部分时间里,如果你购买了标准普尔指数的所有500只股票,然后放任不管(我们可以称之为“无脑策略”——实际上你只需购买一个跟踪该指数的互惠基金就行了),那么你的回报率将超过华尔街3/4的理财经理[2]。你还将击败80%的财经通讯杂志,这些杂志每年的订阅费就高达1000美元。

将这个财经预测例子延伸一下就可以说明,是什么样的逻辑让纯粹随机的一系列事件看起来像是由可以预测的因素造成的。假想你收到一封信,告诉你有这样一份关于股票市场预测的简报。这个简报并不收费,只是要求你测试一下它的预测是否准确。它告诉你IBM的股票会在下个月攀升。你把这封信随手一扔,之后你注意到下个月IBM的股票果真涨了。如果你读过一本与本书类似的书,你就知道这并不代表什么,只会将其视为一次侥幸的猜中。后来你又收到另一份来自同一家投资咨询公司的简报,该简报说IBM股票会在下个月下跌。当股票确实下跌时,你仍将其视为侥幸,但是这一次你可能就有点儿好奇了。当这家公司寄来第三份简报,预测IBM下个月会再次下跌时,你发现自己对报纸上财经内容的关注度提高了,并且发现这个简报又一次做出了准确预测,IBM这个月确实又下跌了。当来自这家公司的第四份简报说IBM下月会涨,而且股票的走势再次与简报的预测一致时,你难免会觉得这份简报还真神,不由自主地想花29.95美元订阅一年的简报。这种冲动难以抵挡,除非你能想象:此时在一个简陋的地下室里,某人正在准备下周要寄出的1600份简报,其中800份预测IBM下月上涨,800份预测下跌。当IBM在下个月真的涨了,这个人就继续把简报只发给上月接收到正确预测的800位客户(当然,其中还是400份预测涨,400份预测跌)。然后,你可以想象,这个“锅炉房”——可能背景中还有人在打诈骗电话——正在向第二周接收到正确预测的400位客户发送第三个月的预测简报(还是200份预测涨,200份预测跌)。是的,你就是连续四次收到正确的随机预测信息的100个幸运儿之一!这100个幸运儿中,有不少人会为了能继续收到简报而支付29.95美元。

但是,我们要如何看待那些确实打败了无脑策略的经纪人呢?你可能想知道这是否意味着他们具有某些特殊的才能。我们通过设想这样一个思想实验来回答这个问题:有100只猴子,每只猴子手中握有10支飞镖,它们都向一面写有标准普尔500种股票名称的墙上掷飞镖,飞镖扎中的股票就是猴子那年要买的股票。那么,一年后它们的业绩如何呢?有多少只猴子能打败标准普尔500指数呢?你答对了。大概有一半的猴子。那么,你会不会愿意付钱给这一半打败标准普尔500指数的猴子,让它们在下一年帮你选股票呢?

解释偶然性:相关错觉和控制错觉

  • 人们有解释偶然事件的倾向,这一现象在心理学的研究中被称为相关错觉。

  • 许多控制研究都表明,当人们预设两个变量有关联时,即使在两个变量毫无关系的数据中,他们也能发现联系。

例如,许多心理治疗师仍然相信罗夏墨迹测验的功效。这个著名的墨迹测验要求被试对一张白纸上的墨迹做出反应。因为墨迹没有结构,所以其理论是,人们会以自己对模糊情境的典型反应来对这些墨迹做出反应,从而揭示其“潜藏的”心理特质。这种测验也被称为投射测验,因为它假定被试对墨迹的反应,是其潜意识的思维和感受的投射。然而问题在于,没有任何证据表明当罗夏测验被作为一个投射测验使用时,提供了任何额外的诊断价值[5]。对罗夏测验的信心,是源于相关错觉这一现象。临床心理医生从病人的反应模式中看到了关联,是因为他们相信这些关联是存在的,而不是因为这些关联确实出现在反应模式中。

在我们的生活中,人与人的相遇包含大量的偶然成分:互不相识的男女因一次偶然的相亲而结婚,因取消一次约谈而丢了工作,因误了班车而遇到了高中的老同学,等等。认为生活中每一件偶然的小事都需要精细的解释,这种想法是错误的。但是,当偶然事件产生了重大影响时,人们不免要建构一些复杂的理论去解释它们。

偶然性与心理学

  • 试图解释一切,解释偶然成分的理论使其变得不可证伪
  • 受过正规训练的心理学家承认他们的理论只能解释人类行为变化的一部分而非全部

  • 真正的科学家不怕承认他们的无知。

在心理学中也存在这样的倾向:研究者试图解释一切,希望其理论不仅能解释行为中系统的、非偶然的成分,还要能解释任何细微的变异。这种倾向导致了不可证伪的心理学理论的泛滥,既包括个人理论,也包括那些貌似科学的理论。受过正规训练的心理学家承认他们的理论只能解释人类行为变化的一部分而非全部。他们会坦然面对偶然因素。

巧合

  • 有些稀有事件也许只是偶然,不需要解释
  • 只要等的够久,稀有事件几乎一定会发生
  • 需要使用统计分析,才好发现相关和关联

在事件中寻求模式和意义的倾向,加上巧合的“不可思议”特性,让许多人忘记可以用偶然性来解释巧合,反而为理解这些事件寻求复杂的理论。下面要讲的这个故事你一定已经听过无数次了:“那天我正坐在那儿寻思,我好久没给德克萨斯州的老比尔叔叔打电话了,紧接着电话铃就响了,你猜怎么着?正是老比尔叔叔打来的。这种“心灵感应”的背后肯定有点儿什么原因!”这就是一个为巧合事件编造解释的典型例子。每天,大多数人都可能想到很多或远或近的人,在我们想起他们时,有多少人可能会打电话来呢?几乎没有。这样,一年之内,我们可能想过数百个不曾打来电话的人。最终,在经历数百次这种我们不曾意识到的“阴性结果”之后,终于有人在我们想到他或她的时候,正好给我们打来电话。这种事情难得一见,但难得一见的事情也会发生——纯粹出于偶然。其他解释都是画蛇添足。

简而言之,如果你等得够久,几乎任何你能想到的罕见匹配都一定会发生。1913年8月,在蒙特卡洛的一个赌场里[8],轮盘赌中连续出现了26次黑色号码!或者,再举一个例子:如果彩票发行的时间足够长,出现相同中奖号码的情况最终一定会发生。例如,1995年6月21日德国49选6彩票的中奖号码为15-25-27-30-42-48,与1986年12月20日抽取的号码完全相同[9]。许多人惊讶地发现,在这段时间里,某一组号码重复出现的概率高达28%。

有一些网站专门讨论许多著名音乐家死于27岁这一“恐怖”事实:艾米·怀恩豪斯、科特·柯本、吉姆·莫里森、吉米·亨德里克斯、詹尼斯·乔普林等等[10]。这不过就是一个事实而已,没什么可怕的,也不需要解释。这只是一个随机事件。我们知道这一点,是因为《英国医学期刊》(British Medical Journal)发表了一项对1046名音乐家的统计分析,这些音乐家的专辑在1956年到2007年期间登上过英国排行榜的冠军[11]。分析表明,明星音乐家没有在27岁死亡的集中趋势。

懂得何时避免为随机事件编造复杂的解释,具有实际的作用。认知心理学家丹尼尔·卡尼曼[12]描述了1973年赎罪日战争期间,以色列空军曾向他寻求建议。两个飞行中队出发并返航,一队损失了四架飞机,另一队则没有损失。军方希望卡尼曼调查一下,不同的中队是否存在着特有的因素,从而导致了这种结果上的差异。但是卡尼曼知道,找到的任何因素都极有可能是虚假的——不过是纯粹的随机波动的结果而已。所以卡尼曼并没有去调查,他仅仅运用了本章所谈到的理念,告诉以色列空军不要浪费时间。他说:“我推断,最有可能的答案是运气,胡乱寻找一个勉强沾边的原因是毫无意义的。况且,其中一支中队已经蒙受损失了,不应再让活着回来的飞行员背负不必要的负担,让他们觉得自己和死去的队友犯了错”(p. 116)。

个人的巧合

  • 我们很多时候没有把自己错误的预测记下来
  • 心理学家、统计学家以及其他科学家都指出,许多罕见匹配实际上并没有人们通常认为的那么“罕见”

心理学家、统计学家以及其他科学家都指出,许多罕见匹配实际上并没有人们通常认为的那么“罕见”。著名的“生日问题”是最好的例子。在一个23人的班级里,有两个人同一天生日的概率是多少?大多数人会认为非常低。实际上,在23人的班级中,两人同一天生日的可能性大于50%。而在35人的班级,可能性就更大了(概率大于0.80)。因此,因为美国历史上有45位总统,其中有两位总统(詹姆斯·波尔克和沃伦·哈丁)同一天(11月2日)生日也就不足为奇了。同样地,有39位总统已经过世,其中两位(米勒德·菲尔莫尔和威廉·塔夫脱)同一天(3月8日)去世,也不应令人感到惊讶,甚至还有另外三位总统——约翰·亚当斯、托马斯·杰菲逊、詹姆斯·门罗——都死于同一天,而这一天竟然是7月4日美国独立日!!

接受错误以减少错误:临床预测与统计预测

  • 接受错误以减少错误
    • 西药
    • 肥胖
  • 有些领域统计预测大于临床预测
    • 两灯任务
    • 面试
    • 俄罗斯轮盘
    • 赌博策略
    • 评估球员
  • 心理科学一直都是(而且将来也是)基于群体的事业

  • 心理学不提供个人化的答案
假设事件有随机性使用统计预测,和假设事件有规律性使用临床预测
当世界稳定、数据清晰、人类偏见干扰大时——统计预测优于临床预测。
当世界复杂、变量未测量、直觉捕捉独特信息时——临床预测可能更好。

“接受错误以减少错误”这一概念,可以通过一个在认知心理学实验室里研究了数十年的非常简单的实验任务来说明。这个实验任务是这样的,被试坐在两盏灯(一红一蓝)前,实验者要求他们去预测每次测试时哪一盏灯会亮,被试要做很多轮这样的测试(通常被试会因为正确预测而获得报酬)。实际上,所有的测试都是在70%的次数亮红灯、30%的次数亮蓝灯的条件下进行的,两种灯以随机顺序出现。实验过程中,被试很快就感到红灯亮的次数比较多,因此也就在更多的测试中预测红灯会亮。事实上,他们确实在大约70%的测试中预测红灯会亮。然而,正如前面所讨论的,被试在实验过程中开始相信灯亮是有一定模式的,但却几乎从没想过顺序是随机的。因此,他们在红灯与蓝灯之间换来换去,但保持70%的次数预测红灯会亮,30%预测蓝灯会亮。被试极少意识到,尽管蓝灯亮的次数为30%,但如果他们不换来换去,而是每次都预测红灯会亮,他们的预测会更好一些!

对临床预测与统计预测的比较研究所得的结果是一致的,并且这种情况已经持续了很长时间。自从保罗·米尔(Paul Meehl)的经典著作《临床预测与统计预测》(Clinical Versus Statistical Prediction)于1954年出版以来,数十年间有100多个研究表明,在几乎每一个曾经验证过的临床预测领域(心理治疗的结果、假释行为、大学生毕业比例、对电击治疗的反应、累犯问题、精神病住院治疗期的长短等等),统计预测都优于临床预测[16]。正因为如此,美国一些州在决定囚犯是否可以获得假释时,已经开始用统计方法取代假释委员会的主观意见[17]。

尽管大量证据表明个人面试实际上是无效的,该领域仍继续在研究生招生过程和心理健康培训的招生过程中使用这种方法[21]。而且,临床从业者仍在使用似是而非的论点对其依赖“临床直觉”而非更有效的整体预测进行合理化。

一个经常被用来反对统计预测的论点是,群体统计不适用于单个个体或单个事件。这个说法是一种陈词滥调,而且模糊不清。提出这一论点的人难道认为,如果一个人被迫玩一次俄罗斯轮盘赌,并且被允许选择一支膛内装有一发或五发子弹的手枪,那么你也会选择五发的那支而不是一发的那支吗?这是一个单一的、独特的事件,所以无关紧要,对吗?

在为每一个案例编造复杂的解释时,我们可能确实会发现一些更不寻常的案例,但代价是失去了对大多数个案的准确预测,而对大多数个案来说,简单的统计预测效果更好。

强迫性赌徒有强烈的不去“接受错误以减少错误”的倾向。例如,21点玩家倾向于拒绝所谓的“基本”策略,该策略保证将庄家的赢率从6%或8%降低到1%以下。基本策略是一个长期的统计策略,强迫性赌徒之所以倾向于拒绝它,是因为他们相信最好的策略应该每次都奏效,并且要根据具体的情境来制定。这些强迫性赌徒抛弃了能保证为其少输数千美元的统计策略,而是徒劳地追求建立在每个具体情境的独特性基础上的临床预测。

在另一个领域中,统计预测也常常胜过临床预测,这就是体育界。很多人都看过2011年上映的电影《点球成金》,这部电影是根据迈克尔·刘易斯[23]的书改编的。它讲述了奥克兰运动家队的经理比利·比恩的故事。比恩否决了他的棒球球探们的“临床”判断(他们往往高度依赖于可见的身体特征),并依据过去表现的统计数据来评估未来的球员。相比于花掉的钱,他的球队可以说是超水平发挥了,他从棒球统计员那里借用的统计方法随后被许多其他球队所模仿。在许多其他体育项目中,统计方法都被证明优于“教练的判断”[24]。

小结

  • 行为结果的部分变异性是由偶然因素决定的

  • 在解释人类行为的原因方面,统计预测(基于群体统计趋势的预测)优于临床预测

第12章 不招人待见的心理学

心理学的形象问题

  • 洛伊德的精神分析在许多方面确实不科学

  • 对斯金纳的误解:
    • 并没有声称人没有思想和老鼠没有差别
    • 他的理论被歪曲成各种版本
    • 他发现的操作性条件定律被证实确实能推广到人身上
    • 公众对这些事实知之甚少

心理学和超心理学

  • 除了弗洛伊德和斯金纳的研究,外行人对其他卓越的心理学研究几乎一无所知。

  • 研究领域的兴起、发展或终结,依据的是理论和方法的自然选择过程。

要证明这一点,可以到附近的书店去看看公众能买到什么样的心理学读物。你的调查会发现,书店里的心理学读物通常可以分为三类。第一类是少数几本心理学早期经典著作(弗洛伊德、斯金纳、弗洛姆、埃里克森等人的著作),这些著作多半侧重老式的精神分析观点,已经完全不能代表当代心理学了。令心理学家感到沮丧的是,这一领域真正有价值的著作却往往被摆放在书店的科学或生物学类的书架上。例如,心理学家史蒂芬·平克(Steven Pinker)的名著《心智探奇》(How the Mind Works)[4]常常被归在科学类而非心理学类图书中。因此,他所探讨的认知科学领域的重要成果,被视为与生物学、神经生理学或计算机科学有关,而与心理学毫无瓜葛。又比如,在我家附近的巴诺书店,科学类书籍又细分为生物学、化学、地球科学、物理学等类别,但它还有一个被称为认知科学的类别,其中摆放了一些近期出版的最好的心理学研究书籍:《思考,快与慢》(Thinking, Fast and Slow)[5]、《思维俱乐部》(The Mind Club)[6]、《房间里最睿智的人》(The Wisest One in the Room)[7]以及《超预测》(Superforecasting)[8]。这些书中没有一本摆放在这家书店的心理学类别下,因此,公众不会把这些书中一流的心理科学知识与心理学这一学科联系起来。

在多数书店中可以找到的第二类读物,是那些伪装成心理学的伪科学书籍,里面充斥着无数的超常现象,如心灵感应、千里眼、意念移物、超前感知、转世重生、生物节律、星体投射、金字塔力量、通灵手术等等。书店中这类所谓心理学图书的大量存在,无疑导致了人们的普遍误解:心理学家就是证实了这些超常现象存在的人。这种误解对心理学具有苦涩的讽刺意味。事实上,心理学与这些超常现象之间的关系很容易说清楚。这些现象压根儿就不在现代心理学感兴趣的范畴之内,个中缘由可能会令许多人大吃一惊。

那些产生出丰硕的理论和实证发现的领域会获得大量科学家的认可,而那些理论上行不通的领域,或者没能产出可以重复的或有趣的研究发现的领域,就会被摒弃。

心理学主张不把超感官知觉视为一个可行的研究领域,这不可避免地引发了其信徒的不满,他们常常指责,心理学家把这类主题排除在心理学研究之外的做法是武断的。但这种批评是错误的。科学家们并不是根据什么法令来确定研究主题,也没有什么条例指出什么能研究、什么不能研究。研究领域的兴起、发展或终结,依据的是理论和方法的自然选择过程。那些产生出丰硕的理论和实证发现的领域会获得大量科学家的认可,而那些理论上行不通的领域,或者没能产出可以重复的或有趣的研究发现的领域,就会被摒弃。

现代心理学之所以不认为超感官知觉是一个可行的研究主题,就是因为其研究一直无法积累丰硕的成果,使得大部分心理学家对它失去了兴趣。在这里我要强调“现代”一词,因为多年以前心理学家确实对超感官知觉怀有极大的兴趣,直到累积了大量的负面证据之后,这种兴趣才消退了。正如历史所展示的那样,研究课题通常不是由某个权威政府机构宣布停止的,它们只是在思想的竞争环境中被淘汰出局了而已。

自助类读物

  • 很少自助类图书有科学依据
  • 大部分自助类读物,电子媒体和互联网,往往会夸大疗效,如“你不仅会把烟戒掉,而且你生活的方方面面都会得到改善!”
  • 网络搜索无法保证科学的准确性,因为网站内容没有经过同行评审

书店里常见的第三类心理学读物就是所谓的自助类读物。当然,这类读物也有许多不同的种类[13]。有一些书是励志类的,目的是为了提升人们的自我价值感和自信心。另一些书则是新瓶装旧酒,将一些关于人类行为的老生常谈重新包装了一下。只有少数(简直是凤毛麟角)书籍是由负责任的心理学家为公众撰写的。还有许多书标榜其“独特性”,声称自己发明了一些新“疗法”,不但可以矫正某些特殊行为问题,还能满足人们的一般需求(赚钱、减肥和拥有更好的性生活是其“三大”主题),以确保图书能大卖。这些所谓的新疗法很少基于控制实验的研究,如果作者是临床医生的话,他们通常只是依靠个人经验或者少数的几例个案史来支持自己的“新疗法”。所谓“替代医学”的疗法通常也是如此。

然而,许多经过严格的心理学检验被证明有效的认知和行为疗法,却很少出现在书店的书架上。有研究者[14]估计每年出版的3500本自助类图书中,仅有5%的书籍是有一些科学依据的。

电子媒体和互联网的情况更糟糕。电台和电视台几乎没有任何正规的心理学报道,相反,它们总是邀请一些江湖术士和爱出风头的媒体名人,这些人与真正的心理学毫无瓜葛。出现这种现象的主要原因是,正规的心理疗法从来都不会声称自己能立竿见影、药到病除,甚至不会担保治疗一定会成功,或者夸大其治疗的范围(如,“你不仅会把烟戒掉,而且你生活的方方面面都会得到改善!”)。

菜谱式知识

  • 心理学研究者既追求如何使用,也追求基本原理
  • 肥胖问题显然是极其复杂的,没有一个神奇子弹式的解决方案
  • “公众感兴趣”的问题,媒体较迅速得出答案,科学则较为缓慢或可能无法回答

最后,自助类读物使公众误解了心理学的目标和大多数心理学研究所寻求的知识类型。这种读物带给人们一种强烈的印象,那就是认为心理学研究者所追求的是“菜谱式知识”。菜谱式知识是指那些只告诉你如何去使用某物,但对其基本的运作原理一概不谈的知识。例如,大多数人都知道如何使用电脑,但对电脑实际上如何运作却知之甚少。这就是电脑的菜谱式知识。在我们的社会里,许多有关科技产品的知识都是菜谱式知识。

当然,这也不完全是坏事。事实上,大多数科技产品的设计初衷,就是为了让那些对其背后的运作原理一无所知的用户也能使用。

心理学与其他学科

  • 心理学家的科学贡献被忽略、贬低或者被部分归功于其他学科的例子不胜枚举

心理学家的工作经常被划入其他学科的原因之一是,这些年来,“心理学家”一词的含义已经变得模糊不清了。许多心理学研究者在描述自己时,往往把自己的研究专长加在“心理学家”之前,例如自称生理心理学家、认知心理学家、工业心理学家、进化心理学家和神经心理学家等。还有一些称谓甚至摒弃了“心理学家”一词,例如神经科学家、认知科学家、人工智能专家和动物行为学家等。这两种做法,再加上媒体认为“心理学不是一门科学”的偏见,共同导致了心理学家的成就被误划入其他学科:生理心理学家的成果被归入生物学,认知心理学家的成果被归入计算机科学和神经科学,工业心理学家的成果被归入工程学和商学,等等。即使当代最杰出的心理学研究者之一——丹尼尔·卡尼曼获得了2002年的诺贝尔经济学奖,心理学也没分到任何好处!当然,诺贝尔奖并没有为心理学单独设立奖项。作家迈克尔·刘易斯[21]写了一本书来介绍卡尼曼的工作,他承认,一个外行人很自然会问:“一个心理学家怎么可能获得诺贝尔经济学奖?!”但是卡尼曼所研究的决策科学是跨学科的领域,既属于经济学也属于心理学。

我们是自己最坏的敌人

  • 大多数研究型心理学家很少向公众传播心理学知识,这是因为试图把真正的心理学传播给公众的正规心理学家,往往得不到什么回报。

  • 临床心理学领域内的一些心理治疗圈子,一向拒绝对自己所采用的疗法进行科学评估。

  • 有执照的心理学家具有独特的“临床洞察力”的观点是完全错误的[28]

为了避免我们看起来只会把心理学的形象问题归咎于他人,现在是时候检讨心理学家自己在这方面的“功劳”了。大多数研究型心理学家很少向公众传播心理学知识,这是因为试图把真正的心理学传播给公众的正规心理学家,往往得不到什么回报。然而,本节的重点是一个截然不同的问题:存在于心理学某些分支领域中的反科学态度问题。

本书早期版本的一些读者评论说,他们认为我没有特别强调心理学家自身的不专业行为和反科学态度在很大程度上导致了这个学科的公众形象问题,因此认为我“轻易地放过了心理学家”。在这一版,为了做到更加平衡,我将着重介绍罗宾·道斯[23]和斯科特·利连菲尔德[24]的工作。

在过去的几十年中,有几种伪科学在临床心理学领域蓬勃发展。其中包括:用于治疗心理创伤的未经检验的怪异疗法;已证实无效的孤独症疗法,例如辅助沟通术(见第6章);继续使用未经充分验证的心理评估工具(例如各种投射测验);使用高度暗示性的治疗技术诱发儿时受虐的记忆[29]。

我们是自己最坏的敌人之二:心理学已成为单一的意识形态文化

  • 正如我所提到的,我从一些读者那里得到了反馈,他们认为本书对心理学的评价过于正面,于是有了上一节的讨论。可以说,本书早期几个版本的读者认为我“袒护心理学”,是因为我对这门学科的缺陷着墨不多。这些读者向我指出的主要是心理学内部(主要是临床心理学)存在的反科学态度。我在最近几个版本中加入了上一节的内容,也是为了采纳这些批评者的反馈意见。

  • 我已经指出心理学作为一门科学,它的一些缺陷是许多分支领域所共有的:

    • 太多劣质期刊
    • 存在大量重复失败
    • 太多精巧但不可重复的论文
    • 心理学报告重复失败怎么会比物理学要小?
  • 意识形态比例失衡:
    • 心理学基础研究不会受到意识形态文化影响
    • 但许多研究领域会受到影响,教养、性、犯罪、贫困等等
  • 我强调科学之所以如此有效,并不是因为科学家自身具有独特的美德(他们绝对客观或毫无偏见),而是因为科学家处在一个相互制衡的系统中——持有不同偏见的科学家可以对其进行批评和纠正。

  • 所以科学家都有同一偏见,则科学就不客观了
  • 心理学家难以察觉自己的偏见
  • 一些被意识形态影响的科学共识:
    • 人类对气候变化的影响
    • 进化
    • 智力是中度可遗传的[54]
    • 对职业选择和工作经历进行适当的控制后,女性从事相同工作的收入并不比男性少20%以上[55]。

    • 以语音为基础的阅读教学法有利于培养大多数学生的阅读能力
    • 女性主义者一概否认有关性别差异的生物学事实[61]
    • 民主党人占多数的城市总是站在反疫苗运动的最前线
    • 租金管制会导致住房短缺和住房品质下降。
  • 大学心理学系内单一意识形态的文化,已经体现在公众最常见到的代表心理学家的组织——美国心理学协会——的身上了。

诚然,对心理学的许多领域来说,意识形态上的失衡并不是一个问题。研究者的政治偏见不会影响他们对生理心理学、感知心理学或人类记忆基本过程的研究。所以,我们在这里并不是说心理学的所有研究领域都有这个问题,甚至大多数的研究领域都不存在这个问题。不过,在心理学家涉足的许多研究领域中,意识形态上的偏见确实可能是一个潜在的问题。例如,心理学家会研究诸如性、道德、贫困的心理影响、家庭结构、犯罪、儿童照料、生产力、婚姻、行为诱因、规训技术、教育实践等方面的议题。在诸如此类的议题中,人们的政治态度与其信念交织在一起。我们最担心的是在这些领域中,研究者的政治意识形态可能会影响他们设计研究的方式,或者影响他们对结果的解释。

在第2章,我讨论了科学所独有的特征,正是这些特征使其能够克服个别科学家的自我中心偏见。回想一下那次讨论,我强调科学之所以如此有效,并不是因为科学家自身具有独特的美德(他们绝对客观或毫无偏见),而是因为科学家处在一个相互制衡的系统中——持有不同偏见的科学家可以对其进行批评和纠正。研究者B可能没有研究者A的偏见,他就会用怀疑的眼光来看待A的结果。同样,当研究者B发布一项研究结果时,研究者A往往也会持批评态度,并用怀疑的眼光来看待它。

有一个众所周知的心理学现象表明,心理学家很容易自认为没有“自我中心偏见”,他们自以为在做科学研究时可以抛开意识形态上的偏见。这种现象被称为偏见盲点,是指人们很容易发现他人决策中的偏见,但难以察觉自己判断中的偏见[51]。

简言之,心理学家可能会对自己说:“好吧,就算我们都是民主党人,政治立场差不多,那也没什么关系,因为共和党人否认科学,而我们才是科学的政党。”这与多年前民主党宣称自己是“科学的政党”并给共和党扣上否定科学的帽子的做法几乎如出一辙。这种立场催生了一系列诸如《共和党向科学宣战》(The Republican War on Science)[52]一样旗帜鲜明的书籍的出版。对民主党来说,这可能是一个很好的政治策略,但心理学研究者应该能明白此中的道理。他们应该可以看出,这显然是选择效应在作祟,也就是说,这些争论中的议题(气候科学和创造论/进化论)都是出于政治立场和媒体的兴趣精心挑选出来的。要想正确地将一党称为科学的政党,而将另一党称为否定科学的政党,我们当然必须对科学问题进行代表性取样,以确定哪一党的成员更可能接受科学共识。

事实上,要找到在哪些科学问题上不接受科学共识的正是自由派民主党人,一点也不难。在这些例子中,自由派反倒成了“科学否定者”。事实上,讽刺的是,这样的例子多到足以写成一本类似于上面提到的穆尼所著的书,名为《被遗忘的科学:感觉良好的谬论与反科学左派的崛起》(Science Left Behind: Feel-Good Fallacies and the Rise of the Anti-Scientific Lef)[53]。在前面的章节中,我们提到过其中的两个例子:自由派倾向于否认心理科学中一个压倒性的共识,即智力是中度可遗传的[54];自由派也非常不愿意接受另一个共识,即当对职业选择和工作经历进行适当的控制后,女性从事相同工作的收入并不比男性少20%以上[55]。

不过,这并不是仅有的两个问题。自由派往往否认或混淆(就像保守派混淆关于全球变暖的研究)那些表明单亲家庭会导致儿童出现更多行为问题的数据[56];自由派占多数的教育学院否认一个强有力的科学共识,即以语音为基础的阅读教学法有利于培养大多数学生的阅读能力,尤其是那些阅读困难的学生[57];许多自由派人士很难相信,在最初聘用女性担任大学STEM学科终身教职时,是完全没有偏见的[58];自由派倾向于否认转基因生物可以安全食用的共识[59];核能是美国能源政策中一个安全可行的组成部分,他们也否认这一共识[60];女性主义者一概否认有关性别差异的生物学事实[61];民主党人占多数的城市总是站在反疫苗运动的最前线,这也否认了科学共识;这些城市的民众也很难相信经济学家达成了一个强烈共识,即租金管制会导致住房短缺和住房品质下降。

每个人不都是心理学家吗?行为的内隐理论

  • 许多人的个人心理学理论缺乏严密构建,常常自相矛盾
  • 个人心理学理论常常保证对事物都能找到解释,彻底动摇对理论的信念的事情是不太可能会发生的
  • 只有解释没有预测是没有用处的

许多人的个人心理学理论缺乏严密的建构,只是一些适用于个别情形的流行语和老话的简单堆砌,还常常自相矛盾。它们向人们保证,无论如何都能找到一个对事物的解释,而那些与之完全矛盾因而会彻底动摇人们信念的事件是不太可能发生的。尽管这些理论的确具有抚慰功能,但正如第2章所讨论的,除了抚慰之外,以这种方式提出的理论再无别的用处。这些理论都以“事后诸葛亮”的方式解释一切,对未来没有预测能力。没有预测,也就没有给我们提供任何信息。心理学这门学科中的理论必须符合可证伪的标准,这就是心理科学与许多外行人的个人心理学的不同之处。心理学理论是能够被证伪的,因此,心理学理论具有一种确保其发展和进步的机制,而这是个人心理学所不具备的。

科学心理学受到抵制的根本原因

  • “人人都是心理学家”被隐晦歪曲为心理学不是一门科学
  • 权威的心理信息来源应当是科学心理学,而不是大众
  • 科学可不是“怎么说都行”。正是这种去伪存真的能力推动了科学的进步。

  • 正规心理学的研究成果其实要比媒体上那些反反复复、大惊小怪的伪科学有趣和精彩得多

  • 同时,也不应该认为科学家是反对幻想和想象的,在不重要的事情上可以幻想
  • 虽然每个人都有一套直觉的物理学理论,但不是每个人都是物理学家,心理学也一样

我们在第1章讨论过,为什么科学心理学的概念会对某些人造成威胁。一门日趋成熟的行为科学,势必会改变作为心理信息来源的个体、团体和组织的类型。那些长期担任人类心理和行为评论员的人自然会抵制任何可能削弱其权威地位的变革。第1章曾描述过科学的进步如何逐渐剥夺了其他团体关于世界本质的话语权。行星的运行、物质的本质和疾病的成因,都曾经是神学家、哲学家和通才作家把持的领域。如今,天文学、物理学、医学、遗传学和其他学科逐渐夺取了这些主题,并将其完全置于不同的科学专业领域内。

因此,问题在于信念评估标准的改变。很少有新闻报纸会刊登有关土星带构成的立场鲜明的社论。为什么?并没有审查机构阻止这类社论的发表。很明显,因为写这类社论将是徒劳的。因为社会大众知道,对这一方面的知识有发言权的是科学家,而不是评论员。但涉及心理学时,有些人却发现自己很难接受这种情况。他们顽固地坚持自己有权利对人类行为发表看法,即使这些看法与事实相去甚远。当然,“权利”用在这里并非一个准确的措词,因为在一个自由社会里,每个人都有发表意见的权利,无论这些意见是否正确。重要的是要意识到,许多人想要的不仅仅是发表有关人类行为见解的权利,他们真正想要的是让人们相信他们所说的话的必要条件。当他们表达一个关于人类心理的观点时,他们希望周围的环境有利于人们接受他们的想法。这就是为什么认为心理学是“怎么说都行”的说法会有大量拥护者的原因,也就是说心理学的主张不能由实证方法来判定对错,只是观点不同而已。但科学对这种“怎么说都行”的观点来说始终是一种威胁,因为它有一系列严格的标准和程序,用以确定哪些说法是可信的。科学可不是“怎么说都行”。正是这种去伪存真的能力推动了科学的进步。

我们如何识别伪科学的主张?临床心理学家斯科特·利连菲尔德[74]给出了一些注意事项,也是对本书很多要点的一个概括。他认为伪科学的主张有以下一些特征:

  • 总是提出一个似是而非的假设,使得主张免于被证伪;
  • 强调支持其主张的证据而忽略反驳其主张的证据;
  • 总是将提供证据的任务强加给怀疑者而非支持者;
  • 过度依赖逸事和见证叙述来证实其主张;
  • 逃避同行评审所提供的审查;
  • 并非建立在已有的科学知识之上(缺乏关联性)。

真正的科学家会不遗余力地强调这些标准,而不是回避它们。作为回应,伪心理学产业一直极力反对科学心理学在评估行为主张方面的权威性。然而,伪科学的散播者通常不与心理学家正面交锋,他们绕过心理学,带着其主张直奔媒体而去。那些江湖术士和伪科学家很容易利用媒体不经过同行评审程序就将自己的主张公之于众。铺天盖地的电视脱口秀节目并不要求嘉宾出示具体的科学研究证据。这些嘉宾只要“足够有趣”,就可以在电视上露脸。互联网也好不到哪儿去,任何人都可以在网站上发表高见或销售商品。至少可以说,网站上的内容没有经过同行评审!

结束语

我们对“什么才是真正的心理学”的描绘至此已到了尾声。尽管这一描绘很粗略,但对你理解心理学这门学科的运作方式以及评估新的心理学主张应当有很大的帮助。我们的描绘揭示了以下几点:

  • 心理学的进步是通过研究可解决的实证问题取得的。这种进步是不均衡的,因为心理学由许多不同的子领域构成,某些领域的问题要比其他领域难度更高;
  • 心理学家提出可证伪的理论来解释他们的研究发现;
  • 理论中的概念都拥有操作性定义,这些定义将随着证据的积累而逐渐演变;
  • 这些理论是通过系统实证的方法来检验的,用这种方法收集的数据是公开的,也就是说,它允许其他科学家重复这些实验并提出批评;
  • 心理学家的数据和理论,只有在那些有同行评审程序的科学期刊上发表之后,才算是进入了公共领域;
  • 实证主义之所以具有系统性,是因为它遵循控制和操纵的逻辑,这二者也是真实验的特征;
  • 心理学家采用许多不同的方法来获得他们的结论,这些方法的优缺点各有不同;
  • 心理学家最终所揭示的行为规律,绝大多数情况下都是概率性的关系;
  • 大多数时候,知识只能在众多实验数据的缓慢积累之后获得。虽然这些实验都有各自的缺陷,但是它们总能聚合于一个共同的结论。

当今科学最令人激动的尝试和努力,就是寻求对人类行为本质的理解。掌握这本书中的观念将使你能够跟上追寻的脚步,或许还能真正成为追寻过程中的一员。

心理学研究过程(体系化知识)

个案观察提出问题

单一个案的压倒性影响

为什么见证叙述毫无价值:安慰剂效应

形成假设(小理论)

理论和可证伪性标准

科学中的错误:逼近真理

那么,什么是科学

系统的实证主义

可公开验证的知识:可重复性和同行评审

可实证解决的问题:科学家对可检验理论的探求

设计研究

心理学中的操作性定义

系统的实证主义

随机分配与操纵共同定义了真实验研究

分析数据和得出结论

相关和因果

方向性问题

第三变量问题

多重原因的问题

交互作用的概念

聚合性证据的重要性

报告研究发现

可公开验证的知识:可重复性和同行评审

“大二学生”问题

概率推理

接受错误以减少错误

考虑开放的问题

对开放的问题再研究