瑞文标准推理测验：结构、应用与中国修订版分析

1. 引言：瑞文标准推理测验概述

瑞文标准推理测验（Raven's Standard Progressive Matrices, SPM），通常简称为瑞文测验（Raven's Matrices, RPM），是一种广泛应用的非文字智力测验，旨在评估个体的一般智力，特别是抽象推理能力 1。该测验由英国心理学家约翰·卡莱尔·瑞文（John Carlyle Raven）于1936年构思，并于1938年首次在英国出版 1。瑞文开发此测验的初衷是为了研究认知能力的遗传与环境起源，并寻求一种理论基础扎实、结果易于解释且施测简便的工具，以克服当时常用测验的局限性 1。

瑞文测验的核心目的在于测量斯皮尔曼（Spearman）提出的“g”因素（一般智力）中的两个关键成分：清晰思考和理解复杂性的能力（即演绎能力，eductive ability）以及存储和再现信息的能力（即再生能力，reproductive ability）1。其中，演绎能力，源自拉丁语“educere”（意为“引出”），指的是在面对新异信息时，赋予混乱以意义、形成新概念的能力 3。因此，瑞文测验被广泛视为流体智力（fluid intelligence）的一种非文字评估手段，即独立于已获得知识、在处理新颖问题时的基本推理能力 2。

该测验采用非文字形式，主要由抽象的视觉几何图形构成，要求被试识别图形模式并找出缺失的部分 1。这种设计使其在很大程度上独立于语言、文化背景和读写技能，因此被认为具有较好的文化公平性，特别适用于跨文化研究以及对语言障碍者（如聋哑人）或有学习困难个体的评估 1。

鉴于其独特的非文字特性和对基本认知能力的测量，瑞文测验在全球范围内得到了广泛应用，涵盖教育评估、职业选拔、临床诊断和认知研究等多个领域 1。值得注意的是，为了更好地适应本土需求，不同国家和地区对瑞文测验进行了修订和标准化工作。例如，中国心理学家张厚粲教授等于1985年对瑞文标准推理测验进行了修订，并建立了中国城市常模，为该测验在中国的科学应用奠定了基础 12。本报告将深入探讨瑞文测验的结构、不同版本、所评估的认知能力、心理测量学特性、应用领域，并特别关注1985/1986年中国城市版的修订工作及其意义，最后对其优势、局限性和文化公平性进行批判性评估。

2. 瑞文测验的版本演变与比较

瑞文测验并非单一工具，而是一个包含多种形式的测验家族，旨在适应不同年龄段和能力水平的被试群体 1。这种版本的演变反映了测验发展过程中理论目标、实际应用需求与心理测量学挑战之间的动态平衡。

2.1 标准渐进矩阵 (Standard Progressive Matrices, SPM)
- SPM是瑞文测验的最初形式，于1938年首次出版 1。它包含五个单元（A至E），每个单元有12个项目，共计60个项目 1。项目以黑白颜色呈现 1。
- SPM的设计目标是评估一般人群的智力，适用年龄范围较广，通常认为适用于6岁至成人的普通智力水平个体 6。项目在每个单元内部以及单元之间（从A到E）难度逐渐递增，要求被试具备越来越高的认知能力来编码和分析信息 1。它主要评估清晰思考能力，运用空间和逻辑技能 6。
2.2 彩色渐进矩阵 (Colored Progressive Matrices, CPM)
- CPM是为年幼儿童（通常为5至11岁）、老年人以及有智力或身体障碍的个体设计的 1。
- 它包含SPM中的A、B两个单元，并在两者之间插入了一个新的单元Ab，共计36个项目 1。大多数项目使用彩色背景，以增强视觉吸引力，激发被试兴趣 1。然而，B单元的最后几个项目仍采用黑白形式，以便在被试表现超出预期时，能够顺利过渡到SPM的C、D、E单元 1。
- CPM相对简单，更侧重于评估个体的观察技能和完成模式的能力 6。
2.3 高级渐进矩阵 (Advanced Progressive Matrices, APM)
- APM是为智力水平高于平均水平的青少年和成人设计的 1。
- 它包含两个单元：单元I（12个项目）和单元II（36个项目），共计48个项目 1。项目同样以黑白形式呈现，难度递增，且整体难度高于SPM 1。APM旨在更好地区分高能力个体 5。
2.4 后续发展与适应
- SPM Plus (SPM+): 1998年与平行版本同时发布，作为SPM的扩展形式，包含了更难的项目，旨在提高对能力较强的青少年和年轻成人的区分度 5。
- 平行版本 (Parallel Forms): 1998年，针对SPM和CPM发布了平行版本 3。其目的是解决原始版本因广泛使用而变得“过于知名”的问题 3。这种熟悉度可能导致分数膨胀（与弗林效应有关），影响测验的有效性 5。平行版本的项目经过精心构建，确保其平均难度与经典版本相同 5。
- 简版 (Short Forms): 由于完整版（尤其是APM）施测时间较长（如APM需40分钟），可能导致被试疲劳或不适用于时间受限的场景，研究者开发了多种简版形式，例如12项或18项的APM简版 15。这些简版旨在缩短施测时间，但通常会伴随信度降低的代价 17。

表1：瑞文渐进矩阵主要版本比较

版本 (Version)	目标群体 (Target Group)	项目数 (Items)	单元 (Sets)	形式 (Format)	主要目的/侧重点 (Primary Purpose/Focus)
标准渐进矩阵 (SPM)	6岁以上普通人群 (General population, 6+ years)	60	A, B, C, D, E (各12项)	黑白 (Black & White)	测量一般流体智力、清晰思考能力 (Measure general fluid intelligence, clear thinking)
彩色渐进矩阵 (CPM)	5-11岁儿童、老年人、认知/身体障碍者 (Children 5-11, elderly, impaired individuals)	36	A, Ab, B (各12项)	主要彩色 (Mainly Color)	评估观察力、模式完成能力，适用于低龄或特殊群体 (Assess observation, pattern completion for younger/special groups)
高级渐进矩阵 (APM)	智力高于平均的青少年和成人 (Above-average adolescents & adults)	48	Set I (12项), Set II (36项)	黑白 (Black & White)	区分高能力个体 (Discriminate among higher ability individuals)

从SPM到CPM和APM的演化，再到后来的SPM+、平行版本和简版的出现，清晰地展示了测验发展并非静态过程。它反映了一种持续的努力，旨在平衡测验的理论基础（如精确测量“g”因素），应用的实际需求（如评估不同能力范围的人群、适应时间限制），以及应对心理测量学上的挑战（如确保测验安全性、避免天花板/地板效应、维持可接受的信度）。例如，SPM的普适性目标 1 在评估特定群体（低能力或高能力个体、儿童）时遇到了限制，催生了CPM和APM 1。而外部因素，如测验内容的过度曝光和弗林效应带来的常模变化，则推动了平行版本的开发 3。施测时间的实际约束又进一步促进了简版的研发 15。

值得深思的是，平行版本的存在本身 3 就暗示了一个微妙的问题：尽管瑞文测验是非文字的，但接触和练习可能会影响其得分。平行版本的开发正是因为原始版本“过于知名”，意味着先前的接触可能提高表现 3。如果熟悉度能提升成绩，这就在一定程度上挑战了该测验作为一种纯粹测量先天流体能力、完全不受经验影响的理想状态。这表明，即使是以测量流体智力（Gf）为核心的瑞文测验，也可能包含微小的晶体智力（Gc）成分或练习效应。

3. 测验结构、施测与计分

瑞文测验的设计和实施遵循特定的原则，以确保其有效性和标准化。

3.1 设计原则：视觉模式与渐进难度
- 测验项目由包含缺失部分的视觉几何图形（模式）组成 1。这些模式通常以矩阵形式呈现，如2x2, 3x3, 4x4, 或 6x6 1。
- 被试的任务是从多个选项（通常是6个或8个）中选择一个能够正确填补模式缺失部分的图形 1。
- 核心设计原则是渐进难度：项目在每个单元内部以及（对SPM而言）跨单元（从A到E）的难度是逐渐增加的 1。这种设计要求被试运用不断增强的认知能力来编码和分析日益复杂的信息 1。
- 这种渐进结构是测验的关键特征。它使得测验能够评估广泛的能力范围，确保大多数被试在开始时能够投入，同时也为高能力者提供了足够的挑战。从心理测量学的角度看，这种结构允许测验项目在能力连续体的不同点上有效地区分被试。
- 测验旨在测量被试感知关系和进行类比推理的能力 2。模式背后的规则可能涉及元素的加减、行列的一致性、特定值的分布或数量上的递增等 11。
- 项目设计力求精确且具有一定的美感，以维持被试的兴趣，避免其因题目枯燥而失去动力 15。
3.2 施测指南与计分程序
- 瑞文测验既可以对个体单独施测，也可以对团体进行施测 1。
- 其非文字形式的施测过程有助于减少语言偏见 7。指导语通常简单明了 1。
- 施测时间因版本而异：SPM通常包含60个项目 1，施测通常不限时或有较宽松的时间限制（例如，有文献提到某些版本约40分钟 3，但SPM完全作答可能需要更长时间）。简版则显著缩短了时间（如15-20分钟）17。限时与不限时施测是某些研究中考虑的一个因素 16。
- 随着技术发展，在线施测成为可能，便于进行大规模、无监督的远程测试 7。
- 计分通常基于被试在规定时间内答对的项目数量 3。原始分数需要参照常模（Norms）进行解释，常模提供了特定参照群体（如按年龄划分）的分数分布情况，从而赋予原始分数相对意义 14。例如，中国城市版修订时就建立了基于年龄的常模 14。
- 分数解释需要谨慎进行，应向被试说明分数只是一个“最佳估计”，解释分数的含义和用途，考虑其可能带来的心理影响，并鼓励被试积极参与到分数解释的过程中 19。

近年来，向在线及可能无监督施测的转变 7，虽然极大地提高了测验的效率和可及性，但也引发了关于测验安全性的担忧。更重要的是，这种施测方式对标准化测试环境的控制提出了挑战。缺乏监督可能导致被试受到干扰、使用辅助工具，甚至无法确认被试身份或其投入程度，这些因素都可能影响分数的有效性，使其与传统的、有监督的纸笔测验结果的可比性存疑。尽管在线模式便捷，但在采用时必须仔细评估其心理测量学上的等效性，并警惕传统施测模式下不存在的潜在效度威胁。

4. 瑞文测验评估的认知能力

瑞文测验旨在评估个体核心的认知能力，特别是那些与推理和问题解决相关的能力。

4.1 抽象推理与模式识别
- 该测验的核心在于评估个体识别视觉矩阵中模式和关系的能力，且这种能力不依赖于语言或数字线索 3。抽象推理是其测量的主要构念 1。
- 它评估个体清晰地感知和思考、从混乱中发现意义以及在面对新信息时形成新概念的能力 3。这正是瑞文所强调的“演绎能力”（eductive ability）1。
- 被试需要识别抽象图形背后隐藏的规则，例如图形的递增、元素的加减、特定特征的分布规律等 11。
4.2 空间推理与问题解决能力
- 测验要求个体在头脑中操纵和转换几何图形 3，涉及空间想象能力（spatial visualization）2。
- 它测量个体在不依赖先验知识的情况下解决新颖、复杂问题的能力 7。因此，它也是问题解决能力的评估工具 3。
- 成功解决瑞文矩阵问题，有时需要被试管理一个目标和子目标的层级结构，将复杂问题分解为可处理的成对比较 10。
- 该测验也被视为评估个体快速学习能力的指标 7。

瑞文测验所要求的抽象推理和空间推理能力的结合，使其成为衡量个体处理复杂性和新颖性能力的一个强有力指标。这些能力对于许多需要分析性思维和快速学习的学术和职业领域至关重要。测验明确评估抽象推理、模式识别和空间操纵 2，这些技能是解决陌生问题 7 和理解复杂数据 9 的基础。因此，测验表现很可能与在需要这些认知过程的岗位上的成功相关 7。

此外，瑞文测验对非文字推理的侧重 1 意味着它评估的认知过程与语言能力（如词汇理解或语言流畅性 2）虽然相关，但又有所区别。这种区分在认知评估中具有重要意义。认知模型常常区分空间/流体能力和言语/晶体能力 2。瑞文测验提供了对前者的集中测量，可以补充那些测量后者（如词汇测验，例如与SPM关联的米尔山词汇量表 Mill Hill Vocabulary Scale 9）的评估工具，从而实现更全面的认知能力评估。

5. 心理测量学特性：信度与效度评估

评估任何心理测验的质量，信度和效度是两个核心指标。瑞文测验在这方面已有大量的研究积累。

5.1 信度证据 (内部一致性、重测信度)
- 信度反映测验结果的稳定性和一致性。总体而言，瑞文测验表现出良好的信度。瑞文最初的研究（1938年）报告了较高的重测信度（相关系数r=0.89）和分半信度（r=0.91）20。
- 一项针对葡萄牙样本的SPM研究发现，测验具有很高的内部一致性（Cronbach's alpha =.94），以及良好的重测信度（在约4.5个月的时间间隔后，相关系数r =.82）15。
- 在利比亚学生样本中进行的APM研究也报告了较强的重测信度和Cronbach's alpha系数 21。
- 一项在马来西亚儿童中进行的RCPM研究发现，其重测信度良好（r值在.60至.78之间）22。
- 针对APM简版（12项）的研究显示，其重测信度大约在.65至.69之间 16。
- 研究普遍表明，简版测验的信度通常低于完整版 17。例如，开发18项APM简版的目的就是为了在缩短时间的同时，尽可能保持接近原版APM的信度 17。
5.2 效度证据 (结构效度、聚合效度、效标关联效度)
- 效度涉及测验是否有效地测量了其声称要测量的构念，以及其预测相关结果的能力。
- 结构效度: 多项研究通过考察瑞文测验与其他认知能力测验（如比奈-西蒙量表 r=0.77 20；韦氏智力量表 3）的相关性，为其结构效度提供了支持。研究也证实了测验的内部结构符合预期，例如APM简版的单维性 16，以及CPM中A、Ab、B三个单元代表了不同但相关的构念 23。因素分析通常显示存在一个强的一般因素（'g'）21。
- 聚合效度: 葡萄牙的SPM研究显示，其得分与视觉空间能力和记忆测验（如Rey复杂图形测验）得分呈中到高度正相关，与焦虑自评量表得分呈低度负相关 15。马来西亚的RCPM研究显示其与TONI-4（另一种非言语智力测验）具有良好的聚合效度 22。APM简版得分与韦氏成人智力量表（WAIS）的知觉推理指数呈中到高度相关 16。
- 效标关联效度: 瑞文测验被认为是预测那些需要快速学习、解决问题和抽象推理能力的岗位绩效的有效工具 7。它曾被用于预测军队训练的成功率 24。研究表明，像瑞文这样的认知能力测验与人格测验结合使用，可以预测超过70%的工作绩效 7。
- 区分效度: CPM已被证明能够区分出患有脑瘫儿童的认知功能障碍 23。
5.3 项目水平分析 (IRT、难度、区分度、猜测)
- 项目反应理论（Item Response Theory, IRT）已被用于瑞文测验的开发和分析 1。IRT提供了比经典测验理论（CTT）更精细的项目分析方法。
- 研究者分析了项目的难度和区分度指数 10。例如，对利比亚样本的APM研究发现，单元II的项目难度范围从10%到100%，区分度指数从.02到.56，表明部分项目可能需要根据其难度进行重新排序 21。APM简版的项目在难度、区分度和猜测参数上表现出明显的差异 16。
- IRT模型（如三参数逻辑模型 3PL、四参数逻辑模型 4PL）可以用来估计被试的猜测行为（伪猜测）和粗心作答行为（伪粗心）23。一项针对CPM的研究发现，在Ab和B单元存在猜测行为（尤其是有依据的猜测，即排除了部分错误选项后的猜测），但未发现显著的粗心作答 23。猜测行为在Ab单元更为普遍 23。认识到猜测行为的存在，特别是知情猜测，对于准确估计能力水平至关重要，尤其是在像瑞文这样的多项选择测验中。简单的答对题数可能会高估那些频繁猜测的低能力个体的真实水平。
- 项目功能差异（Differential Item Functioning, DIF）分析被用来检查项目是否存在对不同子群体（如男性/女性、母语/非母语英语者）的偏见。对APM简版的研究显示，DIF问题很少 16。
5.4 因素结构与'g'因素测量
- 瑞文测验与斯皮尔曼的'g'因素（一般智力）紧密相关 1，并被广泛认为是测量'g'因素的最佳工具之一 2。
- 因素分析结果通常支持一个强的一般因素存在 21。APM简版也被证实是单维的 16。
- 该测验主要测量'g'因素中的演绎能力部分 1。这种与'g'因素的紧密联系是瑞文测验理论基础的核心，也是其被解读为一般认知能力测量的依据。
5.5 人口统计学变量的影响
- 对测验分数的影响在不同研究和样本中有所差异。葡萄牙的SPM研究发现，年龄（分数随年龄增长而下降）、性别（男性略高）、教育程度（分数随教育程度提高而增加）、居住地区和居住地类型都对分数有显著影响 15。
- 利比亚的SPM研究发现年龄有显著影响，但性别或地区差异不大 21。
- 中国的SPM修订研究发现，除了40-49岁年龄组外，其他年龄组均无显著性别差异 14。关于瑞文测验上的性别差异研究较为复杂，一些研究认为可能存在性别差异，但这可能与测验中其他成分的“污染”有关，或者与生理因素有关，且可能具有发展性 25。
- 理解人口统计学变量如何影响分数对于准确解释测验结果和建立合适的常模至关重要。

表2：部分研究报告的瑞文测验心理测量学特性总结

研究/来源 (Study/Source ID)	测验版本 (RPM Version)	样本描述 (Sample Description)	信度发现 (Reliability Findings)	效度发现 (Validity Findings)
20	原始RPM (Original RPM)	未明确 (Unspecified, 1938 study)	重测 r=0.89; 分半 r=0.91	与比奈-西蒙量表 r=0.77
15	SPM	葡萄牙社区样本 (Portuguese community, N=522, 12-95 yrs)	Alpha=.94; 重测 r=.82 (~4.5 mo)	与Rey图形测验中高相关; 受年龄、性别、教育、地区显著影响
21	APM	利比亚学生 (Libyan students, N=400, 12-17 yrs)	报告了强的重测信度和Alpha系数	结构效度和效标效度得到确认; 项目难度/区分度有待调整
22	RCPM	马来西亚小学生 (Malaysian primary school children)	重测 r=.60-.78	结构效度 r=.56-.77; 与TONI-4聚合效度良好
23	CPM	5-11岁儿童 (Children 5-11 yrs, N=1127)	-	IRT分析显示存在猜测(尤其Ab单元)，无显著粗心作答; 证实A, Ab, B难度递增
16	APM简版 (Brief APM, 12-item, timed & untimed)	大学生 (University students)	重测 r=.65-.69	单维结构; 与WAIS知觉推理指数中高相关; DIF少
17	APM简版 (APM-18)	美国大学生 (US university students, N=633)	信度接近原版APM，优于12项简版	心理测量特性与长版/12项简版相似

综合来看，瑞文测验通常表现出可靠的心理测量学特性，但这些特性并非一成不变。它们会受到所使用的具体版本（完整版 vs. 简版，SPM vs. APM）、测试人群（年龄、文化、能力水平）以及所采用的分析方法（CTT vs. IRT）的影响。例如，简版的信度普遍低于完整版 17；人口统计学变量的影响在不同研究中存在差异（如性别效应在 15 vs. 14 中的不同表现）；IRT分析揭示了经典测验理论难以捕捉的细微之处，如猜测行为 23；项目特性也可能因样本不同而异（如利比亚APM项目需要调整 21）。因此，在选择和解释瑞文测验时，必须考虑具体情境，不能想当然地认为其心理测量学特性是普遍适用的。

特别值得关注的是，在葡萄牙样本中发现教育程度对SPM分数有显著影响 15。这一发现挑战了该测验完全独立于后天知识或文化/学校教育内容的观点。瑞文测验旨在测量流体智力（Gf），理论上应独立于后天习得的知识 2。然而，更高的教育水平与更高的SPM分数密切相关 15。这表明，要么是教育本身提升了潜在的流体推理技能，要么是测验在无意中利用了一些在高等教育中常见的、习得的分析策略或对抽象表征的熟悉度，从而反映了一定的晶体智力（Gc）影响。这提示我们，在实践中，流体智力和晶体智力之间的界限可能比理论上描述的更为模糊。

6. 跨领域应用

瑞文测验因其独特的特性，在多个领域得到了广泛应用。

6.1 教育与职业领域
- 在教育领域，瑞文测验被广泛用于学生评估 1，包括识别资优儿童 6 和用于教育安置 9。
- 在职业领域，它常被用于人员选拔和招聘 3。SPM通常面向入门级候选人，而APM则适用于管理和研究生水平的职位 7。它可以帮助衡量候选人的学习能力、解决问题的能力以及对需要这些技能的岗位的适应性 7，评估其担任主管、中层管理人员或相应技术/专业岗位的潜力 7。
- 研究表明，瑞文测验是预测绩效的有效工具之一，与其他工具（如人格测验）结合使用，有助于筛选优秀的团队成员和未来的领导者 7，并降低招聘失误的风险和成本 7。
- 其非文字特性使其特别适合跨地域招聘，有助于减少语言偏见 7。
6.2 临床应用与研究
- 瑞文测验被用于临床研究，例如关于自闭症谱系障碍（ASD）的研究 3。研究发现，患有阿斯伯格综合征或典型自闭症的个体在瑞文测验上的得分可能高于在韦氏智力量表上的得分 1。这可能表明，瑞文测验能够更好地捕捉到ASD个体在某些认知领域（如系统化思维、模式识别）的优势，同时最大限度地减少了对他们可能存在困难的语言或社交沟通技能的要求。这种特性使其可能为某些神经发育障碍群体提供更公平的认知评估。它也被用于评估肝豆状核变性（Wilson's Disease）患者的认知功能 25。
- 瑞文测验最初就是为研究认知能力的遗传和环境起源而开发的 1。它至今仍在认知心理学研究中被广泛使用 5，用于评估各种研究背景下的心智能力/流体智力 10。
6.3 跨文化研究与弗林效应
- 由于其独立于语言且施测简便，瑞文测验迅速找到了广泛的实际应用，并极大地促进了跨文化研究 1。它已被用于各种不同的文化群体 5。
- 相对于文字测验，它被认为具有更好的“文化公平性”或“文化缩减性” 9，尽管这一点存在争议（见第8节）。它使得对使用不同语言但在同一教育体系下的儿童进行比较成为可能 9。
- 瑞文测验的数据在其悠久的应用历史和广泛使用（尤其是在军队中）的基础上，为詹姆斯·弗林（James Flynn）发现“弗林效应”（即IQ分数跨代际增长，每十年约3-4个IQ分数点）提供了关键证据 1。全球范围内的分数都随时间显著提高 5。瑞文测验数据在揭示和追踪弗林效应方面所起的关键作用 1，展示了持续、大规模认知测试对于理解社会层面认知能力变迁的深远价值，这种价值有时是最初设计测验时未曾预料到的。这表明，除了个体评估，标准化的测试项目可以作为重要的社会科学工具，用于监测人口趋势。

瑞文测验之所以能在教育、职业、临床和研究等如此广泛的领域得到应用，直接源于其核心设计特点：非文字形式、对基本推理能力（Gf）的评估以及相对简便的施测 1。

7. 焦点：1985/1986年SPM中国城市版修订

用户查询特别提到了基于张厚粲教授1985年修订的中国城市版的系统开发 [User Query]。这次修订工作是中国心理测量学发展史上的一个重要事件。

7.1 修订背景与张厚粲的标准化工作
- 瑞文标准推理测验（R. SPM）的中国城市版修订工作由著名心理学家张厚粲教授和王晓平教授领导，并联合全国17家单位协作完成 13。
- 这项工作主要在1985年至1986年间进行 12。其直接动因是当时中国科研和实际工作对团体智力测验的迫切需求 14。
- 最终形成的成果被称为“中国城市版” 12 或确定了“1986年中国城市常模” 14。
7.2 方法学：常模建立过程与样本特征
- 常模群体: 常模群体的建立以1982年全国人口普查资料为依据 14。
- 抽样策略: 采用分层抽样方法，考虑了各地区人口分布以及各类人员的比例 14。
- 样本规模: 共纳入5108名被试 14。
- 年龄范围: 被试年龄跨度从5岁半至70岁以上 14。
- 施测: 采用了标准化的施测程序 14。
- 成果: 最终确定了1986年的中国城市常模 14。
7.3 中国样本的关键心理测量学发现与人口学影响
- 技术质量: 对测验结果进行了项目分析，并评估了信度和效度。结果显示，修订后的SPM各项技术指标达到或超过了国外同类研究的水平 14。修订版展现出作为团体智力测验所需的良好信度和效度 14。这次修订的成功，证明了在迥异的文化背景下，对复杂的心理测量工具进行严谨的改编和验证是完全可行的，为全球范围内更公平、更准确的心理评估铺平了道路，也为其他类似的本土化工作提供了范例。
- 性别差异: 研究发现，在中国城市样本中，除了40-49岁年龄组外，其他各年龄组的测验分数均无显著性别差异 14。这一发现与其他一些研究（如葡萄牙样本发现男性优势 15）形成了对比 25。这种跨文化/样本的差异表明，由SPM测量的流体智力上的性别差异可能受到文化或样本特征的调节，而非普遍的生物学定论。这提示我们不能简单地将特定样本中的性别差异推广到所有人群。
- 跨地区比较: 该研究还将中国城市青少年的得分与香港、英国和新西兰相应年龄组的得分进行了比较（具体比较结果未在摘要中详述）14。
- 应用: 修订后的中国城市版SPM成为了国内常用的智力测验工具之一 12，并被纳入一些儿童评估系统 28。

表3：1985/1986年瑞文标准推理测验中国城市版标准化详情

方面 (Aspect)	详情 (Details)
项目负责人 (Project Lead)	张厚粲, 王晓平 (Zhang Houcan, Wang Xiaoping) & 协作组 (Collaborative Group)
年份 (Year)	1985 / 1986
常模依据 (Basis for Norms)	1982年全国人口普查数据 (1982 National Census Data)
抽样策略 (Sampling Strategy)	按地区/人员比例分层抽样 (Stratified by region/personnel type)
样本量 (Sample Size)	5108
年龄范围 (Age Range)	5.5 - 70+ 岁 (years)
关键信效度发现 (Key Reliability/Validity Finding)	技术指标达到或超过国际同类研究水平 (Met/exceeded international standards)
关键性别差异发现 (Key Gender Difference Finding)	除40-49岁组外，无显著性别差异 (No significant difference except 40-49 yrs group)

张厚粲教授及其团队进行的大规模、系统化的标准化工作 14，凸显了为心理测验建立本土常模的极端重要性，即使是那些号称“文化公平”的测验也不例外。直接套用国外常模可能导致评估结果失真。这项工作确保了瑞文测验在中国城市背景下的科学、有效应用。

8. 批判性评估：优势、局限与文化考量

对瑞文测验进行全面评估，需要认识到其优势、固有的局限性以及围绕其文化公平性的持续争论。

8.1 非文字形式的优势
- 最显著的优势在于其非文字形式，这大大减少了与被试语言能力相关的偏见 1。使其适用于语言背景多样化的人群以及有语言障碍（如听障）的个体 1。
- 施测和解释相对简单 1，易于管理 7。
8.2 局限性与持续争论
- 测验长度: 完整版本的瑞文测验（尤其是APM）可能耗时较长（如APM需40分钟），容易导致被试疲劳，或在时间有限的情况下难以实施 15。这催生了简版的开发，但简版往往以牺牲信度为代价 17。测验长度的实际限制驱动了心理测量学的创新（如开发简版、探索限时施测 17），但也突显了评估实践中一个根本性的张力：即测量精度/信度与实用性/效率之间的平衡。
- 测量范围: 瑞文测验主要测量流体智力（Gf）或演绎能力，可能无法全面捕捉智力的其他重要方面，如实用智力、创造力或晶体智力（已获得的知识和技能）2。
- 猜测因素: 多项选择题的形式使得被试可以通过猜测得分，这可能导致低能力个体的分数虚高 23。IRT分析已证实猜测行为的存在 23。
- 地板/天花板效应: 特定版本的测验可能在区分极低能力（例如APM对低分组可能区分不佳 21）或极高能力个体（例如需要SPM Plus来更好地区分高分组 5）方面存在局限。
8.3 文化公平性辩论
- 瑞文测验常被描述为“文化公平”（culture-fair）或“文化缩减”（culture-reduced）的测验，因为其非文字形式旨在减少文化负载 9。
- 然而，这一说法一直备受争议。测验表现可能受到个体对抽象模式的熟悉程度、应试技巧以及所处教育体系的影响 5。
- 研究证据显示，教育程度和社会经济因素对瑞文测验分数有显著影响 15。这表明，即使排除了语言因素，文化背景依然可能通过教育经历等途径影响测验表现。
- 著名学者尼斯贝特（Nisbett）曾批评在非洲半文盲或可能不识字的人群中使用西方开发的测验是“徒劳之举”，并对基于此得出非洲人群智力低下的结论表示质疑 5。
- 瑞文测验确实减少了语言偏见，但并未消除所有文化影响 9。它要求被试熟悉“在模式中寻找缺失部分”这一任务概念，而这种概念对于未接触过正规教育或类似思维训练的人来说，可能并非普遍或自然的 9。
- 因此，瑞文测验的主要优势——其非文字形式——与其主要的争议点——文化公平性——之间存在着内在的联系。虽然它减少了语言障碍，但却可能引入与特定教育文化中普遍存在的抽象视觉推理和应试习惯相关的潜在偏见。将瑞文测验描述为“文化缩减”可能比“文化公平”或“文化无关”更为准确。

9. 结论：瑞文测验的意义与启示

瑞文渐进矩阵（RPM）作为一项历史悠久且影响深远的心理测量工具，在认知评估领域占据着重要地位。它是一种广泛使用的非文字测验，主要用于评估流体智力、演绎能力或一般智力（'g'因素）。其核心优势在于非文字形式，这使其能够跨越语言障碍，适用于多元文化背景和特殊人群；同时，它聚焦于基本的推理能力，被认为是衡量个体处理新颖复杂问题潜力的有效指标。然而，它也存在局限性，包括完整版本耗时较长、测量范围相对集中于流体智力、易受猜测因素影响，以及其“文化公平性”一直存在争议，教育和文化背景仍可能影响测验表现。

瑞文测验的演变（从SPM到CPM、APM及各种适应性版本）和广泛应用（涵盖教育、职业、临床和研究领域）证明了其强大的生命力和实用价值。特别值得一提的是，像张厚粲教授领导的中国城市版修订工作，不仅为测验在特定文化背景下的科学应用提供了本土化常模和效度证据，也凸显了在心理测量实践中进行文化适应和建立地方常模的极端重要性。

对于未来的实践和研究，以下几点值得考虑：

审慎选择与应用: 应根据评估目的和被试特征（年龄、能力水平、文化背景）选择最合适的瑞文测验版本。
重视本土常模与文化背景: 在解释分数时，必须使用恰当的、最好是本土化的常模，并充分考虑被试的教育背景、社会经济地位等可能影响表现的因素。应超越“文化公平”的标签，更明确地将文化背景整合到分数解释中。
结合多元信息: 瑞文测验提供了有价值但并非全面的智力信息。应将其结果与其他认知能力测验（如测量晶体智力、记忆力、加工速度等）和非认知因素（如动机、人格、环境支持）的评估结合起来，以获得对个体更整体、更准确的认识 7。
利用先进心理测量技术: 继续运用项目反应理论（IRT）等先进模型来深入理解项目功能，处理猜测等测量误差，以期获得更精确的能力估计 23。
关注新兴施测方式: 对在线施测等新形式带来的效度和安全性问题保持警惕，并进行充分研究。

瑞文测验的持久影响不仅在于其作为测量工具的本身，更在于它深刻地影响了我们对智力的概念化和测量方式，特别是推动了对流体与晶体智力区分的认识，以及对文化缩减评估方法的追求 1。它的历史也提醒我们，大规模、持续的认知测试能够为理解社会层面的认知变迁（如弗林效应）提供宝贵的洞见 5。未来，对瑞文测验及类似工具的应用，应更加注重整合性——整合多种评估信息、整合先进的测量模型、整合对文化背景的深刻理解——从而实现更负责任、更有效的认知评估。

引用的著作

Raven's Progressive Matrices - Wikipedia, 访问时间为四月 20, 2025， https://en.wikipedia.org/wiki/Raven%27s_Progressive_Matrices
Intro Psych 2: Intelligence, Lecture 3- Raven's Matrices, Limitations of Intelligence Measures, 访问时间为四月 20, 2025， https://quizlet.com/gb/476434306/intro-psych-2-intelligence-lecture-3-ravens-matrices-limitations-of-intelligence-measures-flash-cards/
Psychological Testing: Raven's Progressive Matrices, 访问时间为四月 20, 2025， https://www.mentalhealth.com/library/psychological-testing-ravens-progressive-matrices
Raven, John Carlyle (1902-1970) papers - Wellcome Collection, 访问时间为四月 20, 2025， https://wellcomecollection.org/works/jtcmgh7r
Raven's Progressive Matrices - Wikipedia, the free encyclopedia, 访问时间为四月 20, 2025， http://taggedwiki.zubiaga.org/new_content/39342c3d9b6016f5f86bfced98dc5c84
Raven's Standard Progressive Matrices (2022 Update) - Testing Mom, 访问时间为四月 20, 2025， https://www.testingmom.com/tests/ravens-matrices/
RAVEN'S Standard Progressive Matrices (SPM) - Pearson TalentLens, 访问时间为四月 20, 2025， https://www.talentlens.com/recruitment/assessments/raven-s-standard-progressive-matrices--spm-.html
www.testingmom.com, 访问时间为四月 20, 2025， https://www.testingmom.com/tests/ravens-matrices/#:~:text=The%20Raven's%20Progressive%20Matrices%20is,giving%20the%20test%20its%20name.
Raven's Progressive Matrices, 访问时间为四月 20, 2025， https://johnrust.website/diversity/matrices/
Development of Abbreviated Nine-item Forms of the Raven's Standard Progressive Matrices Test - PMC, 访问时间为四月 20, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC4410094/
Raven's Progressive Matrices Test (2025 Guide) - TestHQ, 访问时间为四月 20, 2025， https://www.testhq.com/blog/ravens-progressive-matrices-test
etcnew.sdut.edu.cn, 访问时间为四月 20, 2025， https://etcnew.sdut.edu.cn/meol/analytics/resPdfShow.do?resId=1104055&lid=53759
教育测量与评估双语季刊中国心理和教育测, 访问时间为四月 20, 2025， https://www.ce-jeme.org/cgi/viewcontent.cgi?article=1009&context=journal
瑞文标准推理测验在我国的修订 - 心理学报 - 中国科学院心理研究所, 访问时间为四月 20, 2025， https://journal.psych.ac.cn/xlxb/CN/abstract/abstract758.shtml
dialnet.unirioja.es, 访问时间为四月 20, 2025， https://dialnet.unirioja.es/descarga/articulo/8075581.pdf
Evaluating untimed and timed abridged versions of Raven's Advanced Progressive Matrices, 访问时间为四月 20, 2025， https://pubmed.ncbi.nlm.nih.gov/35658791/
Development and Validation of an 18-Item Medium Form of the Ravens Advanced Progressive Matrices - ResearchGate, 访问时间为四月 20, 2025， https://www.researchgate.net/publication/303796753_Development_and_Validation_of_an_18-Item_Medium_Form_of_the_Ravens_Advanced_Progressive_Matrices
常用神经心理认知评估量表临床应用专家共识- 中华神经科杂志 - 指南, 访问时间为四月 20, 2025， https://seleguide.yiigle.com/uploads/guide_html/%E5%B8%B8%E7%94%A8%E7%A5%9E%E7%BB%8F%E5%BF%83%E7%90%86%E8%AE%A4%E7%9F%A5%E8%AF%84%E4%BC%B0%E9%87%8F%E8%A1%A8%E4%B8%B4%E5%BA%8A%E5%BA%94%E7%94%A8%E4%B8%93%E5%AE%B6%E5%85%B1%E8%AF%86.html
134f456c81bd4ffaa67cd493d24f, 访问时间为四月 20, 2025， https://gs.cupes.edu.cn/docs/2019-04/134f456c81bd4ffaa67cd493d24f01c7.docx
Science behind the Raven's Progressive Matrices Test - Adaface, 访问时间为四月 20, 2025， https://www.adaface.com/blog/ravens-progressive-matrices/
The Examination of Validity and Reliability Indicators of The Raven's Advanced Progressive Matrices on Misurata City - ResearchGate, 访问时间为四月 20, 2025， https://www.researchgate.net/publication/340004930_The_Examination_of_Validity_and_Reliability_Indicators_of_The_Raven's_Advanced_Progressive_Matrices_on_Misurata_City
VALIDITY AND RELIABILITY OF THE RAVEN COLOURED PROGRESSIVE M | 53690, 访问时间为四月 20, 2025， https://www.aseanjournalofpsychiatry.org/abstract/validity-and-reliability-of-the-raven-coloured-progressive-matrices-and-the-test-of-nonverbal-intelligence-among-malaysi-53690.html
A Psychometric Analysis of Raven's Colored Progressive Matrices ..., 访问时间为四月 20, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC8883956/
(PDF) JOHN CARLYLE RAVEN (1902 - 1970) and his legacy - ResearchGate, 访问时间为四月 20, 2025， https://www.researchgate.net/publication/341150479_JOHN_CARLYLE_RAVEN_1902_-_1970_and_his_legacy
脑型Ｗｉｌｓｏｎ病患者智力水平及智力结构的研究, 访问时间为四月 20, 2025， http://www.wilson-disease.org/Editor/eWebeditor/uploadfile/20150113145324661.pdf
瑞文推理测验上的性别差异 - 心理学报, 访问时间为四月 20, 2025， https://journal.psych.ac.cn/xlkxjz/CN/article/downloadArticleFile.do?attachType=PDF&id=1970
The Development of Fluid Intelligence:Evidence for the Role of Working Memory but not Processing Speed 加工速度、工作记忆与液态智力发展的关系, 访问时间为四月 20, 2025， http://sciencechina.cn/gw.jsp?action=detail.jsp&internal_id=1597954&detailType=1
131617243.docx - 四川省人民医院, 访问时间为四月 20, 2025， https://oss.samsph.com/20190813/131617243.docx

$瑞文标准推理测验 - AI深度研究报告