汉密尔顿抑郁量表（HAM-D）：一项全面的临床与研究评估工具回顾

I. 引言：汉密尔顿抑郁量表（HAM-D）概述

A. HAM-D的定义：目的与临床意义

汉密尔顿抑郁量表（Hamilton Depression Rating Scale, HAM-D 或 HDRS）是一种由临床医生评定的量表，旨在评估已被诊断患有抑郁障碍的患者其症状的严重程度 1。自20世纪60年代问世以来，HAM-D 已成为全球范围内使用最广泛的抑郁严重程度评定量表之一 2，尤其是在抑郁症的临床试验中，长期被视为评估标准 4。

该量表通过评估一系列症状来量化抑郁的严重性，涵盖情绪（如心境抑郁）、认知（如内疚感、自杀观念）、行为（如工作与兴趣、激越或迟缓）、生理（如失眠、焦虑的躯体表现、体重减轻）以及其他相关症状（如疑病、自知力）等多个维度（用户查询9）。HAM-D 不仅用于评估基线时的症状严重度，更重要的功能在于监测治疗（尤其是药物治疗）的效果，追踪症状随时间的变化，从而为调整治疗方案和评估治疗结局提供依据（用户查询1）。

值得注意的是，HAM-D 的设计初衷并非用于抑郁症的初步诊断，而是为了测量已确诊患者的症状变化，特别是对治疗的反应 1。Hamilton 本人创建该量表的目的是让精神科医生能够通过特定的治疗方案来描绘已诊断患者的病情变化，将定性判断转化为定量数据 15。这意味着 HAM-D 假定诊断已经成立，其核心在于量化严重程度和追踪病情波动。因此，将其用于普通人群筛查或作为主要诊断工具可能存在局限性，此时其他工具（如后文将讨论的 PHQ-9）可能更为适用 1。这种侧重于测量变化的特性，也与其诞生背景及早期应用紧密相关。

B. 历史渊源：Max Hamilton 与 1960 年的初始量表

HAM-D 由英国精神病学家 Max Hamilton 于 1960 年首次提出，并在当时的《神经病学、神经外科学与精神病学杂志》（Journal of Neurology, Neurosurgery and Psychiatry）上发表 2。量表的诞生恰逢精神药理学发展的早期阶段，首批抗抑郁药物（如丙咪嗪）于20世纪50年代末至60年代初问世，临床实践迫切需要一种标准化工具来客观评估这些新疗法的效果 6。

最初的 HAM-D 版本包含 17 个用于计分的项目，另有 4 个项目用于提供额外的临床信息，但不计入总分 9。该量表最初是为住院的抑郁症患者设计的 2。

HAM-D 的开发及其结构与早期抗抑郁药（主要是三环类抗抑郁药，TCAs）的特性以及当时精神药理学研究的目标紧密相连。有研究指出，HAM-D 之所以能迅速普及并成为衡量药物疗效的“金标准”，部分原因在于它非常适合测量早期药物（如三环类药物）的效果 15。这些药物具有一定的抗焦虑和镇静作用，而已知会影响睡眠和体重，而 HAM-D 中恰好包含了对睡眠障碍和体重变化的评分项目 15。正如一位评论者所言，“早期的药物定义了用来衡量其表现的量表本身” 15。这种量表内容与早期药物作用特点的契合，意味着 HAM-D 可能并非完全源于一个纯粹的抑郁理论模型，而是在很大程度上受到当时测量特定治疗效果的实用需求的塑造。这种共同演化不仅使 HAM-D 在早期药物试验中显得尤为有效，也促进了将抑郁症构建为一种可治疗的、非慢性的、 episodic（发作性）疾病的观念，这与药物试验的目标相一致 15。然而，这也可能意味着该量表对于衡量由这些早期药物所针对的特定症状群（如躯体症状、睡眠问题）的变化更为敏感，这或许可以解释后世对其多维性以及对不同类别药物（如 SSRIs）敏感性差异的批评。

II. HAM-D 的演变与不同版本

A. 基础版本 HAMD-17：核心项目与结构

HAMD-17 是 HAM-D 最常用、最广为人知的版本，尤其在美国和各类临床试验中被广泛采用 1。中国的临床试验方案和研究中也常提及使用 HAMD-17 10。

HAMD-17 包含 17 个评估项目，涵盖了抑郁症的核心及伴随症状（具体项目见表1）：

抑郁心境 (Depressed Mood)
负罪感 (Feelings of Guilt)
自杀 (Suicide)
入睡困难 (Insomnia: Early)
睡眠不宁 (Insomnia: Middle)
早醒 (Insomnia: Late)
工作和兴趣 (Work and Interests)
迟缓（精神运动性）(Retardation)
激越（精神运动性）(Agitation)
焦虑（精神性）(Anxiety: Psychic)
焦虑（躯体性）(Anxiety: Somatic)
躯体症状：胃肠道 (Somatic Symptoms: Gastrointestinal)
躯体症状：全身性 (Somatic Symptoms: General)
性症状（如性欲减退）(Genital Symptoms)
疑病 (Hypochondriasis)
体重减轻 (Weight Loss)
自知力 (Insight) 8

HAMD-17 的内容侧重于抑郁症的忧郁（melancholic）和躯体症状，这与其最初为住院患者开发的背景有关 3。每个项目的评分依据症状严重程度，采用 0-4 分（5级）或 0-2 分（3级）的标度 3。

B. 扩展版本：HAMD-21 与 HAMD-24（回应用户查询重点）

在 HAMD-17 的基础上，还发展出了项目更多的版本，试图更全面地捕捉抑郁症的复杂性。

HAMD-21：在 HAMD-17 的基础上增加了 4 个项目：(18) 日夜变化 (Diurnal Variation)，(19) 人格解体/现实解体 (Depersonalization/Derealization)，(20) 偏执症状 (Paranoid Symptoms)，以及 (21) 强迫症状 (Obsessional Symptoms) 3。增加这些项目的目的据称是为了帮助对抑郁进行亚型分类 3。不过，也有资料指出，最初的 HAM-D 就包含 21 个项目，但评分仅基于前 17 项 23，这表明版本定义和使用上可能存在一定的模糊性或演变。在中国，有文献指出 21 项版本在临床上常用 12。一些研究在进行分析时也会纳入 HAMD-21 14。
HAMD-24：在 HAMD-21 的基础上，进一步增加了 3 个评估认知和情感症状的项目：(22) 无助感 (Helplessness)，(23) 无望感 (Hopelessness)，以及 (24) 无价值感 (Worthlessness) 3。用户查询中特别提到了 24 项版本，一些中文文献也确实描述了其应用 12。例如，有资料详细介绍了 HAMD-24 的适用范围（有抑郁症状的成人）、使用方法（两名评定员联合检查、独立评分）、评分标准（大部分项目 0-4 分，少数 0-2 分）、注意事项（信息来源结合观察、自述及家属/工作人员提供的信息）以及结果解释（总分与严重程度的关系，以及因子分析结构）19。该文献还提到一次评定大约需要 15-20 分钟 19。其他中国研究也报告了使用 HAMD-24 的情况，例如用于评估脑损伤患者 25 或机械通气患者（经修改后）26。一些研究分析中也会包含 HAMD-24 14。

HAM-D 不同版本（17, 21, 24 项等，甚至还有 28, 31 项版本 17）的并存，反映了两个方面的趋势：一方面，试图通过增加项目来更全面地捕捉抑郁症的广泛症状谱，包括不同的亚型特征（如 HAMD-21 中的附加项）或更深层次的认知症状（如 HAMD-24 中的无助、无望、无价值感）3，这暗示了最初的 17 项被认为可能不足以完全描绘临床全貌，尤其是在严重抑郁中。另一方面，这种版本的繁衍也反映了量表本身可能存在的局限性或定义上的模糊不清，导致了实践和研究中的使用不统一。有文献指出，研究者“很少清楚说明他们使用了哪个版本” 2，这给跨研究比较带来了困难。HAMD-24 在特定中文背景下的应用 12 可能反映了当地的临床偏好或研究传统。这种扩展趋势与下文将讨论的缩减趋势（开发更短的量表）形成了对比，显示了 HAM-D 在适应不同需求过程中的平行但方向相反的演化路径。

C. 简版量表与因子结构量表：HAMD-6, HAMD-7 及其他

与扩展版本的趋势相反，为了克服 HAMD-17 在心理测量学上的一些局限，特别是其多维性问题，研究者们也开发了多种简版量表 17。

HAMD-6：由 Bech 等人于 1975 年开发，旨在创建一个更侧重于核心抑郁症状、心理测量学特性可能更优的量表 17。它包含 6 个项目：抑郁心境、负罪感、工作和兴趣、迟缓、精神性焦虑和全身性躯体症状 17。有研究认为 HAMD-6 能更敏感地评估抑郁的核心症状 1。然而，关于其 psychometric 表现存在不同看法：一项研究发现 HAMD-6 的内部一致性（Cronbach's alpha=0.764）略低于 HAMD-17（0.829），且在区分抑郁严重程度上精确度最低 1；而另一项研究则发现 HAMD-6 具有单维性，而 HAMD-17 包含两个因子 17。
HAMD-7：是另一个常见的简版量表，有时被认为对药物效果更敏感 16。例如，一项研究提出包含 HAMD-6 项目再加上“自杀”项的 HAMD-7 子量表可能具有更高的敏感性 16。临床研究中也常使用 HAMD-7 进行分析 3。
其他因子衍生量表：基于对 HAMD-17 项目的因子分析，还衍生出许多其他子量表，如 Evans-6, MP-6, Toronto-7, Gibbons-8 等 14，以及其他研究中识别出的不同因子结构 18。这些子量表通常旨在提取一个更纯粹、更单维的抑郁核心维度，以期提高对病情变化的敏感性或区分治疗效果的能力 16。一项针对青少年的研究识别出三个维度：精神性抑郁/运动迟缓、思维障碍、睡眠障碍/焦虑 27。

大量简版和因子衍生量表的出现，本身就构成了对原始 HAMD-17 结构和心理测量特性的一种重要批评。这表明研究者们普遍认识到，完整的 HAMD-17 可能并非在所有情况下都是最高效或 psychometrically 最稳健的测量工具，特别是其多维性可能影响其捕捉核心抑郁特征变化或区分特定治疗效果的敏感度 17。这种向更短、可能更单维的量表发展的趋势 17，直接挑战了完整量表的效用，并提示需要根据具体的临床或研究问题选择更具针对性的评估工具。

D. 标准化努力：SIGH-D 与 GRID-HAMD

HAM-D 在其早期应用中，一个显著问题是缺乏标准化的施测程序，导致其使用方式和结果解释存在很大变异，“在使用方式和对其结果赋予的意义上相当不标准” 15。为了解决这个问题，提高测量的可靠性和一致性，后续发展出了一些标准化工具。

结构化访谈指导（SIGH-D）：开发结构化访谈指导（Structured Interview Guide for the HAM-D, SIGH-D）是为了规范访谈流程，确保所有相关领域都得到系统评估，从而提高项目评分的一致性和可靠性 2。
GRID-HAMD：这是一项更新的、通过广泛国际共识开发的 HAM-D 版本，旨在改进原有版本 28。GRID-HAMD 的特点包括：对大多数项目区分了症状出现的频率和强度；修订了一些有问题的评分锚点（anchor points）；整合了结构化访谈指导和针对所有项目的共识性约定 28。初步研究表明，GRID-HAMD 具有良好的可用性，且信效度优于或至少不亚于早期版本的 HAM-D 或 SIGH-D 28。

标准化指导（如 SIGH-D）和标准化版本（如 GRID-HAMD）的开发，反映了 HAM-D 发展进入了一个更成熟的阶段。这些努力旨在纠正原始量表因缺乏结构化而长期存在的心理测量学和实践问题，如施测过程中的变异性、评分锚点模糊不清等。这表明，尽管 HAM-D 的核心概念仍然具有影响力，但其实际应用需要进行重大改进，以满足现代测量学对严谨性和可靠性的要求。这也意味着，相比于使用 GRID-HAMD 等标准化工具，使用早期、非标准化的 HAM-D 版本所获得的数据可能可靠性较低。

表1：HAM-D 主要版本项目对比

为了更清晰地展示不同版本间的关系，下表比较了 HAMD-17, HAMD-21, HAMD-24 和 HAMD-6 所包含的项目。

项目编号	项目内容	HAMD-17	HAMD-21	HAMD-24	HAMD-6
1	抑郁心境 (Depressed Mood)	✓	✓	✓	✓
2	负罪感 (Feelings of Guilt)	✓	✓	✓	✓
3	自杀 (Suicide)	✓	✓	✓
4	入睡困难 (Insomnia: Early)	✓	✓	✓
5	睡眠不宁 (Insomnia: Middle)	✓	✓	✓
6	早醒 (Insomnia: Late)	✓	✓	✓
7	工作和兴趣 (Work & Interests)	✓	✓	✓	✓
8	迟缓 (Retardation)	✓	✓	✓	✓
9	激越 (Agitation)	✓	✓	✓
10	焦虑: 精神性 (Anxiety: Psychic)	✓	✓	✓	✓
11	焦虑: 躯体性 (Anxiety: Somatic)	✓	✓	✓
12	躯体症状: 胃肠道 (Somatic: GI)	✓	✓	✓
13	躯体症状: 全身性 (Somatic: Gen)	✓	✓	✓	✓
14	性症状 (Genital Symptoms)	✓	✓	✓
15	疑病 (Hypochondriasis)	✓	✓	✓
16	体重减轻 (Weight Loss)	✓	✓	✓
17	自知力 (Insight)	✓	✓	✓
18	日夜变化 (Diurnal Variation)		✓	✓
19	人格解体/现实解体 (Deperson.)		✓	✓
20	偏执症状 (Paranoid Symptoms)		✓	✓
21	强迫症状 (Obsessional Sym.)		✓	✓
22	无助感 (Helplessness)			✓
23	无望感 (Hopelessness)			✓
24	无价值感 (Worthlessness)			✓

注：项目内容和编号主要基于 HAMD-24。HAMD-6 的项目选择基于 17。

III. 施测与评分方法

A. 临床医生评定方法：访谈与观察

HAM-D 是一种他评量表，必须由临床医生通过对患者进行临床访谈，并结合对患者行为的直接观察来完成评分（用户查询3）。评估通常关注患者在过去一周内的症状表现 3。

完成一次评估所需的时间因版本和患者状况而异。例如，HAMD-24 的施测时间大约需要 15-20 分钟，如果患者存在严重的精神运动迟缓，则可能需要更长时间 19。HAMD-17 的施测时间估计在 16-30 分钟之间 3，或 15-20 分钟 14。相比之下，项目数较少的子量表（如 6-8 项）则快得多，大约只需要 5 分钟 14。用户查询中提到的“5分钟”可能指的就是这类简版量表或特定场景下的快速评估，而非标准 HAMD-17 或 HAMD-24 的完整施测。

评分时，评定者需要整合来自不同渠道的信息。有些项目主要依据患者的口头叙述（如抑郁心境、负罪感），有些则更多依赖于评定者的观察（如精神运动迟缓、激越），还有些项目（如抑郁心境）需要兼顾两者 19。此外，对于某些项目（如工作和兴趣、自知力、体重减轻），可能还需要参考家属或病房工作人员提供的信息，或者体重记录等客观资料 19。

B. 评定员培训与标准化（包括双评定员方案）

由于 HAM-D 评分涉及临床判断，因此对评定员进行专门培训至关重要（用户查询7）。理想的评定员应具备精神病理学知识和临床经验，例如精神科医生或临床心理师 7。

为了提高评分的可靠性，特别是在研究或要求较高的临床设置中，通常推荐采用两名经过培训的评定员对患者进行联合检查（共同访谈），然后在检查结束后独立评分 （用户查询12）。这种做法有助于减少个体偏见，提高评分者间信度（Inter-rater reliability, IRR）。

对训练有素的评定员和标准化程序（如双评定员方案、结构化访谈指导）的强调，恰恰突显了像 HAM-D 这样的他评量表所固有的主观性成分。量表评分并非简单的客观读数，而是临床医生将观察到的现象和患者报告的信息，通过其专业判断转化为数字评分的过程 15。这个过程不可避免地带有主观色彩。因此，培训 7、双人评定 12 以及结构化指导 2 等措施，都是为了最大限度地减少这种主观性，提高测量的一致性（即信度）3。这也意味着 HAM-D 评分数据的质量在很大程度上取决于评定员的培训水平和施测程序的规范程度。如果这些标准不一（正如历史上存在的情况 15），那么不同研究或不同临床实践中获得的 HAM-D 分数就很难进行直接比较。这与自评量表（如 PHQ-9）形成了鲜明对比，后者施测简单，但完全依赖于患者的自我感知 1。

C. 项目评分标准

HAM-D 的项目评分采用 Likert 式等级标度。大部分项目采用 0-4 分的 5 级评分法，少数项目采用 0-2 分的 3 级评分法 3。评分的锚点（anchor points）描述了不同严重程度的症状表现。例如：

0 分 通常代表“无”该症状 (Absent) 19。
1 分 可能代表“轻度”(Mild) 或“可疑/微不足道”(Doubtful/Trivial) 或“偶尔”(Occasional) 19。
2 分 可能代表“中度”(Moderate) 或“存在”(Present) 或“经常”(Frequent) 19。
3 分 通常代表“重度”(Severe) 19。
4 分 代表“极重度”(Very Severe) 或“丧失能力”(Incapacitating) 19。

具体的锚点描述因项目而异（例如，23 中给出了 HAMD-17 各项目的详细锚点描述）。然而，原始版本中某些锚点的定义可能不够清晰或存在问题，这也是推动后续版本（如 GRID-HAMD）进行修订的原因之一 28。

D. 总分计算

HAM-D 的总分通常是将各个项目的得分相加得到。对于最常用的 HAMD-17，总分是前 17 个项目得分的总和 4。对于 HAMD-21 或 HAMD-24，总分通常是所有 21 个或 24 个项目得分的总和（尽管 23 提到原始 21 项版本也可能只用前 17 项计分，提示需要明确所用版本的计分规则）。

不同版本的最高可能总分也不同。例如，HAMD-17 的总分范围通常被认为是 0-52 分或 0-53 分 4。一份中文文献提到的 17 项版本总分范围是 0-50 分 21。HAMD-24 的总分则会更高，因为包含了更多项目。

IV. HAM-D 分数解释：严重程度与临床变化

A. 判定严重程度等级：界值分数

HAM-D 总分常被用来划分抑郁症状的严重程度等级，如无抑郁/正常范围、轻度、中度、重度或极重度。然而，文献中报告的用于划分这些等级的界值分数（cutoff scores）存在显著差异。

以下是一些常见的 HAMD-17 界值范围，但需注意其不一致性：

无抑郁 / 正常范围 / 临床缓解 (Remission)：通常定义为 0-7 分 3。
轻度抑郁 (Mild Depression)：界值范围变化较大，常见的有 8-13 分 4、8-16 分 10、7-17 分 8 或 10-13 分 24。
中度抑郁 (Moderate Depression)：界值同样不统一，常见的有 14-18 分 4、17-23 分 10、18-24 分 8 或 14-17 分（轻至中度）24。
重度抑郁 (Severe Depression)：界值包括 19-22 分 4、≥24 分 10、≥25 分 8 或 >17 分（中至重度）24。
极重度抑郁 (Very Severe Depression)：有时定义为 >22 分 或 >23 分 4。

一项基于对 627 名门诊重性抑郁障碍患者的大样本研究，通过接受者操作特征（ROC）曲线分析，旨在根据临床总体印象量表-严重程度（CGI-S）评分来经验性地确定 HAMD-17 的最佳界值。该研究推荐使用以下范围：0-7 分（无抑郁），8-16 分（轻度），17-23 分（中度），≥24 分（重度） 10。这项研究为选择界值提供了一个基于数据的参考。

在特定情境下，也可能使用不同的界值。例如，许多临床试验要求入组患者的 HAMD-17 评分 ≥20 分，以确保纳入至少达到中等严重程度的患者 3。

中文文献中报告的界值也存在差异。例如，一份文献 19 对 HAMD-24 的解释为：总分 <8 分提示无抑郁症状，>20 分可能为轻或中度抑郁，>35 分可能为严重抑郁。另一份文献 25 对 HAMD（未明确版本，但评分标准类似 24 项）的划分为：<8 分为非抑郁组，≥8 分为抑郁组，其中 8-20 分为轻度，21-35 分为中度，≥35 分为重度。还有一份文献 21 对 17 项版本的划分为：<6 分轻度，7-16 分中度，17-23 分重度，>24 分极重度。这些差异进一步凸显了界值的不统一性。此外，针对特殊人群，如伴有神经系统疾病（帕金森病、卒中、阿尔茨海默病）的患者，可能需要设定不同于一般人群的界值分数，因为这些疾病本身的症状可能与抑郁症状重叠，影响 HAM-D 评分 31。

HAM-D 严重程度界值在不同文献、不同地区甚至不同研究中的显著差异，表明目前缺乏一个普遍公认的、统一的标准。这种不一致性可能源于建立界值的方法不同（如专家共识 vs. 经验数据分析 30）、研究人群的差异、或是量表应用的具体目的不同（临床实践 vs. 研究入组）。这意味着，在解读一个具体的 HAM-D 分数时，必须了解其所依据的严重程度划分标准，否则可能产生误导。因此，在任何临床报告或研究论文中，清晰地说明所采用的界值标准至关重要。

表2：HAMD-17 常用严重程度界值比较

下表汇总了部分文献中报告的 HAMD-17 严重程度界值，以展示其差异性。

严重程度等级	Zimmerman et al. 2013 (基于CGI-S)	Medscape / QxMD	APA (引自 )	AHRQ	Frank et al. / 共识 (缓解标准)	临床试验入组常用标准
无抑郁 / 正常 / 缓解	0–7	< 7	0–7	< 10 (隐含)	≤ 7	-
轻度	8–16	7–17	8–13	10–13	-	-
中度	17–23	18–24	14–18	14–17 (轻-中)	-	≥ 20 (至少中度)
重度	≥ 24	≥ 25	19–22	> 17 (中-重)	-	-
极重度	-	-	> 23	-	-	-

注：此表仅为示例，不同来源的具体界值可能略有出入。选择和应用界值时应参考原始文献和具体研究背景。

B. 定义治疗反应与缓解：标准与细微差别

除了评估静态的严重程度，HAM-D 更重要的应用在于衡量治疗引起的变化。两个关键概念是“治疗反应”（Response）和“临床缓解”（Remission）。

治疗反应 (Response)：通常定义为 HAM-D 总分相对于基线（治疗前）减少 ≥ 50% 4。这是一个相对变化指标。有研究将 HAMD-17 分数的百分比变化与临床总体印象-改善程度量表（CGI-I）评分相关联，发现 CGI-I 评分为“明显改善”（much improved）大致对应于 HAMD-17 分数从基线降低 50%-57% 11。
临床缓解 (Remission)：通常定义为治疗后 HAM-D 总分达到一个低的绝对值，最常用的标准是 HAMD-17 总分 ≤ 7 分 3。这个标准自 1991 年一个专家共识小组推荐以来被广泛采纳 4。

需要注意的是，“缓解”是一个比“反应”更严格的治疗目标，它意味着症状基本消失，而不仅仅是显著改善 11。

关于缓解的界值也存在一些讨论和细微差别。虽然 ≤ 7 分是广泛接受的标准，但有研究者认为，这可能代表的是一个较宽泛的缓解定义。如果采用更严格的、基于 DSM 标准的定义（即临床上显著的抑郁症状完全消失），那么对应的 HAMD-17 缓解界值可能需要更低，甚至可能低至 ≤ 2 分 4。这提示在评估缓解时，需要考虑所采用的操作性定义的严格程度。

V. 心理测量学评估与临床效用

A. 信度评估（评分者间信度、重测信度）

HAM-D 的信度是衡量其测量一致性的重要指标。

评分者间信度 (Inter-rater Reliability, IRR)：指不同评定员对同一患者进行评分时结果的一致性。研究表明，当使用标准化程序和训练有素的评定员时，HAMD-17 的 IRR 可以达到较高水平，例如报告值约为 90% 3 或在 0.82-0.98 之间 29。GRID-HAMD 的研究也显示其具有良好的 IRR 28。
重测信度 (Test-retest Reliability)：指在没有预期发生真实变化的情况下，短时间内重复测量结果的稳定性。HAM-D 总分的重测信度通常被认为是好的（例如 0.81-0.98 29）。然而，个别项目的重测信度可能较差，例如涉及自知力、性症状、疑病和体重减轻的项目 1。GRID-HAMD 在一项临床试验中也评估了其 4 周重测信度 28。
内部一致性信度 (Internal Consistency)：指量表内部各项目间的一致性程度，常用 Cronbach's alpha 系数衡量。HAMD-17 总分的内部一致性通常被认为是可接受到良好的（例如，一项研究报告 alpha 为 0.829 1，另一项报告为 0.88 10）。但也有文献指出，不同研究报告的 alpha 值范围很广（0.46-0.97 29），提示结果可能受样本特性等因素影响。简版量表（如 HAMD-6）的内部一致性可能略低（例如 0.764 1）。

B. 效度证据（同时效度、结构效度）

效度指量表测量其预期目标的准确程度。

同时效度 (Concurrent Validity)：通常通过考察 HAM-D 分数与其他公认的抑郁测量工具或总体严重程度指标（如临床总体印象量表 CGI）之间的相关性来建立。研究显示 HAM-D 分数与 PHQ-9 1、CGI 10 等指标有显著的正相关。GRID-HAMD 也显示出与 SIGH-D 具有高同时效度 28。
结构效度 (Construct Validity)：涉及量表是否能准确测量其声称要测量的理论构念（即抑郁严重程度）。因子分析是评估结构效度的常用方法。然而，对 HAMD-17 的因子分析结果通常揭示其具有多维性（见下文 V.C），而非单一结构。例如，一项研究发现 HAMD-17 包含两个因子，而 MADRS 和 HAMD-6 则呈单维性 17。另一项针对青少年的研究识别出三个维度 27。一项在中国脑损伤患者中进行的研究也确认了一个四因子结构 25。相比之下，PHQ-9 则被报告为单因子结构 1。这些结果对 HAMD-17 的结构效度提出了一些挑战，表明其可能同时测量了抑郁相关的多个不同方面。

C. 维度之争：多维性 vs. 单维子量表

关于 HAM-D（特别是 HAMD-17）的维度结构，一直存在争论。大量的研究一致发现 HAMD-17 是一个多维量表 16，即它包含了多个潜在的、相对独立的症状因子或维度。例如，19 提到了焦虑/躯体化、体重、认知障碍、日夜变化、迟缓等因子结构；27 在青少年中发现了精神性抑郁/运动迟缓、思维障碍、睡眠障碍/焦虑三个维度。

HAMD-17 的多维性具有重要含义。首先，这意味着总分是由来自不同症状群（如情绪、认知、躯体、睡眠等）的分数累加而成，可能掩盖了特定维度的变化。例如，某项治疗可能显著改善了患者的情绪症状，但对睡眠影响不大，总分的变化可能无法充分反映这种差异性的改善。其次，多维性可能降低量表对治疗效果的敏感性或区分不同治疗方法的能力，因为治疗效果可能主要体现在某个或某几个维度上，而总分的变化可能被其他未变化的维度所“稀释” 17。

正是基于对 HAMD-17 多维性的认识和批评，研究者们致力于开发更单维的子量表（如前述的 HAMD-6, HAMD-7 等）或推荐使用其他被认为更具单维性的量表（如 MADRS 17）。这些单维量表旨在更纯粹地测量一个核心的抑郁构念，理论上可能对抑郁严重程度的真实变化更为敏感 16。14 分析了多个这样的子量表。

HAM-D 维度结构的争论，实际上反映了对抑郁本身测量方式的一个根本性张力：抑郁是一个单一的潜在构念，还是一个由相关但又相对独立的症状群构成的综合征？HAMD-17 的结构似乎体现了后者，它广泛地涵盖了各种症状。而开发单维子量表的努力则倾向于前者，试图分离出一个更“纯粹”的抑郁核心。这种张力意味着，选择使用完整的 HAM-D 还是某个子量表，可能取决于研究或临床的具体目标：是希望全面评估广泛的抑郁综合征表现，还是希望更精确地测量某个假设的核心维度的变化。子量表在某些情况下（如评估特定药物效果或快速变化）表现更优 16，这提示多维的总分确实可能在某些情境下缺乏足够的敏感性。

D. 临床试验与实践中的变化敏感性

HAM-D 的核心用途之一是测量治疗结果，即采用“治疗前-治疗后”的模式来评估症状变化 15。它对检测药物（尤其是早期抗抑郁药）的疗效具有一定的敏感性 6。

然而，其敏感性也受到质疑。有证据表明，在某些情况下，子量表可能比总分更敏感，尤其是在评估新型药物（如 SSRIs）的效果或检测快速出现的疗效（如氯胺酮治疗后几小时内的变化）时 16。一项研究发现，对于快速抗抑郁效果，包含项目数少于完整 HAMD 但多于两项的量表可能效果最佳 18。

项目反应理论（Item Response Theory, IRT）分析为理解各项目的贡献提供了更深入的视角。IRT 分析显示，HAMD 中的某些项目（如抑郁心境、工作和兴趣、负罪感、精神性焦虑、躯体性焦虑、全身性躯体症状）在区分不同严重程度的抑郁时具有较好的判别属性，更接近“理想”项目 14。然而，与其他量表相比，HAMD-17 的项目判别力可能并非最优。例如，一项研究发现 PHQ-9 的项目判别参数普遍高于 HAMD-17 1。另一项研究发现 MADRS 和 HAMD-6 的项目通常比 HAMD-17 的项目对抑郁测量的贡献更大（表现为更高的项目-总分相关性和 IRT 斜率参数）17。

最后，需要强调区分统计学显著性与临床显著性的重要性 6。HAM-D 分数在统计学上的显著变化，并不一定意味着患者感受到了有意义的改善。将 HAM-D 分数变化与临床总体印象（CGI）等更能反映临床医生整体判断的指标相关联，有助于弥合这一差距，更好地理解分数变化的实际临床意义 11。

VI. HAM-D 的定位：优势、局限与“金标准”之辩

A. 公认优势与持久作用

HAM-D 在精神科评估领域具有不可否认的历史地位和影响力。

历史意义与“金标准”地位：它长期以来被视为抑郁研究（尤其是药物试验）的“金标准” 3。虽然这一地位目前受到挑战，但其历史上的广泛应用使得跨研究比较（尤其与旧有研究的比较）成为可能（尽管版本不统一给比较带来复杂性 2）。
症状覆盖广泛：HAM-D 涵盖了抑郁症的多种核心及伴随症状，提供了一个相对全面的症状严重程度快照（用户查询9）。
量化严重程度与追踪变化：它提供了一种将临床观察和访谈转化为定量分数的方法，便于量化病情严重程度和追踪治疗过程中的变化（用户查询11）。一些中文文献也肯定了其作为经典量表的地位，认为其方法简单、标准明确、便于掌握 19。

B. 已识别的局限性与批评

尽管 HAM-D 应用广泛，但其局限性也日益受到关注。

心理测量学问题：包括前述的多维性 16、部分项目信度不佳 1、以及相比于子量表或其他量表可能存在的敏感性不足 1。
侧重躯体症状：HAM-D 对躯体症状和焦虑症状的侧重 1，可能导致在伴有躯体疾病的患者中夸大抑郁的严重程度 3，或者掩盖了心理症状的改善。量表中甚至包含了可能反映药物副作用的项目 1。
对非典型症状评估不足：该量表未能充分评估抑郁症的非典型症状，如睡眠过多、食欲增加等 3。
对特定人群适用性有限：例如，对于双相抑郁患者，其非典型症状表现可能使 HAM-D 不太适用 3。对于伴有神经系统疾病的患者，可能需要调整界值 31。
与现代诊断标准的脱节：HAM-D 的开发早于现代诊断系统（如 DSM-IV/5），其项目内容和结构可能与当前对抑郁症的理解不完全一致 15。
评定的主观性与标准化需求：作为他评量表，其评分依赖临床判断，需要大量培训和标准化程序来保证可靠性，这增加了使用成本和难度 (见 III.B 讨论)。
历史背景的潜在偏倚：其开发与早期药物紧密相关，可能使其结构偏向于测量那些药物能改善的症状，而非纯粹反映抑郁症的核心病理 (见 I.B 讨论)。

C. 与替代测量工具的比较（如 MADRS, PHQ-9）

随着精神科评估工具的发展，出现了多种可替代 HAM-D 的量表。

与 MADRS 比较：蒙哥马利-艾森伯格抑郁评定量表（Montgomery-Åsberg Depression Rating Scale, MADRS）是另一种常用的他评量表，尤其在欧洲使用广泛 17。研究表明，MADRS 可能比 HAMD-17 更具单维性，且在测量抑郁严重程度方面可能具有更高的精确度和敏感性 17。17 提供了两者分数的大致对应关系（如 HAMD-17 得 7 分约等于 MADRS 得 8-9 分）。4 提供了 MADRS 的评分和界值可供参考。
与 PHQ-9 比较：患者健康问卷-9（Patient Health Questionnaire-9, PHQ-9）是一个简短的自评量表，其项目基于 DSM-IV 抑郁诊断标准 1。相比于 HAM-D，PHQ-9 的优势在于：简便、快速、易于使用（无需临床医生评分，可由患者自行完成）；一些研究显示其在信度、效度（单维结构）和区分严重程度上可能优于或至少不亚于 HAMD-17 1。PHQ-9 关注过去两周的症状频率 1。1 的结论是 PHQ-9 是一个可靠、有效、可作为 HAMD-17 替代方案的工具。
其他量表：还存在其他常用的抑郁评估工具，如贝克抑郁自评量表（Beck Depression Inventory, BDI）18、Zung 抑郁自评量表（Self-rating Depression Scale, SDS）12、老年抑郁量表（Geriatric Depression Scale, GDS）34 等。

替代量表（如 MADRS）的出现，以及特别是自评工具（如 PHQ-9）的兴起，反映了精神科评估领域的一个转变趋势：倾向于使用可能具有更优心理测量学特性、更以患者为中心、且更具效率的工具。这直接挑战了 HAM-D 的持续主导地位。MADRS 可能在精确性上优于 HAMD-17 17。PHQ-9 则在简便性、与现代诊断标准的契合度以及部分研究显示的 psychometric 优势方面具有吸引力 1。自评量表的优势（反映患者主观感受、节省临床医生时间 1）与 HAM-D 评定所需的大量资源（培训、时间、标准化程序）形成对比。这表明，尽管 HAM-D 因其历史地位和与既往研究的可比性而仍在广泛使用，但基于现代心理测量理论（如 IRT 1）和诊断标准（如 DSM 1）开发的新量表，可能在许多实践和研究场景中提供科学或实用上的优势。

D. 评估现代精神病学中的“金标准”地位

HAM-D 历史上确实被冠以“金标准”的称号 3。然而，鉴于前述的诸多局限性——心理测量学缺陷（多维性、部分项目信度问题）、对躯体症状的偏重、与现代诊断标准和非典型症状的不匹配、使用中的变异性、以及更优替代工具的出现——其“金标准”地位在现代精神病学中受到了越来越多的质疑和挑战。有文献直言其“统治地位可能受限”，并称其为一种“奇怪的标准” 15。有研究基于其缺陷认为它可能“不适合”临床评估 1。还有研究者指出，尽管其地位崇高，但它在“概念上和心理测量学上都存在缺陷” 3。

因此，结论是，虽然 HAM-D 在历史上起到了关键作用，并且为了保持与大量既往研究的一致性而仍被广泛使用，但其“金标准”的称号已不再是绝对的。其适用性高度依赖于具体的应用场景、所选择的版本、施测的标准化程度以及使用者对其局限性的充分认识。在许多情况下，考虑使用其他更现代、可能更精确或更高效的评估工具可能是更优的选择。

VII. 结论与建议

A. HAM-D 综合概述

汉密尔顿抑郁量表（HAM-D）自 1960 年问世以来，一直是评估抑郁严重程度的重要工具，尤其在临床研究领域扮演了核心角色。它是一种由临床医生评定的量表，通过半结构化访谈和观察，对抑郁相关的多方面症状进行量化评分。在其发展历程中，衍生出了多种版本（如 17 项、21 项、24 项）以及旨在改善其心理测量学特性的简版量表（如 HAMD-6, HAMD-7）和标准化版本（如 GRID-HAMD）。其主要功能在于评估已确诊抑郁症患者的症状严重程度，并追踪治疗（尤其是药物治疗）过程中的病情变化。

B. 版本选择与应用考量

版本选择：选择哪个 HAM-D 版本应基于具体目的。HAMD-17 因其广泛应用而便于跨研究比较；若需关注特定的认知/情感症状（如无望感）且当地实践支持，可考虑 HAMD-24；若侧重核心症状或追求更高的潜在敏感性，可考虑 HAMD-6/7 等子量表；若追求最高的施测标准化和信度，GRID-HAMD 是理想选择。无论选择哪个版本，在报告中清晰注明所用版本至关重要 2。
界值应用：应用严重程度界值时需谨慎。应认识到文献中界值存在显著变异性，且可能需要针对特定人群（如伴躯体疾病者）调整。建议优先选用有经验数据支持的界值（如 Zimmerman 等人的研究结果 10），但务必明确说明所采用的划分标准。
考虑替代工具：根据具体需求，应考虑是否其他量表更为合适。例如，若需患者自我报告、快速筛查或与 DSM 标准紧密结合，PHQ-9 是强有力的替代方案；若在研究中追求高敏感性，MADRS 值得考虑。

C. 强调最佳实践：施测与解释

标准化施测：HAM-D 的信度高度依赖于评定过程。强烈建议使用训练有素的评定员，并遵循标准化的施测程序，最好使用结构化访谈指导（如 SIGH-D 或 GRID-HAMD），以最大限度地提高数据质量和可比性。
结合临床背景解释：解读 HAM-D 分数时，必须结合其已知的局限性。例如，在躯体共病患者中需警惕躯体症状对总分的潜在影响；认识到其对非典型症状可能不敏感。
整合性评估：HAM-D 评分应作为临床评估的一部分，而非唯一依据。需将其结果与临床医生的整体判断、患者的主观体验以及其他评估工具（若使用）的信息相结合。同时，要区分统计学上的分数变化与临床上对患者有意义的改善。

总之，HAM-D 作为一个历史悠久且影响深远的工具，在特定条件下仍有其应用价值。然而，使用者必须充分了解其不同版本、评分标准的多样性、固有的局限性以及可用的替代方案，并严格遵循最佳实践进行施测和解释，才能使其在临床和研究中发挥有效作用。

引用的著作

The Patient Health Questionnaire-9 vs. the Hamilton Rating Scale for Depression in Assessing Major Depressive Disorder - PMC - PubMed Central, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC8599822/
Standardizing the Hamilton Depression Rating Scale: past, present, and future - PubMed, 访问时间为四月 21, 2025， https://pubmed.ncbi.nlm.nih.gov/11824839/
Hamilton Depression Rating Scale, 17 item (HAM-D-17) | NP Psych Navigator, 访问时间为四月 21, 2025， https://www.nppsychnavigator.com/Clinical-Tools/Psychiatric-Scales/Hamilton-Depression-Rating-Scale,-17-item-(HAM-D-1
VALIDITY OF OUTCOME MEASURES - Aripiprazole (Abilify): Depression, Major Depressive Disorder (MDD) - NCBI Bookshelf, 访问时间为四月 21, 2025， https://www.ncbi.nlm.nih.gov/books/NBK409740/
Hamilton Depression Rating Scale (HDRS), 访问时间为四月 21, 2025， https://dcf.psychiatry.ufl.edu/files/2011/05/HAMILTON-DEPRESSION.pdf
Rating scales in depression: limitations and pitfalls - PMC - PubMed Central, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC3181766/
漢氏憂鬱量表- 憂鬱好文章- 社團法人臺灣憂鬱症防治協會, 访问时间为四月 21, 2025， https://www.depression.org.tw/knowledge/info.asp?/48.html
Hamilton Depression Rating Scale (HAM-D or HDRS) - Medscape, 访问时间为四月 21, 2025， https://reference.medscape.com/calculator/146/hamilton-depression-rating-scale-ham-d-or-hdrs
Hamilton Rating Scale for Depression - Wikipedia, 访问时间为四月 21, 2025， https://en.wikipedia.org/wiki/Hamilton_Rating_Scale_for_Depression
Severity classification on the Hamilton Depression Rating Scale | Request PDF - ResearchGate, 访问时间为四月 21, 2025， https://www.researchgate.net/publication/239062709_Severity_classification_on_the_Hamilton_Depression_Rating_Scale
Validation of the 17-item Hamilton Depression Rating Scale definition of response for adults with major depressive disorder using equipercentile linking to Clinical Global Impression scale ratings, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC5008690/
神经科常用心理评估量表简介丨17天神经心理疾病诊治突破⑰ - 壹生, 访问时间为四月 21, 2025， https://www.cmtopdr.com/post/detail/12efb81e-92cd-45a2-bf5d-913653029f07
HAM-D17 | Hamilton Depression Rating Scale - 17 items described in ePROVIDE, 访问时间为四月 21, 2025， https://eprovide.mapi-trust.org/instruments/hamilton-depression-rating-scale-17-items
Usefulness of Hamilton rating scale for depression subset scales and full versions for electroconvulsive therapy - PMC, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC8577745/
The Hamilton Rating Scale for Depression: The making of a “gold standard” and the unmaking of a chronic illness, 1960–1980, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC3837544/
clinical trials in depression - Scholarly Publications Leiden University, 访问时间为四月 21, 2025， https://scholarlypublications.universiteitleiden.nl/access/item%3A2926348/download
The Montgomery Äsberg and the Hamilton Ratings of Depression: A Comparison of Measures - PMC, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC2151980/
Rating Depression Over Brief Time Intervals with the Hamilton Depression Rating Scale: Standard vs. Abbreviated Scales, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC4308518/
宁波市康宁医院心测室汉密尔顿抑郁量表（HAMD）, 访问时间为四月 21, 2025， http://www.nbknyy.com/art/2017/1/20/art_2771_46232.html
ChiCTR2200058530 版本V1.3 版本创建时间2022/12/28 13:19:38 中国临床试验注册中心, 访问时间为四月 21, 2025， https://www.chictr.org.cn/hvshowproject.html?id=206198&v=1.3
中国CPH - 中国公共卫生, 访问时间为四月 21, 2025， https://www.zgggws.com/cn/article/pdf/preview/10.11847/zgggws2001-17-12-03.pdf
世界卫生组织国际临床试验注册平台一级注册机构, 访问时间为四月 21, 2025， https://www.chictr.org.cn/showproj.html?proj=194716
Hamilton Depression Rating Scale (HAM-D) - MDCalc, 访问时间为四月 21, 2025， https://www.mdcalc.com/calc/10043/hamilton-depression-rating-scale-hamd
Hamilton Depression Rating Scale - AHRQ Academy, 访问时间为四月 21, 2025， https://integrationacademy.ahrq.gov/sites/default/files/2020-07/HDRS.pdf
汉密尔顿抑郁量表应用于脑损伤患者的因子分析, 访问时间为四月 21, 2025， http://sjssygncj.chmed.net/ch/reader/download_pdf_file.aspx?journal_id=sjssgncj&file_name=B3147901C258E49046B36968F8B57C4EC1ABDD1C2BCC1E84BB381DC945A20ADD8C4D0C39386835FDB21AE430C2FDACB5824DDF168AAD03FB47E4E480F7DB124E&open_type=self&file_no=20220713
应用修改的汉密尔顿抑郁量表评估正在接受有创机械通气患者的抑郁状态∗ - 临床急诊杂志, 访问时间为四月 21, 2025， https://lcjz.whuhzzs.com/data/article/lcjz/preview/pdf/20150317.pdf
Dimensions of the Hamilton Depression Rating Scale Correlate with Impulsivity and Personality Traits among Youth Patients with Depression, 访问时间为四月 21, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC10003156/
The GRID-HAMD: standardization of the Hamilton Depression Rating Scale - PubMed, 访问时间为四月 21, 2025， https://pubmed.ncbi.nlm.nih.gov/18408526/
Hamilton Rating Scale for Depression (HAM-D) - STOP, THAT and One Hundred Other Sleep Scales, 访问时间为四月 21, 2025， https://www.med.upenn.edu/cbti/assets/user-content/documents/Hamilton%20Rating%20Scale%20for%20Depression%20(HAM-D).pdf
Severity classification on the Hamilton Depression Rating Scale - PubMed, 访问时间为四月 21, 2025， https://pubmed.ncbi.nlm.nih.gov/23759278/
Disease-Specific Properties of the Hamilton Rating Scale for Depression in Patients With Stroke, Alzheimer's Dementia, and Parkinson's Disease - Psychiatry Online, 访问时间为四月 21, 2025， https://psychiatryonline.org/doi/full/10.1176/jnp.14.3.329
不同程度抑郁个体注意抑制能力特点研究
Study of Attention Inhibition Characteristics in Individuals with Different Degrees of Depression - 汉斯出版社, 访问时间为四月 21, 2025， https://image.hanspub.org/html/14-1130333_13793.htm
神经科常用心理评估量表简介丨17天神经心理疾病诊治突破⑰ - 壹生, 访问时间为四月 21, 2025， https://apps.medtrib.cn/media/phone/post/app/12efb81e-92cd-45a2-bf5d-913653029f07.html
中文版抑郁量表信效度研究的系统综述, 访问时间为四月 21, 2025， https://html.rhhz.net/zhlxbx/20170121.htm

$汉密顿抑郁量表 - AI深度研究报告