智能手表测得最不准的指标，竟然是这些……

智能手表测得最不准的指标，竟然是这些……

从最准到最不准，一张表格总结手表测量指标。

从心率、血压、睡眠到能量消耗、疲劳状况、最大摄氧量，智能手表手环显示的指标越来越多，可感觉有些值测得不准啊？

你的感觉没错，各项指标的准确程度差别很大，有的准到医生都会拿去参考、有的只适合随便看看。

下面的表格为大家总结了一些常见指标的准确程度，准确性最高为5星，最低为1星。

这里没有一项指标达到5星，也就是没有数据是绝对准确的。为什么会测不准呢？可能跟测量方法、传感器、算法、佩戴和解读方式有关。

接下来，我们把更详细的内容填入表格：为什么准或不准、有多准、怎么做才能测得更准确。看到文末，你将获得一张信息量翻倍的表格，还有怎么使用各项指标的判断能力。

 准不准，看指标是测量的、估算的还是新创的 

现在一块几十克的智能手表，能集成近10种传感器，比如测量心率的光电传感器、测经纬度的GPS传感器，还有气压、温度、加速度传感器等等。

可穿戴设备（智能手表、手环、戒指等）通过传感器直接测量，为我们显示有限的一批基础指标（原始数据也需要算法处理，为了方便理解这里写为直接测量）；这批指标经过整合和计算，再源源不断地产出无限的新指标。也就是，只要有生理学、运动生理学作为基础，几个基础指标倒来倒去就可以得到一堆指标。

指标是越来越多了，但它们全都靠谱吗？只要测量，就一定不可避免出现误差，但多数指标都存在一个公认误差最小的测量方法，这种方法一般被称为“金标准”。举例来说，测量心率的金标准是心电图，测睡眠时间和阶段的是多导睡眠监测，测能量消耗的是双标记水法。

金标准一般在实验室条件下测量，大部分设备昂贵，测量步骤复杂，还需要有经验的操作人员协助。目前智能手表、手环或戒指提供的指标里，没有一项是通过金标准测出来的。所以，文章开头的表格里，没有一个指标能得到5星。牺牲一些数据准确性，可穿戴设备换来了更方便、成本更低的测量方式。

测量心率的金标准是心电图；智能手表可连续测量心率，简便但准确性稍低丨medpick/新浪众测

存在金标准的指标里，有些数据是直接测量得出或通过简单计算得出的，比如通过光电传感器测量心率、通过运动距离和时间计算配速。

还有些数据，是在直接测得数据的基础上，通过算法估算出来的，就像通过心率和加速度计的数据估算能量消耗。不同厂商的算法可能不一样，同一家的算法也可能不断改进，所以得出的结果也许差距很大。多数情况下，估算出来的数据不如直接测量的准确。

另外一些没有金标准的指标，可以说大部分都不太准确。这些指标，很多只存在于运动科学的概念中（例如负荷、疲劳、恢复），无法准确衡量，有时候会以主观感受作为标准。甚至有的指标不存在科学定义，是厂商之间“军备竞赛”创造出的指标。

差距有多大？跟金标准比比就知道了

想知道指标有多准，分别用可穿戴设备和金标准测量，然后比较结果，不就知道了吗？

其实大部分厂商们也是这么干的，但是差距有多大，他们一般不会说。不过，通过分析数据是如何得到的，以及看研究人员发表的文章，还是可以大致了解数据的准确性。

心率，目前最准确的指标之一

心率与众多健康和运动相关的指标有关，手表手环会直接显示心率，也可以提供很多基于心率估算的指标。于是，心率测量的准确性，决定了很多其他指标的准确性。

测量心率的金标准是心电图，通过放在胸部和四肢的电极，检测心脏的电活动并测量心率。

可穿戴设备连续显示心率时，测量方式通常是光电体积描记法（photoplethysmography, PPG）。这种测量方式会受到多种因素影响，例如运动强度、运动类型、腕部活动、腕带松紧、皮肤色素和表面的污垢、心律失常等。

根据18项研究的综合测试，心率测量在静息状态或低强度运动时较为准确，随着运动强度的增加，能测出数据的几率和数据的可靠性会显著降低。在一个综合249项研究的分析中，心率测量平均误差为±3%。

因此，在安静状态下，可穿戴设备显示数值稳定时，心率数据相对可信，可以用来帮助判断健康和锻炼情况。剧烈运动时数据准确性降低，如果想获得更准确的数据，可以佩戴胸式心率带。

胸式心率带 ｜ polar

睡眠，总时间略优于阶段和质量

有些人一睡醒就先看昨晚的睡眠指标，本来感觉睡得很好，看到较低的总体评分又顿感疲劳，其实大可不必。

测量睡眠的金标准是多导睡眠监测，“多导”指同时测量多种信号，包括脑电图、心电图、眼动图和肌电图等。得到原始数据后，睡眠专家会综合各项结果得出睡眠时间，并手动评分来分析睡眠阶段。

多导睡眠监测示意图 ｜ verywell

可穿戴设备评价睡眠的方式，是通过测量心率和手腕活动（加速度传感器），算出心率变异性和呼吸频率等指标，再结合个人的年龄、身高、体重和性别等背景信息，基于神经网络模型，最终得到上床和起床时间、睡眠开始和结束时间、睡眠总时长和睡眠潜伏期、清醒时长，各个睡眠阶段的时长和比例，以及基于这些信息得出的总体睡眠评分。

可穿戴设备评价睡眠方式 ｜ 作者供图

从测量方法来看，如果入睡前长时间静止不动，有可能会被误判为进入睡眠状态，高估睡眠总时长。

各个品牌的具体算法不一致，导致了不同的误差。一篇关于可穿戴技术在睡眠中应用的综述文章提到，与多导睡眠图相比，手表在估计睡眠总时间上表现相对良好，整体准确率约为70%～90%；在测量睡眠阶段上的表现较差，浅睡眠判断准确率约为50%～90%，深睡眠和快速眼动睡眠准确率约为30%～80%。

至于总体睡眠评分，医学上并没有对应的评分。医生评价睡眠质量和进行治疗时，会综合入睡时间、睡眠时间、效率、异常状态、催眠药物、白天生活和工作状态等很多指标进行分析。

对于睡眠这类估算出来的指标，其中比较准确的可以作为参考，比如睡眠总时间，其余指标则不应该引起焦虑。整个人状态都很好的话，没有必要因为睡眠总分低而担心，总感觉睡不好可以去医院进行多导睡眠监测，及时发现问题。

恢复情况，最不准确的指标之一

以上指标都有金标准，还有一些指标没有金标准，它们基于某个理论被创造出来，例如恢复情况。

训练要想取得进步，需要不断增加训练压力但又不触及过度训练这条线，因此衡量和检测恢复情况非常重要。但恢复情况是一个非常综合且复杂的指标，它受训练（训练量、类型、强度等）、非训练（工作、人际关系、疾病、药物等）和恢复（睡眠、饮食、恢复时间、恢复手段等）因素影响。

恢复情况受训练、睡眠、饮食等等多种因素影响 ｜ oscarcaregroup

衡量身体经受的压力和恢复情况时，自主神经系统活动是一项重要指标。当身体有压力时，生理上通常表现为交感神经系统活动增加、副交感神经系统活动减少，恢复的时候则相反。有研究显示，分析交感和副交感神经系统相互作用时，心率变异性是一个有力工具。

由于没有金标准，一些可穿戴设备厂商会使用加权模型估算恢复情况。具体方法是收集一系列可能影响恢复的指标，例如心率、睡眠和训练情况等，算出心率变异性、呼吸频率、耗氧量等数据，然后根据运动科学原理对不同指标加权求和，得到的值就代表恢复情况。

恢复状况评分，根据心率变异性、静息心率、睡眠和呼吸频率估算 ｜ WHOOP

这种做法的缺点是无法穷尽所有影响因素，例如生理周期和人际关系可以影响恢复，但可能没有被模型计算在内，导致显示数据与实际状态有差别，用数据作指导时出现训练不足或过度的情况。

但是厂商推出这样的指标是有道理的，因为不是每个人都有足够的知识储备，对以上与恢复相关的原始数据一一分析并加以解释。牺牲部分准确性，做一些简单的假设（比如睡眠少、活动多等于恢复差），一个恢复情况评分的提醒效果，可能比让人看复杂生理数据好得多。

这些指标， 到底该怎么利用？

按文章开头的分类方法，可以把所有指标分成测量、估算、创造的三类。

测量的指标，通常误差比较小，比如心率、距离、心率变异性和配速等。这些指标相对可信，可以用作观察健康状况、调整生活方式和锻炼计划的参考。比如，今天早晨起来心率比平时高，是不是昨晚没有睡好？还是最近锻炼过度了？要不要减量或者休息一天？

估算的指标，是在测量指标的基础上通过算法得出的，例如睡眠、能量消耗和摄氧量等。此时，测量误差叠加算法误差，可能使估算指标的准确性降低。解读这类指标时，需要更加谨慎。就像，总体睡眠评分有时与困倦程度一致，有时存在差距；可穿戴设备估算的步行能量消耗也许比较准确，但抗阻（力量）训练的消耗可能被低估。

以上两者是有金标准的指标，即使目前测量还不是很准确，我们可以期待测量技术或算法进步，使数据越来越逼近准确值。

期待测量数据越来越逼近准确值 ｜ rootriverarchery

创造的指标，是一些不存在测量金标准的指标，它们是在前两类指标的基础上，算法根据一些定义或想法创造出来的，例如恢复情况、训练效果等。由于没有测量金标准可以比较，加上不同厂商之间的传感器硬件和算法不一致、指标的算法也不公开，很难验证数据的准确性。

因此，对于这些创造的指标，我们不必过多纠结于数字的绝对值，可以通过了解指标的变化趋势，结合自己的主观感受，去更主动地理解身体对于日常生活和运动的反应。

此外，设备厂商会定期发布软件更新，及时检查并安装这些更新，确保设备始终使用了最新的算法，这在一定程度上可以提高指标的准确性。

最后这张表格汇总了全文的重要内容，参照它来解读可穿戴设备提供的数据，也许可以帮助你减少些困惑、增加些对健康和锻炼的掌控。

参考文献

[1]Altini M, Plews D. What is behind changes in resting heart rate and heart rate variability? A large-scale analysis of longitudinal measurements acquired in free-living[J]. Sensors, 2021, 21(23): 7932.

[2]Cudejko T, Button K, Al-Amri M. Validity and reliability of accelerations and orientations measured using wearable sensors during functional activities[J]. Scientific reports, 2022, 12(1): 14619.

[3]Shei R J, Holder I G, Oumsang A S, et al. Wearable activity trackers–advanced technology or advanced marketing?[J]. European Journal of Applied Physiology, 2022, 122(9): 1975-1990.

[4]Miller D J, Sargent C, Roach G D. A validation of six wearable devices for estimating sleep, heart rate and heart rate variability in healthy adults[J]. Sensors, 2022, 22(16): 6317.

[5]Germini F, Noronha N, Borg Debono V, et al. Accuracy and acceptability of wrist-wearable activity-tracking devices: systematic review of the literature[J]. Journal of medical Internet research, 2022, 24(1): e30791.

[6]Li Y I, Zhong-Hua L V, Shun-Ying H U, et al. Validating the accuracy of a multifunctional smartwatch sphygmomanometer to monitor blood pressure[J]. Journal of Geriatric Cardiology: JGC, 2022, 19(11): 843.

[7]de Zambotti M, Goldstein C, Cook J, et al. State of the science and recommendations for using wearable technology in sleep and circadian research[J]. Sleep, 2023: zsad325.

[8]https://www.firstbeat.com/en/athletes-recovery-analysis-firstbeat-white-paper-2/

[9]https://www.firstbeat.com/en/firstbeat-white-paper-sleep-analysis-method-based-on-heart-rate-variability/

[10]Doherty C, Baldwin M, Keogh A, Caulfield B, Argent R. Keeping Pace with Wearables: A Living Umbrella Review of Systematic Reviews Evaluating the Accuracy of Consumer Wearable Technologies in Health Measurement. Sports Med. 2024 Jul 30. doi: 10.1007/s40279-024-02077-2. Epub ahead of print. PMID: 39080098.

本文来自微信公众号“果壳”（ID：Guokr42），作者：ZIYI，36氪经授权发布。

智能手表测得最不准的指标，竟然是这些……

准不准，看指标是测量的、估算的还是新创的

差距有多大？跟金标准比比就知道了

心率，目前最准确的指标之一

睡眠，总时间略优于阶段和质量

恢复情况，最不准确的指标之一

这些指标， 到底该怎么利用？

这些指标，到底该怎么利用？