结果
3.1纳入量表的总体特征
去重后的110条检索记录中,14篇文献(英文10篇、中文4篇)及对应的14个量表和20个研究符合纳入标准(表1),发表时间为1996—2020年。根据量表的目标对象,可分为不限人群和环境对象的基本表、以8~11岁儿童为人群对象的儿童表,以及以旅游地为环境对象的旅游表等类型。量表全部为李克特式,项目数为11~30个,选项等级有5、7、11级。
量表维度设置除吸引因素外,差异明显:延展方面,PRS-16等9个量表只设1个分量表测量延展或连贯,PRS-26与PRS-11分别设置了连贯和范围2个分量表,PDRQ同时设置了延展和连贯分量表;远离方面,PRS-16等8个量表只设置1个分量表测量远离或心理远离,PRCQ等5个量表分别设置了新奇(物理远离)和逃逸(心理远离)分量表;相容方面,除PRS-11外,均设置相容分量表。施测人群方面,旅游表和儿童表的施测样本与目标人群基本相同,基本表多以大学生为样本。施测环境方面,PRS-16等9个量表同时施测了多个环境,PRS-22等5个量表只施测了1个环境样本。环境呈现方式方面,旅游表和儿童表多用现场或回忆呈现,基本表多用照片或录像呈现。
量表维度设置除吸引因素外,差异明显:延展方面,PRS-16等9个量表只设1个分量表测量延展或连贯,PRS-26与PRS-11分别设置了连贯和范围2个分量表,PDRQ同时设置了延展和连贯分量表;远离方面,PRS-16等8个量表只设置1个分量表测量远离或心理远离,PRCQ等5个量表分别设置了新奇(物理远离)和逃逸(心理远离)分量表;相容方面,除PRS-11外,均设置相容分量表。施测人群方面,旅游表和儿童表的施测样本与目标人群基本相同,基本表多以大学生为样本。施测环境方面,PRS-16等9个量表同时施测了多个环境,PRS-22等5个量表只施测了1个环境样本。环境呈现方式方面,旅游表和儿童表多用现场或回忆呈现,基本表多用照片或录像呈现。
3.2测量性能评价结果
14个量表中,4个量表内容效度达到良好但证据等级不佳,7个量表结构效度良好,4个量表内部一致性良好(表2);2个量表效验了稳定性,2个量表效验了跨文化效度,研究方法不一致(表3)。
3.2.1内容效度
1)开发研究。COSMIN框架下的开发研究指项目编写阶段的内容评价。10个量表没有实施开发研究,4个实施开发研究的量表或未报告具体内容或研究方法存在偏倚。其中,PDRQ使用调查法询问受试者对量表的理解度,但样本量不足30的最低要求;PRCS-C采用专家法评价量表的人群适用性,但未评价项目与构念的相关性、量表的全面性等;TPRQ通过受试者访谈收集项目表述,但未对编写后的项目进行内容评价。
2)内容效度研究。COSMIN框架下的内容效度研究指项目集固定后的正式内容评价。严格来讲,纳入的所有量表都没有进行内容效度研究,尽管PRS-22(CH)和TPRE报告了内容效度研究结果,但实际统计的是项目与总体的施测结果相关性。然而,项目与量表在结果上相关并不等同于项目与构念在内容上相关,结果相关性统计通常是在量表开发阶段完成内容评价后用于进一步优化量表长度[21],不是内容效度研究的共识性方法。
3)评价者评分。在内容效度研究缺失,同时开发研究缺失或方法学质量不足时,证据等级直接降至低或极低,并由系统评价员直接评价量表内容效度。2名评价员独立审阅14个量表的正文及其开发过程,之后合议确定量表的相关性、全面性、可理解性。结果显示,仅PRS-26、RCS、PRS-11、PRS-ch的内容效度达到良好标准,具体如下。
相关性方面,项目与目标人群的相关性均良好,与构念的相关性(相关项目≥85%为良好)主要受2个不良分量表影响:一是存在于PRS-16、PRS-22、PRS-22(CH)、PRS-23(CH)、PDRQ中的反向表述和计分的连贯分量表,其内容核心是“混乱”,反向计分后仅表示“不混乱”,无法体现“物质实体在结构上连接有序,在形式和内容上和谐统一”的复杂内涵;二是新奇分量表,劳曼等在对RCS进行探索性因素分析时发现远离分量表被分解成2个因素,一个表示精神活动远离日常琐事,命名为逃逸(escape),另一个表示环境物质特征与日常环境不同,命名为新奇(novelty)。
由于ART强调“远离”指精神活动的转换,与环境新旧无关,加之相关分析中新奇因素与其他因素的协变性较差,RCS的编者明确提出新奇不是恢复性因素,因此评价组在统计相关项目比时不计入反向连贯与新奇分量表的项目。全面性方面,PRS-16、PRS-22、PRS-22(CH)、PRS-23(CH)仅有反向连贯分量表支撑延展概念,因此判定量表缺失重要内涵,全面性不足。另外,由于相容与行为意愿相关,易受评分者主观因素影响,与研究情境协变性高,加之概念宽泛,受到较多争议,被认为普适性低于另外3个因素[11,22],属于恢复性模型中的次要因素。因此评价组认为PRS-11、PRS-ch虽未测量相容因素内容,但不算遗漏“关键”概念,不影响全面性。可理解性方面,所纳入的14个量表的项目、选项、指导语等的表述均可被其目标人群理解,可理解性良好。
由于ART强调“远离”指精神活动的转换,与环境新旧无关,加之相关分析中新奇因素与其他因素的协变性较差,RCS的编者明确提出新奇不是恢复性因素,因此评价组在统计相关项目比时不计入反向连贯与新奇分量表的项目。全面性方面,PRS-16、PRS-22、PRS-22(CH)、PRS-23(CH)仅有反向连贯分量表支撑延展概念,因此判定量表缺失重要内涵,全面性不足。另外,由于相容与行为意愿相关,易受评分者主观因素影响,与研究情境协变性高,加之概念宽泛,受到较多争议,被认为普适性低于另外3个因素[11,22],属于恢复性模型中的次要因素。因此评价组认为PRS-11、PRS-ch虽未测量相容因素内容,但不算遗漏“关键”概念,不影响全面性。可理解性方面,所纳入的14个量表的项目、选项、指导语等的表述均可被其目标人群理解,可理解性良好。
3.2.2结构效度
使用结构方程模型法的量表中,PRS-22、PRS-11、PDRQ的结构效度达到良好;使用因素分析法的量表中,PRCS-CⅡ、PRS-22(CH)、TPRE、TPRQ的结构效度达到良好。PRS-16、PRS-26、PRCQ、PRCS-C的因素解与量表维度设置差异较大,PRS-23(CH)则因为模型拟合参数不达标,因此结构效度不良。在证据定级时,根据COSMIN标准,验证性因素分析优于探索性因素分析,因此对使用探索性因素分析的PRS-26等6个量表进行证据降级;由于4个恢复性因素在理论上相互关联,在因素提取的旋转策略上应采取斜交旋转,因此对使用正交旋转的PRS-22(CH)进行证据降级;另外,PRS-16和PRS-26因素分析的样本量不足,作相应降级处理。
3.2.3内部一致性
在结构效度良好的前提下,RCS、PDRQ、PRS-22(CH)、TPRQ的绝大部分Cronb.α值大于0.7,内部一致性良好。尽管PRCQ与PRS-ch的α值也大于0.7,但由于其结构效度未达良好,因此内部一致性不确定。不考虑结构效度的情况下,PRCS-C与PRCS-CⅡ只有吸引分量表的α值超过0.7,性能最差;PRS-16等6个量表都在连贯(包括反向连贯)上出现了α低值。
3.2.4稳定性和跨文化效度
PRS-22(CH)使用ICC值估算评分者间的一致性,大部分结果达到良好标准;PRS-23(CH)使用α值估算重测稳定性、PRS-16使用重复测量方差分析比较不同呈现方式下的评价结果,均不符合COSMIN方法学要求。PRS-16比较了英语和芬兰语版本的表面因素结构,但未做统计分析;PRS-11计算了英语和意大利语版本、男性和女性群体中模型的拟合参数差值,结果良好(表3)。
3.3量表推荐等级
为服务日趋多样的研究需求,本系统评价未规定目标研究情境,即未对证据在间接风险上降级。综合各量表各性能质量评价结果和相应的证据等级,仅RCS达到A类标准,推荐在与其开发研究情境相似的研究中直接使用;有高等级证据证明PRCS-C、PRS-23(CH)存在不良性能,将其归为C类,不予推荐;其余量表归为B类,在A类表不适用时暂时推荐。
4讨论
4.1所纳量表的突出问题
1)缺乏内容效度研究。当代心理测量理论认为内容效度是量表最重要的测量性能[23]。本研究所纳14个量表中仅少部分在开发阶段实施了内容评价,但无一在项目集固定后进行真正意义上的内容效度研究。尽管内容效度研究在所有测量性能研究中程序最烦琐,但良好的内容效度是其他性能良好的先决条件,应予以最高程度的重视。
2)研究方法异质性高。除了内部一致性,其他性能研究均存在方法不统一的问题,增加了系统评价的难度和风险。建议量表编者遵循COSMIN等量表编制指南的方法学规范,开发可被评测的高质量研究工具。
3)背景理论模型尚未成熟。量表在维度设置上的不断调整,既源于研究者对恢复性真实结构的不断探索,也源于性能研究结果始终未能达到全面良好(如PRS系列、PRCS-C和PRCS-CⅡ),反映出理论模型仍未成熟。另外,所纳量表在环境对象的选择上缺少统一参考系(表1),对不同环境恢复性差异的假设仍处于“自然环境高于非自然环境”的初级阶段,且各研究对“自然”的理解也不相同,有的侧重“低建成性”——较少受到人为干扰;有的侧重“高生物性”——以动植物或水体为主要表征(图2)。
本文所纳量表施测结果(表4)及目前以环境恢复性量表为工具的评价研究结果[24-25]多数支持象限2的恢复性高于象限4,但相邻象限间及同一象限内的不同亚类环境间是否存在差异,以及差异的结构化水平尚无明确假设。另外,RCS、PRCQ和PRCS-C的因素结构在不同施测环境中存在不同程度的差异,尽管目前关于环境类型与恢复性的嵌套关系、环境实质特征对恢复性的影响已有部分证据积累[26-27],但尚未形成成熟的细分理论模型,面向不同对象的量表仍然共用一套基础模型,未差异化发展量表结构。
本文所纳量表施测结果(表4)及目前以环境恢复性量表为工具的评价研究结果[24-25]多数支持象限2的恢复性高于象限4,但相邻象限间及同一象限内的不同亚类环境间是否存在差异,以及差异的结构化水平尚无明确假设。另外,RCS、PRCQ和PRCS-C的因素结构在不同施测环境中存在不同程度的差异,尽管目前关于环境类型与恢复性的嵌套关系、环境实质特征对恢复性的影响已有部分证据积累[26-27],但尚未形成成熟的细分理论模型,面向不同对象的量表仍然共用一套基础模型,未差异化发展量表结构。
4.2量表决策路径建议
由于所纳量表总体性能欠佳,且A类量表适用的研究情境有限,因此在一些研究情境中需要对拟采用的A、B类量表进行翻译、改编或改良,并重新效验后再使用,若仍不满足研究需求,则应考虑开发新量表或选择其他类型研究工具。本文将研究情境要素归集,为不同研究情境提供量表决策建议(图3)。其中,12岁是COSMIN提出的阅读理解能力分界线;是否伴随旅游行为可影响评分者对环境的心理预期;研究粒度影响其对量表性能质量的要求。
如果拟评价的环境分属图2不同象限,如森林步道和城市街道,则部分B类量表也可直接使用;如果拟评价对象属于图2同一象限,如森林和湖泊,所纳量表尚不能满足这种细粒度研究,建议改良A、B类量表或重新开发。
对于图3无法覆盖的研究情境,应在本研究结果的基础上,判定拟研究情境与拟选量表开发情境间的差异,评估间接风险后再次确定证据等级和量表推荐等级。
如果拟评价的环境分属图2不同象限,如森林步道和城市街道,则部分B类量表也可直接使用;如果拟评价对象属于图2同一象限,如森林和湖泊,所纳量表尚不能满足这种细粒度研究,建议改良A、B类量表或重新开发。
对于图3无法覆盖的研究情境,应在本研究结果的基础上,判定拟研究情境与拟选量表开发情境间的差异,评估间接风险后再次确定证据等级和量表推荐等级。
5结论
研究遵循COSMIN方法对纳入的14个环境恢复性量表的5个测量性能进行了系统评价。结果表明,在不考虑间接风险的前提下,14个量表中,RCS达到直接推荐等级,可直接应用于相似研究情境;PRS-16等11个量表属于暂时推荐等级,可用于相似研究情境的粗粒度研究或根据研究需求进行更新修订;PRCS-C和PRS-23(CH)由于被高等级证据证明存在不良性能,不予推荐。
所纳量表均严重缺乏内容效度研究,研究方法异质性高,背景理论模型粗糙,无法适应细粒度研究需求。上述问题亟待解决,以系统性提高工具性能和相关研究质量。另外,由于系统评价需要设置严格的纳入标准,本研究结论不可推论至分量表项目少于3个[28-29]、评价对象不是视觉环境[30-31]、以其他模型或复合模型发展的[32-34]环境恢复性测量工具。
所纳量表均严重缺乏内容效度研究,研究方法异质性高,背景理论模型粗糙,无法适应细粒度研究需求。上述问题亟待解决,以系统性提高工具性能和相关研究质量。另外,由于系统评价需要设置严格的纳入标准,本研究结论不可推论至分量表项目少于3个[28-29]、评价对象不是视觉环境[30-31]、以其他模型或复合模型发展的[32-34]环境恢复性测量工具。