结合小红书UGC与两步路轨迹数据:城市滨河绿地生态评价的新路径
摘要:本文以石家庄滹沱河城区段滨河绿地为研究对象,系统介绍了基于社交媒体数据与多源轨迹数据的生态系统文化服务(CES)评价方法。研究通过爬取小红书评论文本及两步路户外网轨迹数据,构建了包含景点、土地利用与CES感知信息的双向词典库。利用核密度分析(KDE)评价场地使用度,并采用局部双变量空间自相关(LISA)分析,量化识别CES综合价值与场地使用度的空间耦合特征,为滨河绿地的精准优化提供科学支撑。
关键词:数据来源;社交媒体;小红书;轨迹数据;词典库;空间自相关分析
1 研究区域与数据来源
1.1 研究区域概况
本研究选取河北省石家庄市滹沱河城区段滨河绿地作为研究对象(图1)。滹沱河发源于山西省,横跨忻州、石家庄、衡水、沧州等多个城市。为提升水质,改善生态环境质量,滹沱河于2017年启动了生态修复工程,旨在打造滨河绿色空间体系。研究区段全长42km,含水体面积2925.58hm2,临近石家庄市正定县主城区,空间景观要素类型丰富,包含湿地、岛屿、花海等多种景观类型,具有防沙滞尘、拦截雨水、吸附大颗粒物、固碳释氧等多类生态系统服务效益,同时承载了旅游、观光、休闲、养生等多种文化服务功能。
1.2 数据来源与预处理
用户生成内容(UGC)平台能够全面地反映游人对游憩场地的感知,对场地形象的塑造具有高可信度及可用性[26]。小红书是中国知名社交网络平台,截至2022年,月活用户超过2亿,采用UGC模式运营,鼓励用户上传自身的体验感受[27],由于该平台用户量庞大,其数据作为新兴数据源具有较强的研究应用价值。
本研究选取小红书平台评论文本数据作为数据源,以“滹沱河”为关键词对小红书中的词条进行检索,时间跨度设为2018年10月—2022年1月,利用Python爬虫获取评价信息及相关联的元数据共1393条,数据包含用户id、博文标题、博文内容、照片、日期、点赞数量等。
研究区域的场地使用度数据通过两步路户外网获得。本研究以“滹沱河”为关键词进行检索,利用Python爬虫爬取相关轨迹记录共313条。
研究区域的土地利用信息通过解译遥感影像获得。笔者采用2021年11月Worldview-3卫星遥感影像(分辨率为0.5m),通过随机森林法解译场地土地利用信息。将场地的用地类型分为常绿针叶林、水体、灌木林、硬质、裸地、湿地、大面积地被、阔叶林、混交阔叶林、草地、密植阔叶林共11类。
2 研究方法
本研究通过构建景观信息词典库,关联评论文本数据与场地空间,进行CES感知评价。研究过程分为获取数据、词典库构建、CES感知评价、空间制图、核密度计算及空间自相关分析等6个步骤(图2)。
2.1 词频统计与词典库建立
文本挖掘可以从大量的文本数据中抽取有价值的信息[31]。本研究采用Python软件的第三方库jieba对预处理之后的文本进行词频统计。通过清洗文本、计算词频,创建景点与土地利用2个地点信息词典库,共计101个词汇;创建CES感知信息词典库,共计317个词汇。
2.2 文本分词
文本分词是切割输入字串,实现词汇划分的自然语言处理技术。本研究利用文本分词挖掘社交媒体评论文本数据中的景点、土地利用与CES感知信息,并将分词结果输出以进行后续分析。
2.3 CES 指标体系构建
为定义CES分类,本研究参考MA、TEEB、CICES分类框架,并结合CES分词结果,选择以下6个指标作为本研究的CES类型:观光游憩、科普教育、精神满足、美学体验、社会关系、文化遗产。
2.4 CES 空间感知制图
以Worldview-3遥感影像解译的土地利用信息为底图,依据地点信息词典库进行“景点-土地利用”编码。通过关联评论文本编码与地点编码,获得该编码地点的CES综合价值评分。各类型CES感知频率计算式为:F = (提到第i类CES的分词数量) / (场地的文本分词总量)。
2.5 场地使用度评价
本研究场地使用度的评价数据来源于两步路户外网抓取的场地轨迹数据。采用核密度估算(KDE)算法,以轨迹出现的核密度来表征场地某区域使用度的高低。值越大,表示此区域内的场地使用度越高,反之则越低。
2.6 空间自相关分析
使用Geoda软件,应用局部双变量空间自相关(LISA)聚类分析,探索CES综合价值与场地使用度之间的关系。根据局部莫兰指数的正负可将空间相关性分为高-高(HH)、低-低(LL)、高-低(HL)、低-高(LH)4种类型,并以p值与z得分判别全域空间自相关的显著性和聚集性。