上海黄浦区街景大数据采集与SegNet图像语义分割技术解析

访问量:0胡一可
研究方法

2.1 研究区域概况

上海市黄浦区行政区划、百度街景采集点与路网空间分布图
图2:上海市黄浦区行政区划、百度街景采集点与路网空间分布图

上海市黄浦区(北纬 121°28′, 东经31°13′48″)地处上海市中部核心区域,全区面积 20.52 km2[16]。根据第七次全国人口普查数据,黄浦区常住人口 662 030 人,人口密度达3.23 万人 /km2[17],属于典型的高密度城市街区。区域内经济、社会活动密集,老旧社区较多,服务设施相对落后,建成空间与自然要素混合程度较高。同时,区域内百度街景图像数据资源丰富,有利于保证研究结果的精确度(图 2)。

2.2 街景图像数据采集与语义分割

街景图像语义分割模型与深度学习感知模型结构示意图
图3:街景图像语义分割模型与深度学习感知模型结构示意图

本研究通过百度地图采集街景图像。为了对上海市黄浦区街道品质的居民感知水平进行全面测度,在开放地图(Open Street Map, OSM)网站下载路网数据,每隔 50 m 设置并生成百度街景图像采集点,在 GIS 中对街景采集点进行视线方向计算,确保所有街景图像采集点的视角平行于该道路的空间前进方向。整个研究区域,共生成了 24 575 个采集点。

随后通过 Python 语言构建统一资源定位符(uniform resource locator, URL),调用百度 街景地 图的应 用 程 序 编 程 接 口(application programming interface, API),从 4 个方向分别获取 90°街景图片共 98 300 张,并拼贴形成样本点的 360°街景全景图片,共获得 24 574 张。图像的像素设置为可访问返回的最大数值 1 024×512像素的街景图像。

构建深度学习网络用于街景图像语义分割(图 3)。训练数据集为 g ADE_20K 数据集,包含了天空、道路、汽车、植物等 150 个日常生活场景中的元素。研究中应用的 Seg Net 图像语义分割法是由剑桥大学团队于 2015 年开发并公布的图像分割的开源项目,可以对图像中的物体进行像素级别的精确分割。该网络主要由编码网络(encoder)与解码网络(decoder)两部分组成。

encoder 主要对物体信息进行压缩提取,decoder 将提取后的语义信息还原至输入图像尺寸,即每个像素都可以分类对应物体信息的颜色。训练结果显示训练集精度为 90.83%,验证集精度为 89.95%,表明该模型可以较好地实现街景图像的解释性工作。

2.3 基于街景图像的居民感知评价

本研究以 VGG 卷积神经网络结构为基础构建深度学习网络(图 3),通过 MIT Place Pulse 数据集进行城市环境感知训练[18]。该数据集将感知分为安全、活力、美丽、富裕、压抑和无聊 6 项指标。已有研究基于该感知分类从城市居民健康[15]、城市安全性[19]、城市网红空间识别[20]等方面进行了探索,并证明该 6 项指标能够完整地表述人类感知情况,且居民的文化背景、收入水平、种族等差异不会对结果造成偏差[19]。基于上述原因,本研究选取这 6 项感知指标全面评估空间品质对景观服务的影响,并进行综合计算以消解单独感知指标在空间分布上的误差。

训练神经网络模型进行街景图像感知的两两比较判别,从而模拟居民对两张街景图片的感知评估。训练验证集不同感知指标预 测 精 度 显 示 如 下: 安 全(81.25%)、 活 力(78.13%)、美丽(84.37%)、富裕(81.25%)、压抑(81.25%)、无聊(78.13%)。采用 Microsoft True Skill 算法将成对比较的图像进行排名并获得感知分数[21],针对 24 575 张街景图像进行了 122 875 次对比预测,然后将各感知分数进行归一化处理并将分数区间映射至 [0,1]。True Skill 算法认为每张街景图像感知分数在所有图像中符合正态分布 N(μ,δ2),且设定计算 6 项感知的均数 μ 与 δ 均取相同数值,因而归一化后的 6 项感知结果可以进行相加求均,从而获得综合感知得分,计算式如下:式中:Ptotal指对特定图像 i 的总体感知得分;Psafety为图像 i 的安全感知得分;Plively为图像 i 的活泼感知得分;Pbeautiful为图像 i 的美丽感知得分;Pwealthy为图像 i 的富裕感知得分;Pdepress为图像 i 的压抑感知得分;Pboring为图像 i 的无聊感知得分。

2.4 多元线性回归分析

城市街区环境感知往往受到多个因素的共同影响。相较于单一的自变量预测,由多个自变量的最优组合来共同预测因变量更为有效也与实际情况更为匹配,因此多元线性回归模型更具有实用价值。本研究基于 SPSS 23.0 统计分析软件,以影响街区环境的 3 项主要视觉景观要素(绿视率、天空视率、建筑视率)作为解释变量,构建多元线性回归模型,从而研究城市街区环境视觉要素与各类感知情况及综合感知情况之间的关联性,通过计算模型的 Beta 标准回归系数比较不同视觉景观要素对居民感知的影响强度差异,进而对景观感知服务功能进行解释。

常见问题(FAQ)

为什么选择上海市黄浦区作为研究对象?其有何典型性?
选择黄浦区是因为其是典型的高密度城市街区:1)密度极高:面积仅20.52km2,人口密度达3.23万人/km2;2)结构复杂:经济、社会活动密集,老旧社区与新建区并存,自然与人工要素混合度高;3)数据丰富:百度街景覆盖全面,保证了研究的数据基础与结果精度。这使其成为研究城市街区感知与景观服务的理想案例。
研究是如何采集和处理街景图像数据的?如何保证其代表性?
数据采集与处理分为三步:1)密集布点:沿OSM路网每50米设置一个采集点,共生成24,575个点,确保空间全覆盖;2)多向采集:调用百度API,从四个方向获取并合成360°全景图,模拟人眼环视;3)高精度分割:使用Seg Net深度学习模型对图像进行像素级语义分割(精度>89%),精确提取绿视率、天空视率、建筑视率。这套方法保证了数据在空间和视觉上的代表性。
如何通过街景图像量化居民的“感知”?其科学依据是什么?
采用“深度学习模型+众包数据集”的方法量化感知:1)感知模型:以VGG网络为基础,利用MIT Place Pulse众包数据集(包含安全、活力、美丽、富裕、压抑、无聊六项感知的百万次两两比较)进行训练;2)模拟评分:训练好的模型可对任意街景图进行两两比较判别,预测其感知排名;3)分数计算:用True Skill算法将比较结果转为0-1的标准化分数。该方法已被多项研究验证,能有效消除个体文化背景差异,形成共识性评价。
研究如何分析视觉要素与感知之间的因果关系?最终要回答什么问题?
通过多元线性回归分析建立因果关系模型。以绿视率、天空视率、建筑视率为自变量(解释变量),以六项感知及综合感知为因变量,计算标准化回归系数(Beta)。最终要回答:1)每个视觉要素如何影响各项感知(正向/负向)?2)哪个要素的影响最显著、最关键?3)其影响机制是什么?从而为通过物质环境设计调控居民感知体验提供定量依据。

推荐阅读 / 相关内容