2023SuperMap杯第二十一届全国高校GIS大赛

安徽省PM2.5浓度预测及其不确定性分析

安徽省PM2.5浓度预测及其不确定性分析

作者:陈韬、张庆国

       随着我国社会经济的快速发展以及城市化进程的持续加快,环境污染的压力越来越大。环境空气质量作为生态安全体系的重要指标之一,越来越受到关注[1]。PM2.5指的是空气动力学当量直径小于等于2.5um 的细颗粒物,会对人类的生活和身体健康造成严重的危害[2]。对PM2.5浓度的预测为大气环境质量监测和评价具有重要的现实意义[3-4]。李松等[5]利用GIS对贵州遵义市PM2.5浓度变化特征进行了分析,发现PM2.5浓度的季节性变化特征明显,并且其日变化受到人类活动的影响。任才溶等[6]利用随机森林算法,基于Spark平台建立 PM2.5浓度值预测模型和PM2.5浓度等级预测模型,对所建立的模型预测结果进行了评价。但PM2.5浓度的精准预测却很难实现,且建立模型后对该模型的稳定性加以评价的研究尚不多见[7]

        为探究合肥城市圈PM2.5的时空分布,并建立模型对其进行预测。本研究利用2018-2019年合肥城市圈空气质量监测站的日均PM 2.5浓度数据,结合其他空气污染因子、气象、统计年鉴等多源数据,分析合肥城市圈PM 2.5浓度的影响因素,探索合肥城市圈PM 2.5浓度的时空分布特征。对比三次指数平滑模型,设计了基于模拟退火+遗传+三次指数平滑组合预测模型,并对该组合模型的后期稳定性进行不确定性分析,从而为大气环境质量监测和评价提供理论依据和方法。

 

1 材料与方法

1.1 研究区域

       合肥位于中国华东地区,长三角西端,江淮之间,是安徽省省会城市,地形以丘陵岗地为主,江淮分水岭自西向东横贯全境。气候属亚热带季风性湿润气候,四季分明,夏热冬冷,年均气温 15.7℃,年均相对湿度为77%,年均降水量约1000 mm[8-9]。近年来,合肥城市圈社会经济发展很快,给空气环境质量保护带来了较大的压力。

1.2 数据来源

       本文在综合现有研究现状的基础上,根据安徽省合肥市2018年1月1日至2019年4月30日PM2.5、PM10、SO2、NO2、CO、O3等空气污染因子[10],以及该时间段内降水、温度、气压、大气能见度等气象因子和合肥及周边地区监测点(如六安、安庆等)空气污染因子的空间分布数据,进行相关性分析和PM2.5浓度的预测。

       通过网络平台获取的数据有:(1)PM2.5浓度与其他污染因子的数据,由天气后报网(http://www.tianqihoubao.com)提供的全国国内城市历史天气查询得到;(2)气象因子的数据,可从中国气象数据网(http://data.cma.cn/)获取;(3)PM2.5浓度空间分布特点的数据,在中国空气质量在线监测分析平台(https://www.aqistudy.cn)查询历史数据。

1.3 研究方法

1.3.1数据标准化处理

       对原始数据进行处理,消除各个数据不同数量级、量纲的影响,本文对2018年1月1日-2019年4月30日的PM2.5、气象因子数据进行标准化处理,公式为:

                        (1)

       其中:Xi为标准化后的数据;X为原始数据;Xmin为最小数据;Xmax为最大数据。

1.3.2  Pearson 相关性

       皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数,是一种线性相关系数。Pearson相关性是一种用线性相关系数,来反映 2个变量之间线性程度的数学方法[11-13],本文主要应用SPSS软件来实现相关性的判定,使用 origin 8.5绘制相关图表,对2018年已经标准化处理后的数据进行处理分析。求解皮尔森相关系数R,其计算公式如下:

                  (2)

        其中:R是皮尔森相关系数,σxy是两个样本变量之间的协方差,σx、σy分别为两个样本变量的标准差。

1.3.3 模拟退火遗传算法(SA+GA)

       模拟退火算法 (SA,Simulated Annealing)是基于Monte Carlo迭代求解法后种启发式随机搜索算法,模拟固体物质退火过程的热平衡问题与随机搜索寻优问题的相似性来达到寻找全局最优或近似全局最优的目的[14-16]。在搜索最优解的过程中,模拟退火法除了可以接受优化解外,还有一个随机接受准则(Metropolis准则)有限度地接受恶化解,并且接受恶化解的概率逐渐趋向于0,即可以找到全局最优解,并保证了算法的收敛性[17]。遗传算法(GA,Genetic Algorithm)是按照个体对样本数据的适应程度对种群进行一系列调整,使问题解空间不断逼近最优解,遗传操作包括选择、交叉、变异[17-18]。模拟退火遗传算法操作流程如图1 所示。

1 模拟退火遗传算法操作流程

FIG. 1 Simulated Annealing Genetic Algorithm Operation Flow

1.3.4 三次指数模型

       指数平滑法是在移动平均分基础发展的一种算法,它对过去已有的数据进行指数加权分析,来预测演变未来的发展趋势[18-19]。三次指数平滑法是在指数加权二次的的基础上进行的,其适用于非线性的时间序列值的分析预测[17-19]

       一次指数平滑预测模型

                                       (3)

       二次平滑模型

                                (4)

       三次指数平滑模型

                             (5)             

       平滑参数α值一般情况下都是根据时间数据序列特性在0到1之间选取,α越小,参考之前的时间点越多,α越大,参考之前的时间点越少。其中指t+1时刻预测值,t 时刻预测值。设每次预测结果的绝对误差为d,相对误差为β,预测的总天数为n天,i为预测的日期。

       则可有以下计算公式:

                                (6)

                              (7)

2 结果与分析

2.1 PM2.5 浓度时空分布

       为分析PM2.5浓度的时空分布特点,根据气候统计法,我们采用四季分类法,这种方法比较适用四季分明的温带地区[8-10]。春季为3、4、5月,夏季为6、7、8月,秋季为9、10、11月,冬季为12、1、2月。通过分析2018年1月到2018年12月合肥城市圈的PM2.5数据,研究安徽省合肥城市圈PM2.5浓度月平均变化,结果如图2所示。

2各城市2018PM2.5浓度图

Fig. 2 PM2.5 Concentration of Each City in 2018

       由图2月均值曲线特征可以看出:各城市PM2.5浓度月均浓度变化整体趋势一致。2018年 PM2.5浓度整体变化情况为:冬季>秋季>春季>夏季,月变化总体上表现出“中低周高”的“V”型特点,大部分城市PM2.5浓度峰值在1月,之后浓度开始逐渐下降,在7月份达到最低值,此后浓度逐渐升高。同时也可以看出,各地冬季时期PM2.5浓度明显高于夏季。夏季多为雨季,气候湿润,水分有利吸附空气中的颗粒,且夏季风力较少,颗粒物不易飞扬;而在冬天,由于烧炭取暖及秸秆燃烧,并且风力强,容易扬尘,所以冬季的PM2.5浓度含量明显高于夏季。

       通过SuperMap iDesktop软件,运用空间插值法,我们得到合肥城市圈春、夏、秋、冬四季PM2.5浓度的空间分布,如图3所示。

 

3春、夏、秋、冬PM2.5浓度的空间分布

Fig.3 Spatial Distribution of PM2.5 Concentration in Spring, Summer, Autumn and Winter

       从安徽省主要城市春夏秋冬PM2.5浓度的空间分布(图3)可以直观地看出平均PM2.5浓度的最高值主要分布在冬季,其最高值达到86.3。最低平均PM2.5浓度值分布在夏季,其最高值为25.6。同时也可以看出随着季节变化,PM2.5浓度值的范围和PM2.5浓度的极值区域的分布也发生改变。在春季,PM2.5浓度的波动范围为41.4-50.0,滁州市和淮南市的PM2.5浓度值为最高,达到了50.0;合肥市和六安市的PM2.5浓度值为最低,其值为41.4。在夏季,PM2.5浓度的波动范围为25.6-34.7,淮南市的PM2.5浓度值为最高 ,达到了34.7;马鞍山市,芜湖市,安庆市的PM2.5浓度值为最低,其值为25.6。在秋季,PM2.5浓度的波动范围为32.6-43.0,淮南市的PM2.5浓度值为最高 ,达到了43.0;马鞍山市和芜湖市的PM2.5浓度值为最低,其值为32.6。在冬季,PM2.5浓度的波动范围为64.6-86.3,淮南市的PM2.5浓度值为最高 ,达到了86.3;马鞍山市和芜湖市的PM2.5浓度值为最低,其值64.6。

       安徽省整体冬季受高压控制,由于冷空气下沉,降水较少,同时北方污染物由西北风传递,各种取暖设备以及春节期间大量私家出行,烟花炮竹的燃烧,使得大量污染因子聚集,所以冬季PM2.5浓度较高。秋季较强的太阳辐射加剧了气态污染物的氧化,此外,夏季积累的逆温现象使得PM2.5难以短时间消散。春季盛行风带来北方污染物,与冬季的PM2.5剩余物结合,让春季浓度较高,但春天的相对充裕降水量可净化空气。夏季下沉气流及东南季风带来大量水汽,有利于污染物的稀释和湿沉降。因此,安徽省PM2.5浓度由高到低依次为: 冬季、秋季、春季和夏季,这与张海霞等研究结果一致[20]

2.2 PM2.5浓度影响因素分析

2.2.1 PM2.5浓度与其他空气污染因子的相关性

       利用合肥市2018年1月到2019年4月的空气质量监测数据,建立多元线性回归数学模型解释其他污染因子(PM10、SO2、NO2、CO、O3)对PM2.5浓度的相关性。为了考察多元线性回归模型的应用合理性和数据结果的可靠性,利用SPSS进行残差分析和残差直方图,得到结果如下图4所示。

     

4  PM2.5浓度残差分析与残差直方图

Fig.4 Residual Analysis and Residual Histogram of PM2.5 Concentration

       由图4可知,监测数据满足多元线性回归的假设条件。

       结合回归方程与数据分析,在进行残差分析和多元线性回归模型检验后,利用SPSS对2018年1月到2019年4月的监测数据进行多元线性回归模型评价以及方差分析得到表1和表2。

1 模型评价

Table 1 Model Evaluation

模型

R

R2

调整后R2

标准估算的误差

 

0.889

0.791

0.789

14.374

 

 

2 ANOVA(方差分析)

Table 2 ANOVA (Analysis of Variance)

 

平方和

自由度

均方

F

显著性

回归

365364.862

5

73072.972

353.695

0.000

残差

86481.561

467

206.599

 

 

总计

461846.423

472

 

 

 

 

 

       由上表得知,SPSS对多元线性回归模型评价与ANOVA(方差分析)结果数据显示,模型对观测值的拟合程度高达78.9%,F统计量为353.695,P值为2×10-5,表明结果具有统计学意义。

3 多元线性模型结果

Table 3 The Results of Multivariate Linear Model

 

未标准化系数

标准误差

标准化系数

t

显著性

皮尔森相关系数

x1

0.165

0.027

0.194

6.229

0.000

0.471

x2

-0.398

0.326

-0.043

-1.221

0.003

0.406

x3

-0.035

0.072

-0.020

-0.489

0.001

0.579

x4

96.477

3.341

0.785

28.876

0.000

0.875

x5

-0.125

0.026

-0.120

-4.729

0.000

-0.351

 

 

       根据多元线性模型分析结果可得到回归方程如下:

           (11)

       其中被解释变量y为PM2.5,解释变量分别为PM10、SO2、NO2、CO、O3

       根据上述模型结果可知,PM10、S02、NO2等解释变量在95%的显著性水平上,均通过显著性检验,其中PM10和CO偏回归系数均大于0,S02、NO2和O3的均小于0。PM2.5浓度与CO呈现出高度正相关,相关系数高达0.875;与PM10、S02、NO2的相关性也较高;与O3的相关性系数小于0,呈现负相关。尽管许多工业都选用了含硫率较低的煤种,并在燃烧废气排放到大气之前采取了脱硫措施,依然有很多硫化物被排放到了大气中。这也是安徽省冬季和春季大气中二氧化硫的主要来源。PM2.5的化学成分主要包括有机碳(OC)、元素碳(EC) 、硝酸盐、硫酸盐、铵盐和钠盐(Na+) 等。所以研究认为PM2.5与SO2、NO2质量浓度具有一定的相关性,与崔淑华等人的研究结果基本一致[21]

2.2.2 PM2.5浓度与气象因子的相关性  

       由于气象因子的观测具有实时性,我们利用2019年5月6日至2019年5月20日共计15天(每天24小时)的气象台实时监测数据进行PM2.5浓度与气象因子相关性分析。通过建立PM2.5浓度与各气象因子之间的相关性曲线,并进行分析,得到如表5各影响因子的拟合曲线函数,并求解它们的皮尔森相关系数R,如表4所示。

4 PM2.5浓度与各气象因子拟合公式以及相关性分析

Table 4  Fitting Formula and Correlation Analysis of PM2.5 Concentration and Various Meteorological Factors

气象因子

拟合公式

相关系数R

气压(x1)

-0.762

风速(x2)

-0.649

温度(x3)

0.959

相对湿度(x4)

0.681

降水量(x5)

-0.813

能见度(x6)

-0.917

 

 

       由表4可得,PM2.5浓度(y)与气压(x1)、风速(x2)、降雨量(x5)以及能见度(x6)呈负相关,与温度(x3)、相对湿度(x4)呈强正相关。因为气压较低时,空气中细颗粒物更多的漂浮在空气中,PM2.5浓度含量就相对较高;风速越大,空气流通速度越快,同时也易吹散空气中漂浮的细颗粒物,输送至较远距离。另外,在风的作用下,空气污染物不断与干净空气相融合,进而导致空气污染较轻。PM2.5浓度含量就会一定程度降低;降雨对空气中细颗粒物有一定程度的吸附作用,对空气有净化效果,降雨量越大时,空气中PM2.5浓度含量越低。在开放环境中,温度越高,气压越低,所以在不考虑其他气象因素以及环境因素的情况,温度与PM2.5浓度含量呈正相关,相关性高,其相关系数为0.959。

2.3运用三次指数平滑模型预测PM2.5浓度

       根据2018-2019年合肥市地面站点PM2.5浓度监测数据,运用三次指数平滑模型预测PM2.5浓度。用2018年1月1日-2019年3月31日的数据作为训练集,2019年4月1日-30日的数据作为测试集,进行拟合。平滑参数α值一般情况下都是根据时间数据序列特性在0到1之间选取,本文从0到1中选取0.1,0.2,…,0.9共九个平滑参数值带入到平滑预测模型中进行预测。每次预测出结果后可计算出每次预测结果的平均相对误差η,进行对比找到一个较为精确的参数值[19],并将其应用于以后PM2.5浓度值的预测中。利用MATLAB求解得到,各平滑参数值α对应的预测结果产生的相对误差结果如下表5:

5 各平滑参数α预测结果的相对误差

Table 5 Relative Errors of Prediction Results of Each Smoothing Parameter

α

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

平均相对误差(%)

10.5

8.6

6.7

7.6

10.3

13.0

17.5

22.6

28.1

 

       根据表5,得知当平滑参数α取值为0.3时,相对误差最小,即测试值与实际值的拟合程度较高,其拟合度为89.6%,因此文中选用0.3作为三次指数平滑预测的平滑参数,运行matlab,对2019年4月的PM2.5浓度进行预测,结果见图5。

2.4运用组合模型预测PM2.5浓度

       为提高模拟精度,我们在三次平滑预测模型的基础上,利用遗传算法的全局搜索能力和模拟退火算法的局部搜索能力结合对平滑参数α进行寻优,建立模拟退火+遗传+三次指数平滑组合模型对PM2.5浓度进行预测。

       利用模拟退火遗传算法搜索平滑参数的三次指数平滑预测模型流程为:(1)收集PM2.5浓度的原始时间序列值;(2)对原始数据进行预处理,减少部分外在因素的影响;(3)进行三次指数平滑模型的平滑初值的选取;(4)融合改进遗传算法与模拟退火算法,进行预测搜索得到最佳平滑参数α的值;(5)带入原始数据进行预测,并计算出相对误差。利用MATLAB求解得到合肥市2019年4月拟合效果,并预测2019年5月1日-7日PM2.5浓度,结果如图5所示。

5模型预测结果

FIG.5 Prediction Results of Models

       通过模型拟合,组合模型的测试值和实际值间拟合程度高达95%,说明基于遗传模拟退火的三次指数平滑预测组合模型可以精确预测PM2.5浓度。对比原三次指数模型拟合度为89.6,组合模型拟合度更高。在此模型算法的基础上设计开发了PM2.5浓度智能数据分析及预测系统[22]。运算结果表明该模型具有高效、准确、快速特点,但更适合短期预测,同时可以应用到实际生活中及其他相关领域。

2.5不确定性分析

       很多模型都存在不确定性,主要体现在模型参数不确定性以及输出结果不确定性[23-25]。对于本文中的组合模型,其参数不确定性,主要来源于平滑初值和平滑参数值α的选取存在不确定因素。输出结果的不确定性主要来源于预测值与实际值之间存在的误差。为了量化每个不确定性来源,我们分别使用Kappa值和变化平均绝对误差百分率(MAPE,Mean Absolute Percentage Error)作为响应变量,在R软件中进行双因素方差分析。Kappa的计算公式为

                                (8)

       其中,p0指一致性单元的比例,pe是期望的偶然一致的单元的比例。

       MAPE是进行需求预测准确率评价中常用也是最有效的指标(预测准确率=1-MAPE)

                     (10)

       其中,Tt为实际值,Ft为预测值,n代表时间段。

       通常Kappa介于 0 ~ 1 间,Kappa值可分为5组来表示不同级别的一致性:0.0 ~ 0.20极低的一致性、0.21 ~ 0.40一般的一致性、0.41 ~ 0.60 中等的一致性、0.61 ~ 0.80 高度的一致性和0.81 ~ 1几乎完全一致[26]

       基于遗传模拟退火算法的三次指数平滑模型中,平滑初值和平滑参数值α两个参数的选取决定着最终输出预测结果的精度,对参数的不确定性进行分析是必要的。基于 2019年04月合肥市PM2.5浓度的训练数据,用组合模型对PM2.5浓度超过阈值(阈值设定为75μg/m3)的概率进行预测,进行不确定性分析。根据组合模型预测值,假设A:PM2.5浓度值低于超过 75μg/m3的时间个数,假设B:大于等于超过 75μg/m3的时间个数,设计Kappa系数分类表如下。

表6 Kappa系数分类表

Table 6 Kappa Coefficient Classification

实际值与预测值

A

B

A

26

0

B

2

2

 

       由表6可见预测值与实际值PM2.5浓度均小于75μg/m3的数据有26个,预测值与实际值PM2.5浓度均大于75μg/m3的数据有2个,预测值大于75实际值PM2.5浓度小于有2个,预测值小于75实际值PM2.5浓度大于有0个,利用Kappa和MAPE进行评价,经计算得到,Kappa和MAPE分别为0.634和0.072。

       MAPE的值为0.072,表示变动越小,输出结果越稳定。Kappa值输出结果在0.61~0.80之间,则表示与实际值具有高度的一致性,即该模型稳定性较高。

                               

3 结论与讨论

      (1)研究区域PM2.5浓度整体变化情况为:冬季>秋季>春季>夏季,月变化总体上表现出“中低周高”的“V”型特点,大部分城市PM2.5浓度峰值在1月,之后浓度开始逐渐下降,在7月份达到最低值,此后浓度逐渐升高。

      (2)PM2.5浓度与CO呈现出高度正相关,相关系数高达0.875;与PM10、S02、NO2的相关性也较高;与O3的相关性系数小于0,呈现负相关。PM2.5浓度与气压、风速、降雨量以及能见度呈负相关,与温度、相对湿度呈正相关。

      (3)组合模型的测试值和实际值间拟合程度高达95%,这说明基于遗传模拟退火的三次指数平滑预测模型可以精确预测PM2.5浓度。利用该模型预测了一周后的PM2.5浓度,该模型具有高效、准确、快速特点,可以应用到实际生活,以及其他相关领域。

      (4)通过研究文中组合算法的不确定性分析,依据MAPE、Kappa指标,MAPE的值为0.072,Kappa 输出结果在0.61~0.80之间,该模型预测与实际值具体高度一致性,得知该模型稳定性较高。

      (5)通过设计软件系统《PM2.5浓度智能数据分析及预测系统》,可知运用组合模型对PM2.5浓度进行预测具有较好的实际应用价值。

       本文中所采用方法的是通用的遗传算法,文中三次指数平滑值的设定在一定程度上会影响组合模型参数的优化,如何对遗传算法做进一步的改良,从而降低预测模型的误差率将是下一步的研究工作。同时,本文空气质量的一周预测是一种小范围预测,接下来的工作将考虑到把该算法用于中长期预测,且可应用于高原、平原、丘陵地区等更为复杂的环境,进一步验证算法的性能。

 

联系我们
高校大赛二维码

GIS大赛公众号