A deep neural networks prediction model for sea surface temperature based on global cross-scale spatial-temporal attention
-
摘要:
海表面温度(sea surface temperature, SST)是海洋与大气之间相互作用的关键因素,海温控制着全球大气和海洋生态系统的变化。准确预测海表面温度的演变对治理全球大气系统和海洋生态系统都具有重要的意义。为了对SST数据的空间自相关性准确建模,本文提出了基于全局跨尺度时空注意力的深度神经网络海表面温度预测模型(deep neural network based on global cross-scale spatiotemporal attention, GCSA-DNN)。模型分为3个部分,从长时序数据中提取时序依赖特征的时序建模模块,从SST序列均值中提取空间分布规律特征的多尺度局部空间建模模块和基于全局跨尺度的时空注意力融合模块,实现每个网格点对全局自相关性的建模。本研究选择空间分布规律不同的东海和南海海域数据,对1981年9月1日至2022年4月7日美国国家海洋和大气管理局(national oceanic and atmospheric administration,NOAA)的数据进行了预测分析,共14829条数据,其中1981年9月1日至2021年8月31日的70%数据用于训练,30%用于验证,2021年9月1日至2022年4月7日的数据用于测试。结果表明,在不同的实验条件下该模型可以准确捕捉SST数据在时空过程中的演变规律,在东海和南海SST数据集上其准确度相较于卷积长短时记忆神经网络(convolutional long short-term memory, ConvLSTM)分别提高了14.07%和14.18%,提升了SST预测的准确度。
Abstract:Sea surface temperature (SST) is a crucial factor in the interaction between the ocean and the atmosphere, controlling the changes of global atmospheric and oceanic ecosystems. Accurately predicting the evolution of SST is of great significance in managing global atmospheric and oceanic systems. To accurately model the spatial autocorrelation of SST data, this paper proposes a deep neural network based on global cross-scale spatiotemporal attention (GCSA-DNN) for predicting SST. The model consists of three parts: a temporal modeling module that extracts temporal dependent features from long time series data, a multi-scale local spatial modeling module that extracts spatial distribution pattern features from SST series mean values, and a global cross-scale spatiotemporal attention fusion module that models the global autocorrelation of each grid point. In this study, the data of the East China Sea and South China Sea with different spatial distribution patterns are selected, and the national oceanic and atmospheric administration (NOAA) data from September 1, 1981 to April 7, 2022 are predicted and analyzed with a total of 14829 data, of which 70% of the data from September 1, 1981 to August 31, 2021 were used for training, 30% for validation, and the data from September 1, 2021 to April 7, 2022 were used for testing. The results show that the model can accurately capture the evolution pattern of SST data in spatial-temporal processes in different experimental conditions, with an accuracy improvement of 14.07% and 14.18% on the East China Sea and South China Sea SST datasets, respectively, compared with the convolutional long short-term memory (ConvLSTM) model, achieving an improvement in SST prediction accuracy.
-
海表面温度(SST)是海洋环境的关键因素之一[1]。作为海水吸收和释放热量的数值表现,不但反映了全球大气和海洋生态系统中的能量交换,而且对许多气候环境问题如海洋酸化、降雨分布和台风形成等都有很大影响[2]。因此,对SST演变规律的准确预测,对很多与环境相关的研究活动都有意义[3]。SST作为最重要的海洋参数之一,帮助人们理解物理、生物、海洋、大气系统之间的相互作用。过去有很多学者将SST作为辅助因子,应用于其他海洋参数,例如,HAM等[4]采用深度学习的方法开发了一个统计预测模型,实现了一年半前置时间的ENSO预测;ZHENG等[5]开发了一个纯卫星数据驱动的深度学习模型,准确预报了SST的时空变化和热带不稳定波的传播。
至今,SST的预测有很多方法,可以大致分为数值预测方法和数据驱动方法两类。数值预测方法是根据SST与其他众多海洋因子之间的关系建立复杂且计算成本高的物理方程对SST进行预测。数据驱动方法是以数据为中心通过寻找历史SST数据的规律来预测未来SST[6]。与数值预测方法不同,数据驱动方法不需要根据专业知识建立参数量多、关系复杂、计算成本高的物理方程,所以很多学者开始尝试用数据驱动方法对SST进行预测。传统数据驱动方法将SST的预测视为时间序列问题,利用线性回归模型、支持向量机和人工神经网络预测SST。LINS等[7]用支持向量机(support vector machines, SVM)预测热带大西洋海域的SST,该方法研究了原始SST序列、SST斜率和曲率数据对预测未来SST的影响,并取得了较好的效果。但是随着深度学习的不断发展,传统数据驱动方法只能独立地处理单个SST观测点,忽略了空间域中多个SST观测点之间的空间依赖关系。为了使研究内容更加符合实际需求,许多学者在同时考虑了SST数据的时间依赖和空间依赖之后将SST的预测归纳为时空序列预测问题[8-9]。ZHANG等[10]首次利用长短时记忆神经网络(long short-term memory, LSTM)预测SST数据,证明了循环神经网络(recurrent neural network,RNN)可以捕捉SST数据之间的时间依赖关系。YANG[11]等将卷积神经网络(convolutional neural network, CNN)和LSTM结合,提出了一种基于CFCC-LSTM的SST时空预测模型,该模型先利用LSTM捕捉SST之间的时间依赖,随后利用CNN捕捉SST空间域中的空间依赖,证明了空间依赖对SST预测的重要性。XIAO等[12]将基于ConvLSTM的时空预测模型用于SST的预测,该模型将LSTM内部的线性运算替换成了CNN,捕捉了SST序列的时空依赖,并且提高了渤海海域短期和中期SST预测的准确度。张雪薇等[13]将基于卷积门控循环神经网络(convolutional gated recurrent unit, ConvGRU)的时空预测模型应用于2004-2008年Argo海温数据,结果表明,ConvGRU对Argo海温数据的时空演变趋势有较好的建模能力。但是不同时间段的SST在自然时空过程中表现出不同的空间演变规律,过去的大部分深度学习方法对空间依赖的特征提取仅依赖于局部且单一的卷积核,这样并不充分,导致无法准确地对SST数据的空间分布规律建模,限制了模型对SST时空演变趋势的预测能力。
为了准确拟合SST数据在时间和空间上的变化规律,本文提出了用于海表面温度的时空预测模型GCSA-DNN(deep neural network based on global cross-scale spatiotemporal attention, GCSA-DNN)。首先,采用ConvLSTM捕捉SST序列数据中的长期时间依赖变化规律;其次,利用多尺度空洞卷积(multiscale dilated convolution, MDC)增大捕捉不同尺度空间特征的感受野,在不同尺度下对不同时间段SST序列数据的局部空间分布规律准确建模;最后,为了融合不同尺度的空间依赖和时间依赖,利用基于全局跨尺度的时空注意力融合模块(global cross-scale spatial-temporal attention, GCSA)自适应地学习跨尺度下全局SST空间分布规律对时间依赖的指导权重,聚焦重要信息。为了验证模型的有效性,本文以东海和南海两种空间分布规律不同的海域作为研究区域,结果表明,GCSA-DNN更好地拟合了SST数据的时空规律,有效提高了SST预测的准确度。
1 材料与方法
1.1 研究区域与数据来源
本文的实验数据为美国国家海洋与大气管理局(NOAA)数据中心制作的最佳插值海表面温度数据(每日OISST,第2版),下载网址为https://www.esrl.noaa.gov/psd/[14]。该数据集包含了全球范围的日均SST观测值,空间分辨率为0.25°×0.25°,时间跨度为1981年9月1日至2022年4月7日,共14829条数据。这些数据跨度广、质量好,其中1981年9月1日至2021年8月31日的70%数据用于训练,30%用于验证,2021年9月1日至2022年4月7日的数据用于测试。
根据对不同海域的空间分布规律的分析,本研究分别选取空间分布规律变化较慢的南海和空间分布规律变化较快的东海作为研究对象。在选择海域时,有意避开了陆地区域,所以选择了其中较小的海域[15]。其中,南海选择14.875°N-20.875°N、 110.625°E-116.625°E对应的海域,共24×24个网格点;东海选择26.875°N-32.875°N、123.375°E-127.375°E对应的海域,共24×16个网格点。
1.2 模型方法
1.2.1 模型结构
为了准确捕捉不同时间段SST的空间分布规律,本文提出了基于全局跨尺度时空注意力的深度神经网络时空预测模型(GCSA-DNN)。该模型由长时序依赖特征提取模块、局部空间分布规律特征提取模块(MDC)和基于注意力的全局跨尺度时空特征融合模块(GCSA)3部分组成。模型结构如图1所示。首先,由ConvLSTM组成的长时序依赖特征提取模块,捕捉SST序列的时序依赖;其次,MDC对每段SST序列均值的空间分布规律建模,挖掘不同尺度的空间特征;最后,GCSA对每个SST网格点与其他网格点的自相关性建模,通过自注意力的编码格式融合时间和空间上的重要信息并输出最后的预测结果。其中
$ {X_{t - n}},{X_{t - n + 1}},\cdots,{X_t} $ 表示一段时间内不同时刻的SST数据;$\overline X$ 代表该段时间内SST数据的平均值;r为空洞卷积的空洞率。1.2.2 长时序依赖特征提取模块
SST时空预测定义为:用某个区域任意时刻观测的SST序列预测未来该区域的SST。ConvLSTM是LSTM的变体,通过将其中的线性运算替换成固定大小的卷积运算获得SST数据中的空间信息特征[16]。利用ConvLSTM可以有效提取到SST序列的时间依赖[17-18],以此获得该序列每个时刻的时间依赖特征(F_Temproal)。该模块相关计算见公式(1)-公式(7):
$$ {f_t} = \sigma \left( {{W_{xf}}*{X_t} + {W_{hf}}*{h_{t - 1}} + {W_{cf}} \odot {C_{t - 1}} + {b_f}} \right) $$ (1) $$ {i_t} = \sigma \left( {{W_{xi}}*{X_t} + {W_{hi}}*{h_{t - 1}} + {W_{ci}} \odot {C_{t - 1}} + {b_i}} \right) $$ (2) $$ C_{\rm{t}}' = {\rm{tanh}}\left( {{W_{xc}}*{X_{\rm{t}}} + {W_{hc}}*{h_{{\rm{t}} - 1}} + {b_c}} \right) $$ (3) $$ {C_t} = {f_t} \odot {C_{t - 1}} + {i_t} \odot C_t' $$ (4) $$ {o_t} = \sigma \left( {{W_{xo}}*{X_t} + {W_{ho}}*{h_{t - 1}} + {W_{co}} \odot {C_t} + {b_o}} \right) $$ (5) $$ {h_t} = {o_t} \odot {\rm{tanh}}({C_t}) $$ (6) $$ F\_Temproal = [{h_1},{h_2},\cdots,{h_t}] $$ (7) 式中:X为每个时刻的SST数据;h为每层ConvLSTM单元输出的隐状态;C为每个ConvLSTM单元从前一个单元传递到当前单元的记忆状态;*表示卷积运算;⊙表示Hadamard积运算;σ表示sigmoid 函数,应用于每个门输入的加权和的激活函数;W为卷积参数;b为模型参数;f、i、o为相对应的输出值;F_Temproal表示由隐状态组成的时间依赖特征。
1.2.3 局部空间分布规律特征提取模块(MDC)
海表面温度时空数据的空间分布规律反映了海洋物理场理化性质的动态演变规律[19]。由于普通卷积共享相同的参数,在SST数据中若仅采用普通卷积提取空间特征,则会不可避免地造成空间特征平滑与丢失,并且由于感受野受限,全局信息与局部信息的关联也很容易被忽视。空洞卷积可以通过不同大小的空洞率提取到不同尺度的空间特征,以对空间分布规律的变化充分建模,更好地提取不同尺度空间信息特征的差异。但如果简单地叠加相同空洞率的空洞卷积,则会导致卷积核不连续,即并不是所有的网格点都参与计算,从而损失空间特征的连续性[20]。因此,在该模块中采用不同间隔的空洞卷积提取不同尺度的局部空间特征,这种方式既挖掘了不同尺度的局部空间特征也保证了不同感受野的连续性,因此更好地建模了每个网格点和周围局部网格点的自相关性。
MDC通过设置不同空洞率,获得不同尺度的空间特征图。其中FL代表包含更多宏观信息的大尺度空间分布规律特征图;FM代表包含更多显著信息的中尺度空间分布规律特征图;FS代表包含更多细节信息的小尺度空间分布规律特征图。
1.2.4 基于全局跨尺度的时空注意力融合模块(GCSA)
注意力机制是通过模型自主学习一组权重系数来模拟人脑对目标区域关注的情况,通过注意力机制可以聚焦当前任务中的重要信息,降低甚至过滤其他不重要的信息[21-22]。为了有效融合从长时序依赖特征提取模块中获得的长时序依赖特征和从MDC中获得的空间分布规律特征,本文提出了基于全局跨尺度的时空注意力融合模块(GCSA)。该模块通过注意力机制融合不同尺度和不同维度中的重要信息,过滤不重要的无关信息,增强特征表达,从而提高预测的准确性。
该模块分为两部分,假设海温图的大小为(M,N)。首先将不同尺度的空间分布规律特征图展平映射分别作为(M×N,1)维度的注意力查询、键和值矩阵。由于大尺度的空间特征包含更多的宏观信息,所以将小尺度的空间特征作为查询矩阵(q1),中尺度的空间特征作为键矩阵(k1)。通过softmax函数对q1和k1的每个网格点建模,学习小尺度海温图中细节的小分辨率特征,得到(M×N,M×N)维度的全局空间自相关得分(Score_Spatio)。将大尺度的空间特征作为值矩阵(v1),与Score_Spatio进行矩阵乘法并将结果通过reshape函数重塑(M,N)维度,空间特征中重要的宏观大分辨率信息将更加显著,获得(M,N)维度的全局跨尺度空间自相关特征(F_Spatio)。
其次,通过注意力编码格式,将F_Temporal展平映射作为(M×N,1)维度的查询矩阵(q2)和键矩阵(k2),通过softmax函数对q2和k2中的每个网格点建模,学习时间依赖中(M×N,M×N)维度的全局时间依赖得分(Score_Temporal)。将F_Spatio展平映射作为(M×N,1)维度的值矩阵(v2),将v2与Score_Temporal进行矩阵乘法并将结果通过reshape函数重塑(M,N)维度,获得(M,N)维度的预测海温图。由于融合了每个网格点的全局跨尺度空间自相关特征和时间依赖,最终的预测准确度得到了提升。相关计算见公式(8)-公式(17):
$$ {q_1} = {\rm{Linear}}[{\rm{Flatten}}(FS)] $$ (8) $$ {k_1} = {\rm{Linear}}[{\rm{Flatten}}(FM)] $$ (9) $$ {v_1} = {\rm{Linear}}[{\rm{Flatten}}(FL)] $$ (10) $$ S core\_S patio = {\rm{softmax}}({q_1} \otimes k_1^T) $$ (11) $$ F\_S patio = {\rm{reshape}}(S core\_S patio \otimes {v_1}) $$ (12) $$ {q_2} = {\rm{Linear}}[{\rm{Flatten}}(F\_Temporal)] $$ (13) $$ {k_2} = {\rm{Linear}}[{\rm{Flatten}}(F\_Temporal)] $$ (14) $$ {v_2} = {\rm{Linear}}[{\rm{Flatten}}(F\_S patio)] $$ (15) $$ S core\_Temporal = {\rm{softmax}}({q_2} \otimes k_2^T) $$ (16) $$ {\rm{Predicted}} {\rm{Results}} = {\rm{reshape}}(S core\_Temporal \otimes {v_2}) $$ (17) 式中:Flatten代表将张量展平的函数;softmax代表归一化指数函数;reshape代表将张量维度转换的函数;Linear为线性映射函数;
$ \otimes $ 代表矩阵乘法;Predicted Results代表预测结果。1.3 实验方法
1.3.1 数据预处理
整个数据集分为3个子集,分别用于训练、验证和测试,其中1981年9月1日至2021年8月31日的70%数据用于训练,30%用于验证,2021年9月1日至2022年4月7日的数据用于测试。具体来说,训练数据集包含10227个样本,验证数据集包含4383个样本,测试数据集包含219个样本。为了加快模型的训练速度,对SST数据进行最大、最小标准化,将所有数据标准化到[0,1],公式如下:
$$ {x^*} = \frac{{x - {x_{{\rm{min}}}}}}{{{x_{{\rm{max}}}} - {x_{{\rm{min}}}}}} $$ (18) 式中:x*是归一化后的SST;x是实际观测的SST;xmin是实际观测SST的最小值;xmax是实际观测SST的最大值。
1.3.2 参数设置
实验环境由Intel Gold 6126处理器、Nvidia GV100GL显卡和3.10.0centos系统组成,深度学习时空预测模型由Pytorch搭建。本文模型实验的最大训练轮数为500轮;优化器采用Adam优化器;学习率设置为0.001;MSE作为损失函数;卷积核大小为3×3;卷积核的个数为12;Batchsize设置为64;MDC的空洞率设置为2、4、8;所有线性层的神经元个数设置为SST数据网格点数。
本研究建立的模型GCSA-DNN分别在东海和南海SST数据集上建模训练,并在测试集上评估该方法的性能。
1.3.3 评价指标
为了准确验证模型的拟合程度,本文选择预测SST时常用的4个评价指标进行评估:均方误差(mean square error,MSE)、均方根误差(root mean square error,RMSE)、平均绝对百分比误差(mean absolute error,MAE)和决定系数(coefficient of determination,R2)。4个评价指标的公式如下:
$$ MS E = \frac{1}{n}{\sum\limits_{i = 1}^n {({{\hat y}_i} - {y_i})} ^2} $$ (19) $$ RMS E = \sqrt {\frac{1}{n}{{\sum\limits_{i = 1}^n {({{\hat y}_i} - {y_i})} }^2}} $$ (20) $$ MAE = \frac{1}{n}\sum\limits_{i - 1}^n {|{{\hat y}_i} - {y_i}|} $$ (21) $$ {R^2} = 1 - \frac{{\displaystyle\sum\limits_{i - 1}^n {{{({{\hat y}_i} - {y_i})}^2}} }}{{\displaystyle\sum\limits_{i - 1}^n {{{({{\bar y}_i} - {y_i})}^2}} }} $$ (22) 式中:
$\hat y$ 代表SST预测值;y代表SST实际观测值;n代表样本网格点的总数;$\bar y$ 是实际观测的平均值。MSE、RMSE、MAE越低和R2越高代表预测结果越好。2 结果与讨论
2.1 滑动窗口设置
在时空预测问题中,滑动窗口大小和预测步长能直接影响预测结果,在大部分情况中预测步长和滑动窗口越长,预测的准确度越差。由于预测步长与海洋预测、预报系统紧密相关,通常将预测步长设置为1 d、3 d和7 d。因此,为了更加切合实际应用中的需求,本文将SST预测实验分为短期、中期和长期预测,预测步长分别设置为1 d、3 d和7 d,在此基础上寻找最优的滑动窗口大小[23]。图2显示了当预测步长为1 d时,在东海和南海SST数据集上滑动窗口的大小对预测准确度的影响。随着滑动窗口的增大,GCSA-DNN模型的RMSE开始减小,滑动窗口为4时达到最小,但随着滑动窗口增大,预测误差也开始增大,这说明选择适合的滑动窗口大小对预测结果有重要的影响。因此,短期预测的滑动窗口大小设置为4。此外,对于中期预测和长期预测,通过相同的实验验证,将滑动窗口设置为11和23。
2.2 消融实验
为了验证GCSA-DNN的有效性与可行性,本文在参数设置相同的情况下对比了不使用MDC捕捉序列的空间规律分布特征和不使用基于全局跨尺度时空注意力融合模块的模型性能,其中GCS-DNN代表不使用全局跨尺度时空注意力模块的模型。这些模型在东海和南海测试集上均进行短期预测对比实验,结果列于表1。在东海SST测试集上,ConvLSTM模型的RMSE和MAE分别为0.405和0.270,而捕捉了空间分布规律特征的GCS-DNN的RMSE和MAE分别为0.364和0.261,证明了空间分布规律特征的建模对于SST预测的重要性。GCSA-DNN时空预测模型的RMSE和MAE分别为0.348和0.237,表明有效融合空间分布规律特征的方法能极大地提高SST预测的准确性。在南海SST测试集上,GCSA-DNN依然保持最优性能,RMSE和MAE分别为0.236和0.168,其性能较ConvLSTM提升了14.18%。
表 1 GCSA-DNN及其变体在东海和南海测试集上的误差统计Tab. 1 The error statistics of GCSA-DNN and its variants in the East China Sea and the South China Sea test sets数据集 模型 RMSE MSE MAE R2 ConvLSTM 0.405 0.164 0.270 0.962 东海 GCS-DNN 0.364 0.132 0.261 0.971 GCSA-DNN 0.348 0.121 0.237 0.982 ConvLSTM 0.275 0.076 0.203 0.853 南海 GCS-DNN 0.245 0.060 0.183 0.879 GCSA-DNN 0.236 0.056 0.168 0.893 注:其中粗体代表最优结果 2.3 对比实验
2.3.1 实验说明
为了测试GCSA-DNN时空预测模型的性能,将GCSA-DNN与LSTM、FC-LSTM、ConvLSTM分别在东海和南海两种空间分布规律不同的SST数据集上进行短期、中期和长期预测实验,分析GCSA-DNN在不同实验条件下的预测性能。
2.3.2 短期预测
当滑动窗口为4时,使用过去4 d的SST数据预测未来1 d的SST数据,图3展示了4个模型在东海和南海SST测试集上的短期预测误差统计。
图3(a)展示了4个模型在东海SST测试集上的误差结果。由于LSTM模型仅仅提取了SST数据的时间依赖特征,没有考虑空间特征,因此预测精度是最差的,RMSE只有0.483;由于空间特征提取不充分,FC-LSTM和ConvLSTM模型的性能较差,RMSE分别为0.424和0.405;而GCSA-DNN由于对空间分布规律的充分建模,从4种评价指标来看都达到了最优的性能,其中RMSE为0.348。图3(b)展示了4个模型在南海SST测试集上的误差统计。GCSA-DNN依旧保持着最佳的性能,RMSE为0.236;ConvLSTM的RMSE为0.275;FC-LSTM的RMSE为0.287;LSTM的预测精度最差,RMSE为0.300。
2.3.3 中期预测
当滑动窗口为11时,使用过去11 d的SST数据预测未来3d的SST数据,中期预测的结果列于表2和表3。
表 2 不同模型在东海测试集上的中期预测误差对比Tab. 2 Comparison of medium-term prediction errors of different models in the East China Sea test sets模型 步长 RMSE MSE MAE R2 1 0.482 0.232 0.361 0.939 LSTM 2 0.493 0.243 0.378 0.931 3 0.529 0.280 0.410 0.906 1 0.418 0.175 0.304 0.959 FC-LSTM 2 0.426 0.182 0.312 0.951 3 0.451 0.204 0.332 0.937 1 0.397 0.158 0.269 0.963 ConvLSTM 2 0.406 0.165 0.272 0.960 3 0.428 0.183 0.286 0.947 1 0.339 0.115 0.235 0.982 GCSA-DNN(our) 2 0.350 0.123 0.238 0.976 3 0.369 0.136 0.250 0.967 注:其中粗体代表最优结果 随着预测步长的增加,预测的难度也随之增加。表2展示了4个模型在东海SST测试集上的中期预测误差结果。对比其他模型,GCSA-DNN更好地拟合了SST时空演变规律, 从4个评价指标来看均达到了最优结果,其中RMSE为0.339;ConvLSTM和FC-LSTM的预测精度一般,RMSE分别为0.397和0.418;LSTM的预测精度最差,RMSE为0.482。
表3展示了4个模型在南海SST测试集上的中期预测误差结果。随着预测步长的增加,GCSA-DNN的优势更加明显,RMSE为0.233;而ConvLSTM、FC-LSTM和LSTM的RMSE分别为0.263、0.275和0.302。
表 3 不同模型在南海测试集上的中期预测误差对比Tab. 3 Comparison of medium-term prediction errors of different models in the South China Sea test sets模型 步长 RMSE MSE MAE R2 1 0.302 0.091 0.217 0.827 LSTM 2 0.312 0.097 0.236 0.815 3 0.337 0.113 0.254 0.789 1 0.275 0.076 0.197 0.861 FC-LSTM 2 0.289 0.084 0.209 0.852 3 0.313 0.098 0.237 0.814 1 0.263 0.069 0.190 0.873 ConvLSTM 2 0.276 0.076 0.199 0.865 3 0.291 0.085 0.222 0.849 1 0.233 0.054 0.167 0.899 GCSA-DNN(our) 2 0.247 0.061 0.178 0.893 3 0.262 0.069 0.196 0.876 注:其中粗体代表最优结果 2.3.4 长期预测
当滑动窗口为23时,使用过去23 d的SST数据预测未来7 d的SST数据,图4展示了4种模型在东海和南海SST测试集上的长期预测误差结果。
图4(a)展示了4个模型在东海SST测试集上的长期预测结果。随着预测天数的增加,所有模型方法的预测精度都有不同程度的下降,但GCSA-DNN的下降最缓慢,表明了GCSA-DNN在长期预测方面的预测性能是最优的;提取了空间特征的FC-LSTM和ConvLSTM的下降程度次之;只提取了时间依赖特征的LSTM的预测精度最差,表明了空间依赖的提取对于SST数据预测的重要性。图4(b)展示了4个模型在南海SST测试集上的长期预测结果。GCSA-DNN保持着最优的结果,并且步长之间的波动很小,因此,空间规律分布特征有利于提高时空预测模型的精度。而ConvLSTM和FC-LSTM的波动很大,与预期一致。
2.4 可视化分析
2.4.1 实验说明
本文选用2022年4月1日至2022年4月7日的预测结果进行可视化分析,该时间段赤道中东太平洋处于拉尼娜状态,我国邻海海温异常,对其进行长期预测具有挑战性。
2.4.2 东海海域可视化结果
图5展示了LSTM、FC-LSTM、ConvLSTM和GCSA-DNN在东海SST测试集上长期预测的RMSE空间分布可视化。
图5中每个海温图表示由24×16个网格点组成的东海海域每日RMSE预测误差。可以看出,4个模型方法在几乎相同的位置都有最大的预测误差,这可能是由于SST在这些位置表现出了非平稳性,导致空间分布规律发生了变化;LSTM和FC-LSTM受到的影响最大,出现了较多的深色区域,在第7 d时RMSE分别为0.856和0.658;ConvLSTM模型随着预测步长的增加,预测精度开始下降,出现了较少的深色区域,在第7 d时RSME为0.595;但是GCSA-DNN受到的影响最小,几乎没有出现深色区域,在第7 d时RMSE达到了0.531,比ConvLSTM提高了11.66%,验证了该模型的优越性。
2.4.3 南海海域可视化结果
图6展示了LSTM、FC-LSTM、ConvLSTM和GCSA-DNN在南海SST测试集上长期预测的RMSE空间分布可视化。
图6中每个海温图表示由24×24个网格点组成的南海海域每日RMSE预测误差。由于南海海域时空演变过程较稳定,大部分网格点预测结果的RMSE都在0附近,表明预测误差较小。但随着预测步长的增加,所有模型的RMSE都在上升。其中,LSTM的误差上升最快,浅色部分越来越少,在第7 d时RMSE为0.516;FC-LSTM次之,在预测步长增大的同时,误差上升较快,在第7 d时RMSE为0.492;ConvLSTM的结果较好,没有出现深色的区域,但随着预测步长的增加,预测结果也越来越不稳定,在第7 d时RMSE为0.412;GCSA-DNN在不同预测步长的RMSE都比较小,在第7 d时RMSE为0.349,比ConvLSTM提高了15.09%,表明了该模型的优越性。
3 结 论
(1)地球物理系统的复杂性导致SST演变规律极其难预测,以往的方法没有考虑捕捉SST数据在不同时间段内的空间分布规律的变化。本文提出的GCSA-DNN能有效捕捉不同时间段内的空间分布规律特征,并将其和SST数据的时间依赖特征有效融合,提高了SST预测的准确度。
(2)通过消融实验,采用4种评价指标对GCSA-DNN各模块组件的有效性进行了验证。结果表明各模块组件对SST预测准确度有较好的提升。
(3)为了验证GCSA-DNN的有效性,本文在东海和南海两种空间分布规律不同的SST数据集上进行短期、中期和长期预测实验,GCSA-DNN展现了较好的性能,表明了本模型的有效性。
(4)以往的方法,很多都没有考虑实际时空场的物理约束。本文用每段时序的均值作为物理约束,有效提高了SST预测的精度,未来可以加入其他物理约束,如非平稳/方差的约束,这样可以更好地遵循时空物理场的演变,使深度学习更加具有可解释性。
(5)在地球系统的复杂物理场下,SST的演变规律会被其他海洋因子影响,如降水、海面高度等,未来可以加入多个海洋因子辅助预测SST,将传统的物理方程和当下最有影响力的深度学习相结合,从而更好地模拟地球系统下的SST演变规律。
-
表 1 GCSA-DNN及其变体在东海和南海测试集上的误差统计
Tab. 1 The error statistics of GCSA-DNN and its variants in the East China Sea and the South China Sea test sets
数据集 模型 RMSE MSE MAE R2 ConvLSTM 0.405 0.164 0.270 0.962 东海 GCS-DNN 0.364 0.132 0.261 0.971 GCSA-DNN 0.348 0.121 0.237 0.982 ConvLSTM 0.275 0.076 0.203 0.853 南海 GCS-DNN 0.245 0.060 0.183 0.879 GCSA-DNN 0.236 0.056 0.168 0.893 注:其中粗体代表最优结果 表 2 不同模型在东海测试集上的中期预测误差对比
Tab. 2 Comparison of medium-term prediction errors of different models in the East China Sea test sets
模型 步长 RMSE MSE MAE R2 1 0.482 0.232 0.361 0.939 LSTM 2 0.493 0.243 0.378 0.931 3 0.529 0.280 0.410 0.906 1 0.418 0.175 0.304 0.959 FC-LSTM 2 0.426 0.182 0.312 0.951 3 0.451 0.204 0.332 0.937 1 0.397 0.158 0.269 0.963 ConvLSTM 2 0.406 0.165 0.272 0.960 3 0.428 0.183 0.286 0.947 1 0.339 0.115 0.235 0.982 GCSA-DNN(our) 2 0.350 0.123 0.238 0.976 3 0.369 0.136 0.250 0.967 注:其中粗体代表最优结果 表 3 不同模型在南海测试集上的中期预测误差对比
Tab. 3 Comparison of medium-term prediction errors of different models in the South China Sea test sets
模型 步长 RMSE MSE MAE R2 1 0.302 0.091 0.217 0.827 LSTM 2 0.312 0.097 0.236 0.815 3 0.337 0.113 0.254 0.789 1 0.275 0.076 0.197 0.861 FC-LSTM 2 0.289 0.084 0.209 0.852 3 0.313 0.098 0.237 0.814 1 0.263 0.069 0.190 0.873 ConvLSTM 2 0.276 0.076 0.199 0.865 3 0.291 0.085 0.222 0.849 1 0.233 0.054 0.167 0.899 GCSA-DNN(our) 2 0.247 0.061 0.178 0.893 3 0.262 0.069 0.196 0.876 注:其中粗体代表最优结果 -
[1] 聂 婕, 左子杰, 黄 磊, 等. 面向海洋的多模态智能计算: 挑战、进展和展望[J]. 中国图象图形学报, 2022, 27(9): 2589-2610. doi: 10.11834/jig.211267 [2] IMANI M, CHEN Y C, YOU R J, et al. Spatiotemporal prediction of satellite altimetry sea level anomalies in the tropical Pacific ocean[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(7): 1126-1130. doi: 10.1109/LGRS.2017.2699668
[3] APARNA S G, D’SOUZA S, ARJUN N B. Prediction of daily sea surface temperature using artificial neural networks[J]. International Journal of Remote Sensing, 2018, 39(12): 4214-4231. doi: 10.1080/01431161.2018.1454623
[4] HAM Y G, KIM J H, LUO J J. Deep learning for multi-year ENSO forecasts[J]. Nature, 2019, 573(7775): 568-572. doi: 10.1038/s41586-019-1559-7
[5] ZHENG G, LI X F, ZHANG R H, et al. Purely satellite data–driven deep learning forecast of complicated tropical instability waves[J]. Science Advances, 2020, 6(29): eaba1482. doi: 10.1126/sciadv.aba1482
[6] LIU Y, FU W W. Assimilating high-resolution sea surface temperature data improves the ocean forecast potential in the Baltic Sea[J]. Ocean Science, 2018, 14(3): 525-541. doi: 10.5194/os-14-525-2018
[7] LINS I D, ARAUJO M, DAS CHAGAS MOURA M, et al. Prediction of sea surface temperature in the tropical Atlantic by support vector machines[J]. Computational Statistics & Data Analysis, 2013, 61: 187-198.
[8] QIAO B Y, WU Z Q, TANG Z, et al. Sea surface temperature prediction approach based on 3D CNN and LSTM with attention mechanism[C]//2021 23rd International Conference on Advanced Communication Technology (ICACT). PyeongChang: IEEE, 2021: 342-347.
[9] XIE J, OUYANG J M, ZHANG J Y, et al. An evolving sea surface temperature predicting method based on multidimensional spatiotemporal influences[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1502005.
[10] ZHANG Q, WANG H, DONG J Y, et al. Prediction of sea surface temperature using long short-term memory[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1745-1749. doi: 10.1109/LGRS.2017.2733548
[11] YANG Y T, DONG J Y, SUN X, et al. A CFCC-LSTM model for sea surface temperature prediction[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(2): 207-211. doi: 10.1109/LGRS.2017.2780843
[12] XIAO C J, CHEN N C, HU C L, et al. A spatiotemporal deep learning model for sea surface temperature field prediction using time-series satellite data[J]. Environmental Modelling & Software, 2019, 120: 104502.
[13] 张雪薇, 韩 震. Argo温度数据的ConvGRU模型预测分析[J]. 海洋环境科学, 2022, 41(4): 628-635. doi: 10.13634/j.cnki.mes.2022.04.002 [14] REYNOLDS R W, SMITH T M, LIU C Y, et al. Daily high-resolution-blended analyses for sea surface temperature[J]. Journal of Climate, 2007, 20(22): 5473-5496. doi: 10.1175/2007JCLI1824.1
[15] 周 倩, 凌铁军, 李 响, 等. 中国周边海域海面温度日变化对区域气候的影响[J]. 气候与环境研究, 2019, 24(2): 214-226. doi: 10.3878/j.issn.1006-9585.2018.18087 [16] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2015: 802-810.
[17] WANG Y B, ZHANG J J, ZHU H Y, et al. Memory in memory: a predictive neural network for learning higher-order non-stationarity from spatiotemporal dynamics[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9146-9154.
[18] SCHWING A G, URTASUN R. Fully connected deep structured networks. Computer Science, 2015, 3: 469-477.
[19] 孙伟富, 张 杰, 孟俊敏, 等. 中国南海及邻近海域SST时空分布和变化特征分析[J]. 海洋科学进展, 2018, 36(3): 402-411. doi: 10.3969/j.issn.1671-6647.2018.03.007 [20] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [C]// Proceedings of the 4th International Conference on Learning Representations. San Juan: OpenReview. net, 2016.
[21] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. , 2017: 6000-6010.
[22] CHAUDHARI S, MITHAL V, POLATKAN G, et al. An attentive survey of attention models[J]. ACM Transactions on Intelligent Systems and Technology, 2021, 12(5): 53.
[23] QIAO B, WU Z, MA L, et al. Effective ensemble learning approach for SST field prediction using attention-based PredRNN[J]. Frontiers of Computer Science, 2023, 17(1): 171601.
-
期刊类型引用(2)
1. 任甜,周圆,程永存,陈克然,李硕士. 基于原型校正时空网络的多步海表面高度时空预测. 海洋与湖沼. 2024(04): 840-852 . 百度学术
2. 谢博闻,张丛,杨树国,冯忠琨,孙贵民. 基于深度学习的南海海表面温度的智能化预测研究. 海洋与湖沼. 2024(05): 1082-1095 . 百度学术
其他类型引用(2)