DA多重插补法在电网电能量数据缺失处理中的应用

谷海彤,陈邵华,吴晓强,蔡妙妆,崔 卓,曾小林*

(广州供电局有限公司计量中心,广东 广州 510620)

摘 要:针对电能量数据缺失值处理技术,提出一种引入时间序列的基于贝叶斯常均值模型的数据增广算法(DA多重插补法).应用期望最大算法(EM插补算法)计算缺失值的插补值,将得到的插补值作为插补的初始值,然后根据电能量数据随时间变化的特点,构建基于常均值模型的多重插补模型,利用贝叶斯方法预测每个缺失值的多次插补值,综合分析观测误差方差和状态误差方差得到最终插补值,从而得到多个完整数据集合.在不同缺失率的条件下,通过与EM插补结果,以及与基于贝叶斯线性回归的DA多重插补结果相比较,得出改进的插补方法比所预测的误差更低,波动更小,插补结果更稳定的结论,有效提高电能量缺失数据的插补精度.

关键词:贝叶斯常均值模型;DA多重插补法;电能量数据缺失

0 引言

电网数据处理应用中,电能量数据质量的校验及处理是电网大数据处理业务的一个重要环节,其中,电能量数据的缺失,会导致有用信息的丢失,给电网企业后续的各种数据处理及应用带来严重影响;因此,为保证电网数据的完整性、有效性,提升电能量数据质量,需要对缺失数据进行插补以解决数据缺失问题.

传统的电能量缺失数据插补方法主要是利用均值、众数等统计量进行替代,但电能量数据波动大或缺失严重时,这些处理方法的误差不可控且效果欠佳.针对这类问题,已有专家学者进行了相应研究,以期找到更符合电能量数据规律的插补方法.文献[1]中介绍了一种基于遗传优化算法的电网缺失数据填补方法,该方法考虑电能量数据的历史信息,借助遗传算法优化多重插补的参数,寻找最优的插补值.但该方法将电能量数据视为平稳序列,未考虑其时间波动特性,从而导致插补效果不理想,因为用电高峰和用电低谷时电能量数据显然是非平稳的.

在电能量缺失数据处理中,将时间序列引入多重插补是行之有效的方法.本论文将EM(Expectation Maximization)插补[2]及DA(Data Augmentation)多重插补相结合,提出一种基于贝叶斯常均值模型的DA多重插补方法.该方法根据电能量数据随时间变化的特点,构建基于常均值模型的DA多重插补模型,通过贝叶斯方法预测缺失数据的多个插补值,以寻找更符合电能量数据时间波动性质的插补值,提高电能量数据的完整性及有效性.

1 方法介绍

1.1 EM插补计算初始值

记一个完全数据集Y=(y1,y2,…,yT)为T个时期的电能量数据,其中Yobs为观测数据集,Ymis为缺失数据集,即 Y=(Yobs,Ymis).

EM插补运用缺失数据和模型参数之间的迭代关系[3]:假定模型参数,并在此基础上获得缺失数据的估计值,利用该估计值修正模型参数,由此不断迭代,直到模型参数值收敛.EM插补算法每一次迭代都由以下两步来完成:

E步:E步是在给定观测Yobs与当前参数估计值的基础上,得到完全数据对数似然函数lnp(Yobs,Ymis|θ)关于缺失数据Ymis的期望:

其中θi为已知的当前参数的估计值,Yobs与θi为常数,θ为待优化的参数,f(Ymisi,Yobs)是缺失数据Ymis的边缘密度函数,并依附于观测数据和当前参数θi,D为Ymis的取值空间.

Ymis为一随机变量,并假设它服从分布:

f(Yobsi)与θ无关,则对数似然函数的期望为:

M 步:M 步是最大化期望值 g(θ|θi,Yobs),即找到一个 θ(i+1),满足:

其中Θ代表参数空间.

1.2 构造基于常均值模型的DA插补模型

常均值模型[4]为时间序列模型,其应用范围广且算法简洁,对于完全数据集Y构造的常均值模型为:

在式(4)中,Yt为t时刻的观测值向量,μt为t时刻的期望向量,vt为t时刻的观测误差,是一个协方差矩阵为Vt的零均值正态分布.动态正态模型与传统的静态正态模型的不同之处在于,期望向量被看做是随时间变化而变化的随机变量.在式(5)中,μt相对于μt-1有一个状态误差,其分布为正态、零均值、协方差矩阵Wt.观测和状态误差序列vt{}和{wt}相互独立,且在不同的时刻每一序列内部之间相互独立.当Wt=0时,状态方程转化为恒等式,动态正态模型转化为静态正态模型.

1.3 进行贝叶斯预测获得插补值

记 t时刻的信息集},t时刻缺失时′需用插补值代替Yt中的缺失值,不缺失时为观测值,参数为},参数空间为 Θt.

基于常均值模型进行贝叶斯预测的基本思想是[5]:首先根据(t-1)时刻的后验分布 p(θt-1|Dt-1),求先验分布 p(θt|Dt-1),若 t时刻有数据缺失,则求预测分布 p(Ymis,t|Dt-1),数据缺失变量的预测值作为插补值,然后求后验分布p(θt|Dt).以上过程随时间推移不断进行递推修正,具体如图1所示.

插补后的数据依旧满足常均值模型,在观测误差方差Vt和Wt状态误差方差已知的基础上,递推修正的过程如下:

图1 贝叶斯预测的递推修正算法流程图
Fig.1 Bayesian prediction of recursive correction algorithm flow chart

Step1(t-1)时刻的后验如下:

Step2 t时刻先验分布如下:

Step3 t时刻缺失时预测分布如下:

Step4 t时刻后验分布如下:

其中:表明水平的后验估计mt是先验估计mt-1和观测值的加权平均[6],当先验分布比似然分布更集中时,At更接近0;当似然分布比先验分布更集中式,At更接近1.

当t时刻数据缺失时,从预测分布和后验分布抽取样本,抽取过程包括如下重复两个步骤:

结合EM插补得出的初始值形成一条MCMC链,该链收敛一个稳定分布,从收敛的分布中随机抽取样本,替代t时刻缺失数据.对全部时刻的观测数据做贝叶斯预测,计算预测误差,改变观测误差方差Vt和状态误差方差Wt,重复预测,寻找预测误差最小的Vt和Wt,此时插补的数据为最终插补数据.

上述方法为本论文提出的基于贝叶斯常均值模型的DA多重插补法,根据电能量缺失数据提供一个实例进行详细说明.

2 在电能量缺失数据中的应用与分析

现有一个电能量缺失数据集Y0,为某用户2016-01-01至2016-01-31日共31天744条记录的A相电流数据,电流数据具有周期性.该数据集在时间为 2016-01-01 1:00,2016-01-01 11:00 及 2016-01-02 14:00时A相电流缺失,为验证算法在不同缺失情况下的插补效果,在此缺失基础上,随机构造缺失率为10%,15%,20%,25%,30%的电能量数据集,用于计算插补误差并对比不同缺失条件下算法的稳健性.用缺失率为20%的该电能量数据集Y为例,说明算法的具体实施过程,缺失数据集Y的部分数据如表1所示.

表1 部分缺失数据
Tab.1 Partial missing data

将该电能量数据集中的观测数据集表示为Yobs,缺失数据集表示为Ymis,即Y=(Yobs,Ymis).

2.1 EM插补作初始值

利用数据集Y使用EM插补计算电能量数据缺失值的插补值.作为DA多重插补的初始参数值.根据前文所述的EM插补算法,得到插补后完整数据集Yem,部分结果如表2所示.计算该数据集的期望μ0=0.87,作为常均值模型的初始信息.

其中,根据电能量数据的相关特性,该用户A相电流的额定电流为5 A,因此设置当前参数θi=5,Ymis的取值空间 D∈[0,5].

表2 EM插补部分结果
Tab.2 EM interpolation part result

注:表中带有双下划线的数字表示插补后的值

2.2 贝叶斯常均值模型的计算

构建基于时间序列的多重插补模型,观测数据服从常均值模型,把缺失时间对缺失值大小的影响表现出来.根据2.1所得的完全数据集Yem,及其期望μ0,作为常均值模型的初始信息,构造出完全数据集Y的常均值模型,利用该模型作为后续DA多重插补的插补模型.

对于完全数据集Y构造的常均值模型为:

其中,根据电网数据的特性,额定电流为5 A的A相电流数据,其观测值在额定电流的±0.05范围内波动属于正常值,由此设置观测误差 vt~Np(0,0.05),t=1,2,…,744,状态误差 wt~Np(0,0.005).

2.3 DA多重插补结果

根据 2.2 建立的贝叶斯常均值模型,从分布 vt~Np(0,0.05)及 wt~Np(0,0.005)随机抽取观测误差 vt及状态误差wt;再利用贝叶斯方法预测每个缺失值的多次插补值,本次实例重复预测10次,得到10个完整数据集合Ypre_i,i=1,2,3,…,10;找到使预测误差最小的观测误差方差Vt和状态误差方差Wt,此时插补的数据为最终插补值.

经过10次预测后,预测出的缺失数据部分结果及部分原始数据如表3所示.

表3 预测数据与原始数据
Tab.3 Forecast data and raw data

注:表中带有双下划线的数字表示插补后的值

由表3中10次插补的预测值Ypre_i,i=1,2,3,…,10,结合前文所述该电能量数据集Y0,计算该电能量数据集的绝对预测误差E,并综合绝对预测误差计算平均绝对误差EMAE,以查看预测效果,具体计算公式如下:

其中,Y0为电能量数据的原始值,Ypre_i为电能量缺失数据的预测值.根据上述公式得出部分计算结果如表4所示.

表4 预测误差
Tab.4 Prediction error

根据表4,在缺失率为20%的条件下,从该DA多重插补法得到的10次插补结果中,综合得到第2次预测的观测误差方差、状态误差方差,使得预测值的平均绝对误差最小为0.12,因此选取第2次的插补数据为该电能量缺失数据最终确定的插补数据.并且由表中对比可知,基于贝叶斯常均值模型的DA多重插补算法的绝对预测误差、绝对平均误差均明显低于EM插补算法,插补效果更优.

2.4 不同缺失率下EM插补与DA多重插补对比

上述过程详细描述了基于常均值模型的DA多重插补法在缺失率为20%的电能量数据集中的应用,同理,将该过程同样应用于缺失率为10%,15%,25%,30%的电能量数据集,并对比EM插补与该方法在不同缺失率情况下的效果,结果对比如图2所示.

从图2可知,基于常均值模型的DA多重插补法的绝对平均误差更低,不同缺失率之间的误差波动更小,效果更稳定.由此证明该方法在不同缺失率下,较EM插补法在电网缺失数据的应用中效果更优越.

2.5 基于不同模型的DA多重插补对比

为了进一步衡量与比较经过改善后,基于贝叶斯常均值模型DA多重插补对电网缺失数据的插补效果.利用基于贝叶斯线性回归的DA多重插补对同一批缺失率为20%的数据,同样利用EM插补算法计算初始值进行插补,计算绝对预测误差和平均预测误差.两种DA多重插补的结果比较如图3所示.

图2 EM插补与DA插补在不同缺失率下的结果比较
Fig.2 The EM interpolation is compared to the result of the DA interpolation in the different missing rates

从图3可以看出,基于贝叶斯常均值模型的DA多重插补均值更低,方差更小,预测结果更稳定,进一步证明该方法在电网数据中应用的优越性.

因此,将该方法应用于实际电网缺失数据中以查看效果,取某用户2016-01-18 至 2016-01-24 即周一至周日共7天168条A相电流记录,其中该记录缺失率为21%,运用该方法得到插补结果如图4所示.

图3 两种DA多重插补的结果比较
Fig.3 Comparison of the results of two DA multiple interpolation

图4 基于常均值模型的DA多重插补在电网缺失数据中的应用
Fig.4 The application of DA multiple interpolation in the missing data of the grid based on the model of the mean model

从图4中可看出.该用户的A相电流具有周期性,工作日的电流随时间的波动较大休息日波动较稳定.基于常均值模型的DA多重插补结果曲线与原数据曲线较吻合,且很好地描绘了原数据的周期性,体现了该方法充分考虑电能量数据时间波动性的优点,及应用于电网缺失数据中的优越性.

3 结论

电能量缺失数据处理对保证电网数据质量及各种数据处理的准确性有着积极的意义.本研究利用贝叶斯常均值模型作为DA多重插补模型,考虑电能量数据随时间变化的性质,通过贝叶斯预测得到缺失数据的多个插补值,并综合历史数据及当前信息的变化规律,寻找最优的插补数据.通过对某供电局电能量数据的实验及对比验证,得到了在不同缺失率条件下,基于贝叶斯常均值模型的DA多重插补方法较EM插补法的效果更稳定,并且相比于基于线性回归模型的多重插补方法,基于贝叶斯常均值模型的DA多重方法的效果更优的结论.该方法应用于电网数据中,充分考虑电能量数据的时间波动特性,不仅准确描述了电能量数据的短期变化,而且对长期变化的表征也更加科学,有效提高电网数据质量.

参考文献:

[1]王一蓉,王瑞杰,陈文刚,等.基于遗传优化的调控系统缺失数据填补算法[J].电力系统保护与控制,2016,44(21):182-186.

[2]GUO X,LI Q Y,XU W L,et al.Acceleration of the EM algorithm using the vector aitken method and its steffensen form[J].Acta Mathematicatae Applicatae Sinica English,2017,33(1):175-182.

[3]庞新生.缺失数据多重插补处理方法的算法实现[J].统计与决策,2012(11):88-90.

[4]张聪慧,杨明.贝叶斯动态模型在煤矿事故预测中的应用研究[J].中国安全生产科学技术,2014,10(S1):254-258.

[5]卢艳红.贝叶斯常均值模型状态误差方差Wt的改进及在能源预测中的应用[D].上海:华东理工大学,2013.

[6]林开荣,徐新苗.贝叶斯统计在多片板簧可靠性设计中的应用[J].广西工学院学报,2004,15(4):34-36.

Application of DA multiple interpolation in electric energy data missing

GU Hai-tong,CHEN Shao-hua,WU Xiao-qiang,CAI Miao-zhuang,CUI Zhuo,ZENG Xiao-lin*
(Guangzhou Power Supply Co.,Ltd.,Guangzhou 510620,China)

Abstract:In this paper,a DA multiple interpolation method introducing time series based on Bayesian mean value model is proposed to handle with missing data in electric energy data.Firstly,the EM interpolation algorithm is used to calculate the interpolation value of missing value,and the obtained interpolation value is taken as the initial value of the interpolation.Secondly,according to the characteristics of electric energy date changing over time,a multiple imputation model on the base of mean value model is constructed.Then,the multiple interpolation values of each missing value will be predicted by Bayesian method.The final error is obtained by comprehensive analysis of the observed error variance and the state error variance,and a number of complete data sets are finally obtained.In the condition of different data loss rate,compared with other results of EM interpolation and the DA interpolation based on Bayesian linear regression,it is obviously concluded that the improved interpolation method applied in this paper takes full account of the time fluctuation characteristics of electric energy data and is more objective as well as practical,besides,its interpolation result is more scientific and reasonable.

Key words:Bayesian mean value model;DA multiple interpolation method;lack of electrical energy data

中图分类号:TM71

文献标志码:A

(学科编辑:张玉凤)

文章编号:2095-7335(2017)03-0103-07

DOI:10.16375/j.cnki.cn45-1395/t.2017.03.017

收稿日期:2017-05-05

基金项目:中国南方电网科技项目(GZHKJ00000024)资助.

* 通信作者:曾小林,高级工程师,研究方向:计量算法,E-mail: zengxiaolin@longshine.com.