权威期刊网官方网站

基于贝叶斯分类的线上银行客户预测

2020-08-08 00:00:00 来源:《创新时代》2020年6期 作者:徐若雯,吴煜文,郭怡佳,沈怡,陈圣磊

基于贝叶斯分类的线上银行客户预测

徐若雯 吴煜文 郭怡佳 沈怡 陈圣磊

南京审计大学经济学院 江苏南京

摘要:贝叶斯算法是分类和匹配问题中常用到的方法,近年来,常被应用到各种实际问题之中。本文将贝叶斯引入商业银行线上营销案例之中,基于商业银行数据样本,进行朴素贝叶斯分类器的构建。同时提出两种利用互信息的改进方法以对比探究相对于朴素贝叶斯模型分类效果的改进情况。本文实证结果表明,这两种改进都是有效的,通过属性和类之间互信息以及属性和属性间互信息辅助对属性进行排序不仅能够简化模型构建流程,并且能提高分类准确率。最后,本文对该模型在商业银行网络营销中的应用方向提出建议并对实际意义做出探讨。

关键词:朴素贝叶斯; 商业银行; 网络营销; 互信息;

一、引言

贝叶斯算法作为一个实用性很强的算法,在客户分类的问题中是一个常见的工具。目前国内外关于线上银行客户分类的研究均有所不足。现有研究使用的主要有决策树法、神经网络和朴素贝叶斯分类器的方法。而朴素贝叶斯方法的工作原理简单,且可以处理大量数据,但其要求的独立性假设条件较强;决策树法难以处理大规模的数据集;神经网络方法由于其本身的复杂性,在应用方面存在困难;这些方法在准确的评判线上银行的个人客户价值方法都存在缺陷[1]。

国内学者曾提出多种关于贝叶斯分类的改进方法,如基于TF-IDF权重的加权朴素贝叶斯分类算法[2];基于Rough Set的加权朴素贝叶斯分类方法等[3],这些方法都在一定程度上减轻了条件独立性假设,减少了假设的缺陷,但假设条件过强的问题仍然存在,因此还需要创造出应用性更强的新算法。本文将使用贝叶斯算法与客户分类相结合,利用互信息和条件互信息对朴素贝叶斯算法进行改进,减少独立性假设带来的缺陷,提高分类精度。

二、贝叶斯分类的相关研究

()、朴素贝叶斯分类模型

设有变量集 5f2e62be021a1_html_2dae6135bb6f502f.gif ,其中5f2e62be021a1_html_3a8b1665d6b2053c.gif 为实例的属性变量,5f2e62be021a1_html_62e0a5f72f51713d.gif 是取5f2e62be021a1_html_dacbc5c1cbb7e783.gif 个值的类变量。朴素贝叶斯假设对于类变量5f2e62be021a1_html_62e0a5f72f51713d.gif 来说,每一个属性变量都只有一个父节点即类变量,由此得到朴素贝叶斯分类模型,即

5f2e62be021a1_html_3b8c3b4086807ca2.png5f2e62be021a1_html_80a23666169d568e.gif .

2-1 分类器训练与测试框架

朴素贝叶斯分类器中的属性独立性假设如图2.1所示。朴素贝叶斯方法预测类5f2e62be021a1_html_2fb21279c523aec1.gif 最大化5f2e62be021a1_html_928b699c4a1cb9ee.gif ,而5f2e62be021a1_html_928b699c4a1cb9ee.gif 可以由上述的联合概率公式推导得到。

()、属性权重

大量研究表明,选择不同属性对于结果带来的影响有很大的区别,一部分关键的属性为结果的准确性起了决定性作用,而有部分属性的加入对于预测结果准确度的影响甚微。为了更大程度的降低这些对于结果准确性的干扰因素,出现了给不同属性赋予不同权值的方法。于是如何合理计算权值,使实验误差最小化成为了一个重要的研究方向。Huan Zhang[4]提出了特定类别属性值权重的方法,对于每一个类,这种方法都有区别地为每个属性值分配一个特定的权重,通过最大化条件对数似然或最小化均方误差来学习类特定属性值权重矩阵。S. Sathya Bama[5]提出了一种基于属性秩特征选择的加权平均方法,利用基于属性秩的特征选择和加权平均模式得分来预测未标记样本的类别标签,提高分类精度。

()、属性选择

实际操作中,甚至会出现一部分属性的加入会降低预测结果准确度的现象,因此提出了一种选择带来关键影响的属性,而舍弃一部分对预测作用不大或是不佳的属性的方法,这种方法我们称之为属性选择。Langley[6]提出“前向”筛选相关属性,从而可以提高数据处理的效率。Pazzani[7]在此基础上提出“反向”过滤不相关属性,从而降低模型操作的难度,提高贝叶斯分类的精确率。白赞[8]提出属性选择的一般过程为:对于原属性集进行“双向筛选”,产生不同的候选子集,再利用评估函数对子集进行评价,当结果满足停止准则时停止实验。

()、结构扩展

朴素贝叶斯中考虑的因素只包含有属性与变量之间的关系,而在此基础上,再考虑属性之间的相关关系也是一种提高预测准确度的方式,这种方式即为结构扩展。Friedman[9]提出的TAN算法构建树型依赖结构是对解决属性及变量间依赖关系的首次尝试。石洪波[10]通过利用变量条件间互信息而进行若干TAN进行组合。在计算时,我们可以选取变量间的互信息为判断指标,当两个随机变量之间的关联性程度较大时,其信息熵较小。对不同变量条件下的已知变量和属性的关系进行信息熵的计算并以此为基础进行结构扩展是本文中主要使用的改进方法。

三、朴素贝叶斯分类中的属性选择

在一个实际事件中,不是所有的属性都对类有高度的影响。因此在构建模型时,我们需要依据属性与类之间的相关性进行属性选择以剔除部分噪声因素。实验中,对模型进行属性选择有利于提高模型构建效率并提高模型的精确性。本文中,主要采用两种方法对属性选择进行改进,通过对属性与类之间互信息的排序以及辅助属性与属性之间的互信息进行属性的选择。

总体流程如图4.1所示。

5f2e62be021a1_html_f03f5c36a3b08cbf.gif

3-1 属性选择流程图

()、互信息计算

贝叶斯网络中模型的构建即在数据中构建决策树模型。当父结点和子结点间信息熵相差较大时,此时子结点所包含的属性纯度较高,对分类的影响率更大。本次实验中,信息熵的计算通过互信息来实现,互信息衡量了两个随机变量间相互依赖程度,当两个随机变量关联程度较大时,其信息熵会处于低位水平。

互信息是一个随机变量X中包含的关于另一个随机变量Y的信息量,是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性,互信息的公式如下:

5f2e62be021a1_html_a13afc7654144a90.gif

利用互信息不仅可以帮助识别个别最具歧视性的属性,而且可以精确计算出属性和类的相关程度,在第一次遍历数据集时得到计算结果,提高计算效率。

()、属性排序

本次实验中,将互信息大小作为属性排序依据。已知互信息越小即表示属性与模型的关联度越大,因此对属性互信息进行逆向排序能够简化模型构建的程序并取得相对精确的结果。

1、基于属性和类互信息的属性排序

基于传统朴素贝叶斯假设,属性间是相互独立的。此时我们通过属性和类之间的关系更加直观方便。在模型构建中,我们通常选取属性作为父节点,类的值作为子节点。通过计算其信息熵我们能够得到属性和类之间的互信息并以此作为属性排序的依据。

2、基于属性和属性间互信息的属性排序

在利用属性和类之间互信息排序时,我们是建立在独立性假设的基础上,没有考虑属性与属性之间的关系,但在实际应用中,各属性之间通常有很大的关联。为了提高分类的准确度,我们选择利用属性之间的条件互信息重新对分类属性进行排序,以此降低独立性假设的缺陷。在实验中,由于属性数量较多,很难精准的计算出各个属性的条件互信息,于是采取了简化方法来。假设有4个属性,我们先比较各个属性与类之间的互信息,并选出与类互信息最大的属性:

5f2e62be021a1_html_8c8c2e7bcee76ea.gif ,假设5f2e62be021a1_html_402023ba1056232d.gif ,再计算在a3条件下其他3个属性与类之间的条件互信息并比较它们的大小。

5f2e62be021a1_html_dc02fed4db1db362.gif ,假设5f2e62be021a1_html_3d1c6ada279b9d1a.gif ,由于计算5f2e62be021a1_html_a147fab5f9de2886.gif 十分困难,我们在5f2e62be021a1_html_3e5c139fe671bed4.gif5f2e62be021a1_html_9c0f7ea26aff4dfb.gif 中选出一个更大的值,假设更大的值为5f2e62be021a1_html_e78be9c038f0efb2.gif ,则最终排序为5f2e62be021a1_html_b80303241cd1b22a.gif

()、留一交叉验证

我们在第二次遍历数据时,把当前样本作为未知样本来进行预测,以此衡量n个分类器的准确率。在实验中我们采用增量留一交叉验证。增量留一交叉验证即是把当前测试样本在数组中减去,用概率表进行预测后再加回训练样本,此方法的优势是只需要扫描一遍数据。而使用普通的留一交叉验证,每进行一次预测就需要重历一次数据,降低了实验效率。

()、属性选择

第一次遍历数据集后,程序已经获得了排序后的属性顺序。我们利用累加法,把互信息最大的属性单独选择构成一个模型,并且每次在前一个模型的基础上按顺序加上一个新的属性构成新的模型。即对于n个属性的事件中,我们需构建n个模型并选出最有特征子集。

基于留一交叉验证和十重交叉验证法,我们可以得到一个最优模型a,即实验中最优模型构建是利用已储存的排序后a个属性,则后面n-a个属性不具有使用价值。

  1. 实验结果比较

()、数据预处理

原始数据存在于真实的银行系统中,可能顺序杂乱无章,而且质量参差不齐,没有统一的定义格式。因此,要按照一定的规则对原始数据进行筛选和排序,本实验中将银行客户的数据按照一定的规则进行分类,并且利用属性的互信息大小进行排序。

()、结果分析

  1. 指标含义

(1)RMSE

均方根误差,均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根,用来衡量观测值同真值之间的偏差,其公式为:5f2e62be021a1_html_82fcd5f9e2d5048d.gif ,其中N为测试样本个数.

(2)0-1损失函数

当预测错误时,损失函数为1,当预测正确时,损失函数值为0。该损失函数不考虑预测值和真实值的误差程度。只要错误,就是1,其公式为:

5f2e62be021a1_html_be5622d052da5356.gif

(3)logarithmic loss

对数损失函数,由于概率之间的同时满足需要使用乘法,为了将其转化为加法,我们将其取对数。最后由于是损失函数,所以预测正确的概率越高,其损失值应该是越小,因此再加个负号取反,其公式为:5f2e62be021a1_html_a5bb1c25a0de3d82.gif

  1. 结果比较

经过三次实验,我们得出了数据集的相关结果数据,并整合记录于表1中。

0-1loss

RSME

logarithmic loss

朴素贝叶斯分类方法

0.1274

+/-0.0146

0.3094

+/-0.0153

0.4633

+/-0.4633

互信息排序后的贝叶斯分类

0.1075

+/-0.0132

0.2798

+/-0.0115

0.4045

+/-0.0293

条件互信息排序后的贝叶斯分类

0.1053

+/-0.0151

0.2811

+/-0.0114

0.3735

+/-0.0219

1 三种不同方法的贝叶斯分类算法结果

我们得出数据集的相关结果数据,并将十重交叉验证的数据集和方差整合记录于表1中。我们可以看出,相对于朴素贝叶斯分类器,利用互信息及条件互信息改进的分类器在分类结果上面具有更高的准确性。具体表现为均方根误差、0-1损失和对数损失均有了不同程度的减小。其中,对本次的两个改进而言,基于条件互信息改善的分类器分类结果优于依据属性和类间互信息改善的分类器分类结果。

因此,我们可以说这两种改进均是有效的,且基于条件互信息改善的分类器有明显优化效果。

五、模型的应用

随着移动网络的发展,选择使用线上银行的客户逐渐变多,“互联网+”政策的背景的重要意义,且伴随着时代的发展将会越发重要,传统银行市场因此也有了新的变化,传统金融行业的重心也在逐步向线上偏移,越来越多的客户,越来越多的个性化服务与需求都要求有关银行客户分类的研究的进一步深化,将大数据与客户分类结合,以更精准的为客户提供服务已经是当下的热点。

()、信用水平分类

互联网金融和网络银行的发展让更多的人参与到银行的信用活动中,银行需要针对客户的经营管理水平和财务状况等信息对客户的信用水平进行评级,充分掌握客户的信誉和资信状况,确定客户的优先级和授信额度,减少银行的财务。

朴素贝叶斯分类算法能科学有效的评价客户的信用水平,完善银行的客户信息管理系统。贝叶斯分类算法将客户的各个指标,如财务状况,信用历史,企业资质等作为算法的属性值,根据银行的客户信息管理系统的数据对贝叶斯分类器进行训练,从而对潜在客户进行分类评级,这种分类算法不仅具有较高的准确性,而且能够根据客户数据库的更新不断的对算法进行优化处理,具有很大的成长性。本文中对算法的改进也降低了朴素贝叶斯分类条件独立性假定不成立的风险。通过对其有效利用,银行能够降低营运成本,并减少信用活动中呆账坏账的发生。

()、客户价值分类

根据二八理论,百分之二十的客户会为银行创造百分之八十的价值。因此,银行必须要把握好这部分高端客户,提供全方位的优质服务,制定长期稳定的合作战略。

贝叶斯分类器可以根据客户的个人信息、购买产品情况,资金流动信息等等建立标准的客户终生价值评价系统,对客户进行细化分类,并且实施不同的营销战略,同时促进产品和服务差异化,更好的满足客户的需求,从而培养客户的忠诚度,获取客户的终生价值,同时节约营销成本,利益最大化。

六、小结

本文在NB朴素贝叶斯算法的基础上,分别提出了两种改进思路:

(1)利用属性和类之间的互信息大小对属性进行排序,并构建模型。

(2)通过比较属性之间条件互信息重新对分类属性进行排序,以此降低独立性假设的缺陷。通过数据集的分类和对比实验,我们在理论基础上用实验证明了改进方法的有效性。

参考文献

[1]基于贝叶斯网络分类器的商业银行客户分类模型研究[D].叶胜利.南京理工大学 2009

[2]隗中杰,文本分类中TF-IDF权重计算方法改进[J].软件导刊.2018(12)

[3]邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007(02):204-206+219.

[4] Huan Zhang;Liangxiao Jiang;Liangjun Yu. Class-specific attribute value weighting for Naive Bayes. [J]Information Sciences,Volume 508, January 2020, Pages 260-274

[5] S. Sathya Bama;A. Saravanan. Efficient Classification using Average Weighted Pattern Score with Attribute Rank based Feature Selection[J]International Journal of Intelligent Systems and Applications(IJISA). .2019.07.04

[6]Shenglei Chen, Ana M. Martinez, Geoffrey I. Webb, Fellow, IEEE, Limin Wang. Sample-Based Attribute Selective AnDE for Large Data. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, vol.29, no.1, January.2017.

[7]PDomingos, M.Pazzani. On the Optimality of the Simple Bayesian Classifier under zaro-one Loss 1997

[8]白赞 基于属性选择加权的朴素贝叶斯算法的改进与应用 西安理工大学

[9]N. Friedman, D. Geiger, M.Goldszmidt, Bayesian network classifiers, Mach.Learn. 29 (2–3) (1997) 131–163.

[10]石洪波,黄厚宽.贝叶斯网络分类器稳定性研究[J].模式识别与人工智能,2004,17(03):275-280.

作者简介

徐若雯(2000-),女,汉族,江苏徐州人,南京审计大学电子商务系在读

吴煜文(1998-),女,汉族,江苏苏州人,南京审计大学会计(CPA Canada)专业在读。

沈怡(1999-),女,汉族,江苏苏州人,南京审计大学电子商务专业在读。

郭怡佳(2000-),女,汉族,河南周口人,南京审计大学投资学在读。

陈圣磊(1977-),男,汉族,山东汶上人, 南京审计大学电子商务系副教授。

项目基金:本文系江苏省高等大学生实践创新创业训练计划校级项目

项目编号:2019SX0662R