欢迎您来到职称阁,为评职者提供职称晋升解决方案!

热门文章

我国农产品供应链研究现|| 黄精产业发展现状及建议|| 畜牧业在乡村振兴中作用|| 农业生态环境修复治理措||

随机森林垃圾邮件检测算法

来源:职称阁分类:农业论文 时间:2020-11-06 10:05热度:

  本文应用SMOTE算法以消除邮件数据的不平衡性,并应用随机森林集成学习算法进行垃圾邮件识别。实验结果表明提出的方法在多个指标性能表现良好。

随机森林垃圾邮件检测算法

  关键词:垃圾邮件、随机森林、合成少数类过采样技术

  1引言

  电子邮件是使用率最高的网络应用之一,是人们通过网络交流沟通的重要工具。但是,垃圾邮件作为正常邮件的附属产物,已经严重影响到国家、企业和以及个人之间的网络通讯与安全,甚至造成严重的经济损失。现在,越来越多的学者将分类预测技术应用于垃圾邮件识别,如陈龙等提出了一种基于支持向量机的自适应性分类器,并应用于用于检测垃圾邮件[1]。刘洁等提出基于改进互信息的加权朴素贝叶斯算法以提高垃圾邮件识别的精确度和召回率[2]。本文提出了一种结合SMOTE和随机森林的算法,并应用于垃圾邮件检测,以提高垃圾邮件的识别率。

  2基于SMOTE和随机森林的垃圾邮件识别算法

  垃圾邮件检测数据往往是不平衡数据,即数据集中的正常邮件和垃圾邮件的数量是不均衡的。针对此问题,本文提出了基于合成少数类过采样技术(SMOTE)[3]和随机森林集成学习算法[4]的RF-smote算法。算法主要分两步,首先应用SMOTE算法对少数类别的垃圾邮件样本进行分析和新样本合成,将生成的新样本添加到数据集中,消除正常邮件和垃圾邮件样本数量的不平衡。然后,应用随机森林集成学习算法,进行垃圾邮件识别。SMOTE算法步骤如下:1.针对训练数据,采取最邻近算法,计算出垃圾邮件样本数据的K个近邻;2.针对每个垃圾邮件样本,与它K近邻中随机选择一个的样本,进行随机线性插值;3.重复第2步,直至生成的新样本个数达到合成比率要求。4.将新合成的样本数据与原数据集合成,产生新的训练集。随机森林是一个包含多个决策树的集成分类器。算法步骤如下:1.从SOMTE算法处理后的平衡训练集中,通过有放回的重取样来获得N’个样本作为生成决策树的训练集;2.如果每个样本有M个特征,随机选择m(m<M)个特定的变量特征,然后运用这m个特征来确定最佳的分裂点生成决策树;3.重复1-2步,形成多棵决策树;4.最后,对所有的决策树,采用多数投票确定分类检测结果。

  3数据集与评价准则

  实验选择UCI数据集合Spambase,该数据集包含58个属性和4601个实例,主要用来研究对垃圾邮件的分类检测。该数据集合是一个不平衡数据集合,包含两个类别:垃圾邮件(1813个实例),正常邮件(2788个实例)。实验评估采用准确率(ACC)、检测率(DR)和精确率(PR)三种方法衡量算法的性能。准确率定义如公式(1),表示正确识别正常邮件和垃圾邮件的实例数与全体实例数的比值。公式1-3中,TP表示垃圾邮件的预测实例数,TN表示正常邮件预测实例数,FP表示正常邮件错误的判定为垃圾邮件的实例数,FN表示垃圾邮件判定为正常邮件的实例数。

  4实验与分析

  实验基于WEKA[5]平台进行,RF-smote在检测垃圾邮件前对数据集合Spambase中的垃圾邮件样本进行了SMOTE合成,使用的最近邻设置为5,合成率设置为50%,随机森林算法中决策树数目设置为10。RF-smote算法应用的合成数据中,垃圾邮件实例数为2719,正常邮件数为2788,基本变为平衡数据。实验评估采用十折交叉验证进行,实验数据如表1所示。从表1可以看出,本文提出的算法RF-smote在准确率、检测率和精确率性能指标上,均优于未应用SMOTE时的算法RandomForenst(RF).在准确率指标上,RF-smote优于RF0.8%。在检测率指标上,RF-smote优于RF3.8%。同样,在精确率指标上,RF-smote优于RF2.9%。因此,本文提出的算法RF-smote在垃圾邮件检测方面展示出了良好的性能。5结束语本文应用SMOTE算法和随机森林集成学习算法进行垃圾邮件识别,并在Spambase数据集上进行实验,结果表明本文提出的算法性能表现良好。

  参考文献:

  [1]陈龙,梁意文,谭成予.基于自适应性分类器的垃圾邮件检测[J].计算机工程,2018,(5):194-200.

  [2]刘洁,王铮,王辉.基于IMI-WNB算法的垃圾邮件过滤技术研究[J].计算机工程,2020,(6):1-7.

  [3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.

  [4]袁梅宇.数据挖掘与机器学习-WEKA应用技术与实践[M].北京:清华大学出版社,2014.

  作者:丁伟民 徐文钊

文章名称:随机森林垃圾邮件检测算法

文章地址:http://www.zhichengg.com/nylw/17506.html

上一篇:木荚红豆树育苗技术
下一篇:疫情防控与三农金融服务


随机森林垃圾邮件检测算法相关论文:

2022-07-19树木移植技术在园林绿化中应用
2022-06-30海上油田开发初期注水系统优化
2022-06-23花境植物在景观设计中色彩搭配
2022-06-163S技术在基层林业管理中应用
2022-05-30体育运动在乡村旅游产业发展中应用
2022-05-28园林绿化设计在城市景观设计中作用
2022-05-23畜牧养殖机械化现状调查
2022-05-21农业民俗音乐艺术特色
2022-05-16农村变电站嵌入式系统设计
2022-05-14混凝土施工技术在水利水电施工中应用
职称阁| 初级职称| 中级职称| 高级职称| 职称范文| 评职期刊| 网站地图

说出学术需求 解决您的问题

SCISSCIEISCOPUS

我们的服务内容

翻译润色、预审评估、发表支持、期刊推荐、国内出书、国外出书、专利申请