欢迎您来到职称阁,为评职者提供职称晋升解决方案!

热门文章

软件开发工程伦理问题及|| 云计算下计算机网络安全|| 互联网下水利经济规划发|| 电子商务专业群人才质量||

大数据预处理的技术

来源:职称阁分类:电子论文 时间:2019-01-18 11:04热度:

  这篇论文主要介绍的是大数据预处理的技术的相关内容,本文作者就是通过对大数据预处理技术的内容做出详细的阐述与介绍,特推荐这篇优秀的文章供相关人士参考。

大数据预处理的技术

  【关键词】大数据;预处理技术;重复数据;噪声数据;不完整数据

  1引言

  随着信息科学的发展和网络技术的进步,伴随着“互联网+”技术在各个领域的逐步渗透,当前已经迈入了大数据的时代。大数据时代对数据的处理不单单是数量上要求提升,同时也包括了对数据质量上要求的跨越式提升。大数据问题和模型的处理本质上对数据质量要求的更为苛刻,这体现在其要求数据的完整性、独立性、有效性。所谓数据完整性是指数据包括所有需要采集的信息而不能含有缺省项;所谓数据独立性是要求数据间彼此不互相重复和粘连,每个数据均有利用价值;所谓数据有效性则是指数据真实,并且各个方向上不偏离总体水平,在拟合函数上不存在函数梯度的毛刺现象。针对上述情况的需求,数据的预处理工作尤为重要,一方面数据的预处理工作可以帮忙排查出现问题的数据,另一方面,在预处理过程中可以针对出现的“问题数据”进行数据优化,从而变成所需要的数据,从而提高对于大数据的数据质量。

  2大数据技术

  2.1大数据概念

  大数据技术指的是以多元形式获得的数据,且这种多渠道搜集得到庞大的数据组,是无法通过简单的数据搜集和信息采集而得到,需要具有更强的决策力、洞察发现力、流程处理能力的新处理方式。大数据的信息资产往往是具有海量、多样化、高增长率的特点,意义在于提高系统庞大信息的加工能力,从而完成数据“增值”。涉及的主要技术载体为云计算为基础的数据挖掘技术,其中包括:分布式处理系统、分布式数据库、云存储和虚拟化技术。其数据的结构分为:结构化数据、半结构化数据和非结构化数据,目前非结构化数据在比例上攀升,并逐渐显示出主导作用。

  2.2大数据处理过程

  大数据处理技术的一般处理流程如图1所示。大数据处理的过程有许多种定义模式,这里取通俗的一种即从数据本身出发,从数据来源获取数据→对数据进行大数据预处理→数据存储→数据处理→数据表达。大数据的处理技术离不开海量数据,从数据本身出发技术流程的关键在于首先从数据来源获得数据,其手段大致分为:专业数据机构获取、国家统计局获取、企业内部数据获取以及互联网获取。数据获取后便需要对获取的数据进行预处理工作,使剔除和用科学方法替代无用数据,从而使样本更具有合理性,从而得出的结论具有更高水平的置信度。在完成了数据的预处理过程后,便要对数据进行处理,这里的处理方式为云计算处理,采用分布式处理方式,在大型计算机组的配合下,完成高效率的存储。将存储数据进行处理,通过回归、拟合、插值等算法建立数学模型,从而对所求的方向进行科学合理的统计、分析、预测,进行深层次的数据挖掘,从而找到更深层意义的数据价值。将所得到的数据和对数据的挖掘进行数据表达,从而构建和完善整个大数据的体系。从整个大数据的处理流程来看,数据预处理技术的水平决定了数据的真实性、完整性,对后续的数据分析起到十分关键的作用。

  3大数据预处理技术

  大数据的预处理过程比较复杂,主要过程包括:对数据的分类和预处理、数据清洗、数据的集成、数据归约、数据变换以及数据的离散化处理,如图2所示。数据的预处理过程主要是对不能采用或者采用后与实际可能产生较大偏差的数据进行替换和剔除。数据清洗则是对“脏数据”进行分类、回归等方法进行处理,使采用数据更为合理。数据的集成、归约和变换则是对数据进行更深层次的提取,从而使采用样本变为高特征性能的样本数据。而数据的离散化则是去除数据之间的函数联系,是拟合更有置信度,不受相关的函数关系的制约而产生的复合性,本文主要针对重复数据、噪声数据和不完整数据进行预处理技术分析,如图3所示。

  3.1重复数据的预处理

  重复数据即指多次出现的数据,对于整体样本所占权重比其他数据大,更容易产生结果的倾向性,因此对于重复数据常用的方式是剔除,或者按比例降低其权重,进行数据的重新布局形成概率分布。对于一般数量可控的重复数据,通常采用的方式为简单的比较算法剔除。对于重复的可控数据而言,一般通过代码实现对信息匹配比较,进而确定剔除不需要的数据。在大数据云处理这样的模式背景下可以完成相关操作,但是对于存储空间和运行速度的考验非常大,因此这种有限可控数据的个人PC端操作不在适用。应用比较成功的是一种混合删除机制(Hy-Dedup),Hy-Dedup的魅力在于它将在线删除和离线删除技术结合,并且先通过在线删除技术节约存储空间,然后通过离线删除技术将未能在线删除和删除不彻底的重复数据删掉。将重复数据剔除后的数据通过云存储或者本地存储的方式留下,从而保证数据的完整性,具体的操作如图4所示。为了防止流数据的碎片化,通常会记录重复最大数据长度的次数用Vw存储,记录顺序读取的长度值用Vr存储。同时设立阈值Z=Σ(RLd+(1-r)Lr)/N,其中:Ld和Lr是重复序列的平均长度以及平均读取长度,Z是读和写延迟的平衡点,也是我们需要得到的阈值信息,r是所有请求之间的写比率,N为估算间隔。Ld和Lr根据Vw和Vr得到的数据进行计算,从而得到准确结果,进而判断阈值信息如果删减率减少超过了50%,则将Ld和Lr置0,该方法准确而且大规模分块式地解决了重复数据在大数据模式下的剔除问题。

  3.2噪声数据的预处理

  噪声数据是指严重偏离其他数据的数据信息,其表现为离群点、毛刺或者竞争现象。解决这个问题的常用方法是回归和分箱,离群点分为三大类:全局离群点、集体离群点和情景离群点,全局离群点和集体离群点是往往特别需要关注的信息。3.2.1离群点的检测方式离群点的主要检测手段是基于统计的离群点检测、基于密度的离群点检测、基于距离的离群点检测和基于偏差的离群点检测。纵观整个离群点的检测方式来看,用代码识别容易的便是基于距离的离群点检测,这里可以通过简单的计算代码和云计算的方式结合得到大数据时代常用的离群点检测手段。3.2.2离群点的回归处理回归是指根据大多数数据拟合的近似函数来进行对数据偏离总体较严重的样本进行替换的方式,其最主要的方式是线性回归,当然二次回归等其他方式的回归在理论上也可以达到较高的准确度,因此回归也是一个处理问题噪声数据的重要手段。

  3.3不完整数据的预处理

  在大数据处理数据的背景中还存在着另外一种无法直接运用的数据,便是缺失数据,缺失数据即数据不完整,存在信息丢失,而无法完成相关的匹配和计算的数据,例如信息统计中的年龄和性别丢失的情况。缺失数据的处理主要有四种方式:均值补差、利用同类均值补差、极大似然估计、多重补差。从简单意义上讲均值补差和利用同类均值补差是思维简单的处理方式,在实际应用中也比较广泛。极大似然估计是在概率上用最大可能的方式处理数据的缺失问题,由于存在局部极值而且收敛速度过慢,计算较为复杂。但多重补差的观念主要体现在对于每一个缺失值提供一个可能的替换值,确保其无关性,构成替换阈,在根据其自由组合,从而对每一个替换结果进行总体预测,对结论进行总体评判。这种思想的体现就是多重补差,来源于贝叶斯极大似然,却比该方法的预判性上产生更多的多元化操作。

  4总结

  本文详细论述了在大数据背景下的数据预处理方法,对其中的操作进行了解释。当然从个人观点看,在处理噪声数据的方法上,可以结合NaiveBayes的概率算法和ADABOOST的迭代手段,通过不断地进行权重的调节来规范数据,从而把噪声数据替换。数据预处理是大数据处理的关键环节,通过文章对大数据处理技术及其预处理阶段的一些典型常见技术进行分析与总结,可以知道,目前大部分都是基于几类典型问题进行特定的数学处理。但实际上由于实际收集数据受外部环境影响大,造成数据随机性变化、数据质量很难保证,同时又由于各个行业对数据的要求不同,需要结合特定应用需要采取科学合理的数据预处理方法,才能为数据处理提供高质量的数据源,因此在应用过程中需要结合实际领域进行选取数学方法进行灵活应用。

  参考文献

  [1]林子雨.大数据技术基础[M].清华大学出版社,2013.

  [2]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):957~972.

  [3]孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018(5).

  作者:周泉锡 单位:中国农业大学

文章名称:大数据预处理的技术

文章地址:http://www.zhichengg.com/dzlw/11704.html

上一篇:电子信息化工程现代化技术发展现况
下一篇:怎样提高电力工程项目安全生产管理


大数据预处理的技术相关论文:

2022-09-20一带一路科技创新共同体建设路径
2022-07-18中职电工电子技术课堂教学实践
2022-07-14工业机器人在汽车智能制造中应用
2022-06-285G网络技术智能收割通信系统优化
2022-06-27信息安全投资规划项目质量管理
2022-06-18信息化技术在农田水利施工中运用
2022-06-15煤矿机电安装问题及提升措施
2022-06-09企业ERP建设前对企业信息化管理建议
2022-06-06力量训练器抑振参数集知识表达
2022-05-19机械螺纹类零件数控机床加工技术
职称阁| 初级职称| 中级职称| 高级职称| 职称范文| 评职期刊| 网站地图

说出学术需求 解决您的问题

SCISSCIEISCOPUS

我们的服务内容

翻译润色、预审评估、发表支持、期刊推荐、国内出书、国外出书、专利申请