大数据挖掘与分布式架构经验分享
2017年6月8日晚上19:00,以大数据挖掘与分布式架构为主题的创新创业沙龙在研究生院503成功举办。创新实践基地实践部网络组组长黄靖就大数据的背景、大数据挖掘,分布式架构这三点进行讲解,最后结合自己开发项目分享大数据挖掘经验。
首先黄靖给出了大数据的定义:大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。数据规模庞大,计量单位至少是P、E或Z。这么庞大的数据在解决其存储问题时面临容量与吞吐量两方面的问题,针对这两大难题,黄靖学长也给出了详细的解决方案:在解决容量问题时可以从提升单硬盘容量和系统整体容量入手,在解决吞吐量的问题时可以通过转速、接口、缓存等提升单硬盘吞吐量,同时通过RAID、专用数据库机等提升节点吞吐量。
对于大数据挖掘,黄靖同学指出只有经过挖掘分析的数据才具有价值,由此需要对获得数据进行预处理,其步骤大致如下:数据清理,数据集成,数据规约,数据变换。在讲解过程中以实际案例引出频繁项集与关联规则这两个概念,有了关联规则才能进一步挖掘数据内在联系并进行分析计算,随后黄靖同学也详细介绍了KMeans,Aproori等计算方法。
关于分布式架构方面,黄靖同学详细介绍了Hadoop处理框架、Mapreduce处理框架和HDFS处理框架,然后通过上网人群行为的大数据分析详细讲解Hadoop处理框架,使得大家对于大数据的分布式架构有了更深入的了解。
在沙龙的最后阶段,锐云大数据创新创业团队负责人任庆忠博士为我们详细讲解了大数据在房地产销售方面的应用。主讲人与参加沙龙的同学进行了互动探讨,最后创新创业沙龙在热烈的氛围中结束!欢迎关注“重大研究生创新实践基地”
重庆大学研究生创新实践基地
重庆大学研究生科学技术协会
2017年6月9日
附件:
无