搜索结果: 1-15 共查到“MapReduce”相关记录15条 . 查询时间(0.086 秒)
云计算专家李冠憬教授访问西安电子科技大学开展学术交流——作题为“On MapReduce Acceleration in Multi-GPU systems”报告(图)
MapReduce模型 大规模数据
2016/5/11
2016年5月5日,台湾静宜大学教授、校長特別助理、国际暨两岸事务处副主任李冠憬教授应西安电子科技大学ISN国家重点实验室,网络与信息安全学院陈晓峰教授的邀请来校进行学术交流访问,并在新科技楼1012会议室为广大师生做了一场题为“On MapReduce Acceleration in Multi-GPU systems”的学术报告。
针对传统隐私保护方法无法应对任意背景知识下恶意分析的问题,提出了分布式环境下满足差分隐私的k-means算法。该算法利用MapReduce计算框架,由主任务控制k-means迭代执行;指派Mapper分任务独立并行计算各数据片中每条记录与聚类中心的距离并标记其属于的聚类;指派Reducer分任务计算同一聚类中的记录数量num和属性向量之和sum,并利用Laplace机制产生的噪声扰动num和sum...
温度感知的MapReduce节能任务调度策略
绿色计算 MapReduce 任务调度 温度感知
2016/5/11
现有的FIFO、Fair、Capacity、LATE及Deadline Constraint等MapReduce任务调度器的主要区别在于队列与作业选择策略的不同,而任务选择策略基本相同,都是将数据的本地性(data-locality)作为选择的主要因素,忽略了对TaskTracker当前温度状态的考虑。实验表明,当TaskTracker处于高温状态时,一方面使CPU利用率变高,导致节点能耗增大,任...
MapReduce框架下的优化高维索引与KNN查询
云计算 MapReduce KNN查询 高维索引
2016/12/27
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(iPBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KN...
基于动态域划分的MapReduce安全冗余调度策略
云计算 MapReduce框架 动态域划分 安全冗余调度
2014/2/18
MapReduce现有调度策略无法实现云环境中多租户作业的安全隔离。提出一种基于动态域划分的安全冗余调度策略:通过引入冲突关系、信任度、安全标签等概念,建立一种动态域划分模型,以将待调度节点划分为与不同租户作业关联的冲突域、可信域或调度域;结合冗余方式,将租户作业同时调度到其可信域节点和调度域节点(但不允许为其冲突域节点),通过二者执行环境和部分计算结果的一致性验证决定是否重新调度。实验分析了其有...
基于MapReduce的书目数据关联匹配研究
MapReduce 关联匹配 书目数据 关联数据
2013/10/25
提出一个基于MapReduce的书目数据关联匹配架构,通过参引MODS本体将MARC格式的书目数据转换成关联数据格式。再通过对书目数据和书目数据间的关联匹配,以及书目数据和开放关联社区其他的关联数据间的匹配初步实现书目数据和其他关联数据集间的语义关联,使关联的书目数据成为关联开放数据社区中的一部分,为图书馆的知识发现和语义检索服务提供有效的语义数据支持。
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查...
基于MapReduce的并行蚁群算法研究与实现
蚁群算法 SP问题 MapReduce 并行优化
2013/5/14
蚁群算法在处理大规模TSP问题耗时较长,为解决这一不足,给出了一种基于MapReduce编程模式的并行蚁群算法。采用MapReduce的并行优化技术对蚁群算法中最耗时的循环迭代和循环赋值部分进行改进,同时运用PC集群环境的优势将具有一定规模的小蚁群分配到对应的PC机上,使其并行执行,减少运行时间。实验证明改进后的并行蚁群算法在大数据集上运行时间明显缩短,执行效率显著提高。
基于MapReduce模式的NSTL用户热点检索词与中西文期刊热点关键词的对比分析
NSTL 检索词 关键词
2012/12/7
文章简要介绍了MapReduce模式。基于2010年到2012年7月NSTL用户检索日志进行分析,采用MapReduce模式,针对用户的检索行为以及热点检索词进行分析,并与当年出版的文献的关键词进行比较,分析用户需求与文献提供的差异,旨在及时掌握用户的需求变化,为系统的功能完善、未来发展及文献采购提供参考依据。
MapReduce原理及其主要实现平台分析
MapReduce 实现平台 Hadoop
2012/5/2
针对海量数据处理在处理速度、存储空间、容错性、访问时间等方面存在的问题,对Google MapReduce编程模型的原理、执行流程等进行分析研究,介绍4种主要的MapReduce实现平台Hadoop、Phoenix、Disco、Mars,从编程语言、构建平台、功能特点和应用领域4个方面对4种平台进行比较分析,以期对MapReduce编程模型原理及其应用平台有一个较全面的认识。
基于MapReduce的高铁噪声数据预处理算法研究
噪声 MapReduce 高速铁路 传感器采集
2012/4/12
随着高速铁路的快速发展,安全问题受到越来越多的关注,传感器采集的噪声数据反映了列车的运行状况,并与列车的安全息息相关。随着数据集的增大,数据处理的效率显得尤为重要,目前还无法高效地处理海量的高铁噪声数据。利用并行计算的思想,提出一种基于MapReduce的海量高铁噪声数据预处理算法。在Hadoop平台上进行实验分析,证明该算法可以有效地提高海量噪声数据预处理的效率。
基于MapReduce虚拟机的Deep Web数据源发现方法
MapReduce 虚拟机 Deep Web 数据源发现
2012/4/16
为了提高Deep Web爬虫发现和搜集数据源的效率,提出了一种融合MapReduce和虚拟化技术实现Deep Web海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型,通过链接过滤分类,页面过滤分类,表单过滤分类等3个MapReduce过程找到Deep Web数据源接口,并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理,有效...
基于MapReduce模型的分布式天文交叉证认
天文交叉证认 MapReduce 并行计算 分布式计算
2010/9/6
交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信量,并通过合理设置划分粒度保证了效率与存储间的平衡。实验结果表明,该方法对海量数据交叉证认的效率提升明显,在大规模集群上达到了接近线性的加速比。该方法为交叉证认提...
基于MapReduce的分布式光线跟踪的设计与实现
MapReduce Hadoop 分布式计算 光线跟踪
2009/4/24
提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了渲染速度。
基于MapReduce的分布式搜索引擎研究
MapReduce 搜索引擎
2007/12/27
[摘要] Map/Reduce是一种编程范式,它通过函数式编程的映射/规约思想对大规模数据进行分布式并行处理。本文在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出了高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题。