>> 自然科学版期刊 >> 2014年06期 >> 正文
Hadoop作业执行时间在线计算方法
供稿: 沈记全;易月婵;张霄宏 时间: 2018-11-19 次数:

作者:沈记全易月婵张霄宏

作者单位:河南理工大学计算机科学与技术学院中国科学院深圳先进技术研究院

摘要:在Hadoop MapReduce环境中,如果能预知作业的执行时间,就可在资源分配、任务调度以及负载均衡过程中作出更合理的决策,改善系统性能.在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法在结合历史信息的基础上,可根据作业在不同阶段的执行进度在线预测执行时间.该方法已在Hadoop-0.20.2中实现,并在一个包含19个节点的Linux集群中进行了验证.实验结果表明,在最好情况下,根据该方法预测的执行时间和真实执行时间的误差约2%.

基金:国家自然科学基金面上项目(51274088);

关键词:作业执行时间;在线预测方法;分布式计算;并行处理;MapReduce;

DOI:10.16186/j.cnki.1673-9787.2014.06.015

分类号:TP301.6

Abstract:In Hadoop MapReduce environments, if the execution time of jobs is forecast, can make more appropriate decisions when allocating resource, scheduling tasks or balancing load. This paper proposed an online method to predict the execution time of jobs after analyzing the execution mode of Hadoop MapReduce jobs. The method can predict the execution time according to the progresses of different phases, combining with historical information. It has been implemented in Hadoop-0. 20. 2, and evaluated in a Linux cluster with19 nodes. The experiment results show that the difference between the real and predicted results is around 2%in a best case.

最近更新