基于Java WEB的网上书城的设计与实现外文翻译资料

 2022-11-03 20:57:44

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


可靠云计算环境下的自适应框架

摘要

云计算技术的应用已成为信息技术市场的一个整体趋势。云计算虚拟化及其基于互联网的虚拟化导致各类故障的发生,因此对可靠性和可用性的需求已成为一个关键问题。为了确保云的可靠性和可用性,应制定并实施容错策略。大多数早期容错策略集中在仅使用一种方法来容错。本文提出了一个自适应框架来应对云计算环境中的容错问题。该框架采用复制和检查点方法,以便获得用于执行客户请求的可靠平台。此外,该算法为每台虚拟机确定最合适的容错方案,进行模拟实验以评估框架的性能。实验结果表明,所提出的框架在吞吐量,开销,货币成本和可用性方面改进了云的性能。

关键字:条款容错,云计算,复制,检查点,虚拟机。

介绍

云计算的出现使得当前信息技术(IT)市场发生了的翻天覆地的变化。云计算已成为大多数企业的一部分。 现如今,大中小型企业都纷纷涉足云计算领域,试图通过将这些IT问题委托给专家以此获得更高的生产力。 云计算为企业和个人用户提供了全面的IT服务和解决方案。人们无需花费时间和金钱来构建或购买这些云计算组件。 在云系统中,计算作为抽象服务在互联网上引入并隐藏了实现的细节

云计算系统的部署模型是公共的,私有的或混合的。在公共环境下,互联网以云的实际应用的形式提供服务。这些应用的主要类别包括基础设施即服务(IaaS),软件即服务(SaaS)和平台即服务(PaaS)。大多数IT企业不能投资某些服务,如超级计算机级服务。在IaaS中,云提供具有任何所需配置和容量的计算、存储和网络资源作为对客户的付费服务。IaaS在实际生活中的应用有Amazon EC2和Google Compute Engine。在大多数IT组织中,没有足够的专家来开发和完成所需软件应用程序.在SaaS中,云提供客户所需的专业软件应用程序从而节省客户的钱。 Salesforce.com和Google Apps是SaaS的实际应用示例。在PaaS中,客户可以使用通用的应用程序和硬件来运行自定义应用程序。PaaS的应用程序包括Google App Engine和Microsoft Azure。

私有云通过企业实施和维护来提供内部服务,并且它们比公共云更具灵活性,但也更昂贵。 在混合云中,一些计算部分可以在公共云中完成,而其他部分可以通过私有云在内部完成。尽管云计算系统用于提供计算服务,但它们不是完全可靠的,会出现故障而遭受服务中断可能。断被定义为客户请求未在其期望的期限内完成的情况。 随着云计算的增加,所需服务的数量增加,然后中断的概率增加。 这些中断的主要原因包括软件故障,如不正确的升级,过多的工作负载,黑客等,以及硬件故障,如资源不可用,网络故障,断电等。

中断在公共云中是流行的,是向具有所需服务质量水平的客户提供大量服务。在过去十年中,大多数着名的公共云环境中都发生过许多中断。在2013年,亚马逊的主页下降了近一个小时,这使亚马逊接近五十万美元。在2014年,Gmail,Google日历,Google文档等多项Google服务被绊倒约一个小时。谷歌的一些服务器接收了不正确的配置而导致深度错误。在2015年,Azure云的一些服务,如虚拟机和网站,在多个地区有超过两个半小时的中断。

云中断或故障对云供应商和客户都有很大的影响。对于供应商,由于使用云资源以减轻中断带来的的影响,利润将受损。 K.Bilal等人指出,数据中心中的每个停机时间的成本大约为50,000美元。对于客户而言,他们的要求如截止时间,可能无法实现。 因此,急需一种具有动态容错方法的可靠且可用的云。该方法应该在一定程度上透明地消除或减少故障对客户需求所带来的影响。

容错方法可以是被动的或主动的。被动措施的主要目的是减少发生故障的影响,而主动措施的目标是避免故障的发生。被动方法主要包括复制和检查点。大多数云计算系统依赖于被动措施,特别是复制。

复制方法假定单个VM故障的可能性远高于多个VM的同时故障的发生。它允许多个虚拟机启动同时执行冗余副本,从而避免了从解析失败的计算。因此,可以有效地向客户提供服务,而不会在出现故障时影响其质量要求。在检查点中,云将中间当前执行的请求和执行的VM的执行状态中间保存到稳定的存储器,以便在故障的情况下最小化恢复时间。如果发生故障,不是从最初开始重新启动请求的执行,它将从计算中保存最后一个检查点的点开始

本文的主要内容是提出一个自适应框架,以被动或主动地应对云计算环境中的容错问题。 为了积极主动,框架取决于客户要求和可用的信息虚拟机匹配时间。此外,框架采用检查点和复制方法,它根据云的当前状况动态选择合适的方法。

背景和相关工作

背景技术

云的动态行为增加了故障的概率。为了避免或减少这些故障的影响,云应该应用容错,其可以是被动的或主动的。应用被动的容错方法以便最小化或略去对货币和时间成本的影响。复制和检查点是两种常用的反应方法。

复制方法基于当使用多个虚拟机来执行相同客户的请求时可减少故障的可能性。通过在不同虚拟机上同时执行多个请求的多个复制而不需要解码。如果虚拟机出现故障,云仍然可以在客户需求的边界内执行请求。首先考虑结束的虚拟机的结果,忽略其他虚拟机的结果。

检查点是第二种反应方法。在检查点中,请求的执行的状态在执行期间被重复地保存到稳定和安全的存储。在故障的情况下,云可以从记录状态的最后一点开始继续执行请求。这将避免从初始执行点重新启动请求服务。尽管这可以最小化执行请求的响应时间,但是可能导致浪费更多的时间。这种时间的浪费是源于虚拟机从无法执行任务的故障中恢复。然而,云可以在仅有一台单个虚拟机能实现客户请求时采用这种方法。两个检查点之间的时间被表示为检查点间隔。

另一方面,主动方法是概率性的,并且在一定程度上在发生故障前预测虚拟机存在的错误。这些方法的目的是试图避免故障的发生,然后避免采取被动措施时的恢复过程。在调度请求期间,主动方法根据可用虚拟机的先前故障信息进行调度决策。因此,云的数量越多,云的可靠性越好。

相关工作

容错是分布式计算系统中的最重要的问题之一。在网格计算中,有很多容错工作已经在文献中完成,而一些小的研究已经致力于云计算领域。2010年,Goiri等人提出了一种基于检查点的方法,可以减少存储检查点所需的时间。他们通过只保存读写区域的修改实现了这一点。他们使用Hadoop的分布式文件系统来保存检查点。 2013年,Hui et al提出了一种基于在虚拟机级使用协调检查点的容错方法。他们的方法消除了由于使用协议检查点恢复的不可用性。 2014年,Limam和Belalem 定义了一个自适应检查点方法,旨在根据云组件的当前状态删除不必要的检查点或添加额外的检查点。他们的方法增加或减少检查点与固定的间隔.2015,J.Caoetal已经引入了基于检查点的均匀容错方法。该方法支持长工作和分配给工作的优先级。

2010年,Goiri等人提出了一种基于检查点的方法,可以减少存储检查点所需的时间。他们通过只保存读写区域的修改实现了这一点。他们使用Hadoop的分布式文件系统来保存检查点。 2013年,Huietal提出了一种基于在虚拟机级使用协调检查点的容错方法。他们的方法消除了由于使用协调的协议检查点恢复的不可用性。 2014年,Limam和Belalem定义了一个自适应检查点方法,旨在根据云组件的当前状态删除不必要的检查点或添加额外的检查点。他们的方法增加或减少检查点与固定的间隔.2015,J.Caoetal已经引入了基于检查点的均匀容错方法。该方法支持分配给作业的优先级。

2010年,Zhaoetal使用复制方法以提出容错中间件。在2013年,Ganga和Karthik提出了一种基于复制的方法,以便在有效的流程流系统中允许故障。 Das和Khilar提出了一种基于复制的方法来减少服务时间并提高系统可用性。他们的方法取决于在几个虚拟机上使用软件变体来容忍故障。此外,它通过不将任务调度到成功率非常低的服务器的虚拟机来减少将来故障的可能性。 Alhosban et al介绍了一个依赖于预测和规划的方案。选择在故障发生时应用恢复的方法。选择取决于故障历史,用户要求和服务重量和临界。可以选择的方法是复制和重试。

2012年,Zheng et al提出了一种可以为每个虚拟机选择容错方法的算法。算法可以选择的所有方法是复制方法的变体,例如并行和多流程。2015年,Saranyaetal提出并评估了一种基于复制和重新提交任务的方法。 他们的方法取决于每个任务的优先级,取决于任务的长度,截止时间和每个任务的超出程度.2015年,Liuand Wei提出了基于复杂的算法,考虑硬件和软件的故障。

文献分析表明,大多数以前的工作基本上是基于使用单一容错方法,复制或检查点。 有一些工作考虑使用这两种方法一起容忍云计算系统中的故障。 此外,大多数现有的基于复制的工作都考虑静态或固定数量的副本,并且它们对云中的所有虚拟机执行复制,这不是一种经济方法。 在检查点的情况下,大多数工作建议假定在执行客户请求或作业期间检查点间隔的长度的固定或固定变化。有一些工作考虑了检查点间隔的自适应长度,因此,需要一个考虑复制和检查点方法的框架,并以自适应方式选择副本或检查点的数量。

问题描述

云服务作为存储服务或计算服务提供.Dropbox,iCloud and Google的示例存储服务和Amazon EC2和Microsoft Azure是计算服务的示例。为了服务,客户向云提供商提交他的服务请求以及他的请求所需的要求。 供应商与客户协商以确定服务质量和价格。 如果客户接受,提供商将准备可以执行请求的云虚拟机,并且服务将启动。

大多数云资源主要不是为了实现云的经济目标而设计的。 这些资源被收集到各种虚拟机中以完成客户请求。 因此,预计会发生许多故障,这将延长预期执行客户请求的时间,并且耗尽云资源。对于客户,他们将在预期的时间内忽略这些服务。对于云,失败将导致云资源以及金钱的损。 这将对云的可靠性,可信性和信誉造成相当大的影响。 因此,强烈需要在云计算系统中实施容错方法,以便减轻或省略云的性能上的故障的影响。

数据和应用程序的复制是大多数当前云计算系统使用的方法。 它在Amazon S3中通过在多个存储单元上存储数据对象来应用。 iCloud可以从Amazon的EC2或Microsoft的Azure租用基础架构服务以完成复制。 尽管如此,云中断报告指的是可靠性仍然不足的观点。 在云中应用容错方法面临以下挑战:

1.云可以仅具有可以执行客户的请求的虚拟机的单个副本。 此外,云可以具有可以执行客户请求的多个虚拟机,但是只有一个虚拟机可用,并且其他虚拟机正在执行其他服务的服务。因此,不能应用复制方法。

2.副本的数量不应该是静态的或固定的,因为这将导致云的不良影响。 这是因为将使用额外的虚拟机来执行相同的服务。 但是,这些虚拟机可用于执行其他客户服务。 因此,云将丢失利润。

3.对每个服务或虚拟机实现复制是不经济的。复制应仅适用于分配给最有价值的虚拟机的服务,如果这些虚拟机失败,将对云的性能产生巨大影响。确定最有价值的虚拟机是一个巨大的挑战。

4.在检查点方法中,确定检查点间隔的长度是一个主要挑战。检查点固定的检查点间隔可能导致冗余检查点,消耗云资源并增加检查点延迟。为了应对第一个挑战,复制之外的检查点方法涉及我们的框架。我们的框架允许云选择检查点或复制,以实现容错。

为了解决第二个挑战,提出了自适应地确定应用的副本的数量的复制算法。对于第三个挑战,云使用虚拟机时获得的收益的百分比涉及确定每个虚拟机所需的副本数。对于第四个挑战,提出了自适应地确定检查点建立间隔的长度的算法。该算法假定检查点间隔的长度不能在客户执行期间固定。算法考虑虚拟机计算下一个检查点间隔的失败概率。

成果

有许多可用的云模拟器环境,CloudSim是其中最常见的一种。 在CloudSim的所有类和包中,没有一个支持实现容错云。 因此,需要创建额外的包以支持在云计算系统中实现容错方法。 该创建的包通过允许云数据中心的一些虚拟机出现故障,提供容错服务。 软件包的类允许开发基于容错的算法,该算法可以监视虚拟机,以便检测故障并解决它们。 包可以实现检查点和复制技术。 该软件包提供了测量通过量,可用性,头顶时间和货币浪费开销的能力。

我们的实验中使用的云是用100个异构虚拟机生成的,这些虚拟机使用快速以太网技术(100Mb / s)连接。 每个实验中使用的数据中心数量范围从5到10。每个数据中心包含4台主机。 每个主机的内存大小为10 GB,存储空间为2TB。 假设每个主机中的计算单元的处理能力在从1000到10000MIPS的范围内。 客户请求的数量范围从500到2500请求。每个虚拟机具有4GB的存储器和一个计算单元。 每个请求处理所需的数据的大小被随机地从10MBupto1GB选择。云计算单元的最优假设在从$ 0.1到$ 10的范围内。

我们通过将其与基于使用可变检查点间隔中提出的基于检查点的算法(称为最优检查点间隔(OCI)算法)进行比较来评估我们提出的框架的性能。 不同的模拟实验已经进行了可变数量的客户的要求。 比较中使用的性能指标包括吞吐量,可用性,检查点开销和资金浪费量。

结论

云计算环境中的故障​​是不可避免的。为了解决这个问题,本文提出了一种用于容忍云计算环境中的故障​​的自适应框架。该框架具有用于选择虚拟机以执行客户请求的一种算法和用于选择合适的容错方法的另一种算法。复制和检查点方法都包含在框架中。在吞吐量,云开销,货币成本和可用性方面,使用基于复制的算法以及基于检查点的算法评估框架的性能。实验结果表明,提出的框架提高了云的性能,如表1所示。在未来的工作中,我们将包括调查应用我们的框架和完善的故障检测和可靠的控制

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140819],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。