|
面向科学大数据的云计算平台构建研究时间:2014-12-13 ——以东南大学为例
【摘 要】云计算与大数据是目前商业界和政府部门研究的热点问题,同时学术界也对大数据与云计算在科学研究中的应用开展了大量研究。大数据包括体量、多样性、价值和速度四方面特点;云计算包括弹性服务、资源池化、按需服务、服务可计费和泛在接入等五方面特点。两者之间是一种相互依存的关系。当前科学研究面临着大数据的众多挑战,云计算平台构建就成为解决之道。文章以东南大学参与的AMS实验项目为例,介绍了面向科学大数据的云计算平台构建。 【关键词】科学大数据;云计算:平台构建 随着新一代大规模互联网应用的迅猛发展,产生了远远超过以往的海量数据,使用传统的数据存储与处理技术将耗费大量的时间和金钱,并且效率低下。为了解决这一难题,云计算与大数据的概念应运而生。 一、相关研究 云计算可以为大数据处理提供强大的计算能力。对亚马逊公司的研究显示,“若亚马逊使用传统的数据处理方法在1000个节点上处理IPB的数据需要耗费750天时间耗资六百万美元,而使用云计算的MapReduce技术处理相同的数据,则只需要350分钟耗资仅2040美元”。EMC公司的首席信息官Mirchandani认为“云计算和大数据是目前IT行业两个最大的创新,他们将改变商业管理的方式并从最重要的资产信息中获取相应的价值”。在用户使用云计算后,用户可以在其服务、存储等虚拟化的过程中快速的看到其价值,并极大地降低使用的复杂性与使用成本。Zhang Liang-Jie认为目前“我们处于大服务时代,云计算和大数据包含以下几大创新,即云计算和大数据创造了一种崭新的商业模式;在应用程序架构上,云计算和大数据加快了应用软件的服务化;在数据结构上,由于需要强大的计算能力和存储能力,大数据的数据结构被重新设计;在技术架构上,软件、硬件与服务被集成一体提供给开发人员;在云计算体系架构上,各架构之间的信息交换需要建立统一的标准和协议方可实现”。美国国家标准与技术研究院信息技术实验室主任Chuck Romine认为“云计算与大数据都是当下的发展趋势,二者融合的趋势则更加明显。云计算使大数据对于那些无法有效利用他们的人而言变得更容易获得,相反,大数据也为在传统海量数据规模下无法获得的发现与创新打开了大门”。Eric等学者讨论了云计算用于生物学科学研究的可行性,他们认为,“在生物学领域里的大规模数据的产生、存储与分析将使用云计算与大数据的相关理论与方法,所面临的挑战是如何将大数据问题与正确的计算方法相匹配”。 综上所述,云计算与大数据之间的相互需求与密切关系已经得到公认,目前两者更多的应用于商业领域,云计算的出现使得大数据的处理效率大大提升,同时处理成本得到有效降低。由于在商业领域的出色应用,云计算与大数据的理论与方法在科学研究中也逐步得到应用。本文即针对科学研究中的大数据开展云计算平台的构建研究。 二、大数据与云计算的关系 1 大数据与云计算的概念及特点 研究机构Gartner认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。大数据技术的意义不在于掌握海量的数据信息,而在于对这些数据进行专业化处理与分析,关键在于提高对数据的加工能力,通过加工实现数据的增值。大数据通常为非结构化和半结构化数据,具有四个特点:第一,数据体量巨大,从TB级别上升至PB级别。第二,数据类型繁多,包含视频、音频、图形、图像、文本等等。第三,价值密度低。第四,处理速度快。学界将其归纳为4个V——体量(Volume)、多样性(Variety)、价值(Value)、速度(Velocity)。 2006年Google、Amazon等公司提出了“云计算”的概念。根据美国国家标准与技术研究院(NIST)的定义,“云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式”。云计算具有以下特点:第一,弹性服务。服务的规模可快速伸缩,以自动适应业务负载的动态变化。用户使用的资源同业务的需求相一致,避免了因为服务器性能过载或冗余而导致的服务质量下降或资源浪费。第二,资源池化。资源以共享资源池的方式统一管理。利用虚拟化技术,将资源分享给不同用户,资源的放置、管理与分配策略对用户透明。第三,按需服务。以服务的形式为用户提供应用程序、数据存储、基础设施等资源,并可以根据用户需求,自动分配资源,而无须系统管理员干预。第四,服务可计费。监控用户的资源使用量,并根据资源的使用情况对服务计费。第五,泛在接入。用户可以利用各种终端设备随时随地通过互联网访问云计算服务。 2 大数据与云计算的关系 大数据离不开云计算。面对大数据的增长,传统架构虽然能够进行扩充,但其IT架构和数据处理方式无法有效地应对大数据环境,如果将大数据存放于传统数据库中是无法保证其有效性和实用性的。这就需要将大数据置于大的开放平台上为有需求的用户所用,这就形成了云计算平台。相反,云计算也可助力大数据。针对大数据的特点,云计算相应的可以提供容纳大数据流的空间,以及大数据分析所需的运算能力。云计算的分布式并行计算能力使大数据分析的过程中再无须架设低性价比的服务器集群,同时可以解决现有服务器集群多数时段空闲、少数时段性能不足的现象。云计算通过整合软硬件资源,并借助负载均衡、分布式计算、并行计算、虚拟化、网络存储和统一管理等技术手段,实现IT服务的无缝化、定制化和弹性服务,可以使大数据平台的复杂性大大降低,方便地存储与处理异构系统中的海量数据,提升资源的利用效率。 云计算由于采用了大量的虚拟化技术和统一的跨平台管理技术,数据中心硬件设施和软件费用等运行成本会大幅降低,所节约的资金可用于大数据的采集、存储、处理、分析等环节。大数据和云计算彼此之间旺盛的需求决定了两者在相当长的一段时期内都将保持这种紧密的关系。 三、科学研究面临的大数据挑战 科学大数据,顾名思义,就是在科学研究、科学实验的过程中产生的数量庞大、种类繁多的科学数据。现代科学已经不同于早期只依靠对个别实验现象及少量科研数据的观察与总结就可以获得科学发现,而是需要从海量的科学数据中反复的提炼和挖掘,并进行深度综合分析,方能得出科学结论。因此,现代科学研究与科学实验往往会产生海量的科学数据,如何存储与分析这些科学大数据就成为科研机构所面对的巨大挑战。本文以东南大学所参与的AMS实验项目为例,介绍科学研究所面临的科学大数据。 阿尔法磁谱仪(Alpha Magnetic Spectrometer,AMS)实验是由诺贝尔奖获得者丁肇中教授领导的山美、俄、德、法、中等15个国家和地区共600多名科学家参加的大型国际合作项目,其目的是寻找反物质、暗物质的来源以及测量宇宙射线的来源。AMS-02探测器于2011年5月搭载“奋进号”航天飞机升空并被安装到国际空间站,将在太空运行10-15年,其间数量庞大的原始数据将通过美国国家航空航天局的Ku波段传回地面,中转后传到瑞士的欧洲核子研究中心(Conseil Europeen pour la Recherche Nucl6aire,CERN),随后传到东南大学的地面数据处理中心,由数据处理中心对其进行存储、处理、计算和分析,这些科学数据将是AMS实验物理分析的重要数据源。截至目前,AMS-02探测器己收集到超过300亿个宇宙线数据,这些科学数据呈现出典型的大数据特点: 1 数据体量巨大 现代科学实验所产生的科学数据通常数量极其庞人。AMS实验期间将产生探测器采集的原始数据、由原始数据生成的重建数据、由蒙特卡洛仿真所得到的实验对比数据以及一些中间数据等,按实验10年运行期计总量将接近4PB。 2 数据类型繁多 科学数据通常类型繁多,在编码方式、数据格式、应用特征等方面存在较大差异,并且多为异构数据。这些数据包含结构化数据和非结构化数据,以AMS实验为例,其中结构化数主要包括AMS原始数据、重建数据以及蒙特卡洛仿真数据,非结构化数据主要包括AMS实验的日志文件、刚户数据以及处理的中间结果数据。 3 数据处理速度快 针对海量科学数据的分析与处理通常对实时性要求比较高。在AMS实验中,地面数据处理中心需要实时同步接收并存储来自国际空间站上的原始数据,并进行实时数据重建,生成物理事件信息。此外,还需要进行持续的蒙特卡洛仿真以生成对比数据以及不定期的大批量物理分析计算任务,这些任务需要在很短的时间完成,并将结果及时返回给CERN的AMS实验总部,实时性要求较高。 4 数据价值密度低 针对AMS实验的海量数据而言,单个数据只对应一个物理事件,通常不具有明显的实际意义。只有通过将上百亿次物理事件所对应的海量数据进行分析,才能从无序的海量数据中得出科学的结论。 四、面向科学大数据的云计算平台构建 1 面向大数据的云计算体系架构 云计算体系架构包含核心服务、服务管理、用户访问接口三层,表现为一系列服务的集合。其中,“核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务。这些服务具有可靠性强、可用性高、规模可伸缩等特点,可以满足多样化的应用需求。服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。用户访问接口层实现端到云的访问”。云计算体系架构中的核心服务通常可以分为三层,即基础设施即服务层(infrastructure as a service,IaaS)、平台即服务层(platform as a service,PaaS)和软件即服务层(software as a service,SaaS)。其中,IaaS提供硬件基础设施部署服务,为用户按需提供实体或虚拟的计算、存储和网络等资源。PaaS是云计算应用程序运行环境,提供应用程序部署与管理服务。通过PaaS层的软件工具和开发语言,应用程序开发者只需上传程序代码和数据即可使用服务,而不必关注底层的网络、存储、操作系统的管理问题。SaaS是基于云计算基础平台所开发的应用程序。云计算服务管理层对核心服务层的可用性、可靠性和安全性提供保障。服务管理包括服务质量保证和安全管理等。云计算用户访问接口实现了云计算服务的访问,通常包括命令行、Web服务、Web门户等形式。面向大数据的云计算平台体系架构如图1。 2 东南大学云计算平台及典型应用 (1)东南大学云计算平台 东南大学云计算平台面向全校提供高性能计算与云计算服务,适用于数据密集型和计算密集型应用,可为AMS-02实验所产生的科学大数据处理提供基础支撑。该平台提供了IaaS、PaaS和SaaS层的服务,IaaS层的基础设施为用户提供虚拟机和物理机的按需分配,包含279个节点约3500个CPU核;配置10台X3850X5企业级服务器;配置16台X3650机架式服务器作为10节点连接存储;一台X3550服务器作为集群管理节点;共享存储系统采用IBM DS5300,配备8Gb光纤端口,两台24口SAN交换机,存储容量为500TB。平台采用10台36口400b高性能Infiniband交换机构建连接所有节点的全线速、无阻塞高速网络。平台的理论峰值浮点计算能力为每秒37万亿次,可根据科研人员的应用需求,为其按需配置私有计算集群,并自动安装操作系统、应用软件。在PaaS层,数据分析处理平台和应用开发环境为大规模数据分析处理应用提供编程接口。平台部署了IBM的云计算软件统一管理软硬件资源,以虚拟化和自动化的方式动态部署资源,用来统一提供计算和存储服务,从而提供良好的扩展性,支持按需变化的运算模式。在SaaS层,以服务的形式部署云计算应用程序,便于用户访问与使用。 (2)东南大学云计算平台典型应用 东南大学云计算平台的典型应用就是AMS-02数据处理。该应用主要实现以下功能:(1)获取并存储完整的AMS-02在国际空间站采集的原始数据:(2)根据AMS-02原始数据并结合探测器的地面校正数据进行数据重建;(3)进行蒙特卡洛仿真、探测器模拟和仿真数据重建;(4)根据重建数据进行物理分析,并实现分析结果的可视化;(5)完成AMS-02重建数据分发和传输。 目前,该应用已经完成下列科学大数据的存储与处理:(1)通过高速网络链路从CERN获取并存储自AMS升空以来所有的原始数据约60TB,(2)完成了三轮针对AMS-02原始数据的完整重建并产生了约214TB的重建数据,为正在进行的AMS-02数据分析提供数据资源;(3)完成了大规模的AMS数据仿真并产生了约50TB的仿真数据;(4)实现了中国教育和科研计算机网内AMS专用10bps传输线路的网络带宽预留,可实现高速的数据传输、分发和访问:(5)提供了100个物理分析用户的能力,每个用户拥有100GB的存储空间。科学家通过对该平台中数据的研究分析,已经从中捕获了暗物质的证据。这些数据包含了“40万个正电子,这些正电子有可能来自于脉冲星或者人类一直寻找的暗物质”,为暗物质研究提供了极有价值的数据支撑。 五、结束语 目前面向科学大数据的云计算平台主要为用户提供基于云架构的存储服务与高性能计算服务,对科学大数据的处理研究尚不深入,如何为用户提供相应的大数据处理方法将成为未来研究的热点。 作者:毕建新 陈雅 郑建明 来源:现代教育技术
|