大数据时代 存储面临新挑战

自20世纪的CD、磁盘以及磁带,直至现在备受欢迎的固态硬盘和云存储,存储的载体在不断的变化和发展。时下,数据量在以“野草”一般的速度生长,视频、音频、微博等非结构化数据占据的比例越来越大,存储不断面临新的挑战。大数据时代的来临,IT基础架构受到前所未有的挑战,存储更是冲当其冲。大数据和存储之间有什么样的联系?对存储带来了哪些挑战?带着这些问题,记者采访了ESG中国区总经理王丛。

大数据的不同问题需不同的存储系统应对自20世纪的CD、磁盘以及磁带,直至现在备受欢迎的固态硬盘和云存储,存储的载体在不断的变化和发展。时下,数据量在以“野草”一般的速度生长,视频、音频、微博等非结构化数据占据的比例越来越大,存储不断面临新的挑战。

王丛提到,其实大数据的问题不仅仅和存储相关,还和存储之外的很多技术相关。目前而言,主要面临三类典型的大数据问题,第一,OLTP(联机事务处理系统) 里的数据表格子集太大,计算需要的时间长,处理能力低;第二,OLAP(联机分析处理)系统里的处理分析数据的过程中,在子集之上抽取形式用列的去抽取数据,时间太长,分析不出来,不能做比对分析;第三,典型的非结构化数据,每一个数据块的都比较大,带来了存储容量、存储带宽、I/O瓶颈的一系列问题,象网游、广电的数据存储在自己的数据中心里,资源耗费很大,交付周期太长,效率低下。

OLTP也被称为实时系统,最大的优点就是可以即时地处理输入的数据,及时地回答。这在一定程度上对存储系统的要求很高,需要一级主存储,具备高性能、安全性高、良好的稳定性和可扩展性,对于资源能够实现弹性配置。现在比较流行的是基于控制器的网格架构,网格概念使得架构得以横向扩展(Scale out),解决了传统存储架构的性能热点和瓶颈问题,并使存储可靠性,管理性,自动化调优达到了一个新的水平。像IBM的XIV、EMC的VMAX、惠普的3PAR系列、戴尔的EqualLogic都是这一类产品的典型代表。

OLAP是数据仓库系统的主要应用,也是商业智能(Business Intelligent)的灵魂。联机分析处理的主要特点,可以是直接仿照用户的多角度思考模式,预先为用户组建多维的数据模型,展现在用户面前的是一幅幅多维视图,也可以对海量数据进行比对和多维度分析,处理数据量非常大,很多是历史型数据,对跨平台能力要求高。王丛提到,OLAP的发展趋势从传统的批量分析,到近线(近实时)分析,在向实时分析发展。目前,解决BI挑战策略主要分为两类:(1)通过列结构数据库,解决表结构数据库带来的OLAP性能问题,典型的产品如EMC的Greenplum,IBM 的Netezza;(2)通过开源,解决云计算和人机交互环境大数据分析问题,如VMware Ceta, Hadoop等。从存储角度,OLAP通常处理结构化,非结构化,和半结构化数据。这类分析适用于大容量,大吞吐量的存储(如统一存储)。此外,商业智能分析在欧美市场是“云计算”含金量最高的云服务形式之一。对欧美零售业来说,圣诞节前后8周销售额可占一年销售额的30%以上。如何通过云计算大数据分析,在无需长期持有IT资源前提下,从工资收入,采购习惯,家庭人员构成等BI分析,判断优质客户可接受的价位,和服务水平,提高零售高峰期资金链,物流链周转效率,最大化销售额和利润,就是一个最典型的大数据分析云服务例子。

作为富媒体应用来说,数据压力集中在生产和制造的两头,比如做网游,需要一个人做背景,一个人做配音、一个人做动作,渲染等等,最后需要一个人把它们全部整合起来。在数据处理过程中,一般情况下一个文件大家同时去读取,对文件并行处理能力要求高。通常需要能支撑大块文件在网上传输。针对这类的问题,集群NAS是存储首选,在集群NAS中,最小的单位个体是文件,通过文件系统的调度算法,其可以将整个应用隔离成较小且并行的独立任务,并将文件数据分配到各个集群节点上。集群NAS和Hadoop分布文件系统的结合,这种方式对于大型的应用具有很高的实用价值。典型的例子时IsilonOS和Hadoop 分布文件系统集成,常被应用于大型的数据库查询搜索、密集型的计算、生命科学、能源勘探以及动画制作等领域。常见的集群NAS产品有EMC的 Isilon、HP的Ibrix系列、IBM的SoNAS、NetApp的OntapGX等。

存储技术变得更加重要

非结构数据的增长非常迅速,除了新增的数据量,还要考虑数据的保护。来来回回的备份,数据就增长了好几倍,数据容量的增长给企业带来了很大的压力。如何提高存储空间的使用效率和如何降低需要存储的数据量也成为企业绞尽脑汁要考虑的问题。

王丛表示,应对存储容量有一些优化的技术,象重复数据删除(适用于结构化数据)、自动精简配置和分层存储等技术,都是提高存储效率最重要、最有效的技术手段。如果没有虚拟化、存储利用率只有20-30%,通过使用这些技术,利用率提高了80%,可利用容量增加一倍不止。结合重复删除技术,备份数据量和带宽资源需求可以减少90%以上。

此外,云存储的方式在欧美市场上的应用很广泛,大数据用云的形式去交付有两个典型,面对好莱坞的电影制作商,这些资源是黄金数据,如果不想放在自己数据中心里,把它们归档在云上,到时再进行调用。此外,越来越多的企业将云存储作为资源补充,提高持有IT资源利用率。

最后,王丛强调到,无论是大数据还是小数据,企业最关心的是处理能力,如何更好的支撑IT应用的性能。所以企业做大数据时,要把大数据问题进行分类,究竟是哪一类的问题,和企业的应用做一个衔接和划分。企业不要被误导了,就象云计算,价值很大,但在中国被误导了,厂商也受害,用户也受害。

(0)
上一篇 2022年3月22日
下一篇 2022年3月22日

相关推荐