如何从存储故障中学习经验

ZDNet 存储时代频道 更新时间:2007-09-24 作者:存储时代(编译) 来源:

本文关键词:容错 超级计算机 PB级


  从失败中学习

  PB级数据存储世界里另一个重大的发展是Computer Failure Data Repository的建立,最终用户(到目前为止,只有政府资助的超级计算机站点可以)发布他们故障数据的记录,方便别人检查并且研究。这些信息非常重要,Gibson表示,"因为提高系统质量的正确方法是真正理解它们失败的原因,了解它们故障的模式。

  尽管计算机已经出现很长时间了,"可绝大部分计算机科学家都对计算机而不仅仅是存储失败机制知之甚少。" Gibson表示。

  因为厂商通常厌恶,或者无法分享失败数据,Computer Failure Data Repository则是依靠最终用户,例如Los Alamos National Laboratory、Pacific Northwest National Laboratory、Lawrence Berkeley Lab和National Energy Research Scientific Computing Center (NERSC)来提供数据。Los Alamos已经提供了一个失败列表,其中列举了该实验室中23个不同的集群在9年的时间里出现的各种故障,这对研究人员来说非常有帮助。

  Gibson表示,希望通过了解大型(甚至更小一些规模)的计算系统或集群为什么,以及如何失败的,厂商能够开发出一些技术来减少或者消除失败现象,帮助他们建设更大、更快、更有效而且也更为可靠的计算机和存储系统,以市场能够承受的价格提供给用户。

【上一页】

内容导航栏

用户评论

  • 用户名
  • 评论内容
技术关注
当前技术类目:
SAN本类技术关注比例:
2存储关注排行:21
10企业级技术关注度:10--

存储频道 文件系统 最新报道

存储频道 NFS 最新报道

存储频道 RAID 最新报道

爱卡汽车网 | CNET科技资讯网 | CWEEK | 蜂鸟网 | GameSpot China | 个人电脑 | 开发者在线 | PChome | Solidot | SPN |
投影顾问网 | 万维家电网 | 网友世界 | 西域IT | ZDNet China | 中关村在线 | 中小企业成长网
CNET Networks
Copyright © 1997-2007 CNET Networks 版权所有。 ZDNet 是CNET Networks公司注册服务商标。
中华人民共和国电信与信息服务业务经营许可证编号:京ICP证010391号