ニューヨーク・メッツで“ベンチ入り”した新顔とは?:メジャー級のデータを管理せよ(2/2 ページ)
ニューヨークの“もう1つ”のメジャーリーグチームが、バックアッププロセス改善のファーストステージで、デデュプリケーション・アプライアンスを導入、膨大なデータの管理に成功した。そのノウハウとは?
圧縮技術と迅速化…… メッツが選んだベンダーとは?
メッツにとっての問題は、適切なベンダーあるいはベンダーの組み合わせを見つけることだった。担当チームが求めたものは、ローコストのディスクだけではなく、バックアップするデータの総量を小さくするデデュプリケーション技術や圧縮技術、そして複製プロセスをスピードアップするWAN最適化/高速化技術も含まれた。「しかし、あまり多くの技術を組み合わせると、ソリューションが複雑になり、別の問題が発生するリスクがある」と指摘するのは、ミネソタ州スティルウォーターのストレージIOグループ創立者で上級アナリストのグレッグ・シュルツ氏だ。
VARのイープラス・テクノロジーと組んで、ミローヌ氏はベンダーを3社まで絞り込んだ。データ・ドメイン、EMC、そしてカンタムだ。最終的にメッツは2台のデータ・ドメイン製アプライアンスを採用した。7.5Tバイトのディスクストレージを搭載するDD565をシェイスタジアムに、またそれより小さい2.25TバイトのDD510をスターリング本社にインストールした。価格は9万5000ドルと1万9000ドルだった。
いずれのユニットも圧縮およびデデュプリケーション機能を搭載しており、ミローヌ氏の計算によると、データボリュームは平均25倍の圧縮率で削減されるという。「場合によっては、80倍の圧縮率になることもある」と同氏は語る。
データ・ドメインの製品は、データをディスクに格納する前に、不要なデータを削除するインライン・デデュプリケーション方式だ。この方式の場合、データはディスクに格納された瞬間から複製、管理が可能になる。ただし、この方式はプロセスのパフォーマンスに影響を与える(「デデュプリケーションのさまざまな方式」を参照)。
実装化はスムーズに運びバックアップは確実になった
実装化はなんの障害もなくスムーズに運んだ。「実際、データ・ドメインのアプライアンスをバックアップサーバに接続するだけだった」とミローヌ氏。データ・ドメインのエンジニアの助けを借りて、ITスタッフがほとんどの導入作業を進めたが、1日かけて環境を準備し、数日かけて検証を行った後、すべて正常に動作した。
それぞれのD2Dバックアップアプライアンスは、それぞれのロケーションでサーバをハンドリングする。加えて、スターリング本社のデータはシェイスタジアムで複製される。いまのところ、同社はテープを完全に放逐してはいない。「われわれはまだシェイスタジアムでテープを利用している」とミローヌ氏。そうした状況も、次の段階で終了する。シェイスタジアムのバックアップをスターリング本社か、新たにデータ・ドメインのアプライアンスを実装した第3の施設に複製する予定だ。その時点で、2カ所のデータセンターは第3のサイトに複製を置き、テープは不要になる。
現在、データのバックアップは迅速化され、それらの信頼性はかってないほど高い。「私のスタッフも喜んでいる」とミローヌ氏。メッツが勝っても負けても、「以前よりぐっすり眠れるようになった」という。
デデュプリケーションのさまざまな方式
増大化するデータをコントロールする鍵となるのがデデュプリケーション技術だが、次のような形式がある。
アプリケーションサーバデュープ
データをバックアップサーバに送る前に、アプリケーションサーバ上で稼動するソフトでデデュプリケーションを実行する。バックアップのためにネットワーク上を流れるデータ量を減らすことができるが、アプリケーションサーバにプロセッシングのオーバーヘッドがかかる。
ブロックレベル
変更されたファイル内のブロックをチェックして、きめ細かなデデュプリケーションを行う。ファイル全体をセーブするのではなく、変更が加えられたブロックの部分だけをセーブする。
インライン
ディスクアレイへ送られる途中でデータをインターセプトし、データがディスクへ書き込まれる前にデデュプリケーションを実行する。格納されたデータは完全にデデュプリケートされ、直ちに複製その他の利用が可能になる。この方式はパフォーマンスに影響する場合がある。
ポストプロセッシング
データがアレイに格納された後でデデュプリケーションを実行する。パフォーマンスへの影響を避けることができるが、デデュプリケートされたデータを保持するために、バックアップシステムに追加的なストレージキャパシティが要求される。
シングルインスタンスストレージ
ファイルレベルでデデュプリケーションを実行する。ブロックレベルまで掘り下げず、ファイルで重複を判断するため、圧縮率の点では不利になる。例えば、ファイルの内容が変更されず、名前だけが変更された場合、ファイルレベルのデデュプリケーションでは重複することが認識できない。その場合、ファイルレベルのデデュプリケーションは新しいファイルと見なし、重複していると判断して削減することはない。
データ量をよりいっそう削減するために、デデュプリケーションとともに圧縮技術が用いられることが多い。ほとんどの場合、企業はまずデデュプリケーションを実行し、それから圧縮する。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- CEOインタビュー:「わたしという資産から最大限の効果を引き出しなさい」――NetAppのCEO
「働きがいのある企業」として評価を受ける米NetApp。社員をマネジメントしていくためには、トップダウンではなく経営層側が低姿勢で接することも必要だという。 - ■■社内開発か製品購入かの議論はもう忘れよう。システム開発を戦略的に推進するCIOたちは、自社のビジネスに最適なソフトウェアを構築することが可能なマッシュアップ・アプローチへ進んでいる。
- データ保護の包括的アプローチ:データベースセキュリティとデータガバナンスが今年の優先課題
重要な機密データの保護は、多くの企業で優先的な取り組みと位置づけられている。米国でもデータガバナンスを最優先課題ととらえるユーザーは多く、必要なデータを抽出できる仕組み作りが大切だという意見が大半を占める。 - 景気拡張は過去最長へ、プロ野球人気球団の好調も下支えに?!
景気はもたつき局面を緩やかな拡大を続けている。景気拡張期間は67カ月となり、日清戦争好況の64カ月の最長記録を抜いて新記録を更新している。