(Big)Data in a Virtualized World: Volume, Velocity, and Variety in Cloud Datacenters (from USENIX FAST 2014)

IBMチューリッヒ研究所によるクラウドのワークロードの実データに基づいての研究。

以下簡単なメモ

  • 調査環境
    • 8,000物理サーバ
    • 90,000仮想サーバ
    • 総計22PBのストレージ
    • OSは、Windows, UNIX等さまざま。ハイパーバイザは、VMware
    • 取得期間 2011年1月から2013年12月
  • 測定ツール
    • vmstat/iostat
    • ハイパーバイザ固有のツール(何だろう?物理IOPSを計るので気になる)
  • I/Oの測定観点(3つの観点)
    • Volume
      • 割当量、空き容量、使用率等(長期のトレンドを見る)
    • Velocity
      • IOPSや時間当たりのデータ転送量(GB/h)
    • Variety
      • アプリケーションごとのI/O特性の測定
    • その他(CDFを考慮する)
      • 顧客による分散を見るためCDFをみる(10%, 50%, 90%分布)
  • Volume
  • Velocity
    • この節だけ期間を2013年4月17日と21日のデータを使って解析
    • IO Activity(virtualized IOPS/physical IOPS)の値で、比較している。なお、単純な思い付きではキャッシュの効果を考えるとvirtual IOPSの方がphysical IOPSより高くなるはず。しかし、ハイパーバイザ独自の管理IO(ライブマイグレーション等)は、physical IOにしかつかない。このため、1以上の場合は、仮想IO(読み出しが多い)が多い場合であり、1以下の場合は、管理IOが多いもしくは書込みが多い場合となる。
      • 計測結果から見ると、意外に仮想IOの割合が少ないのがちょっとびっくり、管理IOが多いのだろうか?
  • Variety
    • VM上に乗ったアプリケーション毎の解析