(Big)Data in a Virtualized World: Volume, Velocity, and Variety in Cloud Datacenters (from USENIX FAST 2014)
IBMチューリッヒ研究所によるクラウドのワークロードの実データに基づいての研究。
以下簡単なメモ
- 調査環境
- 測定ツール
- vmstat/iostat
- ハイパーバイザ固有のツール(何だろう?物理IOPSを計るので気になる)
- I/Oの測定観点(3つの観点)
- Volume
- 割当量、空き容量、使用率等(長期のトレンドを見る)
- Velocity
- IOPSや時間当たりのデータ転送量(GB/h)
- Variety
- アプリケーションごとのI/O特性の測定
- その他(CDFを考慮する)
- 顧客による分散を見るためCDFをみる(10%, 50%, 90%分布)
- Volume
- Volume
- 略
- Velocity
- この節だけ期間を2013年4月17日と21日のデータを使って解析
- IO Activity(virtualized IOPS/physical IOPS)の値で、比較している。なお、単純な思い付きではキャッシュの効果を考えるとvirtual IOPSの方がphysical IOPSより高くなるはず。しかし、ハイパーバイザ独自の管理IO(ライブマイグレーション等)は、physical IOにしかつかない。このため、1以上の場合は、仮想IO(読み出しが多い)が多い場合であり、1以下の場合は、管理IOが多いもしくは書込みが多い場合となる。
- 計測結果から見ると、意外に仮想IOの割合が少ないのがちょっとびっくり、管理IOが多いのだろうか?
- Variety
- VM上に乗ったアプリケーション毎の解析