2013/04/15

機械学習ライブラリ Mahout Hadoop

機械学習におけるHadoopの利用

従来のデータ処理

  1. WEBサーバで収集したデータをDBへ集積
  2. DBのデータを元に分析サーバ上でプログラムが解析処理
  3. 分析結果を保持
  4. クライアントへ表示

高速化、機械学習、データ精度を加味した処理

  1. WEBサーバで集積したデータをクラウドストレージのKVSへ集積
  2. 解析、分析プログラムをHADOOPで分散処理
  3. 分析結果をクラウドストレージで保持
  4. WEBサーバでクラウドのKVSから結果を取得
  5. クライアントへ表示

ビッグデータになった場合、従来のRDBSでは処理完了までの時間が長くかかってしまう。


分散処理をしない場合

昨今のCPUの進化により処理速度は速くなっているが、 結局、RDBSのI/Oで時間がかかってしまうため、 従来のRDBSではCPUの処理性能を十分に発揮できない。

HADOOPなら

複数台のマシンに処理を分散させることができるため、 I/Oの時間のボトルネックは解消される。。。とのことだが、 正直どういうことかがまだわからない。。。

自動でWEBブラウザテストを実行してみる!(selenium + eclipse + java)

1.eclipseの準備 2.selenium IDE(katalon recoder by firefox)で動作記録する。 3.javaファイルにエクスポートする。 4.eclipseで実行