巨大なストリームデータをリアルタイムで分散処理するためのフレームワーク「Apache S4 0.5」

 分散型のストリームデータ処理システム「Apache S4」の開発チームは8月16日、最新版「Apache S4 0.5」(開発コード「Piper」)をリリースした。S4は連続したストリームデータをリアルタイムで分散処理するためのフレームワーク。元々は米Yahoo!でリアルタイム処理のためのMapReduceプロジェクトとして開発されたもので、2011年9月にApache Software Foundation(ASF)に寄贈された。

 Apache S4はASFのインキュベータープロジェクトとして開発が進められており、ASF傘下となってから初のリリースとなる。開発目的として、並列処理システム分野における複雑なプロプライエタリシステムと、バッチ主導のオープンソース処理プラットフォームとの差を縮小することをうたっている。S4はJavaで実装されており、拡張性、障害対策のフォールトトラレンス、プラグイン設計などを特徴とする。Yahoo!社内で検索クエリの処理など運用環境で利用されており、毎秒数千単位のクエリ処理を行っているという。

 Apache S4 0.5では、コードの全体的なリファクタリングが行われ、コードをさらに堅牢にした。アーキテクチャをクリーンにし、APIも強化されている。動的なアプリケーションのロードや柔軟性のあるチェックポイントメカニズムによるリカバリ機構、コマンドラインツールの導入などが挙げられている。これらにより、S4アプリケーションの開発やテスト、プラットフォームの利用が容易になると説明している。

 Apache S4 0.5はプロジェクトのWebサイトより入手できる。

Apache S4
http://incubator.apache.org/s4/