プロジェクトで使いたい!的な機運が高まっているのでセットアップしてみることにする。 ちょっと動かしてみる程度ではなく、プロダクションサービスのデータ分析ツールとして導入に耐えるか、を検証するのがゴール。アーキテクチャを再現可能に構築できて、ツールをメンバーに実際に使ってみてもらうことも必要になる。
Druid
Druid | Interactive Analytics at Scale
Superset
数年前はElasticsearch と Kibanaをよく使っていたので、それらとの比較も交えながら検討したい。Elasticsearchはとにかく運用に苦労した経験があるので、軽い気持ちで導入するとDruidも地獄を見そう。
詰まったら本買ってみる。無料サンプルを見た感じ、読みやすそう。
kubernetesクラスタとして構築できるセットが揃ったGitHubレポジトリもあったけど、これでできちゃっても理解が深まらないし、できないとハマるので、参考程度に見る。 各コンテナのDockefileは参考になりそう。
他に参考になりそうなリソース
druidというリアルタイムデータ分析ツールを知った | κeenのHappy Hacκing Blog
BIツールのApache Supersetを試してみた – ニフティものづくりブログ
Supersetのデモページを公開しました(Airbnb社製OSS) – グローディア株式会社
Apache Kafka + Druidを使ってインタラクティブに時系列データを集計処理してみた - DiaryException
別の話題だけど、実際に導入する場合にはストリーミングデータをどう挿入するかも課題となりそう。
www.slideshare.net
GCPのPubsubが使えれば手っ取り早いけど、それも含めて調べる。