DruidとSupersetについて調べる

プロジェクトで使いたい!的な機運が高まっているのでセットアップしてみることにする。 ちょっと動かしてみる程度ではなく、プロダクションサービスのデータ分析ツールとして導入に耐えるか、を検証するのがゴール。アーキテクチャを再現可能に構築できて、ツールをメンバーに実際に使ってみてもらうことも必要になる。

Druid

Druid | Interactive Analytics at Scale

github.com

Superset

github.com

数年前はElasticsearch と Kibanaをよく使っていたので、それらとの比較も交えながら検討したい。Elasticsearchはとにかく運用に苦労した経験があるので、軽い気持ちで導入するとDruidも地獄を見そう。

詰まったら本買ってみる。無料サンプルを見た感じ、読みやすそう。

kubernetesクラスタとして構築できるセットが揃ったGitHubレポジトリもあったけど、これでできちゃっても理解が深まらないし、できないとハマるので、参考程度に見る。 各コンテナのDockefileは参考になりそう。

github.com

他に参考になりそうなリソース

druidというリアルタイムデータ分析ツールを知った | κeenのHappy Hacκing Blog

BIツールのApache Supersetを試してみた – ニフティものづくりブログ

Supersetのデモページを公開しました(Airbnb社製OSS) – グローディア株式会社

Druid part4 Panoramixを使ってみよう

Apache Kafka + Druidを使ってインタラクティブに時系列データを集計処理してみた - DiaryException

別の話題だけど、実際に導入する場合にはストリーミングデータをどう挿入するかも課題となりそう。

www.slideshare.net

GCPのPubsubが使えれば手っ取り早いけど、それも含めて調べる。