DeepSeek+EMQX:LLMでインテリジェントな可観測データ分析ツールを構築

はじめに
IoT データの可観測性は、コネクテッドカーや産業 IoT などのプラットフォームから取得したデータを監視・管理し、複雑なシステム・プロセス・パイプライン全体でデータの品質・可用性・信頼性を確保する実践です。これによりユーザーはデータの状態を総合的に把握し、問題の迅速な特定・分析を行い、システムの安定性と運用効率を高めることができます。
本記事では、EMQX の可観測データと DeepSeek の LLM(Large Language Model)サービスを組み合わせ、ベクトル化知識ベース、自動コード生成、自然言語処理などの AI 技術を活用して、データアップロード失敗、デバイス切断、接続レイテンシ増大、データ転送遅延といった課題を迅速に解決する方法を探ります。
既存 IoT 可観測データツールの制限
コネクテッドカーや産業 IoT のシナリオでは、ネットワーク状況やアプリケーションの複雑さにより、デバイス切断、メッセージ購読の遅延、メッセージ転送の遅延、メッセージ損失などの問題が頻発します。効率的な可観測データの収集・保存・分析システムがない場合、運用チームは問題の特定と分析に過度の時間を費やし、MTTR(平均復旧時間)の増大、ユーザー体験の低下、顧客からの苦情やブランドイメージの毀損につながります。
一般的に、可観測データ分析は次の 3 つのデータソースに依存します。
メトリクス ユーザーは折れ線グラフなどの時系列チャートを通じてシステム全体の健全性を迅速に評価できます。
- CPU、メモリ、ネットワーク使用率などで特定期間の異常を検知
- EMQX システムデータで接続数、メッセージ送信、フォワーディング状況を把握
Prometheus や Grafana など成熟した製品によりメトリクスの保存と可視化が容易です。
トレーシング システム内部の動作状態を把握し、問題箇所を特定できます。
- システムコンポーネント間の呼び出しチェーンと所要時間をトラッキング
Jaeger などがトレーシングデータの保存・分析・可視化に利用されています。
ログ 正確な故障診断に不可欠です。
- 実行中に生成されるログにより、システム状態やエラー・例外を把握
ElasticSearch などがログの保存・検索・可視化に広く用いられています。
しかし、市場にある多くの可観測ツールは以下の制限を抱えています。
- プリセット機能依存:ベンダーの事前設定に依存し、予期せぬ異常に適応しにくい
- 静的知識ベース:テキスト検索に頼るため、関連課題に対する的確な推奨を提示できない
- 知性の欠如:推論能力が不足し、複雑なシナリオでの問題分析に弱い
AI を活用したスマートな可観測データ分析
大規模言語モデル(LLM)の推論能力を活用することで、可観測データ分析の知能化を大幅に強化できます。
- インテリジェント推論:ハードコードされたルールではなく、コンテキストに基づきシステム異常を推論
- 自然言語処理:AI によるコード生成で柔軟なデータ処理が可能
- ベクトル化知識ベース:正確な問題解決策を提供
- AI エージェントフレームワーク:LLM で導出した解決策を基に自動化オペレーションを実施
DeepSeek R1 は複雑シナリオで効率的な推論とコンテンツ生成を行う RL ベースの推論最適化モデルです。DeepSeek V3 は混合エキスパートアーキテクチャを採用した強力な生成型 LLM で、学習効率と生成品質を向上させています。DeepSeek の R1 と V3 を組み合わせることで、IoT シナリオにおける大量かつ異種のデータとインタラクション要件を高効率に処理できます。
ユーザーの運用効率を高めるため、最新の EMQX ECP では DeepSeek V3 ベースの可観測ツールを統合しました。EMQX クラスターとエッジサービスの高速デプロイ、リモート運用、集中管理機能の上に、AI の推論力を活用してデータ駆動型のスマート IoT 運用を実現します。
この可観測ツールは主に次の 3 コンポーネントで構成されます。
- ベクトル知識ベース構築:製品マニュアル、運用知識、インシデント分析レポートなどの文書をベクトル化し、LLM が関連情報を効率的に検索・活用
- データソース収集:EMQX がメトリクス、トレーシング、ログを OpenTelemetry 等で Datalayers DB に送信し、LLM 分析に必要なデータソースを提供
- 問題解決
- ベクトル知識ベースから関連コンテンツを検索し、プロンプトと結合して推論結果を直接ユーザーへ返却
- ユーザー要求に応じて Datalayers DB からデータをロードし、処理用コードを自動生成。問題データと知識ベース情報をコンテキストとして LLM に渡し、推論で解決策を生成して自然言語でユーザーに提示
顧客ニーズに応じ、将来的には AI エージェントによる自動運用オーケストレーションを含むシナリオも実現可能です。例えば、特定条件でリソース自動スケールや通知をトリガーしたり、オンライン保守点検を自動化して高品質な点検レポートを生成したりできます。
AI インタラクションデモ
次に、AI を活用したインタラクティブ運用方法を示します。EMQX ECP をデプロイ後、ダッシュボードにアクセスし、左ナビゲーションバーの「Trace」機能をクリックして EMQX のエンドツーエンドトレーシングで分析・トラブルシュートを行えます。トレーシングは強力なデータサポートを提供しますが、複雑シナリオでは原因分析に専門知識が必要です。その効率向上のため、トレーシングの高度なクエリページに DeepSeek の LLM を統合しました。AI の推論・生成能力により、ユーザーは問題を迅速・知的に特定し、解決策を得られます。
データ分析概要機能
まずトレーシングページで右上の「Advanced Query」ボタンをクリックし、クエリページへ移動します。ここで EMQX クラスター ID を選択し、必要に応じて 1 つ以上の Client ID を指定してデータソースを特定します。次に分析時間範囲を選択(デフォルトは全期間)し、クエリボタンを押します。システムは指定した Client ID に対する全トレーシングデータを返します。
クエリ結果が返ると、多数のトレーシングデータエントリがリスト表示されます。手動で異常を特定するのは困難です。このとき AI アシスタント機能を使用できます。右下の「Ask AI」ボタンをクリックするとダイアログが開き、データ分析要件を入力すると AI アシスタントが分析結果と最適化提案を生成します。
AI アシスタントの「Tracing Data Overview」ショートカットボタンをクリックすると、現在取得したトレーシングデータの概要分析が生成されます。主な内容は以下のとおりです。
- 全体状況:トレース総数、成功率、平均応答時間、最小応答時間、最大応答時間、P95/P99 応答時間
- 異常:高エラー率クライアント(閾値超過)、異常応答時間クライアント(平均応答時間が閾値超過)、異常トレース(極端に長い所要時間など)
- 主な発見:異常が見られる主要クライアントやリンクを列挙し、潜在的な故障箇所を特定
- 推奨事項:データ分析結果に基づく最適化提案とトラブルシュートの方向性
概要レポートから異常トレースをすばやく特定できます。例えば、特定クライアントの応答時間が長い、あるいは特定 Client ID のトレースエラー率が高いといった指摘があれば、検索・フィルタで該当トレース ID を即座に特定できます。トレース ID をクリックすると詳細情報が下部に表示され、関連サービス・操作のタイムライン構造が見られます。各 Span は 1 操作を表し、カーソルを合わせると詳細手順を確認できます。
エラーコードしかない場合など問題が不明瞭なケースでは、AI アシスタントの「Spans Data Overview」ボタンをクリックして根本原因を迅速分析できます。AI は各 Span 操作についてエラー情報、潜在原因、修正案を提示し、知識ベース連携により的確な解析とトラブルシュート案を提供します。
スクリプトモード機能
EMQX ECP の AI アシスタントにはカスタムスクリプト機能もあります。ダイアログ上部の Script Mode スイッチをオンにすると、DeepSeek の強力なモデルとコーディング推論機能を活用できます。スクリプトモードではダイアログにカスタムデータ要求を入力するだけで、AI が自動でデータ分析スクリプトを生成・実行し、結果を高速で提示します。必要に応じてチャートやドキュメントも自動生成し、データを視覚化して問題を迅速に特定します。
例1:duration
の平均値を計算
スクリプトモードで「現在のトレースデータの duration
フィールド(処理時間)の平均を計算して」と入力すると、AI アシスタントがスクリプトを生成・実行し、平均 duration
を計算して結果を表示します。結果と併せて分析サマリも提示されます。
例2:エラートレースの全体に占める割合を表示
ユーザーが「全トレースに対するエラートレースの割合を確認したい」と入力すると、AI アシスタントはスクリプトを生成して割合を計算し、チャートを自動生成して結果を表示します。併せて分析レポートも提供され、システム健全性を割合で評価するのに役立ちます。
スクリプトモードにより、AI は複雑なデータ分析タスクを支援し、ユーザー要件に応じたコードを柔軟に生成します。ユーザーはコードを書く必要がなく、AI が推論・計算を自動で行い、手動介入を減らしデータ分析効率を向上させます。また、生成されるチャートやレポートは直感的で、主要情報を素早く把握し意思決定を最適化できます。
まとめ
EMQX の可観測データと DeepSeek の LLM 推論能力を組み合わせることで、システム保守の作業量とコストを大幅に削減し、運用効率と品質を向上できます。障害検知・分析に要する時間を短縮し、的確な解決策や推奨を提供することで、最終的に顧客満足度を高めます。
DeepSeek 以外にも、EMQX は Grok、OpenAI、Claude など他の主要 AI モデルとの統合機能を提供しています。EMQX のすぐに使える統合機能を通じて、AI の力を簡単に活用できます。
LLM 技術の急速な発展に伴い、インテリジェント保守エージェントはより複雑な自動化機能を実現し、運用・サポートチームの負荷を徐々に軽減し、企業のデジタルトランスフォーメーションを強力に支援します。