什么是边缘流式计算引擎 eKuiper？

边缘流式计算引擎 eKuiper 是一个轻量级的开源流处理引擎，支持毫秒级的实时数据处理和有状态计算。它可以部署在边缘网关或端设备上，帮助用户通过 SQL 语句实现数据的采集、处理和分析，适用于工业物联网、车联网等场景。

如何使用 eKuiper 处理公共的共享单车数据？

用户可以通过配置 HTTP 提取源从深圳市开放数据平台订阅共享单车订单数据，利用 eKuiper 的 REST API 创建数据流和规则流水线。通过 SQL 语句和内置函数对数据进行处理，例如使用 UNNEST 展开数组数据，计算骑行距离和速度，最后将结果存储至数据库并通过外部 API 实现可视化。

eKuiper 如何计算共享单车的骑行距离和速度？

eKuiper 利用内置 SQL 函数，根据单车起始和结束的经纬度，使用地球半径和数学公式计算两点之间的距离（单位可为米或千米）。随后结合时间差，计算骑行持续时间，进而计算速度，实现对骑行数据的精准分析。

eKuiper 适合哪些场景的应用？

eKuiper 适合部署在边缘设备，处理毫秒级实时数据，支持状态计算和窗口聚合。它广泛应用于工业物联网的生产线数据实时处理、车联网的汽车总线数据分析，以及公共数据分析等场景，帮助用户降低编程门槛，实现高效的数据流处理。

如何将 eKuiper 处理的数据进行可视化？

处理后的数据可以存储在数据库（如 InfluxDB）中，用户通过编写脚本从数据库中提取数据，使用第三方可视化服务（如 quickchart.io）生成图表，实现数据的直观展示和分析，便于进一步洞察和决策。

边缘流式计算引擎 eKuiper 在公共数据分析中的应用

Jiyong Huang

2023-8-28产品

在大数据时代，有许多随处可见的公共数据分享平台，借助专业的处理技术，我们可以从中清晰地抽取有价值的信息。然而处理和分析这些公共数据通常需要具备一定的编程技巧，对非技术类用户来说，这无疑增加了一定的学习难度。得益于强大的数据变换和计算能力以及丰富的数据源接入能力，边缘流式计算引擎 eKuiper 同样能够在公共数据分析领域一展身手。

本文将展示如何利用 eKuiper，通过基础的 SQL 语句轻松处理公共数据。

场景介绍

本教程将展示如何使用 eKuiper 处理深圳市开放数据平台的共享单车企业每日订单表数据，实现步骤包括：

使用 HTTP 提取源订阅开放数据平台的 API
使用 eKuiper 的 REST API 接口创建流和规则
使用内置 SQL 函数以及规则流水线对数据进行处理
存储处理完的数据，并通过外部 API 进行数据可视化

获取数据

eKuiper 支持处理毫秒级的实时数据。本教程中，我们将以日更的深圳市开放数据平台的共享单车企业每日订单表的数据为例，介绍如何使用 eKuiper 来获取相应的接口数据并进行数据处理。

如您希望分析实时更新的 API，可将 HTTP 提取源的 interval 调小。

数据接口的 URL 以及参数如下：

http://opendata.sz.gov.cn/api/29200_00403627/1/service.xhtml?page=1&rows=100&appKey=

我们现在尝试使用 eKuiper 的 HTTP 提取源从数据平台的 HTTP 服务器提取前 100 条消息数据并输入 eKuiper 处理管道。

HTTP 提取源的配置文件位于 etc/sources/httppull.yaml 中，我们需要配置相应的字段以便 eKuiper 能正确地拉取数据。以下是配置文件内容：

default:
  url: 'https://opendata.sz.gov.cn/api/29200_00403627/1/service.xhtml?page=1&rows=2&appKey=<token>'
  method: get
  interval: 3600000
  timeout: 5000
  incremental: false
  body: ''
  bodyType: json
  insecureSkipVerify: true
  headers:
    Accept: application/json
  responseType: code

随后使用 REST 客户端，创建相应的 STREAM 流来作为源输入：

###
POST http://{{host}}/streams
Content-Type: application/json

{
  "sql": "CREATE STREAM pubdata(data array(struct(START_TIME string, START_LAT string, END_TIME string, END_LNG string, USER_ID string, START_LNG string, END_LAT string, COM_ID string))) WITH (TYPE=\"httppull\")"
}

可视化数据

最后，我们可以将计算数据存储在相应的 DB 中，并通过外部的 API 进行可视化展示。

{
  "influx2": {
    "addr": "http://influx.db:8086",
    "token": "token",
    "org": "admin",
    "measurement": "test",
    "bucket": "pubdata",
    "tagKey": "tagKey",
    "tagValue": "tagValue",
    "fields": ["velocity", "user_id"]
  }
}

例如，用户可以通过 Python 脚本方便地从 InfluxDB 中获取想要的数据并做进一步处理。以下脚本将从 DB 中获得前四条记录，并将其用 quickchart.io 的参数格式打印出来：

from influxdb_client import InfluxDBClient, Point, WritePrecision
from influxdb_client.client.write_api import SYNCHRONOUS

url = "http://influx.db:8086"
token = "token"
org = "admin"
bucket = "pubdata"

client = InfluxDBClient(url=url, token=token)
client.switch_database(bucket=bucket, org=org)

query = f'from(bucket: "{bucket}") |> range(start: 0, stop: now()) |> filter(fn: (r) => r._measurement == "test") |> limit(n: 4)'

result = client.query_api().query(query)

params = '''{
  type: 'bar',
  data: {
    labels: {[v[:7] for v in record.values['user_id']]},
    datasets: [{
      label: 'Users',
      data: {record.values['velocity']}
    }]
  }
}'''

print(params)

client.close()

之后，我们可以将前四位的用户骑行的平均速度的参数用 quickchart.io 的柱状图接口进行可视化：

柱状图

本文以公共骑行数据为例，讲解了如何使用 eKuiper，通过用户熟悉的 SQL 语句方式进行数据分析处理和可视化。作为流式计算引擎，eKuiper 可以处理毫秒级的实时数据，并支持有状态的计算，例如一段时间内（窗口）数据的平均等聚合运算以及数据变化幅度的计算等。eKuiper 本身较为轻量，适合部署到边缘网关甚至端设备上，因此可以运行在各类物联网的边缘使用场景中，比如工业物联网中对生产线数据进行实时处理以及车联网中的车机对来自汽车总线数据的即时分析。欢迎读者们探索更多的使用场景。

免费试用 eKuiper

开始试用 →

边缘流式计算引擎 eKuiper 在公共数据分析中的应用

场景介绍

获取数据

数据处理

创建规则流水线

SQL 计算骑行距离

计算骑行速度

可视化数据

结语

推荐阅读

产品

使用场景

行业

资源

公司