背景
在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配合,提供数据变化表(删除,修改,新增);数据准实时,有10分钟延时;任务有异常的时候,从错误时间补数据需要耗费大量时间且找到数据偏移不容易。所以开始寻求一种通用的实时数据服务平台,目标是开发成本较低,延时少,稳定性高。
需求
根据需求目标有多种数据来源,数据库,文件,HTTP,SYSLOG,数据量较大,目标支持20000/s的数据抓取和请求,提供在线服务请求和数据查询。
设计
根据需求我们做出来如下图的设计方案,
从下往上是数据的流向,底部是实时数据采集和数据数据捕获层,中间是实时数据接收层,上面是数据处理和计算层,顶部是数据服务层。
1. 数据采集层,捕获层
因为数据来源较多,有通过syslog发的,tcp发的,http发的,还有主动捕获数据的,数据库包括mysql, sqlserver,还有log文件方式;将来还需要补充oracle数据库和客户端插件方式。mysql数据库数据变化采用的是binlog解析方式,利用了中间件,sqlserver数据库采用了cdc捕获方式,其余的是在flume基础上做二次开发或自研。
2. 数据接收层
flume和kafka做数据接收和消息队列,实践证明这个框架还是很成熟稳定,每秒20000次的测试轻松搞定。flume方面需要做一定的二次开发,进kafka根据不同的topic进行设置。
3. 数据处理和计算层
需要统计计算的数据从storm框架计算,得到结果集插入数据库或直接提供在线统计服务;需要提供明细数据服务的根据不同的需求发往hbase或者elasticsearch。
4. 数据服务层
插入数据库的数据提供给前台报表展现,在线服务可以提供给前台展现或第三方调用;hbase的数据服务提供key-value的明细数据查询,elasticsearch的数据服务提供多种组合条件的查询。
分享到:
相关推荐
基于大数据技术的智慧校园数据服务平台设计与实现.docx基于大数据技术的智慧校园数据服务平台设计与实现.docx基于大数据技术的智慧校园数据服务平台设计与实现.docx基于大数据技术的智慧校园数据服务平台设计与实现....
基于大数据技术的 智慧校园数据服务平台设计与实现.pdf基于大数据技术的 智慧校园数据服务平台设计与实现.pdf基于大数据技术的 智慧校园数据服务平台设计与实现.pdf基于大数据技术的 智慧校园数据服务平台设计与实现...
基于大数据技术的 智慧校园数据服务平台设计与实现.docx基于大数据技术的 智慧校园数据服务平台设计与实现.docx基于大数据技术的 智慧校园数据服务平台设计与实现.docx基于大数据技术的 智慧校园数据服务平台设计与...
基于大数据技术的智慧校园数据服务平台设计与实现.pdf基于大数据技术的智慧校园数据服务平台设计与实现.pdf基于大数据技术的智慧校园数据服务平台设计与实现.pdf基于大数据技术的智慧校园数据服务平台设计与实现.pdf...
系统解决了地方海事局由于不同的软件厂商和技术架构导致的多个业务系统数据矛盾及共享困难等问题。系统采用最新的SOA架构思想、B/S结构模式,依托企业服务总线实现各业务系统数据交换及共享。数据交换与管理模块采用...
海量历史准实时数据管理平台设计与实现,
基于Python的可视化数据分析平台设计与实现.pdf
大数据处理综合处理服务平台的设计实现分析范文.pdf大数据处理综合处理服务平台的设计实现分析范文.pdf大数据处理综合处理服务平台的设计实现分析范文.pdf大数据处理综合处理服务平台的设计实现分析范文.pdf大数据...
大数据处理综合处理服务平台的设计与实现.docx大数据处理综合处理服务平台的设计与实现.docx大数据处理综合处理服务平台的设计与实现.docx大数据处理综合处理服务平台的设计与实现.docx大数据处理综合处理服务平台的...
基于Python的可视化数据分析平台设计与实现.docx基于Python的可视化数据分析平台设计与实现.docx基于Python的可视化数据分析平台设计与实现.docx基于Python的可视化数据分析平台设计与实现.docx基于Python的可视化...
智能化数据挖掘学习平台的设计与实现.pdf
基于Hadoop的数据作业管理平台设计与实现.pdf基于Hadoop的数据作业管理平台设计与实现.pdf基于Hadoop的数据作业管理平台设计与实现.pdf基于Hadoop的数据作业管理平台设计与实现.pdf基于Hadoop的数据作业管理平台设计...
这里提出了一种基于分布式计算技术进行管理和存储海量海洋科学数据方法,构建了海量海洋科学数据存储平台解决方案,采用Linux集群技术,设计开发一个基于Hadoop的海量数据存储平台.系统由五大模块组成,有系统管理模块、...
基于实时数据集成技术的Web服务的设计和实现pdf,基于实时数据集成技术的Web服务的设计和实现
#资源达人分享计划#
基于JavaScript的数据可视化平台设计与实现
Shopee数据事件中心的设计和实现-林锋.pdf