Pentaho中国爱好者社区   Pentaho 授权经销商

 找回密码
 申请账户

用新浪微博连接

一步搞定

搜索
热搜: 活动 交友 discuz

Pentaho电信行业案例--ETL

2012-8-15 10:44| 发布者: admin| 查看: 6485| 评论: 0

摘要: 在大数据时代,除了分布式数据仓库开始广泛采用外,构建数据仓库的ETL 工具也开始向并行化发展。在并行化的 ETL 工具里 Kettle 是最近两年被广泛使用的一种。Kettle以其高效性、易用性、可扩展性而闻名。在 Kettle E ...

   在大数据时代,除了分布式数据仓库开始广泛采用外,构建数据仓库的ETL 工具也开始向并行化发展。在并行化的 ETL 工具里 Kettle 是最近两年被广泛使用的一种。Kettle以其高效性、易用性、可扩展性而闻名。在 Kettle ETL 内核的基础上,对其作了重构和修订。增强了其稳定性、同时增加了调度、监控、元数据管理等必要管理功能。并应用在多个项目上。典型应用的项目包括:XX电信DPI用户行为分析项目、IDAP分布式数据仓库项目、网管专家海量日志分析、XX航运 ShareData 基础数据的升级移植和多系统数据同步项目等。

Kettle的高效主要因为支持分布式多线程并行化处理和集群功能。Kettle的多线程采用的是一种流水线并发的机制,转换里的所有步骤以多线程的方式并发同时执行。其多线程机制基于生产者和消费者模式,步骤之间有数据缓存,上一个步骤是生产者,下一个步骤是消费者。Kettle集群允许转换以及转换中的步骤在多个服务器上并发执行。Kettle 有一个主节点(Master Server)和多个从节点(Slave Server)。主节点负责协调和通信,从节点负责实际的转换和加载操作。通过实际测试表明,根据从节点个数的不同,通过集群方式可以将性能提高 30%~60%

Kettle集群的架构如下图所示:

ETL的调度,监控等作业可以通过自动触发与手动触发来实现,双重作业形式让客户可以得到及时准确的数据分析支持。自动触发是在到达指定的时间点时自动启动ETL作业,手动触发是指由操作人员通过交互操作启动ETL作业。在通常情况下,ETL作业被配置为自动触发方式,只有当特殊的场合无法确定准确的ETL作业启动时间时,才会采用手动触发方式。此外,当自动触发的ETL作业出现异常故障时,也可以用手动触发方式对ETL作业进行重启和修正。

Ø  调度:同时执行多个作业流,并在多个作业流间进行协调,使客户的系统资源和效率达到最佳化。在必要时,将并行处理的作业流自动转为串行处理方式,以防止过高的并发影响系统整体效率。调度日志记录了每个作业、作业流、作业批次和作业的执行时间,可用于对每天的数据处理流程差异进行对比分析,也可为任务流程的优化提供参考数据。

Ø  监控:操作管理人员可以通过监控界面实时监控当前 ETL 作业的开始时间、目前执行状态,如果有必要可以手工停止作业的运行。除了监控当前运行的作业,还可以查看到历史作业执行的情况,包括:执行时间、执行状态等。同时还可以实现资源监控,主要查看当前运行环境,监控目前已使用内存,最大内存,目前可用存储空间,CPU 占用率等。每个ETL作业,都会在日志中记录各自的完成情况,包括处理的数据量、异常数据、错误原因等信息。通过查看错误日志,可以快速地定位错误位置,并根据错误原因方便地排查错误。监控需要定时检查错误记录,及时发现并报告错误。此外,还可以通过任务日志,生成数据质量报告,以有利于对源数据质量的改进。

 

Kettle的主要特点包括:

Ø  Java编写,真正实现跨平台操作;

Ø  非常强大而且易于使用的设计界面,便于快速应用,简化设计;

Ø  支持多种数据源访问功能,包括数据库、定制封装的应用、WEB 服务、平面文件、XML 文件、存储过程、CSV 文件和动态XML消息等;

Ø  支持HadoopHBaseMongoDBCassandra NoSQL 数据库;

Ø  全面的数据库访问支持,系统适应性强,目前可支持的数据库类型达到45种,并可进行类型扩展;

Ø  转换简单,可扩展性强,预留了数据转换接口,通过利用这些接口,可以开发特定的转换插件;

Ø  可用Java进行集成开发,提供了基于Java的脚本编写功能,可以灵活地自定义ETL 过程

Ø  全面优化,高效稳定,针对不同的数据库系统自身的特点,在数据抽取、转换、容错等方面进行了优化,运行效率更高,系统更为健壮;

Ø  支持十余种数据库的批量加载;

Ø  支持集群运行转换,远端运行转换;

Ø  日志详细,有效跟踪,日志设置了不同的级别,从最小级别到调试级别,每个级别输出的日志信息不同。

 

如需转载或引用请备注来源Pentahochina中国爱好者社区!

 

 

1

鲜花

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (2 人)

Pentaho 技术支持电话: 13716483677 (Jason)       Pentaho 技术支持QQ:2253715

联系邮箱|Archiver|Pentaho中国爱好者社区 ( 京ICP备12007697号-2 )

GMT+8, 2017-11-25 04:07 , Processed in 0.022911 second(s), 11 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部