ETL、kettle、kafka、hadoop

胡思乱想 2020-04-02

ETL工具: ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

把数据从源取出,通过处理后放到标准的数据库中,你可以初略的这么去认为,这对于需要大量操作数据表格的人来说是有福了额(集团对账,片区分销体系汇总,无数的Excel),你可以在保证在数据格式安全合法的情况下UI模式(图形界面)的把元数据规规矩矩的导入到你的表里面,然后在进行相关的操作。ETL工具有很多,相关信息大家可以参考这篇文章:http://blog.csdn.net/hfxl1108/article/details/8564941

Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

作为Pentaho的一个重要组成部分,现在在国内项目应用上逐渐增

多。

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

Hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.

希望50年后它依然存在,让我感觉我一直在做一件稍微有点cool的事情 喜欢一起交个朋友吧 微信/QQ :56280295

Leave a Reply

Your email address will not be published. Required fields are marked *