注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

饥民2011

一直在搬砖

 
 
 

日志

 
 
 
 

转: ETL的四个过程  

2013-11-04 23:02:21|  分类: ETL |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

转自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html


What are the four basic data flow steps of an ETL process?


答:

Kimball 数据仓库构建方法中, ETL的过程和传统的实现方法有一些不同, 主要分为4个阶段, 分别是抽取(extract),  清洗(clean), 一致性处理(comform) 和交付(delivery). 坚持ECCD.


1. Extract 阶段的主要任务是:

读取系统的数据模型.

连接并访问源系统的数据.

变化数据捕获

抽取数据到数据准备区.


2.clean阶段的主要任务是:

清洗并增补列的属性.

清洗并增补数据结构.

清洗并增补数据规则.

清洗并增补业务规则.

建立元数据库描述数据质量.

将清洗后的数据保存到数据准备区


3. comform阶段的主要任务是:

一致性处理业务标签, 即维度表中的描述属性.

一致性处理业务度量及性能指标, 通常是事实表中的事实.

去除重复数据.

国际化处理.

将一致性处理后的数据保存到数据准备区.


4.delivery阶段的主要任务是:

加载性行的和经过雪花处理的维度表数据.

产生日期维度.

加载退化维度.

加载子维度.

加载1.2.3型的缓慢变化维度.

处理迟到的维度和迟到的事实.

加载多值维度.

加载有复杂层级结构的维度表

处理事实表的代理键.

加载三个基本类型的事实性数据.

加载和更新聚集.

将处理好的数据加载到数据仓库.



从这个任务列表中可以看出, ETL的过程和数据仓库建模的过程结合的非常紧密. 换句话说, ETL系统的设计和目标表的设计同时开始. 通常来说, 数据仓库架构师和ETL系统设计师是同一个人.

  评论这张
 
阅读(72)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018