how-to-build-enterpise-bigdata-datawarehouse

2020-03-23

本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的《企业大数据平台仓库架构建设思路》的分享整理而成。随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据的产生，越来越多的企业开始在大数据平台下进行数据处理。分享中，李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性，构建更贴合大数据应用的数据仓库。

1、总体思路

随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征，该如何构建数据仓库呢？我认为应该从稳定、可信、丰富、透明四个关键词入手。其中，稳定要求数据的产出稳定、有保障；可信意味着数据的质量要足够高；丰富是指数据涵盖的业务面要足够丰富；透明要求数据构成流程体系是透明，让用户放心使用。

我们之所以选择基于大数据平台构建数据仓库，是由大数据平台丰富的特征决定的：

强大的计算和存储能力，使得更扁平化的数据流程设计成为可能，简化计算过程；
多样的编程接口和框架，丰富了数据加工的手段；
丰富的数据采集通道，能够实现非结构化数据和半结构化数据的采集；
各种安全和管理措施，保障了平台的可用性。

仓库架构设计原则包括四点：第一自下而上结合自上而下的方式，保障数据搜集的全面性；第二高容错性，随着系统耦合度的增加，任何一个系统出现问题都会对数仓服务产生影响，因此在数仓构建时，高容错性是必不可少的因素；第三数据质量监控需要贯穿整个数据流程，毫不夸张地说，数据质量监控消耗的资源可以等同于数据仓库构建的资源；第四无需担心数据冗余，充分利用存储换易用。

2、模型设计

构建数仓的首要步骤就是进行模型设计。

维度莫建模或实体关系建模

常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单，便于实时数据分析，适用于业务分析报表和BI；实体关系建模结构较复杂，但它便于主体数据打通，适合复杂数据内容的深度挖掘。

每个企业在构建自己数仓时，应该根据业务形态和需求场景选择合适的建模方式。对于应用复杂性企业，可以采用多种建模结合的方式，例如在基础层采用维度建模的方式，让维度更加清晰；中间层采用实体关系建模方式，使得中间层更容易被上层应用使用。

星型模型和雪花模型

除了建模方式之外，在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上，两种模型是并存的，星型是雪花模型的一种。理论上真实数据的模型都是雪花模型；实际数据仓库中两种模型是并存的。
由于星型模型相对结构简单，我们可以在数据中间层利用数据冗余将雪花模型转换成星型模型，从而有利于数据应用和减少计算资源消耗。

1、 总体思路

2、模型设计

维度莫建模或实体关系建模

星型模型和雪花模型

1、总体思路