数据仓库:为印刷企业提供信息核心资源
数据仓库:为印刷企业提供信息核心资源
目前在我们的许多印刷企业中也建立了各种各样的应用子系统,例如客户业务子系统、生产子系统、财务子系统、销售子系统等,它们在各自的领域在一定程度上还能满足需求,这里指的是分析处理仅涉及到较少的数据信息时。当数据量迅速地增长而查询要求不断复杂化时,对于频繁操作性处理的数据库系统往往是不堪重任的。所以必须采用一种新的技术,使其能进行复杂的分析处理,于是数据仓库技术就应运而生了。
一、数据仓库技术
数据仓库(Data warehouse)技术出现在20世纪80年代,90年代美国著名工程学家W·H·Inmor博士给出数据仓库的定义:数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(包含不同时间的历史数据)的数据集合,用以支持经营管理中的决策制定过程。它是一种企业信息管理解决方案,是系统体系结构,而不是软件产品或应用程序。数据仓库体系结构能够将分布在企业网络中不同站点的各种结构数据库中的商业数据集成到一起,是基于大规模数据库的决策支持系统环境的核心。它是当前解决企业在经营管理和决策活动中遇到的数据过多但有用信息匮乏的一种比较有效的解决方案。
1. 数据仓库的特点
数据仓库与专用数据库不同,它具有以下特点:
①数据仓库是面向主题的,它以业务工作主题内容为主线,从大量分散的专用数据库中获取有效的信息数据,按照主题区域进行物理分区,转换和组织为新的存储系统,把数据聚合在新的特殊结构中,并建立各个主题区域的链接关系。应该说主题是数据仓库中数据获取和归类的标准。
②集成性是数据仓库的重要特征。数据仓库的数据来自不同的应用系统,使用不同的数据结构和类型,有着不同的编码方式。所以并不能简单地照搬每个细节数据,而是要对数据进行加工,将不同类型的数据统一到数据仓库的模式上来,数据集成是数据仓库建设中至关重要的环节。
③随时间而变化是数据仓库的另一特征。一般专用数据库只存储当前运行的应用系统数据,其他时间的数据也只是作为备份存储,前后没有联系。而数据仓库的数据常用作趋向性分析,需要有足够的历史性数据,时间跨度可以很长。时间性是数据仓库用作分析数据内在规律之必然要求。
④数据仓库的另一特征是数据的非易失性(即稳定性)。数据仓库的数据是针对某一主题进行综合加工的分析数据,数据一旦形成并加载到数据仓库之后,原则上不允许管理人员随意更改或删除,只能作定期刷新。
2. 数据仓库系统的构成
数据仓库技术实际上是一种信息集成技术。数据仓库是从多种信息源中获取原始数据,经过整理加工再存储在数据仓库的内部数据库中。然后通过访问工具向用户提供集成的信息,帮助企业经营管理者进行深入的综合的分析,从而支持企业的全局决策。基于这些需要,一个数据仓库一般包括如下部分:
①数据源:为数据仓库提供源数据,如业务数据库、生产数据库等。
②数据抽取、转换和装载工具:从数据源中抽取数据,再重新组织加工,装载到目标数据库中。
③数据建模工具:为源数据库和目标数据库建立信息模型。
④核心仓储:存储数据模型和元数据。
⑤目标数据库:存储经过检验、整理、加工、重新组织后的数据。
⑥前端数据访问和分析工具:企业决策人员及业务分析人员通过这些工具对目标数据库中的数据作进一步的分析。
⑦数据仓库管理工具:为数据仓库的运作提供管理手段,如安全管理、存储管理等。
二、印刷业中的数据仓库模块
目前在大多数企业中对于数据仓库的建立,主要是根据业务主题来进行数据集成的,印刷企业也是同样。根据印刷行业的特点,当前的印刷企业数据仓库按主题来分主要包括以下几个模块:
①客户分析模块:主要是分析客户的类型及构成,根据以往的业务分布情况来找出核心客户和有价值客户,最终分析出影响业务量的关键因素。通过这一模块,企业能明确地分析市场前景,与客户建立起良好的互信机制。
②生产管理分析模块:系统地对整个生产环节进行分析,主要可从生产效率分析、各部门工序合理安排程度、效率趋势分析等几方面来进行,从而帮助管理者及时掌握生产运营情况及影响生产的关键性因素,再针对问题采取对应的解决方案,这样才能提高企业的生产效率和管理层次。
③订单业务分析模块:作为一个特殊行业的印刷业,它本身并不提供销售方面的工作,都是根据订单来进行生产。所以对订单的分析就很重要了,主要可从订单类型、业务量、区域分布、客户、跟单情况及印刷方式等几方面来进行分析,再对企业近些年的业务量进行挖掘,分析出业务量的变化及主要影响因素,从而准确反映市场趋势,为企业的进一步发展作出正确决策。
④物流管理分析模块:这里主要包括对进货、库存、出货、物料利用、运输成本、配送成本等方面进行分析,从中得到影响成本的主要方面,及时建立相关改善体系,从而提高企业效益。
此外还有财务分析、人事分析等模块,根据企业的具体情况而定。在数据仓库中除了这些分析模块外,还要有相应的事实表,例如客户资料事实表、报价管理事实表等。
三、印刷企业数据仓库的建立
在印刷企业中建立数据仓库同其它行业一样,都必须遵循如下原则:
①循序渐进原则:建设数据仓库投资大、风险大、时间长,不可能一蹴而就,不要期望一开始就建立一个庞大的全局性的数据仓库。而要从较小的、需求明确的、数据比较规则的主题入手,由简单到复杂,由局部到全局,分阶段实施。
②可伸缩性原则:数据仓库的规模随主题区域的扩大而扩大,就某一主题而言,也随数据增加而动态变化。因此,建设数据仓库必须在数据体系结构、数据存储、数据处理等方面体现出可伸缩性。
③实用性原则:数据仓库的构造受业务需求所驱动,根据业务主题来集成数据。
在当前的印刷企业中建设数据仓库并不能采用传统的生命周期方法,而是采用了一种快速的开发方法,类似于快速原型法。企业在确定如订单业务、客户、生产等主题后,进行调查分析,然后在利用原有各种子系统数据的基础上,建立数学模型(一般都是星型模型),直接就建立数据仓库,并实现系统原型,供用户来试用,及时反馈使用信息;然后企业再根据这些反馈信息,逐步对系统原型进行调整,使之逐渐完善,为管理者提供更满意的决策服务。这种数据仓库系统是建立在一个新的体系结构之下的,它具有全面的开发工具,能及时满足各种使用者的需求。