互联网公司普通进步迅速. 一方面, 业务飞速进步, 当前使用的方式和模型每天都在变革; 企业的产品也在经历一直的下线上线过程. 资料仓库如何拥抱变革, 是难点之一.
互联网的运营人员从了解经营情况转化为精细化运营, 这就于要求资料仓库具备提供明细资料水平, 资料仓库如何在庞大资料量的前提下, 实现满足差异层次的资料提出和分析, 是难点之二.
资料经过ETL后来到达应用资料者手里; 提取资料和提出资料的需要往往来自差异的部门和出于差异的目标. 这普通会导致资料口径不一致, 资料含意模糊, 甚至资料正确性很难校验. 资料仓库如何提升/增加资料口径一致, 资料途径可追溯性, 是难点之三.
资料仓库的使用行业除了各个业务部门还包含技术部门自身. 因为海量资料解决, 互联网的技术架构越来越依赖大资料平台的支持. 一个点上平台每天都会有数以万记的店铺和商品更新, 数以亿计的用户日志, 订单资料等. 这些资料在毫无保留的消息队列汇总到资料仓库中. 如果应用资料仓库进行再生产是技术架构重点考虑的事情. 资料仓库拥有其他资料平台无奈比拟的横向扩展和迭代计算水平, 可以直接或者间接面向用户提供资料服务. 这也是大资料的机遇之一.
咱们对于近源资料层的定位是可以"快速"的构建基础资料平台. 不做业务相干的解决可以让这局部的工作专一在大资料架构正确性和稳定性的问题.