Apache Kylin学习笔记(未完成)

Java Quarterback 187℃ 0评论

挖个坑…

1. 基本概念

  • 数据仓库
  • OLAP与OLTP
  • OLAP分类:MOLAP、ROLAP、HOLAP,以及DOLAP
  • 维度和度量
  • 事实表和维表
  • 星型模型、雪花型模型、事实星座模型
  • 多维模型和数据立方体(Data Cube)

2. Apache Kylin简介

  • Apache Kylin是什么
  • Apache Kylin产生背景
  • Apache Kylin的特点、应用场景、同类产品对比
  • Apache Kylin中的一些核心概念和术语(Model,Cube,Cube Segment, Cuboid,预计算(Cube Build)等)
  • Apache Kylin的工作原理(预计算,空间换时间)和基本流程(建立数据模型,预计算Cube,SQL查询解析为对Cube的Cuboid的查询)
  • Apache Kylin的系统架构(体系结构,核心模块,可扩展架构)
  • Apache Kylin的部署架构(单机,集群,读写分离,Staging/Production双环境)
  • Apache Kylin的生态圈(ODBC/JDBC驱动,BI工具,Zeppelin,Flink, 可扩展架构带来的期望(数据源扩展,构建引擎扩展,存储引擎扩展))

3. 建立数据模型

  • 准备数据(星型模型,宽表)
  • 建立(星型)模型(选择事实表,维表,建立连接,选择维度列、度量列,选择分割时间列(增量构建),过滤条件)
  • 设计Cube

4. 构建Cube(Build)

  • 构建流程和原理
  • 构建算法( Layer Cubing, Fast Cubing)
  • 全量构建
  • 增量构建
  • 流式构建
  • Cube Segment刷新、保留、清理、合并

5. 执行SQL查询(SQL -> Cuboid)

  • SQL查询流程和原理(SQL -> Calcite解析为对数据源(Hive)表的执行计划 -> 转译为对预计算存储(HBASE)的物化Cuboid视图的查询)
  • 限制

6. 优化

  • 建立数据模型(维度(Mandatory,Hierarchy,Derived)…)
  • Rowkeys
  • Aggregation Group
  • 参数调优(mapper内存…)

7. 交互和可视化

  • Web GUI
  • RESTful接口Zepp
  • 通过ODBC/JDBC驱动连接访问
  • 集成BI工具(Tableau等)
  • 集成Zeppelin

8.  部署和管理

9.  扩展

 

/* 本文属于原创文章,转载请注明作者和出处 quarterback.cn,请勿用于任何商业用途 */



喜欢 (0)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址