第一部分、大数据基础

  • 大数据概述
  • Hadoop概述
  • Hadoop Common概览
  • 大数据论文
    • Google File System(分布式文件系统)
    • Google MapReuce(分布式批处理计算模型)
    • Google Bigtable(分布式结构化数据存储系统)
    • Google Megastore(支持强一致性的分布式存储系统)
    • Amazon Dynamo(分布式key-value存储系统)
    • Google Chubby(分布式锁服务)
    • Google F1(分布式关系型数据库,NewSQL)
    • Google Spanner(分布式关系型数据库,NewSQL)
    • Google Caffeine(网络内容索引系统)
    • Google Pregel(分布式图计算框架)
    • Google Dremel(交互式数据分析系统)
    • Google Percolator(海量数据增量处理系统)
    • Google Sawzall(基于MapReduce的交互式编程语言)
    • Google Dapper(分布式跟踪系统)

第二部分、数据采集

第三部分、数据同步、流转、ETL

第四部分、数据存储

  • 分布式文件系统
    • Hadoop HDFS
  • 分布式数据库
    • 文档型
      • MongoDB
    • 列式存储
      • HBase
      • Cassandra
  • 数据仓库
    • Hive
    • Greenplum
  • 数据序列化格式
  • 数据存储格式

第五部分、数据计算、分析、挖掘

  • 批处理、离线计算
    • Hadoop MapReduce
    • Apache Tez
    • Apache Spark
  • (近)实时流计算
    • Apache Spark(Spark Streaming)
    • Apache Storm
    • Flink
  • OLAP,多维数据统计分析,SQL数据分析
  • 数据挖掘

第六部分、资源管理、作业调度

  • Hadoop YARN
  • MapReduce

第七部分、任务调度

  • Oozie
  • Azkaban

第八部分、数据治理

  • Apache Falcon
  • Apache Ranger

第九部分、大数据集群管理、监控

  • Ambari

第十部分、数据展现、可视化

  • d3
  • echarts
  • g2

第十一部分、大数据平台

  • Hadoop
  • Cloudera
  • HDP