J9九游国际站大数据技术体系详解：原理、架构与实践

发布日期：2024-04-12 访问量：来源：J9官网

国务院向社会公布了《促进大数据发展行动刚要》，明确提出大数据的基本概念：大数据是以容量大、类型多、存储速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

开源系统Hadoop与Spark成为应用最广泛的大数据技术，已经初步成为大数据技术规范。大数据的应用场景按照行业的不同，在电信、医疗、金融、交通等多个领域已经有实际的应用价值。

互联网领域：搜索引擎、推荐系统、广告系统。

电信领域：网络管理和优化、市场与精准营销、客户关系管理、企业运营管理、数据商业化。

医疗领域：临床数据对比、药品研发、临床决策支撑、实时统计分析、基本药物临床应用分析、远程病人数据分析、人口统计学分析、新农合基金数据分析、就诊行为分析、新的服务模式等。

金融领域：客户画像应用、精准营销、风险管理、运营优化。

从数据在信息系统的生命周期看，大数据从数据源开始，经过分析、挖掘到最终获得价值一般需要经过6个环节，包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化，技术体系如下图。

企业级大数据技术体系

1) 数据收集层

由直接跟数据源对接的模块构成，负责将数据源中的数据接近实时或实时收集到一起。数据源具有如下特点：

分布式：数据分布在不同机器或者设备上。

异构：数据源多样，可以是Web服务器、数据库、IoT设备等。

多样：结构化数据和非结构化数据。

流式数据：实时产生。

针对数据源带来的不同挑战，数据收集层往往需要具备的特点有：扩展、可靠、安全、低延迟，同时建议将数据收集到一个中央化的存储系统中。

2) 数据存储层

大数据技术体系详解：原理、架构与实践

数据存储层主要负责海量结构化数据与非结构化数据的存储。由于数据收集系统会将各类数据源不断地发到中央化存储系统中，这也对该层的系统提出以下要求：

扩展：存储系统本身具备非常好的线扩展能力。

容错：具备良好的容错机制确保机器故障时不会导致数据丢失。

存储模型：存储层需要支持多种数据结构。

3) 资源管理与服务协调层

传统的平台将不同应用部署到了独立的服务器上，该方案简单易操作，但存在资源利用率低、运维成本高和数据共享困难等问题。为了解决这些问题，避免“一个应用一个集群”的部署方式，可以将这些应用部署到一个公共集群中，让他们共享集群资源，并对资源进行统一使用，同时采用轻量级隔离方案对各个应用进行隔离，引入了资源统一管理层，也给客户带来了以下好处：

资源利用率高：共享集群模式通过多种应用共享资源，使得集群中的资源得到充分利用。

共享集群模式使得资源利用率提高

运维成本低：少数管理员完成多个框架的一个集群管理。

数据共享：避免了跨集群之间的数据移动，大大减小数据移动带来的成本。

4) 计算引擎层

在实际的生产环境中，存在不同的应用场景，对数据处理的要求也不同。比如在搜索引擎构建索引时，对实时要求不高，但是要求系统吞吐率高；比如广告系统及信用卡欺诈检测要求对数据进行实时分析，要求每条数据处理延迟尽可能低。很多人尝试构建一个大统一的系统解决所有类型的计算问题，但最终以失败告终。系统吞吐率和时延往往是两个相互矛盾的优化方向：吞吐率高时，带来的时延也高，基于此用一个系统完美解决所有类型的计算任务是不现实的。

计算引擎发展到今天，已经朝着“小而美”的方向前进，即针对不同应用场景，单独构建一个计算引擎。总体上讲，可以按照对时延能的要求，将计算引擎分为三类：实时引擎、交互式引擎、批处理引擎。

计算引擎分类

5) 数据分析层

数据分析层直接跟用户应用程序对接，为其提供易用的数据处理工具，包括应用程序API、类SQL查询语言、数据挖掘SDK等。

在解决实际问题时，可能会结合使用多种工具，典型的使用模式是：首先使用批处理框架对原始海量数据进行分析，产生小规模的数据集，在此基础上，再使用交换式分析处理工具对该数据集进行快速查询，获取最终结果。

6) 数据可视化

数据可视化技术指的是运用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。

真正意义上的大数据技术源于互联网行业，尤其是大数据技术引领者谷歌公司。

Google公开发表的大数据系统方面的论文目前绝大部分都存在对应的开源系统实现。总结近10年Google发表的论文，涉及的大数据系统主要部分在数据存储层、资源管理与服务协调层、计算引擎层、数据分析层这四层中。

Google大数据技术栈

1) 数据存储层

GFS[GGL03]：Google 文件系统（Google File System）是一个分布式文件系统，具有良好的容错、扩展和可用。

BigTable[CDG+06]：构建在GFS之上的分布式数据库本质上是一个稀疏的、分布式的、持久化存储的多维度排序映射表。BigTable支持插入和更新等操作，且行数和列数可以无限扩展，这在很大程度上弥补了传统关系型数据库在schema上的不灵活。

MegaStore[BBC+11]：MegaStore是构建在BigTable之上，支持ACID特的分布式数据库，能够在广域网中同步文件写操作，在可接受的延时下，支持跨数据中心的故障迁移。

Spanner[CDE+13]：Spanner是一个可扩展的、多版本、全球分布式、支持同步的数据库。Google官方认为Spanner是下一代的BigTable，也是MegaStore的继任者。

2) 资源管理与服务协调层

Borg[VPK+15]：一个集群资源管理和调度系统，对应用程序进行接收、启动、停止、重启和监控，并且做到跨多个数据中心的资源利用率最大化。

Omega[SKA+13]：Google下一代集群资源管理和调度系统，采用了共享状态的架构，使得应用程序调度器拥有整个集群的权限，可以自由获取资源，同时采用了多版本的并发访问控制方式（MVCC，Multi-Version Concurrency Control），解决潜在的资源冲突访问问题。

Chubby[Bur06]：该系统旨在为松散耦合的分布式系统提供粗粒度的锁以及可靠存储（低容量的），他提供了一个非常类似于分布式文件系统的接口，能够很容易的实现leader选举、分布式锁、锁命名等分布式问题，它设计的重点在可用及可靠而不是高能。

3) 计算引擎层

MapReduce[DG08]：MapReduce是一个批处理计算框架，它采用“分而制之”的思想，将对大规模数据集的操作分解成Map和Reduce两个阶段，Map阶段并行处理输入数据集，产生中间结果，Reduce阶段则通过整合各个节点的中间结果，得到最终结果。简而言之，MapReduce就是任务的分解与结果的汇总。

Dremel[MGL+10]：Dremel是一个分布式OLAP系统，通过引入列式存储、树状架构等技术，能够帮助数据分析师在秒级处理PB级数据，弥补了MapReduce在交互式查询方面的不足。

Pregel[MAB+10]：Pregel是一个分布式图计算框架，专门用来解决网页链接分析、社交数据挖掘等时机应用中涉及的大规模分布式图计算问题，Pregel采用了BSP（Bulk Synchronous Parallel Computing Model）模型，即“计算 - 通信 - 同步”模型，通过消息传递的方式，实现高效的迭代计算。

Precolator[PD10]：Percolator是一个基于BigTable构建的大数据集增量更新系统，目标是在海量的数据集上提供增量更新的能力，并通过支持分布式事务来确保增量处理过程的数据一致和整体系统的可扩展。

MillWheel[ABB+13]：MillWheel是一个分布式流式实时处理框架，它允许用户自定义一些处理单元，并按照一定的拓扑结构连接在一起形成一个有向图，从而形成一个流式处理数据线。

4) 数据分析层

FlumeJava[CRP+10]：FlumeJava是一个建立在MapReduce之上的Java编程库，提供了一层高级原语以简化复杂的MapReduce应用程序开发，非常适合构建复杂的数据流水线。

Tenzing[CLL+11]：建立在MapReduce之上的SQL查询执行引擎，它可以将用户便携的SQL语句转化为MapReduce程序，并提交到集群中分布式并行执行。

随着大数据开源技术的跨速发展，目前开源社区应用最广泛的Hadoop与Spark构建了新的生态系统，整个大数据技术栈涉及数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级。

Hadoop与Spark大数据技术栈