Skip to content

Latest commit

 

History

History
248 lines (175 loc) · 9.8 KB

大数据3.0.md

File metadata and controls

248 lines (175 loc) · 9.8 KB

大数据3.0:技术的演变历程、发展趋势与应用场景

星环信息科技(上海)有限公司版权所有

1. 大数据技术综述

1.1. 大数据技术的基本概念

  1. 大数据技术:以Hadoop/类Hadoop为代表的大规模分布式集群技术体系
  2. Hadoop
    1. 一个开源技术体系
    2. 由国际著名的Apache软件基金会主持,起源于Google,由Yahoo、Facebook等国际知名IT公司共同开发
    3. 通过一系列大规模分布式集群技术,实现大数据处理的每个环节(采集 $\rightarrow$ 存储 $\rightarrow$ 管理 $\rightarrow$ 计算 $\rightarrow$ 分析)
    4. 集群内部、集群之间精密分工、高度协同
    5. 大数据技术体系的核心和基础

1.2. 大数据技术的演变历程

  1. 星环在世界上首先提出"Big Data 3.0"概念,并指出其核心就是构建"ABC"深度融合的新型大数据技术体系,并以此为基础,打造覆盖"ABC"全部业务场景的一站式综合平台,以满足客户的多元化、复杂化需求,同时提高用户体验,降低开发、管理和使用复杂度
  2. 星环领先于国内外大数据厂商,率先推出"ABC"融合的平台产品「TDH + Sophon + TDC 」

1.3. 大数据技术体系-"ABC"深度融合的3.0技术体系

1.4. 大数据技术vs 传统数据技术

  1. 大数据技术:以Hadoop/类Hadoop为代表的大规模分布式集群技术体系
  2. 传统数据技术:RDBMS(Share-everthing,单机关系数据库)+ RAC(Share-disk,Real Application Cluster/实时应用集群,一库多实例,Oracle RAC)+ MPP(Share-nothing,Massively Parallel Processing/大规模并行处理,分布式关系数据库,Teradata/GreenPlum)

1.5. 大数据技术能做什么-六大功能(场景)

1.6. 大数据技术如何落地-基于产品体系构建3.0融合解决方案

1.7. Big Data 3.0:大数据技术发展趋势

1.7.1. 核心特征

1.7.2. 智能化:分布式人工智能算法

1.7.3. 智能化:机器学习全流程支持

1.7.4. 云服务化:容器化的弹性资源管理和调度,为大数据上云奠定了基础

1.7.5. 云服务化:在云端提供完整的大数据产品线

1.7.6. 融合化:平台融合,统一了数据湖、数据仓库和数据集市

1.7.7. 融合化:服务融合,分析及服务,统一弹性的分析服务调度和管理

1.7.8. 融合化:管理融合,统一的数据、模型和应用管理

1.7.9. 融合化:开发方式融合,SQL + R/Python

1.7.10. 融合化:工具融合,完整的BI+AI工具栈,支持数据处理的全生命周期

1.7.11. 融合化:数据+ 服务+ 应用融合,三者相互促进,产生闭环,构建企业数据生态

2. 星环产品体系

2.1. 星环产品家族(ABC)

2.2. 星环一站式大数据平台Transwarp Data Hub

2.2.1. TDH:产品定位

2.2.2. TDH:登顶数据库领域"珠穆朗玛峰",分布式数据库性能全球第一

2.3. 星环人工智能平台Transwarp Sophon

  1. Sophon 获2018大数据产业峰会唯一AI产品奖

2.4. 星环数据云平台Transwarp Data Cloud

2.5. 成功替换国外知名基础软件,为国家信息安全保驾护航

3. 数据仓库案例

3.1. 交通-春秋航空大数据平台

3.2. 能源-上海电力智能配用电大数据应系统(863 示范工程)

3.2.1. 上海电力大数据的现状与挑战

3.2.2. 项目来源

3.2.3. 建设目标

3.2.4. 总体架构

3.2.5. 技术架构(逻辑数据仓库)

3.2.6. 项目成果

4. 数据集市案例

4.1. 金融- 浙江农信自助交互式分析

4.1.1. 项目概况

4.1.2. 系统架构

4.1.2.1. 准实时架构

4.1.2.2. 实时架构

4.1.3. 技术架构

4.1.4. 数据流转

4.1.5. 平台应用

4.1.5.1. 多维分析

4.1.5.2. 自助交互式分析

4.1.5.3. 领导驾驶舱

4.1.6. 实施效果

4.2. 能源-中石油油品销量分析

4.2.1. 系统架构

4.2.2. 数据流转

4.2.3. 案例演示

5. 实时流处理案例

5.1. 公安交警-全国公安交通集成指挥平台

  1. 建设背景
    1. 公路交通"安全防控体系三位一体建设"的重要内容
    2. 公安交警"科技信息化规划建设的四大信息平台"之一
  2. 面临挑战
    1. 业务:图片和视频数据实时接入,同时实时研判和预警
    2. 瓶颈:传统数据处理技术已无法满足业务对实时性的要求
  3. 建设目标
    1. 功能:实现"道路交通态势智能感知、交通违法主动干预、突发事件及时处置、警力科学部署指挥"四大业务管理功能
    2. 体系:构建快速高效的交通指挥体系
    3. 机制:建立常态实战的新型勤务机制
  4. 建设方案
    1. 总体:在现有全国机动车缉查布控系统的基础上进行升级,按部、省、地市三级分布建设,三级平台互联互通,构建全国统一的快速高效的公路交通应急指挥体系
    2. 技术:基于星环智能实时流处理解决方案,利用高性能流计算引擎Slipstream,实现交通指挥的复杂、高并发实时业务
  5. 项目成果
    1. 功能:秒级响应过车信息,实现违法车辆发现、缉查布控、区间测速等实时业务;同时,实现在线轨迹查询、车辆查获情况分析等非实时业务
    2. 数据:卡口总量近6万个,存量数据为1200亿条,增量数据为3.5亿条/天
    3. 部署:2017年12月开始在陕西、山东、河南三省试点,2018年逐步推广至全国,目前已在全国十多个省的300多个地级市完成部署(共300多套),成为交警日常工作最重要的系统之一

5.1.1. 平台架构:基于TDH的新一代交通指挥智能实时流处理架构

5.1.2. 平台应用:稽查布控

5.2. 能源-中石油智慧新零售

  1. 挑战:
    1. 加油站超过70%的消费者是黑箱客户,无法进行消费行为画像和精准营销。因为支付手段的多样性和灵活性造成50%以上加油客户不希望办理预储值卡,积分客户营销基本空白。
    2. 社会加油站(民营站)因为企业规模限制无法实现多站联动,没有完整的零售平台支持客户精准分析和营销活动。
  2. 解决方案:
    1. 建设具有数据存储、数据分析、数据挖掘、数据检索和实时处理功能的一体化大数据平台。对POS交易明细等海量数据的有效存储管理、集成和应用,对如图片、视频、日志等非结构化数据以及今后获取的外部数据进行存储和管理。
    2. 通过机器学习的视频识别结构化算法,每天40万辆车样本的持续训练,实现精准交易信息匹配,消除黑箱客户,聚集忠诚客户。同时开创性地探索了车牌识别与交易信息的匹配算法、车牌/车型识别算法、银行卡交易关联算法和加油站关联算法。
    3. 构建以卡和车牌为主题的客户、加油站、非油商品的标签体系和多元分析模型。基于多种客户分析模型及推荐算法,通过对客户历史交易数据分析,实现个性化营销推荐。
  3. 项目成果:
    1. 累积识别车牌数103万个,识别持卡用户44万个,非持卡用户96万个,与车牌关联交易1634万条,商品推荐次数571万次。
    2. 截至2017年4月系统共计对20余万辆汽车,推送办卡推荐51万余次。其中成功办卡汽车80264辆,占比39.38%,平均每推送信息6.5次可成功办卡一辆。

5.2.1. 平台架构:软硬件一体化AI解决方案,实时识别与个性化推荐

5.2.2. 项目成果

5.2.2.1. 车辆识别

5.2.2.2. 客户画像

5.2.2.3. 办卡推荐量、成功量

6. 综合搜索案例

6.1. 金融监管-福建银监眼

  1. 建设目标
    1. "银监眼"作为福建银监局业务访问的最主要入口
    2. 实现内网资源搜索、监管信息搜索、指标概览、疑点提示、担保圈分析等功能
  2. 解决方案
    1. 金融机构报送数据,经同类归集后,导入分析型数据库Inceptor
    2. 将业务数据库(DB2)中的指标数据和报表数据导入Inceptor
    3. 利用爬虫工具,获取全国各省银监局官网数据,将非结构化数据导入操作型数据库Hyperbase,同时将索引存入分布式搜索引擎Search
    4. 分析企业间担保关系,存入分布式图数据库StellarDB

6.1.1. 平台架构

项目成果