数据可视化
数据可视化的主要任务是将数据转换为易于感知的图形。
一、可视化流程
很多人认为数据可视化无非就是数据几组数据,生成各自图表(或图形)等等。其实数据可视化大致可分为:
- 信息可视化
- 科学可视化
- 可视化分析
之前所提到的简单图表只是信息可视化中最常见的几种。面对不同的数据体积以及不同的可视化目标,可视化系统的复杂度很可能就会超出想象。
通用的可视化流程
可视化整体可分为三步:分析 -》 处理 -》 生成。
1. 分析
分析分为三部分:任务、数据和领域。
首先,要分析该次可视化的出发点和目标是什么。遇到什么问题、展示什么信息、要得出什么结论、验证什么假说等等。数据承载的信息是多种多样的,不同的展示方式的侧重点也是不一样的(说白了,想清楚要干什么,才能确定要过滤什么数据、怎样处理数据最后怎样展示数据)。
其次,分析数据(见数据模型)。
最后要针对不同的领域,进行响应的分析。可视化的侧重点要跟随领域做出相应变化。
2. 处理
处理可分为两部分:对数据的处理、对视觉编码的处理。
在可视化之前,要对数据进行数据清洗、数据规范、数据分析等数据处理。
所谓视觉编码即指如何使用位置、尺寸、灰度值、纹理、色彩、方向、形状等视觉通道,以映射要展示的数据维度。
3. 生成
将之前的分析和设计实现。
二、数据模型
数据说白了就是可定性或可量化的一组数据。为了更准确更形象地表达数据,先了解一些数据相关的概念。
1. 数据模型与概念模型
数据为什么可以代表世界?带着这个问题,来了解数据和概念两个模型。
数据模型 是一组数字或符号的组合,其包含着数据的定义、类型等,可以进行各类数学操作。
概念模型 描述的是事物的语义或状态行为等。
现实世界 =》 概念模型 =》 数据模型
现实世界可以用概念模型描述,而概念模型又可以用数据模型来描述。经过两层抽象,数据便可以描述现实世界。
2. 数据类型
一个东西属于哪一类,取决于用什么标准划分,数据亦然。
按数据在计算机中的存储,数据可分为浮点数、整数、字符等;从关系模型的角度来说,数据可以分为实体和关系两类;从数据结构来说,数据可以分为一维、二维、三维、多维、时间序列、空间序列、树型、图型等等。接下来说一说和数据可视化有关的分类方法。
按照测量标度来分,数据一般分为四类:类别型、有序型、区间型和比值型。
- 类别型:用于区分事物。如:人可分为男女。
- 有序型:用于表示对象间的顺序关系。如:人的身高可以从矮到高。
- 区间型:用于对象间的定量比较。如:身高 160cm 和身高 158cm。
- 比值型:用于数值间的比例关系。如:6 是 3 的 2 倍。
在数据可视化中,通常不区分区间型和比值型,通一称为 数值型 。
3. 举个例子
| id |
类型 |
款式 |
尺码 |
销量 |
年增长 |
| 1 |
男款 |
上衣 |
L |
50 |
10% |
| 2 |
女款 |
上衣 |
S |
35 |
5% |
| 3 |
女款 |
裤子 |
M |
40 |
20% |
| 4 |
男款 |
上衣 |
XL |
30 |
15% |
如表所示,不难看出:
- id 和 尺码 属于 有序型 数据。
- 类型 和 款式 数据 类别型 数据。
- 销量 和 年增长 属于 数值型 数据。
三、视觉编码
1. 什么是视觉编码?
视觉编码描述的是将数据映射到最终可视化结果上的过程。
编码二字,编可以说是指设计、映射的过程,码是指一些图形符号。图形符号和信息间的映射关系可以使人迅速获取信息。可以说图形符号中携带了信息(称之为编码了一些信息)。而人从这些符号中读取信息时,可以称作时解码了一些信息。
人解码信息靠的是眼睛,人的视觉系统。如果说图形符号是编码信息的工具或通道,那么人的视觉系统便是解码信息的通道。通常把这种 图形符号 《--》 信息 《--》 视觉系统 的对应过程称为 视觉通道。
2. 常用的视觉通道
1967 年,Jacques Bertin 初版的《Semiology of Graphics》一书提出了图形符号与信息的对应关系,奠定了可视化编码的理论基础。该书中把图形符号分为两种:
- 位置变量:一般指二维坐标
- 视网膜变量:尺寸、数值、纹理、颜色、方向和形状
后来又补充了 长度、面积、体积、透明度、模糊/聚焦 和 动画 等视觉通道。
3. 视觉编码设计原则
首先说一下视觉通道的性质:
- 定性(又称分类)性质 :适用于类别型数据。如颜色或形状。
- 定量(或定序)性质:适用于有序型和类别型数据。如长度、大小适合于编码数值/量的大小。
- 分组性质:具有相同视觉通道的数据可以分为一组,便于识别。
最后说一下视觉编码设计的两大原则:
- 表达性、一致性:可视化的结果应充分表达了数据要表达的信息,且无多余。
- 有效性、理解性:可视化之后应当比其他数据表达方案更加有效,更加容易让人理解。
数据可视化编码除了视觉通道还需考虑:
- 色彩搭配
- 交互
- 美学因素
- 信息密度
- 直观映射、隐喻
等等。
参考文献
数据可视化
数据可视化的主要任务是将数据转换为易于感知的图形。
一、可视化流程
很多人认为数据可视化无非就是数据几组数据,生成各自图表(或图形)等等。其实数据可视化大致可分为:
之前所提到的简单图表只是信息可视化中最常见的几种。面对不同的数据体积以及不同的可视化目标,可视化系统的复杂度很可能就会超出想象。
通用的可视化流程
可视化整体可分为三步:分析 -》 处理 -》 生成。
1. 分析
分析分为三部分:任务、数据和领域。
首先,要分析该次可视化的出发点和目标是什么。遇到什么问题、展示什么信息、要得出什么结论、验证什么假说等等。数据承载的信息是多种多样的,不同的展示方式的侧重点也是不一样的(说白了,想清楚要干什么,才能确定要过滤什么数据、怎样处理数据最后怎样展示数据)。
其次,分析数据(见数据模型)。
最后要针对不同的领域,进行响应的分析。可视化的侧重点要跟随领域做出相应变化。
2. 处理
处理可分为两部分:对数据的处理、对视觉编码的处理。
在可视化之前,要对数据进行数据清洗、数据规范、数据分析等数据处理。
所谓视觉编码即指如何使用位置、尺寸、灰度值、纹理、色彩、方向、形状等视觉通道,以映射要展示的数据维度。
3. 生成
将之前的分析和设计实现。
二、数据模型
数据说白了就是可定性或可量化的一组数据。为了更准确更形象地表达数据,先了解一些数据相关的概念。
1. 数据模型与概念模型
数据为什么可以代表世界?带着这个问题,来了解数据和概念两个模型。
数据模型 是一组数字或符号的组合,其包含着数据的定义、类型等,可以进行各类数学操作。
概念模型 描述的是事物的语义或状态行为等。
现实世界 =》 概念模型 =》 数据模型
现实世界可以用概念模型描述,而概念模型又可以用数据模型来描述。经过两层抽象,数据便可以描述现实世界。
2. 数据类型
一个东西属于哪一类,取决于用什么标准划分,数据亦然。
按数据在计算机中的存储,数据可分为浮点数、整数、字符等;从关系模型的角度来说,数据可以分为实体和关系两类;从数据结构来说,数据可以分为一维、二维、三维、多维、时间序列、空间序列、树型、图型等等。接下来说一说和数据可视化有关的分类方法。
按照测量标度来分,数据一般分为四类:类别型、有序型、区间型和比值型。
在数据可视化中,通常不区分区间型和比值型,通一称为 数值型 。
3. 举个例子
如表所示,不难看出:
三、视觉编码
1. 什么是视觉编码?
视觉编码描述的是将数据映射到最终可视化结果上的过程。
编码二字,编可以说是指设计、映射的过程,码是指一些图形符号。图形符号和信息间的映射关系可以使人迅速获取信息。可以说图形符号中携带了信息(称之为编码了一些信息)。而人从这些符号中读取信息时,可以称作时解码了一些信息。
人解码信息靠的是眼睛,人的视觉系统。如果说图形符号是编码信息的工具或通道,那么人的视觉系统便是解码信息的通道。通常把这种 图形符号 《--》 信息 《--》 视觉系统 的对应过程称为 视觉通道。
2. 常用的视觉通道
1967 年,Jacques Bertin 初版的《Semiology of Graphics》一书提出了图形符号与信息的对应关系,奠定了可视化编码的理论基础。该书中把图形符号分为两种:
后来又补充了 长度、面积、体积、透明度、模糊/聚焦 和 动画 等视觉通道。
3. 视觉编码设计原则
首先说一下视觉通道的性质:
最后说一下视觉编码设计的两大原则:
数据可视化编码除了视觉通道还需考虑:
等等。
参考文献