# 可视化试图分类
分布Distribution|事件相关Change Over Time|Part To Whole
--|--|--
偏差Deviation|相关性Correlation|排名Ranking
量级Magnitude|地图Spatial|流动Flow

**按照数据之间的关系，我们可以把可视化视图划分为4类，分别是比较、联系、构成和分布。**

1.比较：比较数据之间各离别的关系，或者是他们随着时间的变化趋势，比如折线图；

2.联系：查看两个或两个以上变量的关系，比如散点图；

3.构成：每个部分占整体的百分比，或者是随着时间的百分比变化，比如饼图；

4.分布：关注单个变量，或者多个变量的分布情况，比如直方图。


**按照变量的个数，可以把可视化视图划分为单变量分析和多变量分析**

单变量分析指的是一次只关注一个变量。比如只关注“身高”这个变量，来看身高的取值分布，而暂时忽略其他变量。

多变量分析可以让你在一张图上可以查看两个以上变量的关系。比如“身高”和“年龄”，可以理解是同一个对象的两个参数，这样在同一张图中可以看到每个人的“身高”和“年龄”的取值，从而分析出来这两个变量之间是否存在某种联系。

## 示例
**matplotlib和seaborn**
```
import matplotlib.pyplot as plt
import seaborn as sns

```

### 散点图

```
plt.scatter(x, y, marker=None)
sns.joinplot(x, y, data=None, kind='scatter')

```
**matplotlib**中x,y是坐标，marker代表了标记的符号。比如“x”,“>”,“o”。选择不同的marker，呈现出来的符号样式也会不同。

**seaborn**中x、y是data中的下标。data就是要传入的数据，一般是DataFrame类型。kind取scatter代表散点的意思。不同的kind代表不同的视图绘制方式。

**随机1000个点**

```
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
N = 1000
x = np.random.randn(N)
y = np.random.randn(N)
# 用 Matplotlib 画散点图
plt.scatter(x, y,marker='x')
plt.show()
# 用 Seaborn 画散点图
df = pd.DataFrame({'x': x, 'y': y})
sns.jointplot(x="x", y="y", data=df, kind='scatter');
plt.show()

```

### 折线图

**matplotlib**中直接使用plt.plot()，需要提前把数据按照x轴的大小排序，以及对应y轴。

**seaborn**中使用sns.lineplot(x, y, data=None)。其中x,y是data中的下标。data是要传入的数据，一般是DataFrame类型。

```
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]
y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]
# 使用 Matplotlib 画折线图
plt.plot(x, y)
plt.show()
# 使用 Seaborn 画折线图
df = pd.DataFrame({'x': x, 'y': y})
sns.lineplot(x="x", y="y", data=df)
plt.show()

```

### 直方图

**matplotlib**中使用plt.hist(x, bins=10)函数，参数x是一堆数组，bins代表直方图中的箱子数量，默认为10。

**seaborn**中使用sns.distplot(x, bins=10, kda=True)函数，参数x是一堆数组，bins代表直方图中箱子的数量，kde代表显示核密度估计，默认是True。

```
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
a = np.random.randn(100)
s = pd.Series(a) 
# 用 Matplotlib 画直方图
plt.hist(s)
plt.show()
# 用 Seaborn 画直方图
sns.distplot(s, kde=False)
plt.show()
sns.distplot(s, kde=True)
plt.show()


```

### 条形图

**matplotlib**中使用plt.bar(x, height)函数，参数x代表x轴的位置序列，height是y轴的数值序列，也就是柱子的高度。

**seaborn**中使用sns.barplot(x=None, y=None, data=None)函数。参数data为DataFrame类型，x,y是data中的变量。

```
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
# 用 Matplotlib 画条形图
plt.bar(x, y)
plt.show()
# 用 Seaborn 画条形图
sns.barplot(x, y)
plt.show()


```

### 箱线图

箱线图由五个数值点组成：最大值(max)、最小值(min)、中位数(median)和上下四分位数(Q3,Q1)。它可以帮助分析出数据的差异性、离散程度和异常值等。

**matplotlib**中使用plt.boxplot(x, labels=None)函数，参数x代表要绘制箱线图的数据，labels是缺省值，可以为箱线图添加标签。

**seaborn**中使用sns.boxplot(x=None, y=None, data=None)函数。参数data为DataFrame类型，x,y是data中的变量。

```
# 数据准备
# 生成 0-1 之间的 10*4 维度数据
data=np.random.normal(size=(10,4)) 
lables = ['A','B','C','D']
# 用 Matplotlib 画箱线图
plt.boxplot(data,labels=lables)
plt.show()
# 用 Seaborn 画箱线图
df = pd.DataFrame(data, columns=lables)
sns.boxplot(data=df)
plt.show()

```

**matplotlib**中使用

**seaborn**中使用

**matplotlib**中使用

**seaborn**中使用

**matplotlib**中使用

**seaborn**中使用

**matplotlib**中使用

**seaborn**中使用