# 使用seaborn进行数据可视化

## seaborn 简介

**Seaborn是一种基于matplotlib**的图形可视化python library。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。

Seaborn其实是在**matplotlib的基础上进行了更高级的API封装**，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。

**应该把Seaborn视为matplotlib的补充，而不是替代物。** 同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。掌握seaborn能很大程度帮助我们更高效的观察数据与图表，并且更加深入了解它们。

其有如下特点：

- 基于matplotlib aesthetics绘图风格，增加了一些绘图模式
- 增加调色板功能，利用色彩丰富的图像揭示您数据中的模式
- 运用数据子集绘制与比较单变量和双变量分布的功能
- 运用聚类算法可视化矩阵数据
- 灵活运用处理时间序列数据
- 利用网格建立复杂图像集

官方网站：http://seaborn.pydata.org

在接下来的一段时间内，我们将带大家深入地了解各类seaborn绘图函数。

## 使用散点图发现数据之间的关联

散点图是数据可视化中最常用的图像。它直观地向我们展示了数据之间的分布关系，如果数据之间存在线性或者其他相关关系，很容易通过散点图观察出来。

除了之前提到的`plt.scatter()`，使用seaborn也可以绘制散点图。对用的命令是`scatterplot()`

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns  # 导入 seaborn 并且命名为sns
sns.set(style="darkgrid") # 设置绘图格式为darkgrid

In [12]:
tips = sns.load_dataset('tips')

In [2]:
# tips = pd.read_csv("/home/kesci/input/Seaborn_Demo6897/tips.csv")

In [3]:
tips.head() # 查看数据的前五行

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [6]:
plt.scatter(tips['total_bill'],tips['tip']) # 使用plt.scatter 方法绘制两列数据的散点图
plt.xlabel('Total bill')
plt.ylabel('tip')

Text(0, 0.5, 'tip')

In [7]:
sns.scatterplot(tips.total_bill,tips.tip) # 使用sns.scatterplot 方法绘制两列数据的散点图
#plt.xlabel("Total Bill")

<matplotlib.axes._subplots.AxesSubplot at 0x7fa9fcf884e0>

除此之外，我们还可以通过在 `relplot()`中指定`kind="scatter"`获取同样的效果。

In [6]:
sns.relplot(x="total_bill", y="tip", data=tips);

相比于`scatterplot`，`relplot`的集成度更高，在使用方法上也更为方便。例如，如果我们想给散点图加上第三个维度，就直接可以通过一个参数`hue`进行传递即可。该参数将会给不同的类别赋以不同的颜色。

In [5]:
sns.relplot(x="total_bill", y="tip", hue="smoker", data=tips);

除此之外，我们还可以继续修改散点的形状，只需要引入`style`参数

In [8]:
sns.relplot(x="total_bill", y="tip", hue="smoker", style="size",
            data=tips);

结合`hue`和`style`两个参数，我们就可以实现四维数据的绘图。需要注意的是，人眼的形状的敏感性不如颜色，因此该方法应该慎用，因为第四个维度不容易被观察到。

In [9]:
sns.relplot(x="total_bill", y="tip", hue="smoker", style="time", data=tips);

在上面的案例中，`hue`参数接受到的是离散的类别数据，而如果我们给它传入一个数值形式的数据，那么`relplot`将会用连续变化的色谱来区分该数据。

In [10]:
sns.relplot(x="total_bill", y="tip", hue="size", data=tips);

当然了，除了散点的颜色的形状，我们还可以修改散点的大小，只需要指定`size`参数即可。

In [6]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [11]:
sns.relplot(x="total_bill", y="tip", size="size", data=tips);

下面是一个综合使用以上参数，得到的一个五维的散点图。

In [12]:
sns.relplot(x="total_bill", y="tip", hue='sex',
            style = 'time',size="size", data=tips);

## 数据的汇总和不确定性的展示

In [4]:
# fmri = sns.load_dataset("fmri")
fmri = pd.read_csv("/home/kesci/input/Seaborn_Demo6897/fmri.csv")
fmri

Unnamed: 0,subject,timepoint,event,region,signal
0,s13,18,stim,parietal,-0.017552
1,s5,14,stim,parietal,-0.080883
2,s12,18,stim,parietal,-0.081033
3,s11,18,stim,parietal,-0.046134
4,s10,18,stim,parietal,-0.037970
5,s9,18,stim,parietal,-0.103513
6,s8,18,stim,parietal,-0.064408
7,s7,18,stim,parietal,-0.060526
8,s6,18,stim,parietal,-0.007029
9,s5,18,stim,parietal,-0.040557


In [14]:
sns.relplot(x="timepoint", y="signal", kind="line", data=fmri);

此外，不确定度还可以用标准差来衡量，只需要设置`ci='sd'`即可

In [15]:
sns.relplot(x="timepoint", y="signal", kind="line", ci="sd", data=fmri);

如果我们关掉数据汇总，那么绘制出来的图像会非常奇怪。这是因为在某一个时间，会有多个测量数据。

In [16]:
sns.relplot(x="timepoint", y="signal", estimator=None, kind="line", data=fmri);

## 绘制子数据集

同`scatterplot()`一样，我们可以通过修改`hue`,`style`,`size`,来增加更多的绘图维度，用法也是非常一致的，这意味着我们可以非常简单地在两种方法之间进行替换。

例如，如果我们引入`hue`参数，对event进行分类。即可得到如下的数据汇总图。

In [17]:
sns.relplot(x="timepoint", y="signal", hue="event", kind="line", data=fmri);

我们继续加入另一个`style`参数，可以把region也考虑进去。

In [18]:
sns.relplot(x="timepoint", y="signal", hue="region", style="event",
            kind="line", data=fmri);

为了突出显示，我们还可以修改线型。

In [19]:
sns.relplot(x="timepoint", y="signal", hue="region", style="event",
            dashes=False, markers=True, kind="line", data=fmri);

下面我们考虑另一个数据集

In [20]:
# dots = sns.load_dataset("dots").query("align == 'dots'")

dots = pd.read_csv('/home/kesci/input/Seaborn_Demo6897/dots.csv',encoding = 'utf-8')
dots = dots[dots["align"] == 'dots']
dots.head()

Unnamed: 0,align,choice,time,coherence,firing_rate
0,dots,T1,-80,0.0,33.189967
1,dots,T1,-80,3.2,31.691726
2,dots,T1,-80,6.4,34.27984
3,dots,T1,-80,12.8,32.631874
4,dots,T1,-80,25.6,35.060487


上面的例子我们用的是离散变量作为参数`hue`和`chioce`的值，实际上，他们也可以使用连续变量。比如下面的例子

In [21]:
sns.relplot(x="time", y="firing_rate",
            hue="coherence", style="choice",
            kind="line", data=dots);

请注意，当`style`的可能性增多时，肉眼可能不太能够区分不同的线型，因此该方法需要在变量取值范围较小的情况下使用。

In [22]:
palette = sns.cubehelix_palette(light=.8, n_colors=6)
sns.relplot(x="time", y="firing_rate",
           hue="coherence", size="choice",
           palette=palette,
           kind="line", data=dots);

## 使用多张图展示数据之间的相互关系

下面我们学习如何使用多张子图，分析与展示数据之间的相关性。使用的参数主要是`col`

In [23]:
sns.relplot(x="total_bill", y="tip", hue="smoker",
            col="time", data=tips);

此外，我们还可以通过`row`参数，进一步地扩大子图的规模

In [16]:
sns.relplot(x="total_bill", y="tip", hue="smoker",
            col="time",row = 'sex', data=tips);

In [24]:
sns.relplot(x="timepoint", y="signal", hue="subject",
            col="region", row="event", height=4,
            kind="line", estimator=None, data=fmri);

以上的一系列可视化方法，称为小倍数绘图（ “lattice” plots or “small-multiples”），在研究大规模数据集的时候尤为重要，因为使用该方法，可以把复杂的数据根据一定的规律展示出来，并且借助可视化，使人的肉眼可以识别这种规律。


需要注意的是，有的时候，简单的图比复杂的图更能帮助我们发现和解决问题。

**课堂练习**

使用iris数据集，进行数据可视化。要求以`sepal_length`为横轴，以`sepal_width`为纵轴，以花的种类为颜色标准，绘制散点图。你可以使用如下的代码导入iris数据集。

In [3]:
# iris = sns.load_dataset('iris')

In [None]:
# your code here

# 绘制离散形式的变量

在上一节中，我们学习了如何使用`relplot()`描述数据集中多变量之间的关系，其中我们主要关心的是两个数值型变量之间的关系。本节我们进一步地，讨论离散型（ categorical）变量的绘制方法。

在seaborn中，我们有很多可视化离散型随机变量的方法。类似于`relplot()`之于`scatterplot()` 和 `lineplot()`的关系, 我们有一个`catplot()`方法，该方法提高了我们一个从更高层次调用各类函数的渠道，例如`swarmplot()`,`boxplot()`,`violinplot()`等。

在详细地学习这些方法之前，对他们做一个系统地分类是非常有必要的，他们按照绘制内容可以分成如下三类：

- Categorical **scatterplots:**
    * `stripplot()` (with kind="strip"; the default)
    * `swarmplot()` (with kind="swarm")
    
- Categorical **distribution plots:**
    * `boxplot()` (with kind="box")
    * `violinplot()` (with kind="violin")
    * `boxenplot()` (with kind="boxen")
- Categorical **estimate plots:**
    * `pointplot()` (with kind="point")
    * `barplot()` (with kind="bar")
    * `countplot()` (with kind="count")


以上三个类别代表了绘图的不同角度，在实践中，我们要根据要解决的问题，合理地选择使用其中哪种方法。

如果不知道哪种方法比较好，可以都尝试一遍，选择可视化效果更好的一个。

在本教程中，我们主要使用`catplot()`函数进行绘图，如前所述，该函数是基于其他许多函数基础上一个更高层次的调用渠道。

因此如果有针对其中任何一种方法的疑问，都可以在对应的方法的详细介绍中找到解释。

首先，我们需要导入需要的库`seaborn`和`matplotlib.pyplot`

In [7]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="ticks", color_codes=True)

## 分类散点图

`catplot()`中的默认绘图方法是`scatterplot`，在`catplot()`中。如果我们只有一个类别，那么散点图绘制的时候，许多数据点会重叠（overlap）在一起，数据区分度和美观性都不强。





In [10]:
tips = sns.load_dataset('tips')
sns.relplot(x="day", y="total_bill", data=tips);

为了解决这一问题，实际上有两类绘制散点图的方法。


方法一： 我们可以考虑采用`stripplot()`，该方法通过给每一个数据点一个在`x`轴上的小扰动，使得数据点不会过分重叠。`stripplot()`是`catplot()`的默认参数。

In [27]:
sns.catplot(x="day", y="total_bill", data=tips);

我们可以吧`jitter`参数关掉，观察一下效果。

In [18]:
sns.catplot(x="day", y="total_bill", jitter=0.3, data=tips);

方法二： 使用`swarmplot()`，该方法通过特定算法将数据点在横轴上分隔开，进一步提高区分度，防止重叠。该方法对于小数据集尤其适用，调用该方法只需要在`catplot()`中指定参数`kind="swarm"`即可。

In [29]:
sns.catplot(x="day", y="total_bill", kind="swarm", data=tips);

类似于`relplot()`,`catplot()`也可以通过添加颜色进一步增加绘图的维度，对应的参数为`hue`。需要注意的是，`catplot()`暂时不支持`sytle`和`size`参数。

In [20]:
sns.catplot(x="day", y="total_bill", hue="smoker",kind="swarm", data=tips);

不像数值型的数据，有的时候，我们对于离散型的类别数据很难得到一个排序的标准。当然，seaborn会尽可能地按照合理的方法给他们排序，如果需要的话也可以人为指定排序。

当我们想要指定绘制顺序的时候，可以使用`order`参数。

In [32]:
sns.catplot(x="smoker", y="tip", order=["Yes", "No"], data=tips);

有的时候，我们想要把散点图横着画，尤其是在类别比较多的时候，这时我们可以对调`x`和`y`参数，达到该效果。

In [14]:
sns.catplot(x="day", y="total_bill", hue="time", kind="swarm", data=tips);

**课堂练习：**

使用上面的方法，对tips数据集进行分析，绘制一个吸烟和吃饭时间（午饭or晚饭）与tip的关系图。你可以自定`x`,`y`轴和染色方法。

In [18]:
# your code here


## 分类分布统计图

如前所述，类别形式的散点图受限于数据集的大小，当数据量很大时，即使是使用`swarmplot`或者`stripplot`也无法使数据点分开。此时，我们考虑使用基于数据分布的绘图方法，而不再采用散点图。

### Boxplots



![Image Name](https://cdn.kesci.com/upload/image/q7dvvvog7u.jpg?imageView2/0/w/960/h/960)

箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用，常见于品质管理。

箱线图似乎是原始的，但它们具有占用较少空间的优势，这在比较许多组或数据集之间的分布时非常有用。


箱线图是一种基于五位数摘要（“最小”，第一四分位数（Q1），中位数，第三四分位数（Q3）和“最大”）显示数据分布的标准化方法。

- **中位数（Q2 / 50th百分位数）**：数据集的中间值；
- **第一个四分位数（Q1 / 25百分位数）**：最小数（不是“最小值”）和数据集的中位数之间的中间数；
- **第三四分位数（Q3 / 75th Percentile）**：数据集的中位数和最大值之间的中间值（不是“最大值”）；
- **四分位间距（IQR）**：第25至第75个百分点的距离；
- **离群值**
- **“最大”**：Q3 + 1.5 * IQR
- **“最低”**：Q1 -1.5 * IQR

基于分布的绘图方法中最简单的就是箱线图了，关于箱线图的理论已经在之前的讲义中进行了介绍，这里不再展开。箱线图的调用方法也很简单，直接`kind = "box"`就行。

In [35]:
sns.catplot(x="day", y="total_bill", kind="box", data=tips);

当然了，我们还可以加入`hue`参数，增加数据的绘图维度。

In [36]:
sns.catplot(x="day", y="total_bill", hue="smoker", kind="box", data=tips);

有一个和箱线图很像的图，叫`boxenplot()`，它会绘制一个跟箱线图很像的图片，但是展示了更多箱线图无法展示的信息，尤其适用于数据集比较大的情况。

In [39]:
#diamonds = sns.load_dataset("diamonds")

diamonds = pd.read_csv('/home/kesci/input/Seaborn_Demo6897/diamonds.csv')

diamonds

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,0.23,Very Good,H,VS1,59.4,61.0,338,4.00,4.05,2.39


In [40]:
#diamonds = sns.load_dataset("diamonds")
sns.catplot(x="color", y="price", kind="boxen",
            data=diamonds.sort_values("color"));

### Violinplots

接下来我们看小提琴图`violinplot()`，它结合了箱线图[核密度估计](https://mathisonian.github.io/kde/)的思想




In [41]:
sns.catplot(x="total_bill", y="day", hue="time",
            kind="violin", data=tips);

该方法用到了kernel density estimate （KDE）,进而提供了更为丰富的数据分布信息。另一方面，由于KDE的引入，该方法也有更多的参数可以修改，例如`bw.`和`cut`

In [42]:
sns.catplot(x="total_bill", y="day", hue="time",
            kind="violin", bw=0.5, cut=0,
            data=tips);

此外，如果数据的`hue`参数只有两个类别，一种非常高效的方法是给定`split=True`,仅绘制具有对称性的图像的一半。

In [24]:
sns.catplot(x="day", y="total_bill", hue="sex",
            kind="violin", split=True, data=tips);

当然了，小提琴图的内部绘制也可以修改，如果我们想要展示原始数据点而不是分位数等统计数据，我们可以指定`inner="stick"`,那么所有的原始数据点会被绘制在图中。

In [44]:
sns.catplot(x="day", y="total_bill", hue="sex",
            kind="violin", inner="stick", split=True,
            palette="Set1", data=tips);

我们还可以把`swarmplot()`或者`striplot()`放置在`boxplot`或者`violinplot`中，从而实现总体与局部的整体展示。

In [22]:
g = sns.catplot(x="time", y="total_bill", kind="violin", inner=None, data=tips)
sns.swarmplot(x="time", y="total_bill", color="k", size=3, data=tips, ax=g.ax);

In [46]:
g = sns.catplot(x="day", y="total_bill", kind="box",data=tips)
sns.swarmplot(x="day", y="total_bill", color="k", size=3, data=tips, ax=g.ax);

## 在多张图片中展示数据

正如之前`relplot()`中提到的，如果我们希望绘制多张分类的图像，只需要通过设定`row`和`col`参数即可。

In [57]:
sns.catplot(x="time", y="total_bill", hue="smoker",
            col="day", aspect=.6,
            kind="swarm", data=tips);

# 绘制数据分布

当我们遇到一个新的数据集的时候，往往我们首先要搞清楚的就是其中每一个变量的分布。本节我们将会给大家介绍seaborn中一些用于可视化数据分布的函数。

首先我们导入`numpy`,`pandas`,`seaborn`,`pyplot`和`stats`。

In [59]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy import stats

In [60]:
sns.set(color_codes=True)

# 绘制单变量分布

在seaborn中，绘制单变量分布的最简单的函数是`displot()`,该函数默认返回一张频率分布直方图以及其对应的核密度估计曲线（KDE）。

In [61]:
x = np.random.normal(size =100)
sns.distplot(x);

## 频率分布直方图

seaborn中的频率分布直方图`displot()`和matplotlib中的`hist()`非常相似。不过，seaborn给出了更为高层次的调用方法，我们可以通过参数`kde`和`rug`控制直方图中kde估计和数据点标记的展示与否。

In [62]:
sns.distplot(x, kde=True, rug=True);

当绘制直方图的时候，我们经常会调整的一个参数是直方的个数，控制直方个数的参数是`bins`,如果不认为指定`bins`的取值，seaborn会根据自己的算法得到一个较为合理的直方个数，但是通过人为调整直方个数，我们往往能发现新的规律。

In [63]:
sns.distplot(x, bins=5, kde=False, rug=True);

In [64]:
sns.distplot(x, bins=25, kde=False, rug=True);

## 核密度估计Kernel density estimation

核密度估计是一种分布的平滑（smooth）方法，所谓核密度估计，就是采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。

In [65]:
sns.distplot(x, hist=False, rug=True,kde = True);

那么，我们是符合得到这样一条曲线的呢？  实际上，我们将每一个数据点用一个以其为中心的高斯分布曲线代替，然后将这些高斯分布曲线叠加得到的。

In [66]:
x = np.random.normal(0, 1, size=30)   # 生成中心在0，scale为1，30维的正态分布数据 
bandwidth = 1.06 * x.std() * x.size ** (-1 / 5.) # 确定带宽
support = np.linspace(-4, 4, 200)  
kernels = []
for x_i in x:
    kernel = stats.norm(x_i, bandwidth).pdf(support)
    kernels.append(kernel)
    plt.plot(support, kernel, color="r")
sns.rugplot(x, color=".2", linewidth=3);

将每一个数据转化为以其为中心的正态分布曲线以后，将其叠加，然后归一化，即可得到最终的KDE曲线。

In [67]:
from scipy.integrate import trapz
density = np.sum(kernels, axis=0)
density /= trapz(density, support) # 使用梯形积分计算曲线下面积，然后归一化
plt.plot(support, density);

我们可以通过观察，发现，使用seaborn中的`kdeplot()`我们会得到同样的曲线，或者使用`distplot(kde = True)`也有同样的效果。

In [68]:
sns.kdeplot(x, shade=True);

除了核函数，另一个影响KDE的参数是带宽(h)。带宽反映了KDE曲线整体的平坦程度，也即观察到的数据点在KDE曲线形成过程中所占的比重 — 带宽越大，观察到的数据点在最终形成的曲线形状中所占比重越小，KDE整体曲线就越平坦；带宽越小，观察到的数据点在最终形成的曲线形状中所占比重越大，KDE整体曲线就越陡峭。

In [69]:
sns.kdeplot(x)
sns.kdeplot(x, bw=.2, label="bw: 0.2")
sns.kdeplot(x, bw=2, label="bw: 2")
plt.legend();

通过观察以上的图像我们可以发现，由于高斯分布的引入，我们往往会扩大了变量的取值范围，我们可以通过`cut`参数控制最终图像距离最小值和最大值的距离。需要注意的是，`cut`参数仅仅是改变了图像的展示方法，对kde的计算过程没有影响。

In [70]:
sns.kdeplot(x, shade=True, cut=4)
sns.rugplot(x);

## 参数分布的拟合

我们也可以使用`displot()`拟合参数分布，并且将拟合结果与实际数据的分布做对比。

In [71]:
x = np.random.gamma(6, size=200)
sns.distplot(x, kde=False, fit=stats.gamma); # 是用gamma分布拟合，并可视化

# 绘制两变量之间的联合分布

有的时候，我们在数据分析的时候，也会关系两个变量之间的联合概率分布关系。seaborn中给我们提供了一个非常方便的`jointplot()`函数可以实现该功能。

In [72]:
mean = [0, 1]
cov = [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 200)
df = pd.DataFrame(data, columns=["x", "y"])

In [73]:
df.head()

Unnamed: 0,x,y
0,-0.069033,0.04443
1,-2.430861,-1.464897
2,-1.602705,0.239153
3,0.036547,1.045319
4,0.331967,1.332092


## 散点图

我们最熟悉的绘制联合分布的方法莫过于散点图了。`jointplot()`会返回一张散点图（联合分布），并在上方和右侧展示两个变量各自的单变量分布。

In [74]:
sns.jointplot(x="x", y="y", data=df);

## Hexbin plots

与一维柱状图对应的二维图像称之为Hexbin plots，该图像帮助我们统计位于每一个六边形区域的数据的个数，然后用颜色加以表示，这种方法尤其对于大规模的数据更为适用。

In [75]:
x, y = np.random.multivariate_normal(mean, cov, 1000).T
sns.jointplot(x=x, y=y, kind="hex", color="k");
# with sns.axes_style("white"):
#     sns.jointplot(x=x, y=y, kind="hex", color="k");

该方法尤其适用于白色风格

In [76]:
x, y = np.random.multivariate_normal(mean, cov, 1000).T
with sns.axes_style("white"):
    sns.jointplot(x=x, y=y, kind="reg", color="k");

## 联合分布的核密度估计

类似于一维情况，我们在二维平面一样可以进行核密度估计。通过设置`kind = 'kde'`，我们就可以得到一个核密度估计的云图，以及两个单变量的核密度估计曲线。

In [77]:
sns.jointplot(x="x", y="y", data=df, kind="kde");

In [78]:
with sns.axes_style("white"):
    sns.jointplot(x="x", y="y", data=df, kind="kde");

我们也可以直接使用`kdeplot()`绘制二维平面上的核密度估计。而且，结合面向对象的方法，我们还可以把新的绘图加入到已有的图片上。

In [79]:
f, ax = plt.subplots(figsize=(6, 6))
sns.kdeplot(df.x, df.y, ax=ax)
sns.rugplot(df.x, color="g", ax=ax)
sns.rugplot(df.y, vertical=True, ax=ax);

If you wish to show the bivariate density more continuously, you can simply increase the number of contour levels:



In [80]:
f, ax = plt.subplots(figsize=(6, 6))
cmap = sns.cubehelix_palette(as_cmap=True, dark=0, light=1, reverse=True)
sns.kdeplot(df.x, df.y, cmap=cmap, n_levels=509, shade=True);

我们还可以给图片添加新的图层，将数据的散点图绘制在原图上，包括给图片添加坐标轴标签等等。

In [81]:
g = sns.jointplot(x="x", y="y", data=df, kind="kde", color="m")
g.plot_joint(plt.scatter, c="w", s=30, linewidth=1, marker="+")
g.ax_joint.collections[0].set_alpha(0.5)
g.set_axis_labels("$X$", "$Y$");

# 分组可视化

借助于上述的双变量分布绘图方法，我们可以绘制多变量两两之间的联合分布，seaborn中实现这个功能的函数为`pairplot()`，该函数会返回一个方形的绘图窗口，在该窗口中绘制两两变量之间的关系。在对角线上，`pairplot()`会展示单变量分布。

In [82]:
sns.pairplot(iris);

# 可视化线性关系

许多数据集都包含了众多变量，有的时候我们希望能够将其中的一个或者几个联系起来。上一节我们讲到了seaborn中很多绘制联合分布的方法，比如`jointplot()`，本节我们进一步地，讨论变量之间线性关系的可视化。

需要注意的是，seaborn并不是一个统计学的库，seaborn想要实现的是：通过运用简单的统计工具，尽可能简单而直观地给我们呈现出数据之间相互关系。有的时候，对数据有一个直观的认识，能帮助我们更好地建立模型。

In [1]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

Matplotlib is building the font cache using fc-list. This may take a moment.


In [2]:
sns.set(color_codes=True)

## 绘制线性回归的函数

在seaborn中，有两个函数经常被用于实现线性回归，他们是`lmplot`和`regplot`。接下来我们会介绍这两个函数的异同。

在最简单的情况下，两个函数均会返回一个散点图，并给出$y$关于$x$的线性回归方程以及一个95%的置信区间。

In [8]:
import pandas as pd
tips = pd.read_csv('/home/kesci/input/Seaborn_Demo6897/tips.csv')

In [9]:
sns.regplot(x="total_bill", y="tip", data=tips);

In [10]:
sns.lmplot(x="total_bill", y="tip", data=tips);

我们发现，除了图的尺寸，这两个图的内容是完全一致的。

那么，这两个函数有什么不同呢？

- `regplot()`能接受更多种形式的数据，例如numpy arrays, pandas Series, references to variables in a pandas DataFrame，而 `lmplot()`只能接受references to variables in a pandas DataFrame，也就是只能接受“tidy” data
- `regplot()` 仅仅指出 `lmplot()`的一部分参数

我们可以对一个离散变量和一个连续变量绘制线性回归线，不过，可视化结果往往是不尽如人意的。

In [88]:
sns.lmplot(x="size", y="tip", data=tips);

针对上面这个图像，一个选择是给每一个离散的变量增加一个随机的扰动`jitter`，使得数据的分布更容易观察，请注意，`jitter`参数的存在仅仅是改变了可视化的效果，不会影响线性回归方程。

In [11]:
sns.lmplot(x="size", y="tip", data=tips, x_jitter=.3);

另一个选择是，我们直接将每一个离散类别中的所有数据统一处理，得到一个综合的趋势以及每个数据点对应的置信区间。

In [90]:
sns.lmplot(x="size", y="tip", data=tips, x_estimator=np.mean);

## 拟合其他形式的模型

简单的线性拟合非常容易操作，也很容易理解。但是真实的数据往往不一定是线性相关的，因此我们需要考虑更多的拟合方法。

我们这里使用的是 The Anscombe’s quartet dataset，在这个数据集中，不同形式的数据会得到同样的一个回归方程，但是拟合效果却是不同的。

首先我们来看第一个

In [12]:
#anscombe = sns.load_dataset("anscombe")
anscombe = pd.read_csv('/home/kesci/input/Seaborn_Demo6897/anscombe.csv')

In [92]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
           ci=None, scatter_kws={"s": 80});

我们接着来看第二个线性拟合，其拟合方程和第一个模型是一样的，但是显然其拟合效果并不好。

In [93]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           ci=None, scatter_kws={"s": 80});

我们可以给`lmplot()`传入一个`order`参数，修改数据拟合的阶次，进而可以拟合非线性趋势。

In [18]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
           order=2, ci=None, scatter_kws={"s": 80});

接着我们来看第三个例子，在这个案例中，我们引入了一个离群点，由于离群点的存在，其拟合方程显然偏离了主要趋势。

In [95]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'III'"),
           ci=None, scatter_kws={"s": 80});

此时我们可以通过引入`robust`参数增强拟合的稳定性，该参数设置为True的时候，程序会自动忽略异常大的残差。

In [96]:
sns.lmplot(x="x", y="y", data=anscombe.query("dataset == 'III'"),
           robust=True, ci=None, scatter_kws={"s": 80});

当y参数传入了二分数据的时候，线性回归也会给出结果，但是该结果往往是不可信的。

In [97]:
tips["big_tip"] = (tips.tip / tips.total_bill) > .15
sns.lmplot(x="total_bill", y="big_tip", data=tips,
           y_jitter=.03);

可以考虑采取的一个方法是引入逻辑回归，从而回归的结果可以用于估计在给定的$x$数据下，$y=1$的概率

In [98]:
sns.lmplot(x="total_bill", y="big_tip", data=tips,
           logistic=True, y_jitter=.03);

请注意，相比如简单的线性回归，逻辑回归以及robust regression 计算量较大，同时，置信区间的计算也会涉及到bootstrap，因此如果我们想要加快计算速度的话，可以把bootstrap关掉。

其他拟合数据的方法包括非参数拟合中的局部加权回归散点平滑法(LOWESS)。LOWESS 主要思想是取一定比例的局部数据，在这部分子集中拟合多项式回归曲线，这样我们便可以观察到数据在局部展现出来的规律和趋势。

In [99]:
sns.lmplot(x="total_bill", y="tip", data=tips,
           lowess=True);

使用`residplot()`，我们可以检测简单的线性回顾是否能够比较好地拟合原数据集。 理想情况下，简单线性回归的残差应该随机地分布在$y=0$附近。

In [100]:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'I'"),
              scatter_kws={"s": 80});

如果出现了如下图所示的残差图，则说明线性回归的效果并不好。

In [101]:
sns.residplot(x="x", y="y", data=anscombe.query("dataset == 'II'"),
              scatter_kws={"s": 80});

## 引入第三个参数

我们知道，线性回归可以帮助我们描述两个变量之间的关系。不过，一个跟有趣的问题是：“这两个变量之间的关系是否跟第三个因素有关呢？”

这时`regplot()`和`lmplot()`就有区别了。`regplot()`只能展示两个变量之间的关系，而`lmplot()`则能进一步地引入第三个因素（categorical variables）。

我们可以通过不同的颜色来区分不同的类别，在同一张图中绘制多个线性回归曲线：

In [102]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips);

除了颜色之外，为了观察和打印方便，我们还可以引入不同的图形标记，区分不同的类别。

In [103]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", data=tips,
           markers=["o", "x"], palette="Set1");

To add another variable, you can draw multiple “facets” which each level of the variable appearing in the rows or columns of the grid:

如果我们想进一步地增加维度（变成四维绘图甚至五维），我们可以增加一个`col`参数。

In [104]:
sns.lmplot(x="total_bill", y="tip", hue="smoker", col="time", data=tips);

In [105]:
sns.lmplot(x="total_bill", y="tip", hue="smoker",
           col="time", row="sex", data=tips);

## 调整绘图的尺寸和形状

前面我们注意到了，`regplot`和`lmplot`做出的图像基本类似，但是在图像的尺寸和形状上有所区别。

这是因为，`regplot`的绘图，是图层层面的绘图，这意味着我们可以同时对多个图层进行操作，然后对每个图层进行精细化的格式设置。为了控制图片尺寸，我们必须先生成一个固定尺寸的对象。

In [19]:
f, ax = plt.subplots(figsize=(15, 6))
sns.regplot(x="total_bill", y="tip", data=tips, ax=ax);

与`regplot`不同的是，`lmplot`是一个集成化的命令，如果我们想要修改图片的尺寸和大小，只能通过传入参数的格式进行实现，`size`和`aspect`分别用来控制尺寸和长宽比。

In [21]:
sns.lmplot(x="total_bill", y="tip", col="day", data=tips,height=6);

In [25]:
sns.lmplot(x="total_bill", y="tip", col="day", data=tips,height=6,
           aspect=1.6);

## 在其他绘图中加入线性回归

其他的一些seaborn函数也在更高的层面上支持了线性回归的加入。例如，在我们之前讲过的`jointplot`里面，我们通过给出`kind = 'reg'`参数，就可以绘制出数据的线性回归。

In [109]:
sns.jointplot(x="total_bill", y="tip", data=tips, kind="reg");

同样的，`pairplot`也是支持线性回归的加入的。

In [110]:
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             height=5, aspect=.8, kind="reg");

进一步地，我们可以通过在`pairplot`中引入`hue`和`kind = 'reg'`，研究更高维度数据的线性线性关系。

In [111]:
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             hue="smoker", height=5, aspect=.8, kind="reg");

# 修改绘图风格

In [28]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

让我们来定义一簇简单的正弦曲线，然后观察一下不同的绘图风格的区别。

In [29]:
def sinplot(flip=1):
    x = np.linspace(0, 14, 100)
    for i in range(1, 7):
        plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)

这是matplotlib默认风格：

In [30]:
sinplot()

现在我们切换成seaborn默认风格。

In [31]:
sns.set()
sinplot()

(Note that in versions of seaborn prior to 0.8, set() was called on import. On later versions, it must be explicitly invoked).

Seaborn 把matplotlib中的参数分为了两类。其中第一类用来调整图片的风格（背景、线型线宽、字体、坐标轴等），第二类用来根据不同的需求微调绘图格式（图片用在论文、ppt、海报时有不同的格式需求。）

# 其他格式修改方法

画出令人赏心悦目的图形，是数据可视化的目标之一。我们知道，数据可视化可以帮助我们向观众更加直观的展示定量化的insight， 帮助我们阐述数据中蕴含的道理。除此之外，我们还希望可视化的图表能够帮助引起读者的兴趣，使其对我们的工作更感兴趣。


Matplotlib给了我们巨大的自由空间，我们可以根据自己的需要，任意调整图像的风格。然而，为了绘制一张上述的“令人赏心悦目”的图片，往往需要长期的绘图经验。这对新手来说时间成本无疑是非常高的。为此，seaborn也给我们集成好了一些设置好的绘图风格，使用这些内置风格，我们就能“傻瓜式”地获得美观的绘图风格。

## Seaborn 绘图风格

在seaborn中，有五种预置好的绘图风格，分别是：`darkgrid`, `whitegrid`, `dark`, `white`和` ticks`。其中`darkgrid`是默认风格。


用户可以根据个人喜好和使用场合选择合适的风格。例如，如果图像中数据非常密集，那么使用`white`风格是比较合适的，因为这样就不会有多于的元素影响原始数据的展示。再比如，如果看图的读者有读数需求的话，显然带网格的风格是比较好的，这样他们就很容易将图像中的数据读出来。

In [116]:
def sinplot(flip=1):
    x = np.linspace(0, 14, 100)
    for i in range(1, 7):
        plt.plot(x, np.sin(x + i * .5) * (7 - i) * flip)

先来看`whitegrid`风格

In [32]:
sns.set_style("whitegrid")
data = np.random.normal(size=(20, 6)) + np.arange(6) / 2
sns.boxplot(data=data);

In [33]:
sns.set_style("whitegrid")
sinplot()

在很多场合下（比如ppt展示时，用户不会详细读数据，而主要看趋势），用户对网格的需求是不大的，此时我们可以去掉网格。

In [118]:
sns.set_style("dark")
sinplot()

In [119]:
sns.set_style("white")
sinplot()

ticks风格介于grid风格与完全没有grid的风格之间，坐标轴上提供了刻度线。

In [120]:
sns.set_style("ticks")
sinplot()

## 移除侧边边界线

In [34]:
sinplot()
sns.despine()

当然，左侧和下方的线也是可以移除的。

In [122]:
sns.set_style("white")
sns.boxplot(data=data, palette="deep")
sns.despine(left=True,bottom=True)

## 自定义seaborn styles


当然了，如果这五种seaborn自带风格也不能满足你的需求，你还可以自行设置自己的风格，可以设置的参数有：

In [123]:
sns.axes_style()

{'axes.facecolor': 'white',
 'axes.edgecolor': '.15',
 'axes.grid': False,
 'axes.axisbelow': True,
 'axes.labelcolor': '.15',
 'figure.facecolor': 'white',
 'grid.color': '.8',
 'grid.linestyle': '-',
 'text.color': '.15',
 'xtick.color': '.15',
 'ytick.color': '.15',
 'xtick.direction': 'out',
 'ytick.direction': 'out',
 'lines.solid_capstyle': 'round',
 'patch.edgecolor': 'w',
 'image.cmap': 'rocket',
 'font.family': ['sans-serif'],
 'font.sans-serif': ['Arial',
  'DejaVu Sans',
  'Liberation Sans',
  'Bitstream Vera Sans',
  'sans-serif'],
 'patch.force_edgecolor': True,
 'xtick.bottom': False,
 'xtick.top': False,
 'ytick.left': False,
 'ytick.right': False,
 'axes.spines.left': True,
 'axes.spines.bottom': True,
 'axes.spines.right': True,
 'axes.spines.top': True}

设置的方法如下：

In [124]:
sns.set_style("white", {"ytick.right": True,'axes.grid':False})
sinplot()