# <div style="text-align: center"><font color='#dc2624' face='微软雅黑'>Plotly</font></div>

## <font color='#dc2624' face='微软雅黑'>目录</font><a name='toc'></a>
### 1. [**<font color='#dc2624' face='微软雅黑'>Plotly</font>**](#1)
1. [<font color='#2b4750' face='微软雅黑'>`Plotly` 101</font>](#1.1)
2. [<font color='#2b4750' face='微软雅黑'>简单示例</font>](#1.2)
3. [<font color='#2b4750' face='微软雅黑'>实际示例</font>](#1.3)

### 2. [**<font color='#dc2624' face='微软雅黑'>Plotly Express</font>**](#2)
1. [<font color='#2b4750' face='微软雅黑'>`Plotly Express` 101</font>](#2.1)
2. [<font color='#2b4750' face='微软雅黑'>`Plotly Express` Vs `Plotly`</font>](#2.2)
3. [<font color='#2b4750' face='微软雅黑'>`Plotly Express` 绘图</font>](#2.3)
---

<div style="text-align: right"> Plotly makes interactive, publication-quality graphs online, that are designed to maximise interactivity and animation. </div>

# <font color='#dc2624' face='微软雅黑'>1. Plotly</font><a name='1'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)

### <font color='#2b4750' face='微软雅黑'>1.1 `Plotly` 101</font><a name='1.1'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#1)

在 `Plotly` 中每个图都是一个 JSON 对象，类似一个字典的数据结构。在用 `Plotly` 绘制交互式的图时，用户可以手动平移 (panning)、选择 (selecting) 和缩放 (zooming) 图形来浏览数据。无论是在浏览器中还是在 Jupyter Notebook 中查看图时，都是通过 plotly.js 来实现所有可视化和交互性的。`Plotly` 的官网链接是 https://plotly.com/。

安装 `Plotly` 可用语句 `pip install plotly`，在使用 `Plotly` 之前，需要引进它并检查它的版本，语法如下：

In [1]:
import plotly
plotly.__version__

'4.14.1'

In [2]:
import os
import numpy as np
import pandas as pd
np.random.seed(1031)

用户可以使用在线或离线方式来用 `Plotly` 绘图。本节内容都是启动离线绘图，以便所有生成的绘图都可以直接在 Jupyter Notebook 中看到。

In [3]:
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)

绘制数据还是需要一个重要模块 `plotly.graph_objects`，它包含生成图形对象的函数。

In [4]:
import plotly.graph_objects as go

万事俱备，只欠四步，前三步定义绘图所需的三个对象，最后一步用 `iplot()` 函数画图：

1. **<font color='red' face='微软雅黑'>数据</font>** (data) – 数据包含所有要绘制的图像对象，在 `Plotly` 中被称为**<font color='red' face='微软雅黑'>迹线</font>** (trace)，可以是散点、线形、柱形、直方、箱形等：

        trace = go.Scatter()
        trace = go.Line()
        trace = go.Bar()
        trace = go.Histgram()
        trace = go.Box()

    如图中只有一个迹线对象，直接赋给 data，如有多条迹线则以列表形式赋给 data，语法如下：

        data = trace
        data = [trace1, trace2, trace3, …]

    每个迹线可以通过参数 `name` 被命名，最终显示在图上。


2. **<font color='red' face='微软雅黑'>布局</font>** (layout) – 定义图外观且和数据无关的图特征，比如标题、轴标签，语法如下：

        layout = go.Layout(title, xaxis, yaxis)

3. **<font color='red' face='微软雅黑'>图</font>** (figure) – 创建要绘制的最终对象，既包含数据又包含布局类似字典的对象，语法如下：

        fig = go.Figure(data=data, layout=layout)

4. 用 `iplot(fig)` 语句将图画出来。


### <font color='#2b4750' face='微软雅黑'>1.2 简单示例</font><a name='1.2'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#1)

根据上面列出的 `data-layout-fig-iplot` 的绘图四步，看两个简单的散点图和条形图的示例。
### <font color='black' face='微软雅黑'>散点图</font>

首先随机生成 1000 个 x 和 y 绘制散点图。

In [87]:
N = 1000
x, y = np.random.randn(N), np.random.randn(N)

下面代码就是 `data-layout-fig-iplot` 绘图四步骤。画散点图一定要设置参数 `mode="markers"`，不然这些点之间由线段连接。

In [90]:
trace = go.Scatter(x=x, y=y, mode="markers")
data = [trace]
layout = go.Layout(title="Scatter Plot")
fig = go.Figure(data=data, layout=layout)
iplot(fig)

上面散点图的 x 是无序的，对于有序的 x，用 `go.Scatter()` 函数加 `mode` 参数可以画出散点折线图，在第 5 到 7 行分别设置出三种 `mode` 形式。

In [47]:
N = 200
x = np.linspace(0, 1, N)
y0, y1, y2 = np.random.randn(N)+10, np.random.randn(N), np.random.randn(N)-10

trace0 = go.Scatter( x = x, y = y0, mode = 'lines', name = 'lines' )
trace1 = go.Scatter( x = x, y = y1, mode = 'lines+markers', name = 'lines+markers' )
trace2 = go.Scatter( x = x, y = y2, mode = 'markers', name = 'markers' )
data = [trace0, trace1, trace2]

layout = go.Layout(title="Lines and Markers")
fig = go.Figure(data=data,layout=layout)
iplot(fig)

### <font color='black' face='微软雅黑'>条形图</font>

散点图描述的两个连续型变量之间的关系，用 `go.Scatter()` 函数实现；而条形图描述的是分类型变量的分布，用 `go.Bar()` 函数实现。

In [9]:
x = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
y = np.random.randint(1,100,len(x))

In [10]:
trace = go.Bar(x = x, y = y, marker = dict(color='rgba(43,71,80,0.3)'))
data = [trace]

layout = go.Layout(title="Basic Bar Chart", xaxis={'title':'Letter'}, yaxis={'title':'Score'})
fig = go.Figure(data=data,layout=layout)
iplot(fig)

和一幅图可包含多个散点图一样，也可以包含多个条形图一样，在第 7 到 11 行生成了 4 个 `trace` 再“组合”成 `data`。第 13 行在 `go.Layout()` 函数中设置参数 `barmode` 为 `group` 或 `stack`，可生成分组或堆叠型条形图，此外设置 `paper_bgcolor` 和 `plot_bgcolor` 参数，在下图可清晰看出“纸背景”和“绘图背景”分别渲染成灰色和黑色。

In [93]:
x = ['A', 'B', 'C', 'D']
y1 = np.random.randint(1,100,len(x))
y2 = np.random.randint(1,100,len(x))
y3 = np.random.randint(1,100,len(x))
y4 = np.random.randint(1,100,len(x))

trace1 = go.Bar( x = x, y = y1, name = "A", marker = dict(color="#4ca5f0") )
trace2 = go.Bar( x = x, y = y2, name = "B", marker = dict(color="#dc2460") )
trace3 = go.Bar( x = x, y = y3, name = "C", marker = dict(color="#007959") )
trace4 = go.Bar( x = x, y = y4, name = "D", marker = dict(color="#FFA505") )
data = [trace1, trace2, trace3, trace4]

layout = go.Layout( barmode='group', paper_bgcolor="grey", plot_bgcolor="black", title="Group Bar Chart")

fig = go.Figure(data=data, layout=layout)
iplot(fig)

由上面简单示例可见，用 `Plotly` 画图步骤非常标准化，而且画出的图也非常美观。下节使用真实的 2018 年 FIFA 数据进一步来探索 `Plotly` 绘图。

### <font color='#2b4750' face='微软雅黑'>1.3 实际示例</font><a name='1.3'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#1)

本节使用 FIFA 18 数据，包括梅西、C 罗等 18000 名球员的 45 个特征，如年龄、国籍、评分、俱乐部、市值、工资、传球、抢断、终结能力等。从 csv 读取数据并删除对数据分析无用的特征。

In [12]:
FIFA = pd.read_csv('FIFA18.csv')
df = FIFA.drop(['Photo', 'Flag', 'Club Logo'], axis=1)
FIFA.head(3).append(FIFA.tail(3))

Unnamed: 0,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,Value,...,Reactions,Short Passing,Shot Power,Sliding Tackle,Sprint Speed,Stamina,Standing Tackle,Strength,Vision,Volleys
0,L. Messi,30,https://cdn.sofifa.org/sm/18/players/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/xs/18/teams/241.png,118500000.0,...,95,88,85,26,87,73,28,59,92,86
1,Cristiano Ronaldo,32,https://cdn.sofifa.org/sm/18/players/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Real Madrid CF,https://cdn.sofifa.org/xs/18/teams/243.png,95500000.0,...,96,83,94,23,91,92,31,80,85,88
2,Neymar,25,https://cdn.sofifa.org/sm/18/players/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/xs/18/teams/73.png,119500000.0,...,88,82,80,33,90,78,24,53,83,83
17997,E. Murphy,18,https://cdn.sofifa.org/sm/18/players/233699.png,Republic of Ireland,https://cdn.sofifa.org/flags/25.png,49,64,Galway United,https://cdn.sofifa.org/xs/18/teams/1571.png,50000.0,...,43,30,36,49,60,52,50,57,29,27
17998,D. Mackay,20,https://cdn.sofifa.org/sm/18/players/225510.png,Scotland,https://cdn.sofifa.org/flags/42.png,49,59,Kilmarnock,https://cdn.sofifa.org/xs/18/teams/82.png,40000.0,...,45,28,17,18,41,33,18,50,19,18
17999,J. Cuero,17,https://cdn.sofifa.org/sm/18/players/240102.png,Colombia,https://cdn.sofifa.org/flags/56.png,49,69,La Equidad,https://cdn.sofifa.org/xs/18/teams/112523.png,60000.0,...,45,53,51,45,65,63,43,52,48,37


In [13]:
FIFA.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18000 entries, 0 to 17999
Data columns (total 46 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Name              18000 non-null  object 
 1   Age               18000 non-null  int64  
 2   Photo             18000 non-null  object 
 3   Nationality       18000 non-null  object 
 4   Flag              18000 non-null  object 
 5   Overall           18000 non-null  int64  
 6   Potential         18000 non-null  int64  
 7   Club              17755 non-null  object 
 8   Club Logo         18000 non-null  object 
 9   Value             18000 non-null  float64
 10  Wage              18000 non-null  float64
 11  Special           18000 non-null  int64  
 12  Acceleration      18000 non-null  int64  
 13  Aggression        18000 non-null  int64  
 14  Agility           18000 non-null  int64  
 15  Balance           18000 non-null  int64  
 16  Ball Control      18000 non-null  int64 

### <font color='black' face='微软雅黑'>直方图</font>
还是采用上面列出的 `data-layout-fig-iplot` 的绘图四步，首先画出所有球员年龄分布图。

In [97]:
trace = go.Histogram(
    x=FIFA.Age,
    opacity=0.75,
    name = "Age",
    marker=dict(color='rgb(43,71,80)')
    )

data = [trace]
layout = go.Layout(
                   title='年龄分布',
                   xaxis=dict(title='年龄'),
                   yaxis=dict(title='计数'),
                   bargap = 0.2
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

在 `go.Histogram()` 函数中，第一个参数是数据，之后的参数分别设置透明度、标签和颜色。

在 `go.Layout()` 函数中，设置图和横轴竖轴标题，条形的间距。注意图右上方额外有一组按钮，鼠标放上去可看出它们分别是保存 (download)、缩放 (zoom)、平移 (pan)、截取 (select)、聚焦 (zoom)、重设 (reset) 等功能。

然后画出所有球员评级分布图，只需把 `FIFA.Age` 改为 `FIFA.Overall`，以及一些描述性文字。

In [15]:
trace = go.Histogram(
    x=FIFA.Overall,
    opacity=0.75,
    name = "Overall",
    marker=dict(color='#2b4750')
    )

data = [trace]
layout = go.Layout(
                   title='评级分布',
                   xaxis=dict(title='评级'),
                   yaxis=dict(title='计数'),
                   bargap = 0.20
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

### <font color='black' face='微软雅黑'>Choropleth 图</font>

通过 `Plotly` 可以绘制一个非常酷的 choropleth 分布图，此类图根据各区球员数量指标进行分级，并用相应色级或不同疏密的晕线，反映各区球员数量的分布差别。

第一步将 FIFA 数据按国籍分组，并统计每国球员的个数。

In [100]:
grp = FIFA.groupby("Nationality").size().reset_index(name='Count')
grp

Unnamed: 0,Nationality,Count
0,Afghanistan,3
1,Albania,38
2,Algeria,61
3,Angola,17
4,Antigua & Barbuda,4
...,...,...
158,Uzbekistan,5
159,Venezuela,54
160,Wales,129
161,Zambia,9


In [104]:
grp = FIFA.groupby("Nationality").size().reset_index(name="Count")

plotmap = [ dict(
        type = 'choropleth',
        locations = grp["Nationality"],
        locationmode = 'country names',
        z = grp["Count"],
        text = grp["Nationality"],
        colorscale="blues",
        marker = dict(
            line = dict (
                color = 'rgba(180,180,180)',
                width = 0.5
            ) ),
        colorbar = dict(
            title = "球员个数"),
      ) ]

layout = dict(
    title = "FIFA 18 球员国籍",
    geo = dict(
        showframe = False,
        showcoastlines = False,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=plotmap, layout=layout )
iplot(fig)

颜色越深表示人数越多，球员国籍的分布显然集中在欧洲，其次来自巴西和阿根廷的球员也很多。

### <font color='black' face='微软雅黑'>双 y 轴折线图</font>
 
研究综合实力前 100 名球员的身价和工资是否符合他们在 FIFA 18 比赛中的排名，用 `nlargest()` 函数来实现，并创建 Rank 列存储排名。

In [105]:
df_ = FIFA.nlargest(100, 'Overall')
df_['Rank'] = np.arange(1, len(df_) + 1)
df_.head(3).append(df_.tail(2))

Unnamed: 0,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,Value,...,Short Passing,Shot Power,Sliding Tackle,Sprint Speed,Stamina,Standing Tackle,Strength,Vision,Volleys,Rank
0,L. Messi,30,https://cdn.sofifa.org/sm/18/players/158023.png,Argentina,https://cdn.sofifa.org/flags/52.png,94,94,FC Barcelona,https://cdn.sofifa.org/xs/18/teams/241.png,118500000.0,...,88,85,26,87,73,28,59,92,86,1
1,Cristiano Ronaldo,32,https://cdn.sofifa.org/sm/18/players/20801.png,Portugal,https://cdn.sofifa.org/flags/38.png,94,94,Real Madrid CF,https://cdn.sofifa.org/xs/18/teams/243.png,95500000.0,...,83,94,23,91,92,31,80,85,88,2
2,Neymar,25,https://cdn.sofifa.org/sm/18/players/190871.png,Brazil,https://cdn.sofifa.org/flags/54.png,92,93,Paris Saint-Germain,https://cdn.sofifa.org/xs/18/teams/73.png,119500000.0,...,82,80,33,90,78,24,53,83,83,3
98,K. Mbappé,18,https://cdn.sofifa.org/sm/18/players/231747.png,France,https://cdn.sofifa.org/flags/18.png,84,94,Paris Saint-Germain,https://cdn.sofifa.org/xs/18/teams/73.png,47000000.0,...,79,79,40,93,83,44,75,77,74,99
99,E. Bailly,23,https://cdn.sofifa.org/sm/18/players/225508.png,Ivory Coast,https://cdn.sofifa.org/flags/108.png,84,89,Manchester United,https://cdn.sofifa.org/xs/18/teams/11.png,35500000.0,...,72,55,85,80,78,85,85,54,42,100


In [108]:
trace1 = go.Scatter(x = df_.Rank,
                    y = df_.Wage,
                    mode = "lines+markers",
                    name = "薪水",
                    marker = dict(color = 'rgba(16, 112, 2, 0.8)'),
                    text= df_.Name)

trace2 = go.Scatter(x = df_.Rank,
                    y = df_.Value,
                    mode = "lines+markers",
                    name = "身价",
                    marker = dict(color = 'rgba(80, 26, 80, 0.8)'),
                    text= df_.Name,
                    yaxis='y2')

data = [trace1, trace2]
layout = go.Layout(title='球员 (按排名) 的薪水和身价', xaxis=dict(title='排名'),
                   yaxis=dict(title='薪水'), yaxis2=dict(title='身价', 
                                                         titlefont=dict(color='rgb(148, 103, 189)'), 
                                                         tickfont=dict(color='rgb(148, 103, 189)'), 
                                                         overlaying='y', side='right'))

fig = dict(data = data, layout = layout)
iplot(fig)

为了画出双 y 轴，上面代码第 14 行 `yaxis='y2'` 给第二幅散点图赋予第二个 y 轴，第 18-21 行设置它的属性，比如字体颜色是紫色、位置在右边等等。从上图可看出，球员的排名和其薪水和身价基本上是递减的，排名越前，薪水和身价越高。

### <font color='black' face='微软雅黑'>散点图</font>

现在根据球员的身价来看他们的实际评级和预测评级。用 `go.Scatter()` 画出两个散点图。

In [72]:
df_ = FIFA.nlargest(500, 'Value')

trace1 = go.Scatter(
                    x = df_.Value,
                    y = df_.Overall,
                    mode = "markers",
                    name = "实际评级",
                    marker = dict(color = '#007959'),
                    text= df_.Name)

trace2 = go.Scatter(
                    x = df_.Value,
                    y = df_.Potential,
                    mode = "markers",
                    name = "预测评级",
                    marker = dict(color = '#FFA505'),
                    text= df_.Name)

data = [trace1, trace2]

layout = go.Layout(title="球员 (按身价) 实际评级和预测评级", xaxis={'title':'身价'}, yaxis={'title':'评级'})

fig = dict(data = data, layout = layout)
iplot(fig)

不难发现，球员的实际和预测评级都和与身价成正比，但是预测评级普遍比实际评级要高，但是随着身价的增加，实际评级与潜在评级之间的差距会减小。

### <font color='black' face='微软雅黑'>饼状图</font>

接着查看在前 100 名球员中，哪个俱乐部的球员人数最多？

第 1 行按 Club 分组，用 `size()` 返回其俱乐部名和包含人数组装成数据帧，并起列名为 Count。

In [74]:
df_ = pd.DataFrame( FIFA.nlargest(100,'Overall').groupby('Club').size(), columns=['Count'] )
df_.head(3).append(df_.tail(2))

Unnamed: 0_level_0,Count
Club,Unnamed: 1_level_1
AS Monaco,1
Arsenal,2
Atlético Madrid,6
Roma,3
Tottenham Hotspur,5


在饼状图设置中，

- 把数据帧的行标签 (俱乐部名) 和 Count 列 (人数) 传给参数 labels 和 values，
- `hoverinfo="label+percent"` 将悬停工具 (即鼠标放在图上) 显示俱乐部名和占比
- `hole=0.3` 使得该饼有个半径为 0.3 的空心圆

In [79]:
trace = go.Pie(labels=df_.index, values=df_.Count, hoverinfo="label+percent", hole=0.3)
data = [trace]
layout = go.Layout(title='球员俱乐部占比')
fig = go.Figure(data=data, layout=layout)
iplot(fig)

结果是拜仁慕尼黑和皇家马德里。

### <font color='black' face='微软雅黑'>多变量直方图</font>

用直方图看看不同国家的球员评级的分布情况，以西班牙、巴西和英格兰为例，用 `go.Histogram()` 来实现。

In [22]:
df_spain = FIFA.loc[FIFA['Nationality'] == 'Spain']
df_brazil = FIFA.loc[FIFA['Nationality'] == 'Brazil']
df_england = FIFA.loc[FIFA['Nationality'] == 'England']

In [111]:
trace1 = go.Histogram(
    x=df_spain.Overall,
    opacity=0.75,
    name = "西班牙",
    marker=dict(color='rgba(220,38,36, 0.6)'))

trace2 = go.Histogram(
    x=df_england.Overall,
    opacity=0.75,
    name = "英格兰",
    marker=dict(color='rgba(43,71,80, 0.6)'))

trace3 = go.Histogram(
    x=df_brazil.Overall,
    opacity=0.75,
    name = "巴西",
    marker=dict(color='rgba(69,160,162, 0.8)'))


data = [trace1, trace2, trace3]
layout = go.Layout(barmode='overlay',
                   title='评级分布',
                   xaxis=dict(title='评级'),
                   yaxis=dict( title='计数'),
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

从上图可看出，相比之下英格兰球员，西班牙和巴西球员的评级相当而且高。

### <font color='black' face='微软雅黑'>箱形图</font>

用箱形图来绘制不同国家球员的终结能力的分布情况，以法国、阿根廷、俄罗斯和德国为例，用 `go.Box()` 来实现。

In [24]:
df_russia = FIFA.loc[FIFA['Nationality'] == 'Russia']
df_france = FIFA.loc[FIFA['Nationality'] == 'France']
df_argentina = FIFA.loc[FIFA['Nationality'] == 'Argentina']
df_germany = FIFA.loc[FIFA['Nationality'] == 'Germany']

In [25]:
trace0 = go.Box(
    y=df_france.Finishing,
    name = '法国球员',
    marker = dict(
        color = 'rgb(12, 12, 140)',
    )
)
trace1 = go.Box(
    y=df_argentina.Finishing,
    name = '阿根廷球员',
    marker = dict(
        color = 'rgb(12, 128, 128)',
    )
)
trace2 = go.Box(
    y=df_russia.Finishing,
    name = '俄罗斯球员',
    marker = dict(
        color = 'rgba(171, 50, 96, 0.6)',
    )
)
trace3 = go.Box(
    y=df_germany.Finishing,
    name = '德国球员',
    marker = dict(
        color = 'rgba(80, 26, 80, 0.8)',
    )
)
data = [trace0, trace1, trace2, trace3]
layout = go.Layout(title='终结能力')
fig = go.Figure(data=data, layout=layout)
iplot(fig)

四个国家球员的平均终结能力相当，但如果说顶尖终结能力，那还是阿根廷球员。

### <font color='black' face='微软雅黑'>气泡图</font>

最后用气泡图来绘制前 100 名球员终结能力 (y 轴)、冷静度 (x 轴) 以及身价 (气泡大小) 的关系。

气泡图还是用 `go.Scatter()` 来实现，用其字典格式的参数 marker 来控制不同散点的颜色和大小，在本例中气泡大小和球员身价有关。

In [26]:
df_ = FIFA.nlargest(100, 'Finishing')
df_['Wage'] = df_['Wage'] / 10000
color = [float(each) for each in df_.Finishing]

In [27]:
trace = go.Scatter(x=df_.Composure, y=df_.Finishing, mode='markers', marker={'color': color, 
    'size': df_.Wage, 
    'showscale': True
}, text=df_.Name )

data = [trace]
layout = go.Layout(title='球员终结能力 vs 冷静度 (泡泡大小代表身价)', xaxis=dict(title='冷静度'), yaxis=dict( title='终结能力'))
fig = go.Figure(data=data, layout=layout)
iplot(fig)

没有悬念，右上角的两个黄色大气泡代表梅西和 C 罗，两个人的终结能力、冷静度和身价是顶级的。

**用 `Plotly` 画图虽然酷炫而且功能强大，但是代码略多，其更简版是 `Plotly Express`。它和跟 `Ploty` 的关系有点类似 `Seaborn` 跟 `Matplotlib` 的关系，前者和 `Pandas` 无缝连接，直接作用在数据帧绘图，代码量小但不够灵活，后者代码量大但非常灵活。**

# <font color='#dc2624' face='微软雅黑'>2. Plotly Express</font><a name='2'></a>
[<font color='black' face='微软雅黑'>回到目录</font>](#toc)
### <font color='#2b4750' face='微软雅黑'>2.1 `Plotly Express` 101</font><a name='2.1'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2)

在 2019 年3 月，`Plotly` 发布了 `Plotly Express` 高级 API。初始发行版中 `Plotly Express` 是与 `Plotly` 分开的软件包，因此需要额外的安装步骤。在 2019 年 6 月，在其 4.0 版本，`Plotly Express` 被重新集成到基本的 `Plotly` 软件包，用 `conda` 或 `pip` 安装 `Plotly` 并免费获得 `Plotly Express`。首先引入工具包并起名为 `px`。

In [28]:
import plotly.express as px

用 `Plotly Express` 画出所有球员年龄分布图只需要两行代码，而用 `Plotly` 绘图需要更多的代码。

**`Plotly Express`** 

    fig = px.histogram( df, x='Age', opacity=0.75 ) 
    fig.show()

**`Plotly`**

    trace = go.Histogram( x=df.Age, opacity=0.75, name="Age" )
    data = [trace]
    layout = go.Layout( title, xaxis, yaxis ) 
    fig = go.Figure( data=data, layout=layout )
    iplot(fig)
    
通过类比总结出两者画图使用的代码：

- **`Plotly`**:

    - 选择图用 `go.Histogram(x=df.name)` <font color='green' face='微软雅黑'>#大写函数名，传入特征</font>
    - 渲染图用 `iplot(fig)`
    
    
- **`Ploty Express`**:

    - 选择图用 `px.histogram(df, x=name)` <font color='green' face='微软雅黑'>#小写函数名，传入数据帧+特征名称</font>
    - 渲染图用 `fig.show()`

在绘图时有许多不同的方法，来找出切实可行的方法，能以最少代码轻松切换可视化方法是最重要的。编写 `Plotly Express` 代码非常自然，函数签名简单而且功能强大。通用代码如下：

	fig = px.chart_func( df, x, y, title, ...)
	fig.show() 

使用上表通用型代码，可以通过更改函数 `chart_fun()` 来轻松切换图表类型，例如：

    px.scatter()
    px.line()
    px.bar()
    px.histogram()
    px.box()
    px.violin()
    px.strip()

### <font color='#2b4750' face='微软雅黑'>2.2 `Plotly Express` Vs `Plotly`</font><a name='2.2'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2.2)

本节用 `Plotly Express` 画出 `Plotly` 绘图那节中的若干图，在此尽量最大程度地复现原图 (有些颜色上面的细节复现较难)，读者可以对比两种方法的代码和绘图效果。

### <font color='black' face='微软雅黑'>直方图</font>

用 `Plotly Express` 两行代码画出的直方图如下，横轴标题就是 `px.histogram()` 函数中 x 的值 age，而竖轴标题自动赋值为 count，条形间距默认为 0。

In [29]:
fig = px.histogram( FIFA, x='Age', opacity=0.75 )
fig.show()

如要和之前用 `Plotly` 画的图一致，只需在 `update_layout()` 函数中设定相应参数。注意下句代码和 `Plotly` 中的 `go.Layout()` 代码非常相似，结果两种方法画出的图 (展示如下) 也基本一致，除了条形的颜色。

In [30]:
fig.update_layout(
    title='年龄分布',
    xaxis=dict(title='年龄'),
    yaxis=dict(title='计数'),
    bargap=0.2)

### <font color='black' face='微软雅黑'>Choropleth 图</font>

`Plotly Express` 的好处就是用少量的代码可以八九不离十的实现可视化，也能生成一幅基本的 choropleth 分布图。

In [31]:
grp = FIFA.groupby("Nationality").size().reset_index(name="Count")

fig = px.choropleth( grp, locations="Nationality", locationmode ='country names', 
                     color="Count", color_continuous_scale="blues", hover_name="Nationality" )

fig.show()

如要挖细节再在 `update_layout()` 函数中设定相应参数。

In [32]:
fig.update_layout(
    title = "FIFA 18 球员国籍",
    geo = dict(
        showframe = False,
        showcoastlines = False,
        projection = dict(type = 'natural earth')
        )
)

### <font color='black' face='微软雅黑'>双 y 轴折线图</font>

首先获取出综合实力前 100 名球员，并在列 Rank 下赋值排名。实现双 y 轴需要引入 `make_subplots` 模块。

In [33]:
df_ = FIFA.nlargest(100, 'Overall')
df_['Rank'] = np.arange(1, len(df_) + 1)

In [34]:
from plotly.subplots import make_subplots

fig = make_subplots( specs=[[{"secondary_y": True}]] )

fig.add_trace( go.Scatter(x=df_.Rank, y=df_.Wage, mode="lines+markers", name="薪水",
                          marker=dict(color='rgba(16, 112, 2, 0.8)'), text=df_.Name),
               secondary_y=False )

fig.add_trace( go.Scatter(x=df_.Rank, y=df_.Value, mode="lines+markers", name="身价",
                          marker=dict(color='rgba(80, 26, 80, 0.8)'), text= df_.Name),
               secondary_y=True )

fig.update_layout( title_text="球员 (按排名) 的薪水和身价" )
fig.update_xaxes( title_text="排名" )
fig.update_yaxes( title_text="薪水", secondary_y=False )
fig.update_yaxes( title_text="身价", secondary_y=True )

fig.show()

用 `Plotly Express` 实现双 y 轴图的代码略多，原因是把两个 y 轴用两个共享 x 轴的子图来实现。

- 第 1 行 - 首先用 `Plotly` 中的 `make_subplots` 方法来设置“包含第二个”的子图。

- 第 3-5, 7-9 行 - 接着用 `fig.add_trace()` 函数分别添加两个“散点+折线”图，并分别设置 `secondary_y` 参数为 `False` 和 `True`。

- 第 11-14 行 - 最后处理细节：

    - 用 `update_layout()` 函数来添加图标题
    - 用 `update_xaxes()` 函数来添加横轴标题
    - 用 `update_yaxes()` 函数来添加竖轴标题并区分第一个和第二个 y 轴

### <font color='black' face='微软雅黑'>饼状图</font>

按 Club 分组，用 `size()` 返回其俱乐部名和包含人数组装成数据帧，并起列名为 Count。由于 `Plotly Express` 中 `px.pie()` 函数中需要传递数据帧的列标签而不是 index，因此一开始需要重设其 index 使得它成为列标签 Club。

In [35]:
df_ = pd.DataFrame( FIFA.nlargest(100, 'Overall').groupby('Club').size(), columns=['Count'] )
df_.reset_index(inplace=True)
df_.head()

Unnamed: 0,Club,Count
0,AS Monaco,1
1,Arsenal,2
2,Atlético Madrid,6
3,Bayer 04 Leverkusen,1
4,Beşiktaş JK,1


在画饼状图时，在色调版中用了经典的 Viridis 配色；第 2 行设置 `textposition='inside'` 将信息显示在饼中每块里面，使得用 `Plotly Express` 和 `Plotly` 画出的图有所不同，

In [36]:
fig = px.pie( df_, names='Club', values='Count', color_discrete_sequence=px.colors.sequential.Viridis, title='球员俱乐部占比')
fig.update_traces( textposition='inside', textinfo='label+percent')
fig.show()

对比用 `Plotly Express` 和 `Plotly` 画饼状图，不同之处有三：

1. 在 `px.pie()` 函数中需要传递数据帧的列标签而不是 index，因此一开始需要重设其 index 'Club' 使得它成为列标签。
2. 设置 `textposition='inside'` 将信息显示在饼中每块里面
3. 色调版用了经典的 `Viridis`

### <font color='#2b4750' face='微软雅黑'>2.3 `Plotly Express` 绘图</font><a name='2.3'></a>
[<font color='black' face='微软雅黑'>回到章首</font>](#2.3)

对比完 `Plotly Express` 和 `Plotly` 在数据集 FIFA 18 上的绘图，接着前者在其他数据集上的绘图效果。

**NBA 2019-2020 赛季常规赛球员技术统计数据**

该数据从 NBA 官网 https://www.nba.com/stats/leaders/ 下载并加工，记录了 30 支球队的 529 名球员在 2019-2020 赛季常规赛中的各项技术统计，比如排名 (RANK)、输赢场次 (W, L)、总分 (PTS)、总篮板 (REB)、总助攻 (AST)、效率 (+/-) 等等。

In [37]:
NBA = pd.read_csv('NBA.csv', index_col=0)
NBA.head(3).append(NBA.tail(2))

Unnamed: 0,PLAYER,TEAM,DIV,CONF,RANK,AGE,GP,W,L,MIN,...,FP,DD2,TD3,+/-,AVG PTS,AVG REB,AVG AST,AVG STL,AVG BLK,AVG PF
0,James Harden,HOU,Southwest,West,8,30,68,43,25,2483,...,3885.2,22,4,286,34.338235,6.558824,7.529412,1.838235,0.882353,3.338235
1,Damian Lillard,POR,Northwest,West,15,29,66,33,33,2474,...,3195.8,19,1,85,29.969697,4.30303,8.030303,1.060606,0.333333,1.727273
2,Devin Booker,PHX,Pacific,West,16,23,70,34,36,2512,...,2840.4,11,0,130,26.614286,4.242857,6.514286,0.7,0.257143,3.042857
527,Stanton Kidd,UTA,Northwest,West,10,28,4,3,1,15,...,3.1,0,0,-1,0.0,0.75,0.25,0.0,0.0,0.75
528,William Howard,HOU,Southwest,West,8,26,2,1,1,13,...,2.9,0,0,-16,0.0,1.0,0.5,0.0,0.0,0.5


### <font color='black' face='微软雅黑'>子图</font>


实现子图功能和 `Seaborn` 中的语法类似，设置 facet_col 和 facet_col_wrap，对应 `Seaborn` 的语法参数是 col 和 col_wrap。根据前者的特征值来决定子图的个数，比如有 6 个 DIV，那么应画 6 个子图；后者决定每列包含子图的最多个数，本例中设为 3，那么子图有 2 行 3 列。

最后将 hover_name 设为 PLAYER，使得鼠标放在每一个散点上可以查看球员的详细信息，包括球队所在区、命中数和总分。

In [38]:
fig = px.scatter( NBA,
                  x='FGM',
                  y='PTS',
                  color='DIV',
                  size='PTS',
                  facet_col='DIV',
                  facet_col_wrap=3,
                  hover_name='PLAYER',
                 )
fig.show()

### <font color='black' face='微软雅黑'>旭日图</font>

画旭日图和树形图数据都使用美股信息，两种图都可在嵌套的且不同大小和颜色的图形中显示数据，旭日图用的是扇形，而树形图用的是矩形。首先用 `Pandas` 读取 csv 并打印数据前五行。

In [83]:
US_stock = pd.read_csv('US Stock Info.csv')
US_stock.head()

Unnamed: 0,code,market_cap,return,sector
0,AAPL,886000000000.0,0.012412,TECHNOLOGY
1,ABT,143000000000.0,0.006442,HEALTHCARE
2,GOLD,23600000000.0,-0.006642,BASIC_MATERIALS
3,ADSK,36300000000.0,-0.001089,TECHNOLOGY
4,ADBE,137000000000.0,0.00773,TECHNOLOGY


数据帧中四列分别是美股的股票代号 (code)、市值 (market_cap)、日收益率 (return) 和行业 (sector)。

旭日图用 `px.sunburst()` 函数实现，参数 path 可传入包含数据帧的列标签的列表，定义从内到外的扇形层次结构，如 sector 在内层，code 在外层；参数 values 传入的列标签是 market_cap，其值代表对应的扇形面积；参数 color 传入的列标签是 sector，表示每个行业使用同种颜色。

In [113]:
fig = px.sunburst( US_stock, path=['sector', 'code'], values='market_cap', color='sector' )
fig.show()

参数 path 是列表格式，在首位元素添加 `px.Constant('US Market')`，使得数据层级又多一层，旭日图也又添一层，并以 'US Market' 为标签显示。

In [41]:
fig = px.sunburst( US_stock, path=[px.Constant('US Market'), 'sector', 'code'], values='market_cap', color='sector' )
fig.show()

### <font color='black' face='微软雅黑'>树形图</font>

树形图用 `px.treemap()` 函数实现，里面参数设置和旭日图是一样的。

In [42]:
fig = px.treemap( US_stock, path=['sector','code'], values='market_cap', color='sector' )
fig.show()

In [43]:
fig = px.treemap( US_stock, path=[px.Constant('US Market'),'sector','code'], values='market_cap', color='sector' )
fig.show()