## Plotly简介

Plotly是一个交互式的数据可视化开发Python库

Plotly支持Jupyter Notebook及纯html格式

Plotly与matplotlib/seaborn相比，拥有很强的交互能力

## 导入所需的库

Plotly有两种绘图选项：
- high level 的 plotly.express
- low level 的 plotly.graph_objects

In [1]:
import pandas as pd
import numpy as np

import plotly.express as px
import plotly.graph_objects as go  

## 数据集

plotly包含很多常用数据集，方便测试可视化

### Gapminder 数据集
Gapminder 是一家瑞典的非盈利机构，它收集并公开了关于世界的经济、教育、环境、健康等专题数据。每一行是一个国家的数据。

一位统计学家 Hans Rosling 曾在一个TED演讲中利用gapminder可视化，揭示了很多令人震撼的事实。 演讲名称：The best stats you've ever seen

Gapminder数据集包含了1952年-2007年期间，142个国家或行政区(例如香港台湾)，数据包括：
- 人民平均寿命(lifeExp)
- 人口数量(pop)
- 人均GDP(gdpPercap)
- 所属的洲(continent)

等等，每隔5年收集一次，每个国家12条记录

In [2]:
gapminder = px.data.gapminder() 
gapminder.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


In [3]:
# 1952-2007 每隔5年的数据
gapminder.year.unique()

array([1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, 2002,
       2007])

In [4]:
# 142个国家
gapminder.country.value_counts()

Congo, Rep.    12
Iraq           12
Ecuador        12
Kuwait         12
Costa Rica     12
               ..
Niger          12
Hungary        12
Israel         12
Gabon          12
Montenegro     12
Name: country, Length: 142, dtype: int64

#### Tips数据集
Tips数据集是一个服务员记的小费历史，一共244条，包括：
- 账单(total_bill)
- 收到的小费(tip)
- 顾客性别(sex)
- 天气情况(day)
- 时间(time)
- 就餐人数(size)

In [5]:
tips = px.data.tips()  
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


#### Iris鸢尾花数据集
Iris鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：
- 花萼长度(sepal_length)
- 花萼宽度(sepal_width)
- 花瓣长度(petal_length)
- 花瓣宽度(petal_width)

可以通过这4个特征预测鸢尾花卉属于下列哪个品种(species)

- setosa
- versicolour
- virginica

In [6]:
iris = px.data.iris() 
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1


#### Stocks 股票数据

Stocks，一份股票数据，包含Google、Amazon、Facebook、Netflix及Microsoft几家公司，从2018-01-01到2019-12-30的股票数据，每周一个记录

In [7]:
stock.head()

NameError: name 'stock' is not defined

In [None]:
stock = px.data.stocks()
stock.head()

#### 风力风向数据
- direction 风向
- strength 风力
- frequency 频率

In [None]:
wind = px.data.wind()
wind.head()

## 开始画图

### 散点图 scatter

In [None]:
df = gapminder[gapminder["year"] == 1952]

In [None]:
px.scatter(df,   # 传入的数据集
           x="gdpPercap", # x轴
           y="lifeExp", # y轴
           color="continent",  # 根据洲的值来取
           size="pop",
           size_max=50
          )

### 柱状图 bar
查看中国的人口变化

In [None]:
cn  = gapminder[gapminder["country"] == "China"]
cn 

high level

In [None]:
fig = px.bar(cn,x="year",y="pop")

fig.show()

low level

In [None]:
fig = go.Figure(
    data = (
        go.Bar(x=cn["year"],
               y=cn["pop"]
          )
    )
)

fig.show()

### 直线图 line

可视化展示Amazon的股票变化

high level

In [None]:
fig = px.line(stock, x='date', y="AMZN")  

fig.show()

low level

In [None]:
fig = go.Figure(data=[go.Line(
    x=stock['date'], 
    y=stock["AMZN"]
)])

fig.show()

同一张画布画出多条数据

In [None]:
stock

In [None]:
# 准备画布
fig = go.Figure()


fig.add_trace(go.Scatter(  #
    x=stock['date'],
    y=stock["AMZN"],
    mode='lines',
    name='AMZN'))

fig.add_trace(go.Scatter(  #
    x=stock['date'],
    y=stock["AAPL"],
    mode='lines',
    name='AAPL'))

fig.add_trace(go.Scatter(  #
    x=stock['date'],
    y=stock["GOOG"],
    mode='lines',
    name='GOOG'))

fig.show()

### 面积图(area)

画出中国、日本与美国，3个国家平均寿命的变化

In [None]:
gapminder.head()

In [None]:
gapminder.country.unique()

In [None]:
df = gapminder[(gapminder.country == 'China') | (gapminder.country ==  'United States') | (gapminder.country ==  'Japan')]

In [None]:
px.area(df,  
        x="year",
        y="lifeExp",
        color="country")

复杂一定，根据大洲为颜色，来看一下每个国家的情况

In [None]:
px.area(gapminder,
        x="year",
        y="lifeExp",
        color="continent",
        line_group="country"
       )

### 饼图 pie

tips数据集中，服务员周几得到的小费更多？

In [None]:
tips.head()  # 查看前5行数据

根据星期(day)来分组，统计小费(tip)的和

In [None]:
tip_in_week = tips.groupby(by="day")["tip"].sum().reset_index()
tip_in_week

high level

In [None]:
px.pie(tip_in_week, 
       names="day", # 分组依据
       values="tip" #要算的值
      )

low level

In [None]:
fig = go.Figure(data=go.Pie(
    labels=tip_in_week["day"].tolist(),
    values=tip_in_week["tip"].tolist()
))

fig.show()

### 旭日图 sunburst

旭日图是升级版的饼图，可以展示多层比例，假设，在数据分析任务中，我们想同时知道下面内容
- 用饼图展示：每个大洲2007年的人口比例
- 用饼图展示：每个国家2007年的人口比例，以及其在自己所在大洲中的比例
- 用颜色展示：每个国家2007年的平均年龄情况

不废话，直接上代码！

In [None]:
df = gapminder[gapminder["year"] == 2007]

px.sunburst(df, 
            path=['continent', 'country'],  # 一次发散，第一层为洲，第二层为国家
            values='pop', # 饼图比例根据人口
            color='lifeExp',  # 颜色展示根据
            hover_data=['country'] # 数据的标签，也可以选择默认不填
           )

### 漏斗图 funnel

漏斗图常用于数据分析，比如分析用户的转化率，根据不同stage来计算用户流失的比例，
假设如下场景：

- 10000个人下载app
- 9000个人注册账号
- 5000个人完成实名认证
- 3000个人浏览商品
- 1000个人加购物车
- 100个人下单
- 98个人付费

那么我们来绘制一下漏斗图

In [None]:
df = pd.DataFrame()
df['number'] = [10000, 9000, 5000, 3000, 1000, 100, 98]

df['stage'] = ["下载", "注册", "实名认证", "浏览", "加购", "下单", "付费"]

# 传入数据和数轴
px.funnel(data, 
          x="number", 
          y="stage",
          color="number"  # 颜色设置
         )

### 联合分布图

在画散点图的时候，同时可以画一下联合分布
分布的展示可以使用
- `'rug'`
- `'box'`
- `'violin'`
- `'histogram'`

In [None]:
px.scatter(
    gapminder,
    x="pop",
    y="lifeExp",
    color="continent",
    marginal_x="violin", # 直方图的形式
    marginal_y="box") # 



### 小提琴图 violin

小提琴图可以画出概率分布

In [None]:
px.violin(gapminder,
           y="lifeExp",
           color="continent")

### 散点矩阵图 scatter_matrix

散点矩阵图可以展示不同变量的相关性，假设我们要看不同大洲的 平均寿命、人口数量、平均GDP相关的关系，可以用下面代码实现

In [None]:
px.scatter_matrix(gapminder,
                  dimensions=["lifeExp","pop","gdpPercap"],
                  color="continent")

### 并行类别图 parallel_categories

并行类别图可以查看不同类别组合的比例

In [None]:
px.parallel_categories(
    tips,
    color="size",
    color_continuous_scale=px.colors.sequential.Inferno
)

### 并行坐标图 parallel_coordinates

并行坐标图可以清晰的看到样本随着特征的变化

In [None]:
px.parallel_coordinates(iris,
                        color="species_id",
                        labels={"sepal_width",
                               "sepal_length",
                               "petal_length",
                               "petal_width"},
                       color_continuous_scale=px.colors.diverging.Tealrose,
                       color_continuous_midpoint=2)

### 密度图和等高线 density_contour

density_contour也可以利用`margin_x`或者`margin_y`来可视化相关性，margin可以选择：

- `'rug'`
- `'box'`
- `'violin'`
- `'histogram'`

In [None]:
px.density_contour(iris,
                   x="sepal_width",
                   y="sepal_length",
                   color="species",
                   marginal_x="violin",
                   marginal_y="histogram"   
                  )

### 密度热力图 density_heatmap

density_heatmap也可以利用`margin_x`或者`margin_y`来可视化相关性，margin可以选择：

- `'rug'`
- `'box'`
- `'violin'`
- `'histogram'`

In [None]:
px.density_heatmap(iris,
                   x="sepal_width",
                   y="sepal_length",
                   marginal_y="violin",
                   marginal_x="histogram"
                  )

### 直方图 histogram

直方图可以设置barmode，包括
- `'group'`：分组
- `'overlay'`：叠在一起
- `'relative'`：相关图

In [None]:
px.histogram(
    tips,
    x="sex", # x轴类别
    y="tip", # y轴类别
    histfunc="avg",  # 直方图函数：均值
    color="smoker",  # 颜色取值
    barmode="overlay",  # 柱状图的模式
    facet_row="time",  # 横纵纵轴的字段设置
    facet_col="day",
    category_orders={"day":["Thur","Fri","Sat","Sun"],  # 分类
                     "time":["Lunch","Dinner"]})

### 基于地图绘图 choropleth

In [None]:
px.choropleth(gapminder,
              locations="iso_alpha", # 根据国家编号确定位置
              color="lifeExp", # 根据lifeExp绘制颜色
              hover_name="country", # label为国家
              animation_frame="year", # 根据年来滑动
              color_continuous_scale=px.colors.sequential.Plasma,
              projection="natural earth") 

### 3D地球仪 line_geo

In [None]:
df = gapminder[gapminder["year"] == 2007]

px.scatter_geo(
    df,
    locations="iso_alpha",
    color="continent",
    size="pop",
    projection="orthographic",
    hover_name="country",
    size_max=50
)

### 矩阵式树状图 treemap

其中，为了有一个框来包含全部的值，设定了一个`px.Constant('world')`

In [None]:
df = gapminder[gapminder["year"] == 2007]

px.treemap(
    df, # 数据
    path=[px.Constant('world'), 'continent', 'country'],   # 包含关系：world->continent->country
    values='pop',  # 数据的取值
    color='pop',   # 颜色的取值
)

### 极坐标散点图

In [None]:
px.scatter_polar(
    wind,
    r="frequency",  # 半径取值
    theta="direction",   # 方向取值
    color="strength",  # 颜色取值
    symbol="strength",  # 符号取值
    color_discrete_sequence=px.colors.sequential.Plasma_r
)

### 极坐标柱状图

In [None]:
fig = px.bar_polar(
    wind, 
    r="frequency",
    theta="direction",
    color="strength",
    color_discrete_sequence=px.colors.sequential.Plasma_r)
fig.show()