# 直方图
直方图，又称质量分布图，用于表示数据的分布情况
一般用横轴表示数据区间，纵轴表示分布情况，柱子越高，则落在该区间的数量越大。

*  构建直方图
1.  首先要确定 "组距"、对数值的范围进行分区，通俗的说即是划定有几根柱子（例如 0-100 分，每隔20分划一个区间，共5个区间）
2.  接着，对落在每个区间的数值进行频次计算（如落在 80-100 分的 10 人，60-80 分的 20 人，以此类推）
3.  最后，绘制矩形，高度由频数决定

* 直方图与柱状图的区别
1.  直方图反映数据分布情况，柱状图用于对数值进行比较。
2.  从数据结构来说，柱状图需要 1 个分类变量，是离散的（如一班、二班、三班），因此柱子间有空隙。直方图的数据均为连续的数值变量（如成绩），因此柱子间是没有空隙的。

In [None]:
import plotly.graph_objs as go
import numpy as np
import pandas as pd

In [None]:
# 查看直方图帮助文档
help(go.Histogram)

## 直方图的参数
* 

### 简单图

生成1000个1到20的随机数，用直方图，查看这10000个数的分布情况(哪个数，分别有多少个)

In [None]:
x = np.random.randint(1, 20, 1000)  # 生成1000个1到20的随机数
trace0 = go.Histogram(
    x=x,
)
fig = go.Figure(data=[trace0], layout={"title": "直方图"})
fig

### histnorm -展示比例y轴

In [None]:
x = np.random.randint(1, 20, 1000)  # 生成1000个1到20的随机数
trace0 = go.Histogram(
    x=x,
    histnorm="probability"  # 指定histnorm为probability，那么y轴将不再显示数量而是显示比例
)
fig = go.Figure(data=[trace0], layout={"title": "直方图"})
fig

###  xaxis 坐标范围、间隔

In [None]:
x = np.random.randint(1, 20, 1000)  # 生成100个1到20的随机数

trace0 = go.Histogram(
    x=x
)

fig = go.Figure(data=[trace0], layout={"title": "直方图",
                                       # range表示坐标范围，dtick表示相邻坐标之间的间隔
                                       "xaxis": {"dtick": 10, "range": [1, 20]}  
                                      })
fig

### 重叠直方图

In [None]:
x0 = np.random.randint(1, 20, 1000)
x1 = np.random.randint(10, 30, 1000)
trace0 = go.Histogram(
    x=x0,
    marker={
        "opacity": 0.75
    }
)
trace1 = go.Histogram(
    x=x1,
    marker={
        "opacity": 0.75
    }
)
fig = go.Figure(data=[trace0, trace1], layout={"title": "重叠直方图"
                                              })
fig

#### layout.barmode=overlay

In [None]:
x0 = np.random.randint(1, 20, 1000)
x1 = np.random.randint(10, 30, 1000)
trace0 = go.Histogram(
    x=x0,
    marker={
        "opacity": 0.75
    }
)
trace1 = go.Histogram(
    x=x1,
    marker={
        "opacity": 0.75
    }
)
fig = go.Figure(data=[trace0, trace1], layout={"title": "直方图", 
                                               "template": "plotly_dark",
                                               "barmode": "overlay"
                                              })
fig

####  堆叠直方图 layout.barmode=stack

In [None]:
x0 = np.random.randn(1000) 
x1 = np.random.randn(1000)
trace0 = go.Histogram(
    x=x0,
    histnorm="probability",
    marker={
        "opacity": 0.75
    }
)
trace1 = go.Histogram(
    x=x1,
    histnorm="probability",
    marker={
        "opacity": 0.75
    }
)
fig = go.Figure(data=[trace0, trace1], layout={"title": "直方图", 
                                               "template": "plotly_dark",
                                               "barmode": "stack"
                                              })
fig                                           

### cumulative 累计直方图
第n+1个区间的样本数是第n-1个区间的样本数加上第n个区间的样本数。


In [None]:
x0 = np.random.randn(1000)
trace0 = go.Histogram(
    x=x0,
    histnorm="probability",
    marker={
        "opacity": 0.75
    },
    cumulative={"enabled": True}  # 指定 cumulative 即可
)

fig = go.Figure(data=[trace0], layout={"title": "直方图",
                                       "template": "plotly_dark",
                                       })
fig

## 情景

各种使用场景/遇到的问题