### 首先，我们读取数据集并可视化了8 个不同虚拟区域的100天的输入水流量和输出水流量之差的数据。

In [2]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# 读取数据1
df = pd.read_excel('数据文件.xls')

# 定义一组颜色
colors = ['blue', 'orange', 'green', 'red', 'purple', 'brown', 'pink', 'gray']

# 创建子图网格
fig = make_subplots(rows=4, cols=2, subplot_titles=df.columns[1:])

# 对每个区域进行绘图
for i, column in enumerate(df.columns[1:]):
    # 在当前子图上绘制数据，并设置颜色
    fig.add_trace(go.Scatter(x=df['day'], y=df[column], mode='lines', name=column, line=dict(color=colors[i])), row=i // 2 + 1, col=i % 2 + 1)

    # 设置x轴和y轴标签
    fig.update_xaxes(title_text='Day', row=i // 2 + 1, col=i % 2 + 1)
    fig.update_yaxes(title_text='Region Value', row=i // 2 + 1, col=i % 2 + 1)

# 设置图表标题和布局
#fig.update_layout(title='Region Value Over Time', height=1600, width=2000) #保存时用
fig.update_layout(title='Region Value Over Time', height=800, width=1000)

# 显示图形
fig.show()


FileNotFoundError: [Errno 2] No such file or directory: '数据文件.xls'

### 接下来，我们使用了pandas库中的describe函数来计算每个虚拟区域的基本统计量（均值、标准差、最小值、第一四分位数、中位数、第三四分位数和最大值）。

`describe`函数提供了一些基本的描述性统计信息，包括数据集中每个变量的均值、标准差、最小值、最大值和四分位数等。这些统计量提供了关于数据集分布、集中趋势和离散程度等方面的重要信息。下面是一些基本统计量的解释：

- **count**：数据集中的总样本数。
- **mean**：数据集的平均值，表示数据集的中心位置。
- **std**：数据集的标准差，表示数据集的离散程度。
- **min**：数据集中的最小值。
- **25%**：数据集中的第一个四分位数，表示有25%的观察值比它小。
- **50%**：数据集中的第二个四分位数（也就是中位数），表示有50%的观察值比它小。
- **75%**：数据集中的第三个四分位数，表示有75%的观察值比它小。
- **max**：数据集中的最大值。

通过分析这些基本统计量，我们可以对数据集的分布、变化范围和异常值等方面有一个初步的了解。例如，如果数据集的标准差比较小，那么它的数据分布比较集中，反之则比较分散；如果数据集的最大值和最小值差别比较大，那么数据集的变化范围比较广；如果数据集中的某些统计量（如均值、中位数）与某个阈值相差较大，那么这些数据可能包含异常值，需要进行进一步的分析。

除了使用`describe`函数，我们还可以使用其他的描述性统计方法，例如计算协方差、相关系数和偏度等。这些方法可以帮助我们更全面地了解数据集的性质和特征，从而做出更准确的分析和预测。

In [2]:
import pandas as pd
import plotly.graph_objects as go

# 读取数据
df = pd.read_excel('数据文件.xls')
# 删除day列
df = df.drop('day', axis=1)

# 计算基本统计量
stats = df.describe().drop('count') #去掉了无关紧要的count统计量

# 创建柱状图数据
data = [go.Bar(x=stats.columns, y=stats.loc[stat], name=stat) for stat in stats.index]

# 设置图表标题和布局
layout = go.Layout(title='Basic Statistics of Region Values', xaxis=dict(title='Statistical Measure'), yaxis=dict(title='Value'))

# 绘制柱状图
fig = go.Figure(data=data, layout=layout)
fig.show()


In [3]:
import pandas as pd
import plotly.graph_objects as go

# 读取数据
df = pd.read_excel('数据文件.xls')
# 删除day列
df = df.drop('day', axis=1)

# 创建直方图数据
data = [go.Histogram(x=df[column], nbinsx=10, name=column) for column in df.columns]

# 设置图表标题和布局
layout = go.Layout(title='Histogram of Region Values', xaxis=dict(title='Value'), yaxis=dict(title='Count'))

# 绘制直方图
fig = go.Figure(data=data, layout=layout)
fig.show()


In [4]:
import pandas as pd
import plotly.graph_objects as go

# 读取数据
df = pd.read_excel('数据文件.xls')
# 删除day列
df = df.drop('day', axis=1)

# 创建箱线图数据
data = [go.Box(y=df[column], name=column) for column in df.columns]

# 设置图表标题和布局
layout = go.Layout(title='Boxplot of Region Values', yaxis=dict(title='Value'))

# 绘制箱线图
fig = go.Figure(data=data, layout=layout)
fig.show()


In [14]:
import pandas as pd
import plotly.graph_objects as go

# 读取数据
df = pd.read_excel('数据文件.xls')
# 删除day列
df = df.drop('day', axis=1)

# 计算每个虚拟区域的相关性系数
corr_matrix = df.corr()

# 创建热图数据
data = [go.Heatmap(z=corr_matrix.values.tolist(), x=corr_matrix.columns, y=corr_matrix.index, colorscale='RdBu', zmin=-1, zmax=1, colorbar=dict(title='Correlation'))]

# 设置图表标题和布局
layout = go.Layout(title='Correlation Matrix', xaxis=dict(title='Region'), yaxis=dict(title='Region'))

# 绘制热图
fig = go.Figure(data=data, layout=layout)
annotations = []
for i, row in enumerate(corr_matrix.index):
    for j, col in enumerate(corr_matrix.columns):
        annotations.append(dict(x=col, y=row, text=str(round(corr_matrix.iloc[i, j], 2)), showarrow=False, font=dict(size=14)))
fig.update_layout(annotations=annotations)
fig.show()

