In [87]:
import re

#可视化文件夹D:\Pyprogram\Python_Data_Analysis\data_csv\temperature中所有csv文件数据
import pandas as pd
import os
import numpy as np
import plotly.graph_objects as go
from scipy.stats import gaussian_kde
from datetime import datetime
import time

# 读取Temperature_point_no_0a1ee4feff8d79e0-S.csv
filepath = r'D:\Pyprogram\Python_Data_Analysis\data_csv\temperature'

## 1 研究数据的时间戳是否影响可视化

### 1.1 各采集的数据的起止时间

In [59]:
# 所有csv文件的时间戳起止时间
def get_time(filepath):
    all_csv_time = []
    for file in os.listdir(filepath):
        if file.endswith('.csv'):
            df = pd.read_csv(os.path.join(filepath, file))
            # df第一行 的“timestamp”
            time = df.iloc[0, 0]
            # df最后一行 的“timestamp”
            time_end = df.iloc[-1, 0]

            all_csv_time.append([file[21:-4],time, time_end])
    return all_csv_time

In [63]:
TIME_start_end = get_time(filepath)

### 1.2 时间戳范围可视化

In [61]:
# 封装成函数
def plot_time_density(TIME_start_end):
    # 创建数据点，保留为 datetime 对象用于显示，转换为时间戳用于计算密集度
    x_data = [datetime.strptime(time[1], '%Y-%m-%d %H:%M:%S') for time in TIME_start_end]
    y_data = [datetime.strptime(time[2], '%Y-%m-%d %H:%M:%S') for time in TIME_start_end]

    # 将 datetime 转换为时间戳用于密度计算
    x_timestamps = [x.timestamp() for x in x_data]
    y_timestamps = [y.timestamp() for y in y_data]

    # 计算每个点的密集度（使用高斯核密度估计）
    xy = np.vstack([x_timestamps, y_timestamps])
    density = gaussian_kde(xy)(xy)

    # 创建散点图，使用原始的 datetime 对象作为坐标，密集度作为颜色映射
    fig = go.Figure(data=go.Scatter(
        x=x_data,  # 使用 datetime 对象显示
        y=y_data,  # 使用 datetime 对象显示
        mode='markers',
        marker=dict(
            size=8,
            color=density,  # 颜色映射为密集度
            colorscale='magenta',  # 洋红色
            showscale=True  # 显示颜色条
        )
    ))

    # 更新布局
    fig.update_layout(
        title='494个时间序列的时间戳范围',
        xaxis_title='开始时间',
        yaxis_title='结束时间',
        xaxis=dict(
            type='date',  # 确保 x 轴显示为日期格式
        ),
        yaxis=dict(
            type='date',  # 确保 y 轴显示为日期格式
        )
    )

    # 显示图表
    fig.show()

In [62]:
plot_time_density(TIME_start_end)

## 2 实验一 数据条数与时间消耗之间的关系
评估不同数量的时间序列在可视化过程中所需的时间


### 2.1 不同时序条数图像的函数

In [101]:
def plot_scatter(num,filepath):
    files = os.listdir(filepath)
    files = [file for file in files if file.endswith('.csv')]
    files = files[:num]
    data = []
    for file in files:
        df = pd.read_csv(os.path.join(filepath, file))
        data.append(df)
    fig = go.Figure()
    for i, df in enumerate(data):
        fig.add_trace(go.Scatter(x=df['timestamp'], y=df['value'], mode='lines', name=files[i][21:-4]))
        fig.update_layout(title=str(num)+'条数据文件的散点图', xaxis_title='时间戳', yaxis_title='值')
    # fig.show()


In [106]:
## 测试运行时间
time_record = []
for i in range(1,40):
    # 记录开始时间
    start_time = time.time()
    # 调用你的函数
    plot_scatter(i,filepath)
    # 记录结束时间
    end_time = time.time()
    # 计算运行时间
    elapsed_time = end_time - start_time
    print(i,f"条温度数据的运行时间为: {elapsed_time:.6f} 秒")
    time_record.append([i,elapsed_time])

# time_record存入csv文件

# 将数据转换为DataFrame
df = pd.DataFrame(time_record, columns=['数据条数', '时间消耗'])

# 写入CSV文件
df.to_csv('实验一-数据条数-时间消耗.csv', index=False)


1 条温度数据的运行时间为: 0.018994 秒
2 条温度数据的运行时间为: 0.030141 秒
3 条温度数据的运行时间为: 0.042000 秒
4 条温度数据的运行时间为: 0.055112 秒
5 条温度数据的运行时间为: 0.070114 秒
6 条温度数据的运行时间为: 0.084255 秒
7 条温度数据的运行时间为: 0.098333 秒
8 条温度数据的运行时间为: 0.116123 秒
9 条温度数据的运行时间为: 0.127365 秒
10 条温度数据的运行时间为: 0.140234 秒
11 条温度数据的运行时间为: 0.157104 秒
12 条温度数据的运行时间为: 0.173262 秒
13 条温度数据的运行时间为: 0.186734 秒
14 条温度数据的运行时间为: 0.240307 秒
15 条温度数据的运行时间为: 0.266916 秒
16 条温度数据的运行时间为: 0.226176 秒
17 条温度数据的运行时间为: 0.238162 秒
18 条温度数据的运行时间为: 0.246083 秒
19 条温度数据的运行时间为: 0.256168 秒
20 条温度数据的运行时间为: 0.273310 秒
21 条温度数据的运行时间为: 0.297839 秒
22 条温度数据的运行时间为: 0.307292 秒
23 条温度数据的运行时间为: 0.313322 秒
24 条温度数据的运行时间为: 0.335219 秒
25 条温度数据的运行时间为: 0.343061 秒
26 条温度数据的运行时间为: 0.354702 秒
27 条温度数据的运行时间为: 0.374185 秒
28 条温度数据的运行时间为: 0.395211 秒
29 条温度数据的运行时间为: 0.387457 秒
30 条温度数据的运行时间为: 0.406721 秒
31 条温度数据的运行时间为: 0.432622 秒
32 条温度数据的运行时间为: 0.437557 秒
33 条温度数据的运行时间为: 0.449986 秒
34 条温度数据的运行时间为: 0.459430 秒
35 条温度数据的运行时间为: 0.478066 秒
36 条温度数据的运行时间为: 0.492042 秒
37 条温度数据的运行时间为: 0.502493 秒
38 条温度数据的运

### 2.2 实验结果展示

In [107]:
# 可视化实验一  数据条数-时间消耗.csv
df = pd.read_csv('实验一-数据条数-时间消耗.csv')
fig = px.line(df, x='数据条数', y='时间消耗', title='实验一-数据条数-时间消耗')
fig.show()