In [3]:
# 导入所需的库
import pandas as pd
import numpy as np

# 读取Excel文件
try:
    # 假设Excel文件在同一目录下
    df = pd.read_excel('day1.xlsx')
    print("成功读取Excel文件！\n")
    
    # 显示基本信息
    print("数据集基本信息：")
    print("-" * 50)
    print(f"行数：{len(df)}")
    print(f"列数：{len(df.columns)}")
    print("-" * 50)
    
    # 遍历每一列
    for column in df.columns:
        print(f"\n分析列：{column}")
        print("-" * 30)
        
        # 数据类型
        print(f"数据类型：{df[column].dtype}")
        
        # 非空值数量
        non_null_count = df[column].count()
        null_count = df[column].isnull().sum()
        print(f"非空值数量：{non_null_count}")
        print(f"空值数量：{null_count}")
        print(f"空值比例：{(null_count/len(df))*100:.2f}%")
        
        # 唯一值统计
        unique_count = df[column].nunique()
        print(f"唯一值数量：{unique_count}")
        
        # 对数值型数据进行统计分析
        if np.issubdtype(df[column].dtype, np.number):
            print("\n数值统计：")
            print(f"最小值：{df[column].min()}")
            print(f"最大值：{df[column].max()}")
            print(f"平均值：{df[column].mean():.2f}")
            print(f"中位数：{df[column].median()}")
            print(f"标准差：{df[column].std():.2f}")
        
        # 对非数值型数据显示最常见的值
        else:
            if unique_count < 10:  # 如果唯一值较少，显示所有值
                print("\n所有唯一值：")
                print(df[column].value_counts())
            else:  # 否则只显示前5个最常见的值
                print("\n最常见的5个值：")
                print(df[column].value_counts().head())
                
except FileNotFoundError:
    print("错误：未找到Excel文件！请确保'day1.xlsx'文件在正确的位置。")
except Exception as e:
    print(f"发生错误：{str(e)}")

成功读取Excel文件！

数据集基本信息：
--------------------------------------------------
行数：634
列数：61
--------------------------------------------------

分析列：Date
------------------------------
数据类型：datetime64[ns]
非空值数量：634
空值数量：0
空值比例：0.00%
唯一值数量：634

最常见的5个值：
Date
2020-01-15 13:26:00    1
2020-01-15 20:31:00    1
2020-01-15 20:24:00    1
2020-01-15 20:25:00    1
2020-01-15 20:26:00    1
Name: count, dtype: int64

分析列：PI-2
------------------------------
数据类型：float64
非空值数量：634
空值数量：0
空值比例：0.00%
唯一值数量：591

数值统计：
最小值：-0.055736418813467026
最大值：-0.05283293128013611
平均值：-0.05
中位数：-0.0545750018209219
标准差：0.00

分析列：TI-2
------------------------------
数据类型：float64
非空值数量：634
空值数量：0
空值比例：0.00%
唯一值数量：593

数值统计：
最小值：33.036041259765625
最大值：34.12427520751953
平均值：33.43
中位数：33.415706634521484
标准差：0.23

分析列：FI-2
------------------------------
数据类型：float64
非空值数量：634
空值数量：0
空值比例：0.00%
唯一值数量：631

数值统计：
最小值：1527.9844970703125
最大值：1548.2073974609375
平均值：1540.21
中位数：1540.5501708984375
标准差：3.49

分析列：PI-3
-------------------

# Excel数据列分析

本代码将帮助我们分析Excel文件中的每列数据，包括：
1. 数据类型
2. 基本统计信息
3. 空值统计
4. 唯一值统计

In [4]:
# 导入所需的库
import pandas as pd
import numpy as np

try:
    # 读取Excel文件
    df = pd.read_excel('day1.xlsx')
    print("成功读取Excel文件！\n")
    
    # 获取第7列和第16列的列名
    column_7 = df.columns[6]  # 索引从0开始，所以第7列是索引6
    column_16 = df.columns[15]  # 第16列是索引15
    
    print(f"分析第7列（{column_7}）和第16列（{column_16}）的数据：")
    print("-" * 50)
    
    # 从第二行开始遍历（跳过第一行）
    for index in range(1, len(df)):
        print(f"\n行号：{index + 1}")  # index + 1 是实际的Excel行号
        print("-" * 30)
        
        # 显示第7列的数据
        value_7 = df.iloc[index, 6]
        print(f"第7列 ({column_7}) 的值：{value_7}")
        
        # 显示第16列的数据
        value_16 = df.iloc[index, 15]
        print(f"第16列 ({column_16}) 的值：{value_16}")
        
        # 添加一些基本的数据分析
        # 对数值型数据显示是否为空和数据类型
        for col, value in [(column_7, value_7), (column_16, value_16)]:
            print(f"\n{col}的数据分析：")
            print(f"数据类型：{type(value).__name__}")
            print(f"是否为空：{pd.isna(value)}")
            
            # 如果是数值类型，显示一些额外信息
            if isinstance(value, (int, float)) and not pd.isna(value):
                print(f"是否为整数：{float(value).is_integer()}")
                
except FileNotFoundError:
    print("错误：未找到Excel文件！请确保'day1.xlsx'文件在正确的位置。")
except Exception as e:
    print(f"发生错误：{str(e)}")

成功读取Excel文件！

分析第7列（CO2-3）和第16列（CO2-4）的数据：
--------------------------------------------------

行号：2
------------------------------
第7列 (CO2-3) 的值：15.556961059570312
第16列 (CO2-4) 的值：1.8146437406539917

CO2-3的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

CO2-4的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

行号：3
------------------------------
第7列 (CO2-3) 的值：15.476249694824219
第16列 (CO2-4) 的值：1.7939022779464722

CO2-3的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

CO2-4的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

行号：4
------------------------------
第7列 (CO2-3) 的值：15.56407642364502
第16列 (CO2-4) 的值：1.880946397781372

CO2-3的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

CO2-4的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

行号：5
------------------------------
第7列 (CO2-3) 的值：15.636453628540039
第16列 (CO2-4) 的值：1.8756800889968872

CO2-3的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

CO2-4的数据分析：
数据类型：float64
是否为空：False
是否为整数：False

行号：6
------------------------------
第7列 (CO2-3) 的值：15.598077774047852
第16列 (CO2-4) 的值：1.887

In [5]:
# 导入所需的库
import pandas as pd
import numpy as np

try:
    # 读取Excel文件
    df = pd.read_excel('day1.xlsx')
    print("成功读取Excel文件！\n")
    
    # 获取第7列、第16列和最后一列的列名
    column_7 = df.columns[6]      # 第7列
    column_16 = df.columns[15]    # 第16列
    last_column = df.columns[-1]  # 最后一列
    
    print(f"分析计算结果：")
    print("-" * 50)
    
    # 计数器，用于统计匹配成功的行数
    success_count = 0
    total_count = 0
    
    # 从第二行开始遍历（跳过第一行）
    for index in range(1, len(df)):
        print(f"\n行号：{index + 1}")  # index + 1 是实际的Excel行号
        print("-" * 30)
        
        # 获取各列的值
        value_7 = df.iloc[index, 6]
        value_16 = df.iloc[index, 15]
        expected_result = df.iloc[index, -1]  # 最后一列的值
        
        print(f"第7列 ({column_7}) 的值：{value_7}")
        print(f"第16列 ({column_16}) 的值：{value_16}")
        print(f"最后一列 ({last_column}) 的值：{expected_result}")
        
        # 检查数据是否为数值类型且不为空
        if (isinstance(value_7, (int, float)) and 
            isinstance(value_16, (int, float)) and 
            not pd.isna(value_7) and 
            not pd.isna(value_16) and 
            value_7 != 0):  # 避免除以零
            
            # 计算结果
            calculated_result = (value_7 - value_16) / value_7
            print(f"\n计算结果：{calculated_result:.6f}")
            
            # 比较计算结果与预期结果
            # 使用近似比较来处理浮点数
            if pd.isna(expected_result):
                print("警告：Excel中的对应结果为空值")
            else:
                total_count += 1
                # 使用相对误差来比较浮点数
                relative_error = abs(calculated_result - expected_result) / abs(expected_result)
                if relative_error < 1e-10:  # 允许很小的误差
                    print("✓ 计算结果与Excel匹配")
                    success_count += 1
                else:
                    print(f"✗ 计算结果与Excel不匹配（Excel中的值：{expected_result:.6f}）")
        else:
            print("\n警告：该行数据不完整或不是数值类型，跳过计算")
    
    # 打印总结
    print("\n" + "=" * 50)
    print(f"计算总结：")
    print(f"总计算行数：{total_count}")
    print(f"匹配成功行数：{success_count}")
    print(f"成功率：{(success_count/total_count*100):.2f}%" if total_count > 0 else "无有效计算")
    
except FileNotFoundError:
    print("错误：未找到Excel文件！请确保'day1.xlsx'文件在正确的位置。")
except Exception as e:
    print(f"发生错误：{str(e)}")

成功读取Excel文件！

分析计算结果：
--------------------------------------------------

行号：2
------------------------------
第7列 (CO2-3) 的值：15.556961059570312
第16列 (CO2-4) 的值：1.8146437406539917
最后一列 (CO2 capacity) 的值：0.8833548702921217

计算结果：0.883355
✓ 计算结果与Excel匹配

行号：3
------------------------------
第7列 (CO2-3) 的值：15.476249694824219
第16列 (CO2-4) 的值：1.7939022779464722
最后一列 (CO2 capacity) 的值：0.884086757882537

计算结果：0.884087
✓ 计算结果与Excel匹配

行号：4
------------------------------
第7列 (CO2-3) 的值：15.56407642364502
第16列 (CO2-4) 的值：1.880946397781372
最后一列 (CO2 capacity) 的值：0.8791482162781064

计算结果：0.879148
✓ 计算结果与Excel匹配

行号：5
------------------------------
第7列 (CO2-3) 的值：15.636453628540039
第16列 (CO2-4) 的值：1.8756800889968872
最后一列 (CO2 capacity) 的值：0.8800444056206358

计算结果：0.880044
✓ 计算结果与Excel匹配

行号：6
------------------------------
第7列 (CO2-3) 的值：15.598077774047852
第16列 (CO2-4) 的值：1.887284278869629
最后一列 (CO2 capacity) 的值：0.8790053296176212

计算结果：0.879005
✓ 计算结果与Excel匹配

行号：7
------------------------------
第7列 