In [1]:
import pandas as pd
import math
import os

# 设置年份
year = 2024

# 文件路径
file_path = '/Users/ccmac/Desktop/导出数据/已情感分析数据/e{}.xlsx'.format(year)

# 读取Excel文件
df = pd.read_excel(file_path)

# 删除情感得分列中包含缺失值的行
df = df.dropna(subset=['情感得分'])

# 将情感得分列转换为整数类型
df['情感得分'] = df['情感得分'].astype(int)

# 将posttime列转换为日期时间格式，处理可能的格式错误
df['日期'] = pd.to_datetime(df['posttime'], errors='coerce').dt.date

# 按日期分组并计算正面和负面情感的数量
df['正面情感'] = df['情感得分'].apply(lambda x: 1 if x == 1 else 0)
df['负面情感'] = df['情感得分'].apply(lambda x: 1 if x == 0 else 0)

grouped = df.groupby('日期')[['正面情感', '负面情感']].sum()

# 计算情感得分
grouped['情感得分'] = grouped.apply(lambda x: math.log((x['正面情感'] + 1) / (x['负面情感'] + 1)), axis=1)

# 打印结果
print(grouped)

# 存储结果到新的Excel文件
output_dir = '/Users/ccmac/Desktop/导出数据/情感得分结果'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)  # 创建目录

output_file = os.path.join(output_dir, 'e{}_情感得分.xlsx'.format(year))
grouped.to_excel(output_file, index=True)

            正面情感  负面情感      情感得分
日期                              
2024-02-21  1426  3939 -1.015606
2024-02-22  1170  2995 -0.939420
2024-02-23  1374  2994 -0.778491
2024-02-24   192   365 -0.639943
2024-02-25   151   282 -0.621566
...          ...   ...       ...
2024-08-18   137   204 -0.395756
2024-08-19   809  1940 -0.873924
2024-08-20  1531  3364 -0.786854
2024-08-21   826  2090 -0.927593
2024-08-22  1456  3526 -0.884068

[183 rows x 3 columns]
