# 导入必要的库
导入用于数据处理、分析和机器学习的库，如pandas、numpy、scikit-learn等。

In [4]:
# 导入用于数据处理的库
import pandas as pd
import numpy as np

# 导入用于机器学习的库
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.decomposition import PCA

# 导入用于数据可视化的库
import matplotlib.pyplot as plt
import seaborn as sns

# 数据收集
通过API或文件读取的方式收集电力使用数据和用户反馈数据。

In [None]:
# 数据收集

# 通过API收集电力使用数据
import requests

def fetch_power_usage_data(api_url):
    response = requests.get(api_url)
    if response.status_code == 200:
        data = response.json()
        return pd.DataFrame(data)
    else:
        raise Exception(f"Failed to fetch data: {response.status_code}")

# 示例API URL
api_url = "https://api.example.com/power_usage"
power_usage_data = fetch_power_usage_data(api_url)

# 通过文件读取用户反馈数据
def load_user_feedback(file_path):
    return pd.read_csv(file_path)

# 示例文件路径
file_path = "user_feedback.csv"
user_feedback_data = load_user_feedback(file_path)

# 显示前几行数据
print("电力使用数据:")
print(power_usage_data.head())

print("\n用户反馈数据:")
print(user_feedback_data.head())

# 数据预处理


In [None]:
# 数据预处理

# 合并电力使用数据和用户反馈数据
merged_data = pd.merge(power_usage_data, user_feedback_data, on='user_id')

# 填补缺失值
imputer = SimpleImputer(strategy='mean')
imputed_data = imputer.fit_transform(merged_data)

# 将填补后的数据转换为DataFrame
imputed_data = pd.DataFrame(imputed_data, columns=merged_data.columns)

# 去除异常值
z_scores = np.abs((imputed_data - imputed_data.mean()) / imputed_data.std())
filtered_data = imputed_data[(z_scores < 3).all(axis=1)]

# 数据标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(filtered_data)

# 将标准化后的数据转换为DataFrame
scaled_data = pd.DataFrame(scaled_data, columns=filtered_data.columns)

# 数据降维
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(scaled_data)

# 将降维后的数据转换为DataFrame
reduced_data = pd.DataFrame(reduced_data, columns=['PC1', 'PC2'])

# 显示处理后的数据
print("处理后的数据:")
print(reduced_data.head())

# 填补缺失数据
采用统计方法或机器学习模型来填补不完整或缺失的数据记录。

In [None]:
# 填补缺失数据

# 采用统计方法填补缺失数据
imputer = SimpleImputer(strategy='mean')
imputed_data = imputer.fit_transform(merged_data)

# 将填补后的数据转换为DataFrame
imputed_data = pd.DataFrame(imputed_data, columns=merged_data.columns)

# 显示填补后的数据
print("填补后的数据:")
print(imputed_data.head())

# 去除异常值
检测并去除由于设备故障或数据录入错误造成的异常值。

In [None]:
# 去除异常值

# 计算每列的z-score
z_scores = np.abs((imputed_data - imputed_data.mean()) / imputed_data.std())

# 过滤掉z-score大于3的异常值
filtered_data = imputed_data[(z_scores < 3).all(axis=1)]

# 显示去除异常值后的数据
print("去除异常值后的数据:")
print(filtered_data.head())

# 数据标准化
对所有数据进行标准化处理，使之在同一标准下可比。

In [None]:
# 数据标准化

# 初始化标准化器
scaler = StandardScaler()

# 对数据进行标准化处理
scaled_data = scaler.fit_transform(filtered_data)

# 将标准化后的数据转换为DataFrame
scaled_data = pd.DataFrame(scaled_data, columns=filtered_data.columns)

# 显示标准化后的数据
print("标准化后的数据:")
print(scaled_data.head())

# 降维处理
采用降维技术如PCA来减少数据的维度，同时尽量保留最关键的信息。

In [None]:
# 降维处理

# 初始化PCA，设置主成分数为2
pca = PCA(n_components=2)

# 对标准化后的数据进行PCA降维
reduced_data = pca.fit_transform(scaled_data)

# 将降维后的数据转换为DataFrame
reduced_data = pd.DataFrame(reduced_data, columns=['PC1', 'PC2'])

# 显示降维后的数据
print("降维后的数据:")
print(reduced_data.head())

# 可视化降维后的数据
plt.figure(figsize=(10, 6))
sns.scatterplot(x='PC1', y='PC2', data=reduced_data)
plt.title('PCA降维后的数据分布')
plt.xlabel('主成分1')
plt.ylabel('主成分2')
plt.show()

# 数据分析
对处理后的数据进行分析，提取有用的信息和模式。

In [None]:
# 数据分析

# 计算每个用户的总用电量
total_power_usage = merged_data.groupby('user_id')['power_usage'].sum().reset_index()
total_power_usage.columns = ['user_id', 'total_power_usage']

# 计算每个用户的平均用电量
average_power_usage = merged_data.groupby('user_id')['power_usage'].mean().reset_index()
average_power_usage.columns = ['user_id', 'average_power_usage']

# 计算每个用户的峰值用电量
peak_power_usage = merged_data.groupby('user_id')['power_usage'].max().reset_index()
peak_power_usage.columns = ['user_id', 'peak_power_usage']

# 合并计算结果
user_power_usage_stats = pd.merge(total_power_usage, average_power_usage, on='user_id')
user_power_usage_stats = pd.merge(user_power_usage_stats, peak_power_usage, on='user_id')

# 显示用户用电统计数据
print("用户用电统计数据:")
print(user_power_usage_stats.head())

# 可视化用户总用电量分布
plt.figure(figsize=(10, 6))
sns.histplot(user_power_usage_stats['total_power_usage'], bins=30, kde=True)
plt.title('用户总用电量分布')
plt.xlabel('总用电量')
plt.ylabel('用户数')
plt.show()

# 可视化用户平均用电量分布
plt.figure(figsize=(10, 6))
sns.histplot(user_power_usage_stats['average_power_usage'], bins=30, kde=True)
plt.title('用户平均用电量分布')
plt.xlabel('平均用电量')
plt.ylabel('用户数')
plt.show()

# 可视化用户峰值用电量分布
plt.figure(figsize=(10, 6))
sns.histplot(user_power_usage_stats['peak_power_usage'], bins=30, kde=True)
plt.title('用户峰值用电量分布')
plt.xlabel('峰值用电量')
plt.ylabel('用户数')
plt.show()

# 计算用户对电价变动的反应
user_feedback_data['price_reaction'] = user_feedback_data['price_reaction'].map({'positive': 1, 'negative': -1, 'neutral': 0})
price_reaction_stats = user_feedback_data.groupby('user_id')['price_reaction'].mean().reset_index()
price_reaction_stats.columns = ['user_id', 'average_price_reaction']

# 合并用户用电统计数据和电价反应数据
user_stats = pd.merge(user_power_usage_stats, price_reaction_stats, on='user_id')

# 显示合并后的用户统计数据
print("合并后的用户统计数据:")
print(user_stats.head())

# 可视化用户对电价变动的反应
plt.figure(figsize=(10, 6))
sns.histplot(user_stats['average_price_reaction'], bins=30, kde=True)
plt.title('用户对电价变动的反应分布')
plt.xlabel('平均电价反应')
plt.ylabel('用户数')
plt.show()

# 计算用户节能措施的采纳情况
user_feedback_data['energy_saving'] = user_feedback_data['energy_saving'].map({'yes': 1, 'no': 0})
energy_saving_stats = user_feedback_data.groupby('user_id')['energy_saving'].mean().reset_index()
energy_saving_stats.columns = ['user_id', 'energy_saving_rate']

# 合并用户统计数据和节能措施采纳情况
user_stats = pd.merge(user_stats, energy_saving_stats, on='user_id')

# 显示最终的用户统计数据
print("最终的用户统计数据:")
print(user_stats.head())

# 可视化用户节能措施的采纳情况
plt.figure(figsize=(10, 6))
sns.histplot(user_stats['energy_saving_rate'], bins=30, kde=True)
plt.title('用户节能措施的采纳情况分布')
plt.xlabel('节能措施采纳率')
plt.ylabel('用户数')
plt.show()