In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.feature_selection import mutual_info_classif
from sklearn.decomposition import PCA

# 数据来源：Kaggle上的“Online Retail”数据集
# 数据集链接：https://www.kaggle.com/datasets/carrie1/ecommerce-data
data_path = 'OnlineRetail.csv'

# 读取数据
df = pd.read_csv(data_path, encoding='ISO-8859-1')

# 查看数据集的前几行
print(df.head())

# 数据集描述
print(df.describe())

# 数据集基本信息
print(df.info())

# 处理缺失值
# 删除含有缺失值的行
df = df.dropna()

# 检查是否还有缺失值
print(df.isnull().sum())

# 处理异常值
# 例如，删除数量为负的记录
df = df[df['Quantity'] > 0]

# 数据标准化与归一化
# 选择需要标准化的数值型特征
numeric_features = ['Quantity', 'UnitPrice']

# 标准化
scaler = StandardScaler()
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# 归一化
min_max_scaler = MinMaxScaler()
df[numeric_features] = min_max_scaler.fit_transform(df[numeric_features])

# 数据编码
# 对分类变量进行独热编码
df = pd.get_dummies(df, columns=['Country'])

# 特征构造
# 例如，构造每个订单的总金额
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

# 特征选择
# 使用互信息选择特征
# 假设我们有一个目标变量，例如是否为高价值订单
df['HighValueOrder'] = (df['TotalPrice'] > df['TotalPrice'].median()).astype(int)

# 计算互信息
mi = mutual_info_classif(df[numeric_features], df['HighValueOrder'])

# 特征重要性
feature_importance = pd.Series(mi, index=numeric_features)
print(feature_importance.sort_values(ascending=False))

# 特征降维
# 使用PCA进行降维
pca = PCA(n_components=2)
df_pca = pca.fit_transform(df[numeric_features])

# 将降维后的特征添加到数据集中
df['PCA1'] = df_pca[:, 0]
df['PCA2'] = df_pca[:, 1]

# 查看最终的数据集
print(df.head())