In [4]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import re

# 读取数据
data = pd.read_csv('各城市指标最终版.csv')

# 提取需要的指标数据
indicators =  [
    'AQI', '绿化覆盖率 (%)', '废水处理率 (%)', '废气处理率 (%)', '垃圾分类处理率 (%)', 
    '历史遗迹数量', '博物馆数量', '文化活动频次', '文化设施数量', '公共交通覆盖率 (%)', 
    '线路密度 (km/km²)', '高速公路里程 (km)', '机场航班数量', '年平均气温 (℃)', 
    '年降水量 (mm)', '适宜旅游天数', '空气湿度 (%)', '餐馆数量', '特色美食数量', '美食活动频次'
]
city_names = data['来源城市']

# 提取数值部分并转换为float的函数
def extract_numeric(aqi_str):
    if isinstance(aqi_str, (int, float)):
        return float(aqi_str)
    match = re.match(r'(\d+)', str(aqi_str))
    if match:
        return float(match.group(1))
    return None

# 应用函数到列
data['空气质量指数 (AQI)'] = data['空气质量指数 (AQI)'].apply(extract_numeric)
data['PM2.5'] = data['PM2.5'].apply(extract_numeric)
data['PM10'] = data['PM10'].apply(extract_numeric)
data['O3'] = data['O3'].apply(extract_numeric)
data['NO2'] = data['NO2'].apply(extract_numeric)
data['SO2'] = data['SO2'].apply(extract_numeric)
data['CO'] = data['CO'].apply(extract_numeric)

# 标准化数据
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data[indicators])

# PCA 分析
pca = PCA(n_components=1)
principal_components = pca.fit_transform(data_scaled)

# 将 PCA 结果添加到原始数据中
data['综合评分'] = principal_components

# 根据综合评分进行排序
data_sorted = data.sort_values(by='综合评分', ascending=False)

# 选出前50个城市
top_50_cities = data_sorted.head(50)

# 输出前50个城市名单
print(top_50_cities[['来源城市', '综合评分']])

# 保存结果
output_path = 'top_50_cities_pca.csv'
top_50_cities.to_csv(output_path, index=False)

KeyError: '空气质量指数 (AQI)'