In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.font_manager import FontProperties

# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Source Han Sans SC']

# 文件路径
file_path = r"C:\Users\HONOR\Desktop\2015年国内主要城市年度数据.csv"

try:
    # 读取CSV文件
    df = pd.read_csv(file_path)
    
    # 查看数据基本信息
    print("数据基本信息：")
    print(df.info())
    
    # 查看数据前几行
    print("\n数据前5行：")
    print(df.head())
    
    # 确保"国内生产总值"和"地区"列存在且数据类型正确
    if "国内生产总值" in df.columns and "地区" in df.columns:
        # 转换GDP数据为数值型
        df["国内生产总值"] = pd.to_numeric(df["国内生产总值"], errors='coerce')
        
        # 过滤掉异常值和GDP为0的城市（可选）
        valid_data = df[~df["国内生产总值"].isna() & (df["国内生产总值"] > 0)]
        
        if len(valid_data) == 0:
            print("错误：没有有效的GDP数据可供绘图。")
        else:
            # 按地区分组并计算GDP总和
            gdp_by_region = valid_data.groupby("地区")["国内生产总值"].sum()
            
            # 为了饼图可读性，只显示GDP占比前10的地区（可选）
            if len(gdp_by_region) > 10:
                # 按GDP排序并取前10
                top_regions = gdp_by_region.nlargest(10)
                # 计算"其他"地区的总和
                other_gdp = gdp_by_region.sum() - top_regions.sum()
                top_regions["其他地区"] = other_gdp
                gdp_by_region = top_regions
            
            # 计算各地区GDP占比
            total_gdp = gdp_by_region.sum()
            gdp_percentage = (gdp_by_region / total_gdp * 100).round(1)
            
            # 定义颜色列表（使用不同饱和度的蓝色系）
            colors = ['#00A1FF', '#5ed935', '#f8ba00', '#ff2501', '#d31876', '#919292', 
                     '#58538b', '#9d5c39', '#cb78a6', '#00aba9', '#ff9900', '#5s538b']
            
            # 绘制饼图
            plt.figure(figsize=(10, 8))
            
            # 绘制主饼图
            wedges, texts, autotexts = plt.pie(
                gdp_by_region, 
                labels=gdp_by_region.index, 
                autopct='%1.1f%%', 
                startangle=140,
                colors=colors,
                wedgeprops={'edgecolor': 'white', 'linewidth': 1},
                textprops={'fontsize': 8}
            )
            
            # 调整百分比文本颜色为白色（如果背景色较深）
            for i, autotext in enumerate(autotexts):
                if gdp_percentage.iloc[i] < 5:  # 小比例标签使用白色
                    autotext.set_color('white')
            
            # 添加标题
            plt.title('2015年国内主要城市国内生产总值分布饼图')
            
            # 确保饼图是圆形
            plt.axis('equal')  # 保证饼图是圆形
            
            # 显示图形
            plt.tight_layout()
            plt.show()
            
            # 打印各地区GDP占比
            print("\n各地区GDP占比：")
            for region, percent in gdp_percentage.items():
                print(f"{region}: {percent}%")
                
    else:
        print("错误：数据中没有找到'国内生产总值'或'地区'列，请检查列名是否正确。")
        print("可用列名：", df.columns.tolist())

except FileNotFoundError:
    print(f"错误：文件 {file_path} 不存在，请检查文件路径是否正确。")
except Exception as e:
    print(f"处理数据时发生错误：{str(e)}")

处理数据时发生错误：Cannot convert numpy.ndarray to numpy.ndarray


In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.font_manager import FontProperties

# 设置图片清晰度
plt.rcParams['figure.dpi'] = 300

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Source Han Sans SC']

# 文件路径
file_path = r"C:\Users\HONOR\Desktop\2015年国内主要城市年度数据.csv"

try:
    # 读取CSV文件
    df = pd.read_csv(file_path)
    
    # 查看数据基本信息
    print("数据基本信息：")
    print(df.info())
    
    # 查看数据前几行
    print("\n数据前5行：")
    print(df.head())
    
    # 确保"国内生产总值"和"地区"列存在且数据类型正确
    if "国内生产总值" in df.columns and "地区" in df.columns:
        # 转换GDP数据为数值型
        df["国内生产总值"] = pd.to_numeric(df["国内生产总值"], errors='coerce')
        
        # 过滤掉异常值和GDP为0的城市（可选）
        valid_data = df[~df["国内生产总值"].isna() & (df["国内生产总值"] > 0)]
        
        if len(valid_data) == 0:
            print("错误：没有有效的GDP数据可供绘图。")
        else:
            # 按地区分组并计算GDP总和
            gdp_by_region = valid_data.groupby("地区")["国内生产总值"].sum()
            
            # 为了饼图可读性，只显示GDP占比前10的地区（可选）
            if len(gdp_by_region) > 10:
                # 按GDP排序并取前10
                top_regions = gdp_by_region.nlargest(10)
                # 计算"其他"地区的总和
                other_gdp = gdp_by_region.sum() - top_regions.sum()
                top_regions["其他地区"] = other_gdp
                gdp_by_region = top_regions
            
            # 计算各地区GDP占比
            total_gdp = gdp_by_region.sum()
            gdp_percentage = (gdp_by_region / total_gdp * 100).round(1)
            
            # 定义颜色列表（使用不同饱和度的蓝色系）
            colors = ['#00A1FF', '#5ed935', '#f8ba00', '#ff2501', '#d31876', '#919292', 
                     '#58538b', '#9d5c39', '#cb78a6', '#00aba9', '#ff9900', '#5s538b']
            
            # 绘制饼图
            plt.figure(figsize=(10, 8))
            
            # 绘制主饼图
            wedges, texts, autotexts = plt.pie(
                gdp_by_region, 
                labels=gdp_by_region.index, 
                autopct='%1.1f%%', 
                startangle=140,
                colors=colors,
                wedgeprops={'edgecolor': 'white', 'linewidth': 1},
                textprops={'fontsize': 8}
            )
            
            # 调整百分比文本颜色为白色（如果背景色较深）
            for i, autotext in enumerate(autotexts):
                if gdp_percentage.iloc[i] < 5:  # 小比例标签使用白色
                    autotext.set_color('white')
            
            # 添加标题
            plt.title('2015年国内主要城市国内生产总值分布饼图')
            
            # 确保饼图是圆形
            plt.axis('equal')  # 保证饼图是圆形
            
            # 显示图形
            plt.tight_layout()
            plt.show()
            
            # 打印各地区GDP占比
            print("\n各地区GDP占比：")
            for region, percent in gdp_percentage.items():
                print(f"{region}: {percent}%")
                
    else:
        print("错误：数据中没有找到'国内生产总值'或'地区'列，请检查列名是否正确。")
        print("可用列名：", df.columns.tolist())

except FileNotFoundError:
    print(f"错误：文件 {file_path} 不存在，请检查文件路径是否正确。")
except Exception as e:
    print(f"处理数据时发生错误：{str(e)}")

处理数据时发生错误：Cannot convert numpy.ndarray to numpy.ndarray
