# 2014年美国城市数据分析

## 数据概述
本数据集包含2014年美国主要城市的基本信息，包括城市名称、人口数量、经纬度坐标等。

### 数据字段
- **name**: 城市名称
- **pop**: 人口数量
- **lat**: 纬度
- **lon**: 经度

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.basemap import Basemap

# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 读取数据
df = pd.read_csv('2014_us_cities.csv')

# 显示前几行数据
print("数据集形状:", df.shape)
print("\n前5行数据:")
df.head()

In [None]:
# 数据基本信息
print("数据类型:")
print(df.dtypes)
print("\n缺失值统计:")
print(df.isnull().sum())
print("\n数据描述统计:")
print(df.describe())

## 数据分析结果

### 1. 人口规模分析

In [None]:
# 按人口排序
df_sorted = df.sort_values('pop', ascending=False)

# 人口排名前10的城市
print("人口最多的10个城市:")
print(df_sorted.head(10)[['name', 'pop']])

# 人口统计
total_population = df['pop'].sum()
avg_population = df['pop'].mean()
median_population = df['pop'].median()

print(f"\n总人口: {total_population:,.0f}")
print(f"平均人口: {avg_population:,.0f}")
print(f"人口中位数: {median_population:,.0f}")

In [None]:
# 人口分布可视化
plt.figure(figsize=(12, 6))
plt.bar(range(len(df_sorted.head(20))), df_sorted['pop'].head(20))
plt.xticks(range(len(df_sorted.head(20))), df_sorted['name'].head(20), rotation=45, ha='right')
plt.title('美国人口最多的20个城市 (2014)')
plt.xlabel('城市')
plt.ylabel('人口数量')
plt.tight_layout()
plt.show()

In [None]:
# 人口分布直方图
plt.figure(figsize=(10, 6))
plt.hist(df['pop'], bins=30, edgecolor='black')
plt.title('城市人口分布直方图')
plt.xlabel('人口数量')
plt.ylabel('城市数量')
plt.axvline(df['pop'].mean(), color='red', linestyle='--', label=f'平均值: {df["pop"].mean():,.0f}')
plt.legend()
plt.show()

### 2. 地理分布分析

In [None]:
# 经纬度分布
plt.figure(figsize=(12, 8))
scatter = plt.scatter(df['lon'], df['lat'], s=df['pop']/5000, alpha=0.6, c=df['pop'], cmap='YlOrRd')
plt.colorbar(scatter, label='人口数量')
plt.title('美国城市地理分布 (气泡大小代表人口)')
plt.xlabel('经度')
plt.ylabel('纬度')
plt.grid(True, alpha=0.3)
plt.show()

### 3. 人口与地理位置关系

In [None]:
# 按地理位置分组统计
df['lat_bin'] = pd.cut(df['lat'], bins=5)
df['lon_bin'] = pd.cut(df['lon'], bins=5)

# 统计不同纬度区间的总人口
lat_pop = df.groupby('lat_bin')['pop'].sum().sort_values(ascending=False)
print("不同纬度区间的总人口分布:")
print(lat_pop)

## 数据场景

### 1. 城市规划与发展
- **应用场景**: 政府和城市规划部门可利用这些数据了解城市规模分布，制定城市发展策略
- **价值**: 识别人口密集区域，优化资源配置和基础设施建设

### 2. 市场研究与商业决策
- **应用场景**: 企业可根据人口数据选择市场进入地点，评估市场规模
- **价值**: 识别高人口密度区域作为商业拓展目标，优化销售网络布局

### 3. 学术研究
- **应用场景**: 人口地理学、城市发展研究、区域经济分析
- **价值**: 提供基础数据支持城市间比较研究、人口流动分析等

### 4. 应急管理与灾害响应
- **应用场景**: 根据人口分布制定应急预案和灾害响应策略
- **价值**: 识别高风险高密度区域，优化救援资源分配

### 5. 交通规划
- **应用场景**: 依据人口数据规划交通网络，优化公共交通服务
- **价值**: 提高交通系统效率，满足人口密集区域的出行需求

## 主要发现

1. **人口集中度高**: 纽约市人口超过800万，远超其他城市
2. **地理分布**: 大城市主要分布在东西海岸，中西部城市相对较少
3. **城市规模梯度**: 人口呈现明显的层级分布，超大城市与中小城市并存

## 数据质量
- 数据完整性: 无缺失值
- 数据准确性: 来源可靠，坐标信息精确
- 数据时效性: 2014年数据，反映当时状况