# 第17节课: 可视化入门 —— 让数据"被看见"

**目标**: 掌握 Pandas 绘图基础，绘制柱状图、条形图和饼图。
**数据**: `data/china_tourism.csv`

## 1. 环境搭建与数据加载

我们不需要死记硬背 `read_csv` 的语法。直接告诉 AI 你的文件在哪里，让它帮你写代码。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt 

# 读取数据
# 请确保数据文件放在当前目录下的 data 文件夹中
df = pd.read_csv('data/china_tourism.csv')

# 检查前5行
print(df.head())

## 2. ⚠️ 技术贴士：中文显示的本地化配置

Python 绘图库默认不支持中文，直接画图会显示为方块 (□□□)。
这是通用的**"标准配置"**，**无需理解原理**，建议将此段配置保存，**每次画图前复制粘贴**即可。

In [None]:
# --- 解决中文乱码的标准配置 ---

# 设置中文字体 (自动适配 Windows/Mac)
plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS'] 

# 解决负号显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False 

## 3. 核心任务一：旅游资源分布分析 (计数与柱状图)

**场景**: 暑假想带孩子去一个景点**最密集**的地方，优化交通时间成本。
**任务**: 统计 `City` 列中，各个城市出现的次数，取前 10 名画柱状图。

In [None]:
# 1. 统计 + 排序 + 取前10
# value_counts() 自动按数量降序排列
top_cities = df['City'].value_counts().head(10)

# 2. 画图 (kind='bar')
# figsize=(10, 6) 控制图片大小
# rot=0 让x轴标签横向显示，提升阅读体验
top_cities.plot(kind='bar', figsize=(10, 6), 
                color='skyblue', rot=0)

plt.title('热门旅游城市 Top 10')
plt.xlabel('城市')
plt.ylabel('景点数量')
plt.show()

## 4. 核心任务二：旅游成本分析 (分组与聚合)

**场景**: 预算有限，希望识别门票价格较高的城市，进行规避。
**任务**: 按城市分组 (`groupby`)，计算每个城市的**平均价格**，画出横向柱状图。

In [None]:
# 1. 分组 -> 计算平均值 -> 排序 -> 取前10
# groupby('City'): 按城市分组
# ['Sold_Price'].mean(): 计算价格平均值
# 使用括号来换行，避免使用反斜杠
expensive_cities = (df.groupby('City')['Sold_Price'].mean()
                     .sort_values(ascending=False).head(10))

# 2. 画横向柱状图 (kind='barh')
# alpha=0.8 设置透明度，视觉效果更柔和
# barh (Horizontal Bar) 特别适合长标签（如城市名）的展示
expensive_cities.plot(kind='barh', figsize=(10, 6), color='salmon', alpha=0.8)

plt.title('平均门票价格最贵的城市 Top 10')
plt.xlabel('平均价格 (元)')
plt.show()

## 5. 不同等级景区数量对比

**任务**: 统计全国 **5A、4A、3A** 景区各有多少个，并画一个 **饼图 (Pie Chart)** 来展示比例。

In [None]:
# 1. 统计
level_counts = df['Level'].value_counts()

# 2. 画饼图 (kind='pie')
# autopct='%1.1f%%' 显示百分比
level_counts.plot(kind='pie', figsize=(6, 6), 
                  autopct='%1.1f%%', title='等级分布')
plt.ylabel('') # 去掉Y轴标签更美观
plt.show()