# 数据分析入门

在这个 Notebook 中，我们将学习使用 pandas 和 numpy 进行基础数据分析。

## 1. 导入必要的库

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 设置中文字体（解决中文显示问题）
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False   # 用来正常显示负号

print('库导入成功！')

## 2. 创建数据

In [None]:
# 创建示例数据
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八', '周九', '吴十'],
    '年龄': [25, 30, 35, 28, 32, 27, 29, 31],
    '城市': ['北京', '上海', '广州', '深圳', '杭州', '南京', '成都', '武汉'],
    '薪资': [8000, 12000, 15000, 11000, 13000, 9000, 10000, 14000],
    '部门': ['技术', '销售', '技术', '市场', '技术', '销售', '市场', '技术']
}

# 创建 DataFrame
df = pd.DataFrame(data)
print('数据创建成功！')
print(f'数据形状：{df.shape}')  # (行数, 列数)
df

## 3. 数据探索

In [None]:
# 查看数据基本信息
print('=== 数据基本信息 ===')
print(f'数据形状：{df.shape}')
print(f'列名：{list(df.columns)}')
print(f'数据类型：')
print(df.dtypes)

In [None]:
# 查看前几行和后几行
print('=== 前3行数据 ===')
print(df.head(3))

print('=== 后3行数据 ===')
print(df.tail(3))

In [None]:
# 描述性统计
print('=== 数值列的描述性统计 ===')
df.describe()

## 4. 数据选择和过滤

In [None]:
# 选择单列
print('=== 选择姓名列 ===')
print(df['姓名'])

# 选择多列
print('=== 选择姓名和薪资列 ===')
print(df[['姓名', '薪资']])

In [None]:
# 条件过滤
print('=== 薪资大于10000的员工 ===')
high_salary = df[df['薪资'] > 10000]
print(high_salary)

print('=== 技术部门的员工 ===')
tech_dept = df[df['部门'] == '技术']
print(tech_dept[['姓名', '薪资', '部门']])

In [None]:
# 多条件过滤
print('=== 年龄大于28且薪资大于10000的员工 ===')
condition = (df['年龄'] > 28) & (df['薪资'] > 10000)
result = df[condition]
print(result[['姓名', '年龄', '薪资']])

## 5. 数据分组和聚合

In [None]:
# 按部门分组统计
print('=== 按部门分组统计 ===')
dept_stats = df.groupby('部门').agg({
    '薪资': ['mean', 'max', 'min', 'count'],
    '年龄': 'mean'
})

print(dept_stats)

# 简化版本
print('=== 各部门平均薪资 ===')
avg_salary_by_dept = df.groupby('部门')['薪资'].mean()
print(avg_salary_by_dept)

In [None]:
# 按城市分组
print('=== 各城市员工数量 ===')
city_count = df['城市'].value_counts()
print(city_count)

print('=== 各城市平均薪资 ===')
city_salary = df.groupby('城市')['薪资'].mean().sort_values(ascending=False)
print(city_salary)

## 6. 数据可视化基础

In [None]:
# 薪资分布直方图
plt.figure(figsize=(10, 6))

plt.subplot(2, 2, 1)
plt.hist(df['薪资'], bins=5, alpha=0.7, color='skyblue')
plt.title('薪资分布')
plt.xlabel('薪资')
plt.ylabel('人数')

# 年龄分布
plt.subplot(2, 2, 2)
plt.hist(df['年龄'], bins=5, alpha=0.7, color='lightgreen')
plt.title('年龄分布')
plt.xlabel('年龄')
plt.ylabel('人数')

# 部门人数
plt.subplot(2, 2, 3)
dept_counts = df['部门'].value_counts()
plt.bar(dept_counts.index, dept_counts.values, color=['orange', 'pink', 'lightblue'])
plt.title('各部门人数')
plt.xlabel('部门')
plt.ylabel('人数')

# 薪资散点图
plt.subplot(2, 2, 4)
plt.scatter(df['年龄'], df['薪资'], alpha=0.7, color='red')
plt.title('年龄与薪资关系')
plt.xlabel('年龄')
plt.ylabel('薪资')

plt.tight_layout()
plt.show()

## 7. 数据处理操作

In [None]:
# 添加新列
df_copy = df.copy()  # 创建副本避免修改原数据

# 计算薪资等级
def salary_level(salary):
    if salary >= 13000:
        return '高薪'
    elif salary >= 10000:
        return '中薪'
    else:
        return '低薪'

df_copy['薪资等级'] = df_copy['薪资'].apply(salary_level)

# 计算年薪
df_copy['年薪'] = df_copy['薪资'] * 12

print('=== 添加新列后的数据 ===')
print(df_copy[['姓名', '薪资', '薪资等级', '年薪']])

In [None]:
# 数据排序
print('=== 按薪资降序排列 ===')
sorted_by_salary = df.sort_values('薪资', ascending=False)
print(sorted_by_salary[['姓名', '薪资', '部门']])

print('=== 按年龄升序，薪资降序排列 ===')
sorted_multi = df.sort_values(['年龄', '薪资'], ascending=[True, False])
print(sorted_multi[['姓名', '年龄', '薪资']])

## 8. 数据透视表

In [None]:
# 创建数据透视表
print('=== 部门薪资统计透视表 ===')
pivot_table = df.pivot_table(
    values='薪资',
    index='部门',
    aggfunc=['mean', 'max', 'min', 'count']
)

print(pivot_table)

## 9. 实践练习

In [None]:
# 练习：分析数据并回答问题
print('=== 数据分析报告 ===')
print(f'1. 总员工数：{len(df)}人')
print(f'2. 平均薪资：{df["薪资"].mean():.0f}元')
print(f'3. 最高薪资：{df["薪资"].max()}元')
print(f'4. 最低薪资：{df["薪资"].min()}元')
print(f'5. 平均年龄：{df["年龄"].mean():.1f}岁')

print('6. 各部门情况：')
for dept in df['部门'].unique():
    dept_data = df[df['部门'] == dept]
    avg_salary = dept_data['薪资'].mean()
    count = len(dept_data)
    print(f'   {dept}部：{count}人，平均薪资{avg_salary:.0f}元')

print('7. 薪资最高的员工：')
top_earner = df[df['薪资'] == df['薪资'].max()]
print(f'   {top_earner.iloc[0]["姓名"]}，薪资{top_earner.iloc[0]["薪资"]}元')

In [None]:
# 保存数据到文件
# df.to_csv('员工数据.csv', index=False, encoding='utf-8-sig')
# print('数据已保存到 员工数据.csv')

# 从文件读取数据
# df_loaded = pd.read_csv('员工数据.csv', encoding='utf-8-sig')
# print('数据已从文件加载')

print('数据保存和加载示例（已注释，可以取消注释运行）')

## 总结

在这个 Notebook 中，我们学习了：

1. **pandas 基础**：DataFrame 创建和基本操作
2. **数据探索**：查看数据形状、类型、统计信息
3. **数据选择**：列选择、条件过滤
4. **数据分组**：groupby 操作和聚合函数
5. **数据可视化**：使用 matplotlib 创建图表
6. **数据处理**：添加列、排序、数据透视表
7. **实践应用**：综合分析和报告生成

接下来可以学习：
- `04_可视化示例.ipynb` - 更多数据可视化技巧
- 更高级的数据分析技术