# 第2课：Pandas 基础

## 学习目标
- 了解 Pandas 的数据结构
- 掌握 DataFrame 的创建和基本操作
- 学会数据选择和过滤
- 掌握数据清洗和处理

## 1. Pandas 简介

Pandas 是 Python 数据分析的核心库，提供：
- Series：一维带标签数组
- DataFrame：二维带标签表格

In [None]:
# 安装：pip install pandas
import pandas as pd
import numpy as np

print(f"Pandas 版本: {pd.__version__}")

## 2. Series

In [None]:
# 创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print("默认索引:")
print(s)

# 自定义索引
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print("\n自定义索引:")
print(s2)

# 从字典创建
s3 = pd.Series({'x': 100, 'y': 200, 'z': 300})
print("\n从字典创建:")
print(s3)

In [None]:
# Series 操作
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

print(f"s['a']: {s['a']}")
print(f"s[0]: {s[0]}")
print(f"s['a':'c']:\n{s['a':'c']}")
print(f"\ns > 20:\n{s[s > 20]}")

## 3. DataFrame 创建

In [None]:
# 从字典创建
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 40],
    'city': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen'],
    'salary': [8000, 12000, 15000, 20000]
}

df = pd.DataFrame(data)
print(df)

In [None]:
# DataFrame 基本信息
print(f"形状: {df.shape}")
print(f"列名: {df.columns.tolist()}")
print(f"索引: {df.index.tolist()}")
print(f"\n数据类型:\n{df.dtypes}")

In [None]:
# 查看数据
print("前2行:")
print(df.head(2))

print("\n后2行:")
print(df.tail(2))

print("\n统计信息:")
print(df.describe())

print("\n数据信息:")
df.info()

## 4. 数据选择

In [None]:
# 选择列
print("单列:")
print(df['name'])

print("\n多列:")
print(df[['name', 'age']])

In [None]:
# 选择行 - loc (标签) 和 iloc (位置)
print("loc[0] (按标签):")
print(df.loc[0])

print("\nloc[0:2]:")
print(df.loc[0:2])

print("\niloc[0] (按位置):")
print(df.iloc[0])

print("\niloc[0:2]:")
print(df.iloc[0:2])

In [None]:
# 选择特定行和列
print("loc[0:2, ['name', 'age']]:")
print(df.loc[0:2, ['name', 'age']])

print("\niloc[0:2, 0:2]:")
print(df.iloc[0:2, 0:2])

In [None]:
# 条件筛选
print("age > 30:")
print(df[df['age'] > 30])

print("\n多条件 (salary > 10000 且 age < 40):")
print(df[(df['salary'] > 10000) & (df['age'] < 40)])

## 5. 数据操作

In [None]:
# 添加列
df['bonus'] = df['salary'] * 0.1
print("添加 bonus 列:")
print(df)

In [None]:
# 删除列
df_dropped = df.drop('bonus', axis=1)
print("删除 bonus 列:")
print(df_dropped)

In [None]:
# 重命名列
df_renamed = df.rename(columns={'name': '姓名', 'age': '年龄'})
print("重命名:")
print(df_renamed.head(2))

In [None]:
# 排序
print("按 age 升序:")
print(df.sort_values('age'))

print("\n按 salary 降序:")
print(df.sort_values('salary', ascending=False))

## 6. 缺失值处理

In [None]:
# 创建包含缺失值的数据
df_missing = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
})
print("包含缺失值:")
print(df_missing)

print("\n缺失值统计:")
print(df_missing.isnull().sum())

In [None]:
# 删除缺失值
print("删除包含缺失值的行:")
print(df_missing.dropna())

print("\n删除包含缺失值的列:")
print(df_missing.dropna(axis=1))

In [None]:
# 填充缺失值
print("用 0 填充:")
print(df_missing.fillna(0))

print("\n用均值填充:")
print(df_missing.fillna(df_missing.mean()))

print("\n前向填充:")
print(df_missing.fillna(method='ffill'))

## 7. 分组聚合

In [None]:
# 创建示例数据
sales = pd.DataFrame({
    'product': ['A', 'B', 'A', 'B', 'A', 'B'],
    'region': ['East', 'East', 'West', 'West', 'East', 'West'],
    'sales': [100, 150, 200, 250, 180, 220],
    'quantity': [10, 15, 20, 25, 18, 22]
})
print(sales)

In [None]:
# 单列分组
print("按 product 分组求和:")
print(sales.groupby('product').sum())

print("\n按 product 分组求均值:")
print(sales.groupby('product').mean())

In [None]:
# 多列分组
print("按 product 和 region 分组:")
print(sales.groupby(['product', 'region']).sum())

In [None]:
# 多种聚合
print("多种聚合:")
print(sales.groupby('product').agg({
    'sales': ['sum', 'mean'],
    'quantity': ['sum', 'max']
}))

## 8. 数据合并

In [None]:
# concat - 拼接
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

print("垂直拼接:")
print(pd.concat([df1, df2], ignore_index=True))

print("\n水平拼接:")
print(pd.concat([df1, df2], axis=1))

In [None]:
# merge - 合并
left = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
right = pd.DataFrame({'key': ['B', 'C', 'D'], 'value': [4, 5, 6]})

print("左表:")
print(left)
print("\n右表:")
print(right)

print("\ninner join:")
print(pd.merge(left, right, on='key', how='inner'))

print("\nleft join:")
print(pd.merge(left, right, on='key', how='left'))

## 9. 文件读写

In [None]:
# 保存和读取 CSV
df.to_csv('sample.csv', index=False)
df_loaded = pd.read_csv('sample.csv')
print("从 CSV 读取:")
print(df_loaded)

# 清理
import os
os.remove('sample.csv')

## 10. 练习题

### 练习：创建和分析数据
1. 创建包含学生成绩的 DataFrame
2. 计算每个学生的平均分
3. 找出平均分最高的学生

In [None]:
# 在这里编写代码


## 11. 本课小结

1. **Series**：一维带标签数据
2. **DataFrame**：二维表格数据
3. **数据选择**：loc（标签）、iloc（位置）、条件筛选
4. **缺失值**：isnull、dropna、fillna
5. **分组聚合**：groupby、agg
6. **数据合并**：concat、merge