# Pandas - 数据处理与分析

Pandas是Python中最重要的数据分析库，提供了高效的数据结构和数据操作工具。

## 主要特性
- 📊 **DataFrame**: 类似Excel的二维数据结构
- 🔄 **数据清洗**: 处理缺失值、重复值
- 📈 **数据分析**: 分组、聚合、统计
- 📁 **文件I/O**: 读写CSV、Excel、JSON等格式
- 🕒 **时间序列**: 强大的时间数据处理

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

print(f"Pandas版本: {pd.__version__}")

# 创建DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 30, 35, 28, 32],
    '城市': ['北京', '上海', '广州', '深圳', '杭州'],
    '薪资': [8000, 12000, 15000, 11000, 13000]
}

df = pd.DataFrame(data)
print("创建的DataFrame:")
print(df)
print(f"\n数据形状: {df.shape}")
print(f"数据类型:\n{df.dtypes}")

## 1. Pandas数据结构详解

Pandas提供了两种主要的数据结构：Series（一维）和DataFrame（二维）。

In [None]:
# Series - 一维数据结构
print("=== Series 创建和操作 ===")

# 从列表创建Series
scores = pd.Series([85, 92, 78, 96, 88], name='考试成绩')
print(f"成绩Series:\n{scores}")
print(f"数据类型: {scores.dtype}")
print(f"索引: {scores.index.tolist()}")

# 带自定义索引的Series
student_scores = pd.Series(
    [85, 92, 78, 96, 88], 
    index=['张三', '李四', '王五', '赵六', '钱七'],
    name='期末成绩'
)
print(f"\n带索引的Series:\n{student_scores}")

# 从字典创建Series
grade_dict = {'语文': 85, '数学': 92, '英语': 78, '物理': 96, '化学': 88}
subjects = pd.Series(grade_dict, name='科目成绩')
print(f"\n科目成绩:\n{subjects}")

# Series基本操作
print(f"\n=== Series 基本操作 ===")
print(f"平均分: {subjects.mean():.2f}")
print(f"最高分: {subjects.max()}")
print(f"最低分科目: {subjects.idxmin()}")
print(f"及格科目数: {(subjects >= 80).sum()}")
print(f"成绩排序:\n{subjects.sort_values(ascending=False)}")

# DataFrame创建的多种方式
print("\n=== DataFrame 创建方式 ===")

# 方式1：从字典创建
employee_data = {
    '员工ID': ['E001', 'E002', 'E003', 'E004', 'E005'],
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '部门': ['技术部', '销售部', '技术部', '人事部', '财务部'],
    '入职日期': ['2020-01-15', '2019-03-20', '2021-07-10', '2018-11-05', '2020-09-30'],
    '薪资': [12000, 8500, 15000, 9000, 11000],
    '年龄': [28, 32, 26, 35, 30]
}

df_employees = pd.DataFrame(employee_data)
print("员工信息DataFrame:")
print(df_employees)

# 方式2：从Series字典创建
name_series = pd.Series(['Alice', 'Bob', 'Charlie', 'Diana'])
age_series = pd.Series([25, 30, 35, 28])
salary_series = pd.Series([50000, 60000, 70000, 55000])

df_from_series = pd.DataFrame({
    'Name': name_series,
    'Age': age_series,
    'Salary': salary_series
})
print(f"\n从Series创建的DataFrame:\n{df_from_series}")

# 方式3：从NumPy数组创建
np.random.seed(42)
array_data = np.random.rand(4, 3)
df_from_array = pd.DataFrame(
    array_data, 
    columns=['特征1', '特征2', '特征3'],
    index=['样本1', '样本2', '样本3', '样本4']
)
print(f"\n从NumPy数组创建的DataFrame:\n{df_from_array}")

# DataFrame基本信息
print("\n=== DataFrame 基本信息 ===")
print(f"形状: {df_employees.shape}")
print(f"列名: {df_employees.columns.tolist()}")
print(f"索引: {df_employees.index.tolist()}")
print(f"数据类型:\n{df_employees.dtypes}")
print(f"\n内存使用情况:")
print(df_employees.info())

# 数据预览
print("\n=== 数据预览 ===")
print("前3行:")
print(df_employees.head(3))
print("\n后2行:")
print(df_employees.tail(2))
print("\n随机采样2行:")
print(df_employees.sample(2, random_state=42))

## 2. 数据索引和选择

Pandas提供了多种灵活的数据选择和索引方法，这是数据分析的基础操作。

In [None]:
# 创建示例数据
np.random.seed(42)
sales_data = pd.DataFrame({
    '日期': pd.date_range('2024-01-01', periods=100, freq='D'),
    '产品': np.random.choice(['手机', '电脑', '平板', '耳机'], 100),
    '销售额': np.random.randint(1000, 10000, 100),
    '销量': np.random.randint(1, 50, 100),
    '地区': np.random.choice(['北京', '上海', '广州', '深圳'], 100),
    '销售员': np.random.choice(['张三', '李四', '王五', '赵六'], 100)
})

print("销售数据示例:")
print(sales_data.head())

print("\n=== 列选择 ===")
# 单列选择
product_column = sales_data['产品']
print(f"产品列类型: {type(product_column)}")
print(f"产品前5个: {product_column.head().tolist()}")

# 多列选择
selected_cols = sales_data[['产品', '销售额', '销量']]
print(f"\n选择多列的形状: {selected_cols.shape}")
print(selected_cols.head(3))

# 列选择的不同方式
sales_amount = sales_data.销售额  # 点号访问（注意：列名不能有空格或特殊字符）
print(f"\n点号访问销售额平均值: {sales_amount.mean():.2f}")

print("\n=== 行选择 ===")
# 基于位置的选择 (iloc)
first_row = sales_data.iloc[0]  # 第一行
print(f"第一行数据:\n{first_row}")

first_5_rows = sales_data.iloc[:5]  # 前5行
print(f"\n前5行的形状: {first_5_rows.shape}")

# 基于标签的选择 (loc)
# 首先设置一个有意义的索引
sales_indexed = sales_data.set_index('日期')
print("\n基于日期索引的前3行:")
print(sales_indexed.head(3))

# 选择特定日期
specific_date = sales_indexed.loc['2024-01-01']
print(f"\n2024-01-01的数据类型: {type(specific_date)}")
if isinstance(specific_date, pd.Series):
    print(f"该日期只有一条记录:\n{specific_date}")
else:
    print(f"该日期有{len(specific_date)}条记录")

# 日期范围选择
jan_data = sales_indexed.loc['2024-01-01':'2024-01-10']
print(f"\n1月前10天的数据条数: {len(jan_data)}")

print("\n=== 条件选择 ===")
# 单条件筛选
high_sales = sales_data[sales_data['销售额'] > 8000]
print(f"高销售额记录数: {len(high_sales)}")
print(f"高销售额平均值: {high_sales['销售额'].mean():.2f}")

# 多条件筛选
beijing_phones = sales_data[
    (sales_data['地区'] == '北京') & 
    (sales_data['产品'] == '手机')
]
print(f"\n北京手机销售记录数: {len(beijing_phones)}")

# 使用 isin() 方法
tier1_cities = sales_data[sales_data['地区'].isin(['北京', '上海'])]
print(f"一线城市销售记录数: {len(tier1_cities)}")

# 字符串条件
sales_person_zhang = sales_data[sales_data['销售员'].str.contains('张')]
print(f"销售员姓张的记录数: {len(sales_person_zhang)}")

print("\n=== 复杂选择操作 ===")
# 组合选择：特定行和列
specific_selection = sales_data.loc[
    sales_data['销售额'] > 7000, 
    ['产品', '销售额', '地区']
]
print(f"高销售额的产品和地区信息:\n{specific_selection.head()}")

# 使用 query() 方法
query_result = sales_data.query('销售额 > 8000 and 地区 == "上海"')
print(f"\n使用query筛选的结果数: {len(query_result)}")

# 随机采样
random_sample = sales_data.sample(n=5, random_state=42)
print(f"\n随机采样5条记录:\n{random_sample[['产品', '销售额', '地区']]}")

print("\n=== 数据排序 ===")
# 单列排序
sorted_by_sales = sales_data.sort_values('销售额', ascending=False)
print("按销售额降序排列的前3名:")
print(sorted_by_sales[['产品', '销售额', '销售员']].head(3))

# 多列排序
multi_sorted = sales_data.sort_values(['地区', '销售额'], ascending=[True, False])
print(f"\n按地区升序、销售额降序排列的前5条:")
print(multi_sorted[['地区', '产品', '销售额']].head())

# 索引排序
index_sorted = sales_data.sort_index()
print(f"按索引排序后的前3行:\n{index_sorted.head(3)}")

print("\n=== 去重操作 ===")
# 查看重复值
duplicate_products = sales_data['产品'].duplicated()
print(f"产品列重复值数量: {duplicate_products.sum()}")

# 去除重复的产品
unique_products = sales_data['产品'].drop_duplicates()
print(f"唯一产品: {unique_products.tolist()}")

# 基于多列去重
unique_combinations = sales_data[['产品', '地区']].drop_duplicates()
print(f"\n产品-地区唯一组合数: {len(unique_combinations)}")
print(unique_combinations)

print("\n=== 设置和重置索引 ===")
# 设置单列为索引
product_indexed = sales_data.set_index('产品')
print(f"以产品为索引的数据形状: {product_indexed.shape}")

# 设置多级索引
multi_indexed = sales_data.set_index(['地区', '产品'])
print(f"多级索引的前5行:\n{multi_indexed.head()}")

# 重置索引
reset_index_df = multi_indexed.reset_index()
print(f"重置索引后的列名: {reset_index_df.columns.tolist()}")

# 索引操作示例
print("\n=== 高级索引示例 ===")
# 透视表预览
pivot_preview = sales_data.groupby(['地区', '产品'])['销售额'].sum().unstack(fill_value=0)
print("地区-产品销售额透视表:")
print(pivot_preview)

## 3. 数据清洗和预处理

数据清洗是数据分析的重要步骤，包括处理缺失值、重复值、异常值等。

In [None]:
# 创建包含问题的示例数据
np.random.seed(42)
dirty_data = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '张三', '赵六', None, '钱七', '张三'],
    '年龄': [25, 30, np.nan, 25, 28, 35, 32, 25],
    '收入': [5000, 8000, 12000, 5000, np.nan, 15000, 11000, 5000],
    '城市': ['北京', '上海', '  广州  ', '北京', '深圳', '杭州', '', '北京'],
    '学历': ['本科', '硕士', '本科', '本科', '博士', '硕士', '本科', '本科'],
    '邮箱': ['zhang@qq.com', 'li@163.com', 'wang@gmail.com', 'zhang@qq.com', 
             'zhao@sina.com', 'invalid-email', 'qian@126.com', 'zhang@qq.com']
})

print("原始脏数据:")
print(dirty_data)
print(f"\n数据形状: {dirty_data.shape}")

print("\n=== 缺失值处理 ===")
# 检查缺失值
print("各列缺失值统计:")
print(dirty_data.isnull().sum())

print("\n缺失值位置:")
print(dirty_data.isnull())

# 缺失值可视化统计
missing_percentage = (dirty_data.isnull().sum() / len(dirty_data)) * 100
print(f"\n各列缺失值比例:")
for col, pct in missing_percentage.items():
    if pct > 0:
        print(f"{col}: {pct:.1f}%")

# 处理缺失值的不同策略
print("\n=== 缺失值处理策略 ===")

# 策略1：删除含缺失值的行
cleaned_drop_rows = dirty_data.dropna()
print(f"删除缺失行后数据形状: {cleaned_drop_rows.shape}")

# 策略2：删除含缺失值的列
cleaned_drop_cols = dirty_data.dropna(axis=1)
print(f"删除缺失列后数据形状: {cleaned_drop_cols.shape}")

# 策略3：填充缺失值
cleaned_filled = dirty_data.copy()

# 用平均值填充数值列
cleaned_filled['年龄'].fillna(cleaned_filled['年龄'].mean(), inplace=True)
cleaned_filled['收入'].fillna(cleaned_filled['收入'].median(), inplace=True)

# 用众数填充分类列
cleaned_filled['姓名'].fillna('未知', inplace=True)

print(f"填充后的缺失值统计:")
print(cleaned_filled.isnull().sum())

# 前向填充和后向填充
ff_data = dirty_data.copy()
ff_data['年龄'] = ff_data['年龄'].fillna(method='ffill')  # 前向填充
bf_data = dirty_data.copy()
bf_data['年龄'] = bf_data['年龄'].fillna(method='bfill')  # 后向填充

print(f"\n前向填充年龄列: {ff_data['年龄'].tolist()}")
print(f"后向填充年龄列: {bf_data['年龄'].tolist()}")

print("\n=== 重复值处理 ===")
# 检查完全重复的行
duplicate_rows = dirty_data.duplicated()
print(f"完全重复的行数: {duplicate_rows.sum()}")
print(f"重复行索引: {dirty_data[duplicate_rows].index.tolist()}")

# 基于特定列检查重复
name_duplicates = dirty_data.duplicated(subset=['姓名'])
print(f"姓名重复的行数: {name_duplicates.sum()}")

# 查看重复的具体内容
print(f"\n重复的姓名记录:")
duplicated_names = dirty_data[dirty_data.duplicated(subset=['姓名'], keep=False)]
print(duplicated_names.sort_values('姓名'))

# 去除重复值
no_duplicates = dirty_data.drop_duplicates()
print(f"\n去除完全重复后的数据形状: {no_duplicates.shape}")

# 基于特定列去重，保留第一个
no_name_duplicates = dirty_data.drop_duplicates(subset=['姓名'], keep='first')
print(f"去除姓名重复后的数据形状: {no_name_duplicates.shape}")

print("\n=== 数据类型转换 ===")
# 查看当前数据类型
print("当前数据类型:")
print(cleaned_filled.dtypes)

# 类型转换
type_converted = cleaned_filled.copy()

# 数值类型转换
type_converted['年龄'] = type_converted['年龄'].astype(int)
type_converted['收入'] = type_converted['收入'].astype(float)

# 分类类型转换
type_converted['学历'] = type_converted['学历'].astype('category')
type_converted['城市'] = type_converted['城市'].astype('category')

print(f"\n转换后的数据类型:")
print(type_converted.dtypes)

# 查看分类数据的类别
print(f"\n学历类别: {type_converted['学历'].cat.categories.tolist()}")
print(f"城市类别: {type_converted['城市'].cat.categories.tolist()}")

print("\n=== 字符串处理 ===")
# 字符串清洗
string_cleaned = dirty_data.copy()

# 去除字符串前后空格
string_cleaned['城市'] = string_cleaned['城市'].str.strip()

# 替换空字符串为NaN
string_cleaned['城市'] = string_cleaned['城市'].replace('', np.nan)

# 字符串大小写转换
string_cleaned['邮箱_lower'] = string_cleaned['邮箱'].str.lower()

# 提取邮箱域名
string_cleaned['邮箱域名'] = string_cleaned['邮箱'].str.extract(r'@(.+)')

print("字符串处理后的结果:")
print(string_cleaned[['城市', '邮箱', '邮箱_lower', '邮箱域名']].head())

# 字符串包含判断
gmail_users = string_cleaned['邮箱'].str.contains('gmail', na=False)
print(f"\nGmail用户数量: {gmail_users.sum()}")

print("\n=== 异常值检测和处理 ===")
# 创建包含异常值的数据
np.random.seed(42)
outlier_data = pd.DataFrame({
    '收入': np.concatenate([
        np.random.normal(8000, 2000, 95),  # 正常收入
        [50000, 80000, 100000, 120000, 200000]  # 异常值
    ])
})

print(f"收入数据统计:")
print(outlier_data['收入'].describe())

# 使用IQR方法检测异常值
Q1 = outlier_data['收入'].quantile(0.25)
Q3 = outlier_data['收入'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"\n异常值边界: [{lower_bound:.2f}, {upper_bound:.2f}]")

# 识别异常值
outliers = (outlier_data['收入'] < lower_bound) | (outlier_data['收入'] > upper_bound)
print(f"异常值数量: {outliers.sum()}")
print(f"异常值: {outlier_data[outliers]['收入'].tolist()}")

# 处理异常值：限制在合理范围内
outlier_data['收入_capped'] = outlier_data['收入'].clip(lower=lower_bound, upper=upper_bound)

print(f"\n处理后的收入范围: {outlier_data['收入_capped'].min():.2f} - {outlier_data['收入_capped'].max():.2f}")

print("\n=== 数据验证 ===")
# 创建数据验证规则
validation_data = cleaned_filled.copy()

# 年龄验证
valid_age = (validation_data['年龄'] >= 18) & (validation_data['年龄'] <= 65)
print(f"有效年龄记录数: {valid_age.sum()}/{len(validation_data)}")

# 邮箱格式验证
email_pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
valid_email = validation_data['邮箱'].str.match(email_pattern, na=False)
print(f"有效邮箱记录数: {valid_email.sum()}/{len(validation_data)}")

# 收入合理性验证
valid_income = (validation_data['收入'] >= 1000) & (validation_data['收入'] <= 50000)
print(f"合理收入记录数: {valid_income.sum()}/{len(validation_data)}")

# 创建综合验证结果
validation_data['数据有效'] = valid_age & valid_email & valid_income
print(f"\n完全有效的记录数: {validation_data['数据有效'].sum()}/{len(validation_data)}")

print("\n=== 数据标准化和归一化 ===")
# 创建数值数据进行标准化
numerical_data = pd.DataFrame({
    '身高': np.random.normal(170, 10, 100),
    '体重': np.random.normal(65, 15, 100),
    '年龄': np.random.randint(18, 60, 100)
})

print("原始数据统计:")
print(numerical_data.describe())

# Z-score标准化
from scipy import stats
standardized_data = numerical_data.copy()
for col in numerical_data.columns:
    standardized_data[col + '_标准化'] = stats.zscore(numerical_data[col])

print(f"\n标准化后的数据统计:")
print(standardized_data[['身高_标准化', '体重_标准化', '年龄_标准化']].describe())

# Min-Max归一化
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
normalized_data = pd.DataFrame(
    scaler.fit_transform(numerical_data),
    columns=[col + '_归一化' for col in numerical_data.columns]
)

print(f"\n归一化后的数据统计:")
print(normalized_data.describe())

## 5. 分组与聚合操作 (GroupBy)

分组操作是pandas中的核心功能，允许我们将数据按某些条件分组，然后对每组数据进行聚合计算。

In [None]:
# 创建销售数据示例
import pandas as pd
import numpy as np

sales_data = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West', 'North', 'South', 'East', 'West'] * 3,
    'product': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'] * 3,
    'salesperson': ['Alice', 'Bob', 'Charlie', 'David'] * 6,
    'month': ['Jan', 'Jan', 'Jan', 'Jan', 'Feb', 'Feb', 'Feb', 'Feb', 'Mar', 'Mar', 'Mar', 'Mar'] * 2,
    'sales': np.random.randint(100, 1000, 24),
    'units': np.random.randint(10, 100, 24)
})

print("销售数据样本:")
print(sales_data.head(10))
print(f"\n数据形状: {sales_data.shape}")

# 基本分组操作
print("\n=== 基本分组操作 ===")

# 按地区分组，计算总销售额
region_sales = sales_data.groupby('region')['sales'].sum()
print("\n按地区分组的总销售额:")
print(region_sales)

# 按产品分组，计算平均销售额和总销量
product_stats = sales_data.groupby('product').agg({
    'sales': ['sum', 'mean', 'count'],
    'units': 'sum'
})
print("\n按产品分组的统计信息:")
print(product_stats)

# 多列分组
region_product_sales = sales_data.groupby(['region', 'product'])['sales'].sum()
print("\n按地区和产品分组的销售额:")
print(region_product_sales)

In [None]:
# 高级分组操作
print("=== 高级分组操作 ===")

# 使用transform进行组内标准化
sales_data['sales_zscore'] = sales_data.groupby('region')['sales'].transform(
    lambda x: (x - x.mean()) / x.std()
)
print("\n添加组内标准化后的数据:")
print(sales_data[['region', 'sales', 'sales_zscore']].head())

# 使用apply进行复杂计算
def region_analysis(group):
    return pd.Series({
        'total_sales': group['sales'].sum(),
        'avg_sales': group['sales'].mean(),
        'top_performer': group.loc[group['sales'].idxmax(), 'salesperson'],
        'sales_range': group['sales'].max() - group['sales'].min(),
        'coefficient_of_variation': group['sales'].std() / group['sales'].mean()
    })

region_detailed = sales_data.groupby('region').apply(region_analysis)
print("\n地区详细分析:")
print(region_detailed)

# 分位数和百分位数
print("\n各地区销售额分位数:")
region_quantiles = sales_data.groupby('region')['sales'].quantile([0.25, 0.5, 0.75]).unstack()
print(region_quantiles)

# 自定义聚合函数
def sales_metrics(series):
    return pd.Series({
        'total': series.sum(),
        'average': series.mean(),
        'volatility': series.std(),
        'peak_to_trough': series.max() - series.min(),
        'above_avg_count': (series > series.mean()).sum()
    })

custom_agg = sales_data.groupby('product')['sales'].apply(sales_metrics)
print("\n产品销售指标:")
print(custom_agg)

## 6. 数据合并与连接

数据合并是数据分析中的重要操作，pandas提供了多种合并数据的方法：join、merge、concat等。

In [None]:
# 创建示例数据集
customers = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5],
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'city': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'],
    'age': [25, 30, 35, 28, 32]
})

orders = pd.DataFrame({
    'order_id': [101, 102, 103, 104, 105, 106],
    'customer_id': [1, 2, 2, 3, 6, 7],  # 注意：6和7不在customers表中
    'product': ['Laptop', 'Phone', 'Tablet', 'Monitor', 'Keyboard', 'Mouse'],
    'amount': [1200, 800, 500, 300, 50, 25],
    'order_date': pd.to_datetime(['2023-01-15', '2023-01-16', '2023-01-17', 
                                  '2023-01-18', '2023-01-19', '2023-01-20'])
})

product_info = pd.DataFrame({
    'product': ['Laptop', 'Phone', 'Tablet', 'Monitor', 'Speaker'],
    'category': ['Electronics', 'Electronics', 'Electronics', 'Electronics', 'Audio'],
    'cost': [800, 500, 300, 200, 100]
})

print("客户数据:")
print(customers)
print("\n订单数据:")
print(orders)
print("\n产品信息:")
print(product_info)

print("\n=== 不同类型的合并 ===")

# 内连接 (Inner Join) - 只保留两个表都有的记录
inner_join = pd.merge(customers, orders, on='customer_id', how='inner')
print("\n内连接 (Inner Join):")
print(inner_join)

# 左连接 (Left Join) - 保留左表所有记录
left_join = pd.merge(customers, orders, on='customer_id', how='left')
print("\n左连接 (Left Join):")
print(left_join)

# 右连接 (Right Join) - 保留右表所有记录
right_join = pd.merge(customers, orders, on='customer_id', how='right')
print("\n右连接 (Right Join):")
print(right_join)

# 外连接 (Outer Join) - 保留两个表的所有记录
outer_join = pd.merge(customers, orders, on='customer_id', how='outer')
print("\n外连接 (Outer Join):")
print(outer_join)

In [None]:
# 多表连接
print("=== 多表连接 ===")

# 三表连接：客户 -> 订单 -> 产品信息
multi_join = (customers
              .merge(orders, on='customer_id', how='inner')
              .merge(product_info, on='product', how='left'))

print("\n三表连接结果:")
print(multi_join)

# 计算利润
multi_join['profit'] = multi_join['amount'] - multi_join['cost']
print("\n添加利润计算:")
print(multi_join[['name', 'product', 'amount', 'cost', 'profit']])

print("\n=== 不同连接键的合并 ===")

# 不同列名的连接
customers_alt = customers.rename(columns={'customer_id': 'cust_id'})
diff_key_merge = pd.merge(customers_alt, orders, 
                         left_on='cust_id', right_on='customer_id', how='inner')
print("\n不同列名连接:")
print(diff_key_merge[['cust_id', 'name', 'order_id', 'product']])

# 基于索引的连接
customers_indexed = customers.set_index('customer_id')
orders_indexed = orders.set_index('customer_id')
index_join = customers_indexed.join(orders_indexed, how='inner', rsuffix='_order')
print("\n基于索引的连接:")
print(index_join)

print("\n=== 使用concat进行数据连接 ===")

# 创建额外数据用于演示concat
customers_2023_q1 = pd.DataFrame({
    'customer_id': [6, 7, 8],
    'name': ['Frank', 'Grace', 'Henry'],
    'city': ['Seattle', 'Boston', 'Miami'],
    'age': [29, 31, 27]
})

customers_2023_q2 = pd.DataFrame({
    'customer_id': [9, 10, 11],
    'name': ['Ivy', 'Jack', 'Kate'],
    'city': ['Denver', 'Portland', 'Atlanta'],
    'age': [26, 33, 30]
})

# 垂直连接 (行拼接)
all_customers = pd.concat([customers, customers_2023_q1, customers_2023_q2], 
                         ignore_index=True)
print("\n垂直连接 (行拼接):")
print(all_customers)

# 水平连接 (列拼接)
customer_details = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5],
    'email': ['alice@email.com', 'bob@email.com', 'charlie@email.com', 
              'david@email.com', 'eve@email.com'],
    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', 
              '456-789-0123', '567-890-1234']
})

# 基于索引的水平连接
customers_extended = pd.concat([customers.set_index('customer_id'), 
                               customer_details.set_index('customer_id')], 
                              axis=1)
print("\n水平连接 (列拼接):")
print(customers_extended)

## 7. 时间序列处理

时间序列数据在金融、业务分析等领域非常常见。pandas提供了强大的时间序列处理功能。

In [None]:
# 创建时间序列数据
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 生成日期范围
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
print(f"日期范围: {date_range[:5]}...{date_range[-3:]}")
print(f"总天数: {len(date_range)}")

# 创建时间序列DataFrame
np.random.seed(42)
ts_data = pd.DataFrame({
    'date': date_range,
    'temperature': 20 + 10 * np.sin(2 * np.pi * np.arange(len(date_range)) / 365.25) + np.random.normal(0, 2, len(date_range)),
    'humidity': 50 + 20 * np.sin(2 * np.pi * np.arange(len(date_range)) / 365.25 + np.pi/4) + np.random.normal(0, 5, len(date_range)),
    'precipitation': np.random.exponential(2, len(date_range))
})

# 设置日期为索引
ts_data.set_index('date', inplace=True)
print("\n时间序列数据样本:")
print(ts_data.head())

print("\n=== 基本时间序列操作 ===")

# 日期时间属性提取
ts_data['year'] = ts_data.index.year
ts_data['month'] = ts_data.index.month
ts_data['day_of_week'] = ts_data.index.dayofweek
ts_data['day_name'] = ts_data.index.day_name()
ts_data['is_weekend'] = ts_data.index.dayofweek >= 5

print("\n添加日期属性后:")
print(ts_data[['temperature', 'year', 'month', 'day_of_week', 'day_name', 'is_weekend']].head())

# 时间范围选择
print("\n2023年3月的数据:")
march_data = ts_data['2023-03']
print(march_data.head())

print(f"\n3月平均温度: {march_data['temperature'].mean():.2f}°C")

# 季度重采样
quarterly_avg = ts_data.resample('Q').mean()
print("\n季度平均值:")
print(quarterly_avg)

# 月度统计
monthly_stats = ts_data.resample('M').agg({
    'temperature': ['mean', 'min', 'max'],
    'humidity': 'mean',
    'precipitation': 'sum'
})
print("\n月度统计:")
print(monthly_stats.head())

In [None]:
# 滑动窗口分析
print("=== 滑动窗口分析 ===")

# 7天移动平均
ts_data['temp_7day_ma'] = ts_data['temperature'].rolling(window=7).mean()
ts_data['temp_30day_ma'] = ts_data['temperature'].rolling(window=30).mean()

print("\n移动平均:")
print(ts_data[['temperature', 'temp_7day_ma', 'temp_30day_ma']].head(10))

# 滑动窗口统计
rolling_stats = ts_data['temperature'].rolling(window=30).agg(['mean', 'std', 'min', 'max'])
rolling_stats.columns = ['30day_mean', '30day_std', '30day_min', '30day_max']
ts_data = pd.concat([ts_data, rolling_stats], axis=1)

print("\n30天滑动窗口统计:")
print(ts_data[['temperature', '30day_mean', '30day_std', '30day_min', '30day_max']].dropna().head())

# 指数移动平均
ts_data['temp_ema'] = ts_data['temperature'].ewm(span=14).mean()
print("\n指数移动平均 vs 简单移动平均:")
comparison = ts_data[['temperature', 'temp_7day_ma', 'temp_ema']].dropna()
print(comparison.head())

print("\n=== 时间序列分析 ===")

# 季节性分解 (简单版本)
ts_data['month_avg'] = ts_data.groupby('month')['temperature'].transform('mean')
ts_data['seasonal'] = ts_data['temperature'] - ts_data['month_avg']
ts_data['trend'] = ts_data['temperature'].rolling(window=30, center=True).mean()
ts_data['residual'] = ts_data['temperature'] - ts_data['trend'] - ts_data['seasonal']

print("\n季节性分解:")
decomposition = ts_data[['temperature', 'trend', 'seasonal', 'residual']].dropna()
print(decomposition.head())

# 滞后变量和差分
ts_data['temp_lag1'] = ts_data['temperature'].shift(1)
ts_data['temp_lag7'] = ts_data['temperature'].shift(7)
ts_data['temp_diff1'] = ts_data['temperature'].diff()
ts_data['temp_diff7'] = ts_data['temperature'].diff(7)

print("\n滞后和差分变量:")
lag_diff = ts_data[['temperature', 'temp_lag1', 'temp_lag7', 'temp_diff1', 'temp_diff7']].dropna()
print(lag_diff.head())

# 相关性分析
correlation_matrix = ts_data[['temperature', 'humidity', 'precipitation']].corr()
print("\n气象变量相关性:")
print(correlation_matrix)

# 异常值检测 (基于标准差)
ts_data['temp_zscore'] = (ts_data['temperature'] - ts_data['temperature'].mean()) / ts_data['temperature'].std()
outliers = ts_data[abs(ts_data['temp_zscore']) > 2.5]
print(f"\n异常值数量 (|z-score| > 2.5): {len(outliers)}")
if len(outliers) > 0:
    print("异常值示例:")
    print(outliers[['temperature', 'temp_zscore']].head())

## 8. 数据透视表与交叉表

数据透视表是数据分析中强大的工具，可以快速汇总和重组数据。

In [None]:
# 创建扩展的销售数据用于透视表演示
np.random.seed(42)
extended_sales = pd.DataFrame({
    'date': pd.date_range('2023-01-01', '2023-12-31', freq='D'),
    'region': np.random.choice(['North', 'South', 'East', 'West'], 365),
    'product': np.random.choice(['Laptop', 'Phone', 'Tablet', 'Monitor', 'Keyboard'], 365),
    'salesperson': np.random.choice(['Alice', 'Bob', 'Charlie', 'David', 'Eve'], 365),
    'customer_type': np.random.choice(['Individual', 'Business'], 365),
    'sales_amount': np.random.randint(100, 2000, 365),
    'units_sold': np.random.randint(1, 20, 365)
})

extended_sales['month'] = extended_sales['date'].dt.month
extended_sales['quarter'] = extended_sales['date'].dt.quarter
extended_sales['day_of_week'] = extended_sales['date'].dt.day_name()

print("扩展销售数据样本:")
print(extended_sales.head())

print("\n=== 基础透视表 ===")

# 简单透视表：按地区和产品汇总销售额
pivot_basic = pd.pivot_table(extended_sales, 
                            values='sales_amount', 
                            index='region', 
                            columns='product', 
                            aggfunc='sum')
print("\n按地区和产品的销售额透视表:")
print(pivot_basic)

# 添加总计
pivot_with_totals = pd.pivot_table(extended_sales, 
                                  values='sales_amount', 
                                  index='region', 
                                  columns='product', 
                                  aggfunc='sum',
                                  margins=True,
                                  margins_name='总计')
print("\n带总计的透视表:")
print(pivot_with_totals)

print("\n=== 多值透视表 ===")

# 多个聚合值
multi_value_pivot = pd.pivot_table(extended_sales,
                                  values=['sales_amount', 'units_sold'],
                                  index='region',
                                  columns='customer_type',
                                  aggfunc={'sales_amount': 'sum', 'units_sold': 'sum'})
print("\n多值透视表 (销售额和销量):")
print(multi_value_pivot)

print("\n=== 多级索引透视表 ===")

# 多级行和列索引
multi_level_pivot = pd.pivot_table(extended_sales,
                                  values='sales_amount',
                                  index=['region', 'salesperson'],
                                  columns=['quarter', 'customer_type'],
                                  aggfunc='mean')
print("\n多级索引透视表:")
print(multi_level_pivot.head(10))

print("\n=== 不同聚合函数 ===")

# 使用不同的聚合函数
agg_functions_pivot = pd.pivot_table(extended_sales,
                                    values='sales_amount',
                                    index='product',
                                    columns='quarter',
                                    aggfunc=['sum', 'mean', 'count', 'std'])
print("\n多种聚合函数透视表:")
print(agg_functions_pivot)

# 自定义聚合函数
def sales_range(x):
    return x.max() - x.min()

custom_agg_pivot = pd.pivot_table(extended_sales,
                                 values='sales_amount',
                                 index='region',
                                 columns='product',
                                 aggfunc=[np.mean, sales_range])
print("\n自定义聚合函数透视表:")
print(custom_agg_pivot)

In [None]:
# 交叉表分析
print("=== 交叉表 ===")

# 简单交叉表：地区 vs 客户类型
crosstab_basic = pd.crosstab(extended_sales['region'], 
                           extended_sales['customer_type'])
print("\n地区 vs 客户类型交叉表:")
print(crosstab_basic)

# 带比例的交叉表
crosstab_prop = pd.crosstab(extended_sales['region'], 
                          extended_sales['customer_type'], 
                          normalize='index')  # 按行标准化
print("\n地区 vs 客户类型比例交叉表:")
print(crosstab_prop)

# 三维交叉表
crosstab_3d = pd.crosstab([extended_sales['region'], extended_sales['quarter']], 
                         extended_sales['customer_type'],
                         margins=True)
print("\n三维交叉表 (地区+季度 vs 客户类型):")
print(crosstab_3d)

# 带值的交叉表
crosstab_values = pd.crosstab(extended_sales['region'], 
                            extended_sales['product'],
                            values=extended_sales['sales_amount'],
                            aggfunc='mean')
print("\n带平均销售额的交叉表:")
print(crosstab_values)

print("\n=== 数据重塑 ===")

# 创建宽格式数据
sales_monthly = extended_sales.groupby(['region', 'month'])['sales_amount'].sum().reset_index()
print("\n月度销售数据:")
print(sales_monthly.head(10))

# 长格式转宽格式 (pivot)
wide_format = sales_monthly.pivot(index='region', columns='month', values='sales_amount')
print("\n宽格式数据 (每列是一个月):")
print(wide_format.head())

# 宽格式转长格式 (melt)
long_format = wide_format.reset_index().melt(id_vars='region', 
                                           var_name='month', 
                                           value_name='sales_amount')
print("\n转回长格式:")
print(long_format.head(10))

# 复杂的melt操作
complex_data = pd.DataFrame({
    'id': [1, 2, 3],
    'name': ['A', 'B', 'C'],
    'math_q1': [85, 90, 78],
    'math_q2': [88, 92, 80],
    'science_q1': [92, 88, 85],
    'science_q2': [90, 90, 87]
})

print("\n原始成绩数据:")
print(complex_data)

# 使用melt重塑数据
melted_scores = pd.melt(complex_data, 
                       id_vars=['id', 'name'],
                       var_name='subject_quarter', 
                       value_name='score')

# 分离科目和季度
melted_scores[['subject', 'quarter']] = melted_scores['subject_quarter'].str.split('_', expand=True)
melted_scores = melted_scores.drop('subject_quarter', axis=1)

print("\n重塑后的成绩数据:")
print(melted_scores)

# stack和unstack操作
print("\n=== Stack和Unstack ===")

# 创建多级索引数据
multi_index_data = extended_sales.groupby(['region', 'product'])['sales_amount'].sum()
print("\n多级索引数据:")
print(multi_index_data.head(10))

# unstack：将内层索引转为列
unstacked = multi_index_data.unstack()
print("\n Unstack后 (产品作为列):")
print(unstacked.head())

# stack：将列转为内层索引
restacked = unstacked.stack()
print("\n重新Stack:")
print(restacked.head(10))

## 9. 基础数据可视化

虽然专门的可视化会在matplotlib教程中详细介绍，但pandas提供了快速绘图功能，对数据探索非常有用。

In [None]:
# pandas内置绘图功能
import matplotlib.pyplot as plt

# 设置中文字体和图形样式
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei']  # 支持中文
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

print("=== 基础绘图 ===")

# 创建示例数据
sample_data = extended_sales.groupby('date')['sales_amount'].sum().resample('W').mean()

# 线图
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
sample_data.plot(title='周平均销售额趋势', color='blue')
plt.ylabel('销售额')

# 柱状图
plt.subplot(2, 2, 2)
region_sales = extended_sales.groupby('region')['sales_amount'].sum()
region_sales.plot(kind='bar', title='各地区总销售额', color='green')
plt.ylabel('销售额')
plt.xticks(rotation=45)

# 饼图
plt.subplot(2, 2, 3)
product_sales = extended_sales.groupby('product')['sales_amount'].sum()
product_sales.plot(kind='pie', title='产品销售额分布', autopct='%1.1f%%')

# 直方图
plt.subplot(2, 2, 4)
extended_sales['sales_amount'].plot(kind='hist', bins=30, title='销售额分布', alpha=0.7)
plt.xlabel('销售额')
plt.ylabel('频次')

plt.tight_layout()
plt.show()

print("\n=== 高级绘图 ===")

# 箱线图
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
extended_sales.boxplot(column='sales_amount', by='region', ax=plt.gca())
plt.title('各地区销售额箱线图')
plt.suptitle('')  # 移除默认标题

# 散点图矩阵
plt.subplot(1, 2, 2)
numeric_data = extended_sales[['sales_amount', 'units_sold', 'month', 'quarter']]
pd.plotting.scatter_matrix(numeric_data, alpha=0.5, figsize=(6, 6), diagonal='hist')
plt.suptitle('数值变量散点图矩阵')

plt.tight_layout()
plt.show()

# 时间序列可视化
plt.figure(figsize=(14, 8))

# 月度趋势
monthly_sales = extended_sales.groupby([extended_sales['date'].dt.to_period('M'), 'region'])['sales_amount'].sum().unstack()

plt.subplot(2, 1, 1)
monthly_sales.plot(title='各地区月度销售趋势', marker='o')
plt.ylabel('销售额')
plt.legend(title='地区')

# 累计销售额
plt.subplot(2, 1, 2)
cumulative_sales = extended_sales.groupby('date')['sales_amount'].sum().cumsum()
cumulative_sales.plot(title='累计销售额', color='red', linewidth=2)
plt.ylabel('累计销售额')

plt.tight_layout()
plt.show()

print("\n=== 相关性热力图 ===")

# 计算相关性矩阵
correlation_data = extended_sales[['sales_amount', 'units_sold', 'month', 'quarter']].corr()

# 使用matplotlib绘制热力图
plt.figure(figsize=(8, 6))
plt.imshow(correlation_data, cmap='coolwarm', aspect='auto')
plt.colorbar()
plt.xticks(range(len(correlation_data.columns)), correlation_data.columns, rotation=45)
plt.yticks(range(len(correlation_data.columns)), correlation_data.columns)
plt.title('变量相关性热力图')

# 添加数值标签
for i in range(len(correlation_data.columns)):
    for j in range(len(correlation_data.columns)):
        plt.text(j, i, f'{correlation_data.iloc[i, j]:.2f}', 
                ha='center', va='center', color='white')

plt.tight_layout()
plt.show()

print("可视化完成！注意：")
print("1. pandas的plot()方法基于matplotlib")
print("2. 适合快速数据探索和原型制作")
print("3. 更复杂的可视化建议使用matplotlib或seaborn")
print("4. 交互式可视化可以考虑plotly或bokeh")

## 10. 高级特性与最佳实践

这一节涵盖pandas的高级功能和在实际项目中的最佳实践。

In [None]:
# 性能优化与内存管理
import time
import sys

print("=== 性能优化技巧 ===")

# 创建大数据集用于性能测试
large_data = pd.DataFrame({
    'id': range(100000),
    'category': np.random.choice(['A', 'B', 'C', 'D'], 100000),
    'value': np.random.randn(100000),
    'date': pd.date_range('2020-01-01', periods=100000, freq='min')
})

print(f"数据集大小: {large_data.shape}")
print(f"内存使用: {large_data.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# 数据类型优化
print("\n=== 数据类型优化 ===")

# 查看原始数据类型
print("原始数据类型:")
print(large_data.dtypes)
print(f"原始内存使用: {large_data.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# 优化数据类型
optimized_data = large_data.copy()

# 将category列转为category类型
optimized_data['category'] = optimized_data['category'].astype('category')

# 将value列转为float32（如果精度允许）
optimized_data['value'] = optimized_data['value'].astype('float32')

print("\n优化后数据类型:")
print(optimized_data.dtypes)
print(f"优化后内存使用: {optimized_data.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

memory_saved = (large_data.memory_usage(deep=True).sum() - optimized_data.memory_usage(deep=True).sum()) / 1024**2
print(f"节省内存: {memory_saved:.2f} MB ({memory_saved/large_data.memory_usage(deep=True).sum()*1024**2*100:.1f}%)")

# 向量化操作 vs 循环
print("\n=== 向量化操作性能对比 ===")

# 创建测试数据
test_data = pd.Series(np.random.randn(50000))

# 方法1：使用循环（不推荐）
start_time = time.time()
result_loop = []
for value in test_data:
    if value > 0:
        result_loop.append(value * 2)
    else:
        result_loop.append(value / 2)
loop_time = time.time() - start_time

# 方法2：使用向量化操作（推荐）
start_time = time.time()
result_vectorized = np.where(test_data > 0, test_data * 2, test_data / 2)
vectorized_time = time.time() - start_time

print(f"循环方法耗时: {loop_time:.4f} 秒")
print(f"向量化方法耗时: {vectorized_time:.4f} 秒")
print(f"向量化提速: {loop_time/vectorized_time:.1f}x")

# 使用eval()和query()进行快速计算
print("\n=== eval()和query()优化 ===")

# 创建测试数据
df_eval = pd.DataFrame({
    'A': np.random.randn(10000),
    'B': np.random.randn(10000),
    'C': np.random.randn(10000)
})

# 传统方法
start_time = time.time()
result_traditional = df_eval[(df_eval['A'] > 0) & (df_eval['B'] < 0.5)]['C'].sum()
traditional_time = time.time() - start_time

# 使用query()
start_time = time.time()
result_query = df_eval.query('A > 0 and B < 0.5')['C'].sum()
query_time = time.time() - start_time

# 使用eval()进行计算
start_time = time.time()
df_eval['D'] = df_eval.eval('A + B * C')
eval_time = time.time() - start_time

print(f"传统筛选耗时: {traditional_time:.4f} 秒")
print(f"query()筛选耗时: {query_time:.4f} 秒")
print(f"eval()计算耗时: {eval_time:.4f} 秒")

print("\n=== 大文件处理技巧 ===")

# 分块读取大文件
def process_large_file_demo():
    """演示分块处理大文件的方法"""
    
    # 模拟创建大文件
    sample_large_data = pd.DataFrame({
        'id': range(50000),
        'value': np.random.randn(50000),
        'category': np.random.choice(['X', 'Y', 'Z'], 50000)
    })
    
    # 保存为CSV
    sample_large_data.to_csv('/tmp/large_file.csv', index=False)
    
    # 分块读取和处理
    chunk_size = 10000
    total_sum = 0
    category_counts = {}
    
    for chunk in pd.read_csv('/tmp/large_file.csv', chunksize=chunk_size):
        # 处理每个chunk
        total_sum += chunk['value'].sum()
        
        # 累计类别计数
        for category, count in chunk['category'].value_counts().items():
            category_counts[category] = category_counts.get(category, 0) + count
    
    print(f"总和: {total_sum:.2f}")
    print(f"类别计数: {category_counts}")

# 调用演示函数
process_large_file_demo()

print("\n=== 索引优化 ===")

# 创建测试数据
test_df = pd.DataFrame({
    'key': np.random.choice(['A', 'B', 'C'], 10000),
    'value': np.random.randn(10000)
})

# 无索引查询
start_time = time.time()
result_no_index = test_df[test_df['key'] == 'A']['value'].mean()
no_index_time = time.time() - start_time

# 设置索引后查询
indexed_df = test_df.set_index('key')
start_time = time.time()
result_with_index = indexed_df.loc['A']['value'].mean()
with_index_time = time.time() - start_time

print(f"无索引查询耗时: {no_index_time:.4f} 秒")
print(f"有索引查询耗时: {with_index_time:.4f} 秒")
print(f"索引提速: {no_index_time/with_index_time:.1f}x")

In [None]:
# 最佳实践和代码风格
print("=== 最佳实践 ===")

# 1. 方法链式调用
print("1. 方法链式调用 (Method Chaining):")

# 不推荐的方式
df_temp = extended_sales.copy()
df_temp = df_temp[df_temp['sales_amount'] > 500]
df_temp = df_temp.groupby('region')['sales_amount'].mean()
df_temp = df_temp.sort_values(ascending=False)

# 推荐的链式调用
result_chained = (extended_sales
                 .query('sales_amount > 500')
                 .groupby('region')['sales_amount']
                 .mean()
                 .sort_values(ascending=False))

print("链式调用结果:")
print(result_chained)

# 2. 使用assign创建新列
print("\n2. 使用assign()创建新列:")

# 传统方式
df_traditional = extended_sales.copy()
df_traditional['profit_margin'] = df_traditional['sales_amount'] * 0.2
df_traditional['is_high_value'] = df_traditional['sales_amount'] > 1000

# 使用assign（更优雅）
df_assigned = (extended_sales
              .assign(profit_margin=lambda x: x['sales_amount'] * 0.2,
                     is_high_value=lambda x: x['sales_amount'] > 1000))

print("使用assign创建的列:")
print(df_assigned[['sales_amount', 'profit_margin', 'is_high_value']].head())

# 3. 条件逻辑的优雅处理
print("\n3. 条件逻辑处理:")

# 使用np.select进行多条件分类
conditions = [
    extended_sales['sales_amount'] < 300,
    extended_sales['sales_amount'] < 700,
    extended_sales['sales_amount'] < 1200
]
choices = ['低', '中', '高']
extended_sales['销售等级'] = np.select(conditions, choices, default='很高')

print("销售等级分布:")
print(extended_sales['销售等级'].value_counts())

print("\n=== 实际案例：电商数据分析 ===")

# 创建模拟电商数据
np.random.seed(42)
ecommerce_data = pd.DataFrame({
    'order_id': range(1, 1001),
    'customer_id': np.random.randint(1, 201, 1000),
    'product_category': np.random.choice(['Electronics', 'Clothing', 'Books', 'Home', 'Sports'], 1000),
    'order_value': np.random.exponential(100, 1000) + 20,
    'order_date': pd.date_range('2023-01-01', periods=1000, freq='H'),
    'shipping_cost': np.random.uniform(5, 50, 1000),
    'customer_rating': np.random.choice([1, 2, 3, 4, 5], 1000, p=[0.05, 0.1, 0.15, 0.35, 0.35])
})

print("电商数据样本:")
print(ecommerce_data.head())

# 综合分析流程
analysis_result = (ecommerce_data
    # 1. 数据清洗
    .assign(
        net_value=lambda x: x['order_value'] - x['shipping_cost'],
        order_month=lambda x: x['order_date'].dt.to_period('M'),
        is_high_rating=lambda x: x['customer_rating'] >= 4
    )
    # 2. 筛选有效订单
    .query('order_value > 0 and shipping_cost > 0')
    # 3. 分组分析
    .groupby(['product_category', 'order_month'])
    .agg({
        'order_value': ['count', 'mean', 'sum'],
        'net_value': 'mean',
        'customer_rating': 'mean',
        'is_high_rating': 'mean'
    })
    # 4. 重新整理列名
    .round(2)
)

print("\n电商数据综合分析结果:")
print(analysis_result.head(10))

# 客户价值分析
customer_analysis = (ecommerce_data
    .groupby('customer_id')
    .agg({
        'order_id': 'count',  # 订单频次
        'order_value': ['sum', 'mean'],  # 总消费和平均消费
        'customer_rating': 'mean',  # 平均评分
        'order_date': ['min', 'max']  # 首次和最近购买时间
    })
    .round(2)
)

# 展平多级列名
customer_analysis.columns = ['_'.join(col).strip() for col in customer_analysis.columns]

# 计算客户生命周期
customer_analysis['days_between_orders'] = (
    pd.to_datetime(customer_analysis['order_date_max']) - 
    pd.to_datetime(customer_analysis['order_date_min'])
).dt.days

# 客户分层
customer_analysis['customer_tier'] = pd.cut(
    customer_analysis['order_value_sum'], 
    bins=[0, 200, 500, 1000, float('inf')],
    labels=['Bronze', 'Silver', 'Gold', 'Platinum']
)

print("\n客户价值分析 (前10名):")
top_customers = customer_analysis.sort_values('order_value_sum', ascending=False).head(10)
print(top_customers[['order_id_count', 'order_value_sum', 'order_value_mean', 'customer_tier']])

print("\n客户分层统计:")
print(customer_analysis['customer_tier'].value_counts())

print("\n=== 练习题 ===")
print("基于上面的电商数据，尝试完成以下分析：")
print("1. 找出每个产品类别中评分最高的订单")
print("2. 计算每月的收入增长率")
print("3. 识别可能流失的客户（最近30天无订单）")
print("4. 分析不同评分等级的订单价值分布")
print("5. 计算各产品类别的利润率（假设成本为订单价值的60%）")

# 提供部分解答示例
print("\n解答示例1 - 每个产品类别中评分最高的订单:")
best_orders = (ecommerce_data
              .loc[ecommerce_data.groupby('product_category')['customer_rating'].idxmax()]
              [['product_category', 'order_id', 'customer_rating', 'order_value']])
print(best_orders)

print("\n本节总结:")
print("- 掌握了pandas的核心功能：数据结构、操作、分组、合并、时间序列")
print("- 学会了数据清洗、预处理和质量控制")
print("- 了解了透视表、交叉表等数据分析工具")
print("- 掌握了性能优化和最佳实践")
print("- 通过实际案例练习了综合数据分析流程")
print("\n下一步：学习matplotlib进行高级数据可视化！")

## 11. 总结与进阶方向

### 本节学习内容回顾

✅ **数据结构基础**: Series和DataFrame的创建、属性和基本操作  
✅ **索引与选择**: 各种索引方法、条件筛选、布尔索引  
✅ **数据清洗**: 处理缺失值、重复值、数据类型转换、异常值检测  
✅ **分组与聚合**: GroupBy操作、自定义聚合函数、数据变换  
✅ **数据合并**: merge、join、concat的不同用法和场景  
✅ **时间序列**: 日期时间处理、重采样、滑动窗口分析  
✅ **透视表**: pivot_table、交叉表、数据重塑  
✅ **数据可视化**: pandas内置绘图功能  
✅ **性能优化**: 内存管理、向量化操作、最佳实践  
✅ **实际应用**: 电商数据分析综合案例  

### 核心技能掌握检查

**基础操作** (必须掌握)
- [ ] 创建和操作DataFrame和Series
- [ ] 数据选择和筛选
- [ ] 基本统计分析
- [ ] 数据导入导出

**中级技能** (重要)
- [ ] 数据清洗和预处理
- [ ] 分组聚合操作
- [ ] 数据合并和连接
- [ ] 基础可视化

**高级技能** (推荐)
- [ ] 时间序列分析
- [ ] 透视表和数据重塑
- [ ] 性能优化
- [ ] 复杂数据分析流程

### 实践建议

1. **多做项目**: 用真实数据集练习，如Kaggle数据集
2. **建立习惯**: 始终进行数据质量检查和探索性分析
3. **性能意识**: 处理大数据时考虑内存和计算效率
4. **文档化**: 为复杂的数据处理流程写注释和文档

### 常见错误和注意事项

⚠️ **避免的错误**:
- 忘记检查数据类型和缺失值
- 过度使用循环而不用向量化操作
- 不备份原始数据就进行修改
- 忽略索引对齐问题

✅ **推荐做法**:
- 数据分析前先做.info()和.describe()
- 使用方法链提高代码可读性
- 适当使用category类型节省内存
- 为重要的中间结果创建检查点

### 下一步学习路径

**立即可学**:
- **Matplotlib** (`04_matplotlib.ipynb`): 深入学习数据可视化
- **NumPy高级特性**: 结合numpy进行更高效的数值计算

**后续深入**:
- **机器学习**: 使用pandas为scikit-learn准备数据
- **大数据工具**: Dask、Vaex等处理超大数据集
- **数据库**: 学习SQL与pandas的结合使用

### 推荐资源

📚 **官方文档和教程**:
- [Pandas官方文档](https://pandas.pydata.org/docs/)
- [10 Minutes to pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)

📊 **实践平台**:
- [Kaggle Learn - Pandas](https://www.kaggle.com/learn/pandas)
- [DataCamp - Pandas课程](https://www.datacamp.com/courses/data-manipulation-with-python)

🎯 **练习数据集**:
- Titanic数据集 (Kaggle)
- 股票价格数据
- 天气数据
- 电商销售数据

### 进阶主题

当你熟练掌握基础pandas后，可以探索：

1. **Pandas扩展**: 
   - pandas-profiling (自动数据分析报告)
   - plotly.express (交互式可视化)
   - seaborn (统计可视化)

2. **大数据处理**:
   - Dask (并行计算)
   - Vaex (内存外计算)
   - Apache Arrow (列式存储)

3. **专业领域应用**:
   - 金融数据分析 (pandas-ta, yfinance)
   - 时间序列分析 (statsmodels, prophet)
   - 地理数据 (geopandas)

现在你已经具备了强大的数据处理能力，可以开始学习数据可视化和机器学习了！