# Pandas示例

## Series示例

### 创建Series

In [None]:
# 创建Series的示例
import numpy as np
import pandas as pd

s = pd.Series([1, 3, 5, np.nan, 6, 8]) # 引入numpy处理NaN，且作用默认的数字索引
print(s)

s2 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])  # 指定索引
print(s2)

data = {'apple': 30, 'banana': 50, 'cherry': 20}   # 基于字典创建Series
s3 = pd.Series(data)
print(f"\n基于字典创建Series:\n{s3}")

arr = np.array([1, 2, 3])
s4 = pd.Series(arr, index=['a', 'b', 'c'])
print(f"\n基于NumPy数组创建Series:\n{s4}")

print("\n使用标签对元素进行访问")
print(s2['b'])      # 使用标签访问
print(s2[1])        # 使用位置访问 (如果索引是整数，注意区分)，即将废弃，建议使用下面的iloc[]方式替代
print(s2.iloc[1])
print(s2[['a', 'c']]) # 使用标签列表访问多个元素

print("\n切片")
print(s2[0:2])      # 使用位置切片 (左闭右开)
print(s2['a':'c'])  # 使用标签切片 (左闭右闭)

print(s2 * 2)  # 数学运算乘
print(s2 + 10)  # 数学运算加

s4 = pd.Series([1, 2, 3], index=['a', 'b', 'e'])
print(s2 + s4) # 没有对齐的索引位置会产生 NaN

### Series支持的方法

In [None]:
# Series支持的方法示例
import pandas as pd
import numpy as np

# --- 1. 创建 Series ---
print("--- 1. 创建 Series ---")
# 假设我们有一个班级学生的考试分数数据，其中可能包含缺失值
scores_data = [85, 92, np.nan, 78, 95, 60, 88, 92, 78, 90, 75, np.nan]
# 创建Series，并指定一些自定义索引
student_ids = [f'S{i:02d}' for i in range(1, len(scores_data) + 1)]
scores = pd.Series(scores_data, index=student_ids, name='考试分数')
print("原始 Series:")
print(scores)
print("-" * 30)

# --- 2. 访问与选择 ---
print("\n--- 2. 访问与选择 ---")
print("选择索引为 'S03' 的分数:", scores.loc['S03'])
print("选择索引为 0 的分数 (使用整数位置):", scores.iloc[0])
print("选择前 3 个分数 (切片):")
print(scores[:3])
print("选择分数大于 90 的学生:")
print(scores[scores > 90])
print("-" * 30)

# --- 3. 算术与统计 ---
print("\n--- 3. 算术与统计 ---")
print("分数的总和:", scores.sum())
print("分数的平均值:", scores.mean())
print("分数的最大值:", scores.max())
print("分数的最小值:", scores.min())
print("非空分数的数量:", scores.count())
print("分数的描述性统计:")
print(scores.describe())
print("-" * 30)

# --- 4. 数据清洗与处理 ---
print("\n--- 4. 数据清洗与处理 ---")
print("检查哪些分数是缺失值:")
print(scores.isnull())
print("删除缺失值后的 Series:")
scores_cleaned = scores.dropna()
print(scores_cleaned)
print("用 0 填充缺失值后的 Series:")
scores_filled = scores.fillna(0)
print(scores_filled)

# 替换某个值
scores_replaced = scores.replace(92, 93) # 将所有92替换为93
print("将 92 替换为 93 后的 Series:")
print(scores_replaced)
print("-" * 30)

# --- 5. 排序与排名 ---
print("\n--- 5. 排序与排名 ---")
print("按分数降序排序:")
print(scores_cleaned.sort_values(ascending=False))
print("按索引升序排序:")
print(scores.sort_index())
print("计算分数的排名 (默认升序):")
print(scores.rank())
print("-" * 30)

# --- 6. 唯一值与计数 ---
print("\n--- 6. 唯一值与计数 ---")
print("所有唯一分数:", scores.unique())
print("唯一分数的数量:", scores.nunique())
print("每个分数出现的次数:")
print(scores.value_counts())
print("-" * 30)

# --- 7. 类型转换 (示例：转换为整数) ---
print("\n--- 7. 类型转换 ---")
# 注意：转换为整数时会因为NaN报错，需要先处理NaN
scores_int = scores.fillna(0).astype(int)
print("转换为整数类型后的Series (缺失值填充0):")
print(scores_int)
print("-" * 30)

# --- 8. 应用函数 (apply) ---
print("\n--- 8. 应用函数 (apply) ---")
# 对每个分数进行加权（例如，加 5 分）
scores_adjusted = scores.apply(lambda x: x + 5 if not pd.isna(x) else x)
print("分数加 5 后的 Series:")
print(scores_adjusted)

# 定义一个更复杂的函数
def grade_level(score):
    if pd.isna(score):
        return '缺考'
    elif score >= 90:
        return '优秀'
    elif score >= 80:
        return '良好'
    elif score >= 60:
        return '及格'
    else:
        return '不及格'

grades = scores.apply(grade_level)
print("根据分数判断等级的 Series:")
print(grades)
print("-" * 30)

## DataFrame示例

### 创建DataFrame

In [None]:
# 从字典创建 DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 30, 22, 28],
    '城市': ['北京', '上海', '广州', '深圳']
}
df = pd.DataFrame(data)
print("从字典创建的DataFrame:")
print(df)

# 指定索引和列名创建 DataFrame
dates = pd.date_range('20250701', periods=6)
df2 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print("\n指定索引和列名创建的DataFrame:")
print(df2)

# 从列表的列表创建 DataFrame
data_list = [['张三', 25, '北京'], ['李四', 30, '上海']]
df3 = pd.DataFrame(data_list, columns=['姓名', '年龄', '城市'])
print("\n从列表的列表创建的DataFrame:")
print(df3)

### DataFrame的基本操作

In [None]:
# 查看数据
print("\nDataFrame 头部数据:")
print(df.head(2)) # 查看前两行
print("\nDataFrame 尾部数据:")
print(df.tail(1)) # 查看后一行

# 查看索引、列和值
print("\nDataFrame索引:", df.index)
print("DataFrame列名:", df.columns)
print("DataFrame值 (NumPy数组):", df.values)

# 查看数据类型
print("\nDataFrame数据类型:")
print(df.info())

# 查看统计摘要
print("\nDataFrame统计摘要:")
print(df.describe())

# 转置
print("\nDataFrame转置:")
print(df.T)

### DataFrame常用方法示例

In [None]:
import pandas as pd
import numpy as np

# 创建模拟数据
data = {
    '订单ID': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
    '商品': ['T恤', '牛仔裤', '鞋子', 'T恤', '帽子', '鞋子', '裙子', 'T恤', '牛仔裤', '鞋子'],
    '地区': ['华东', '华北', '华南', '华东', '华北', '华东', '华南', '华中', '华北', '华东'],
    '销量': [150, 120, 80, 200, 50, 90, 110, 180, 130, 70],
    '单价': [50.0, 80.0, 120.0, 55.0, 30.0, 130.0, 90.0, 60.0, 85.0, 125.0],
    '订单日期': pd.to_datetime(['2024-01-10', '2024-01-15', '2024-02-01', '2024-02-05',
                                 '2024-02-10', '2024-03-01', '2024-03-05', '2024-03-10',
                                 '2024-03-15', '2024-03-20']),
    '备注': ['正常', np.nan, '促销', '正常', np.nan, '退货', '促销', '正常', '缺货', '正常']
}

df = pd.DataFrame(data)
# 设定 '订单ID' 为索引
df = df.set_index('订单ID')

# 1. DataFrame的创建与基本信息
print("--- 1. DataFrame 的创建与基本信息 ---")
print("原始 DataFrame:")
print(df)
print("\nDataFrame 的形状 (行数, 列数):", df.shape)
print("DataFrame 的列名:", df.columns.tolist())
print("DataFrame 的索引:", df.index.tolist())
print("DataFrame 每列的数据类型:")
print(df.dtypes)
print("\nDataFrame 的信息摘要:")
df.info()
print("\nDataFrame 的头部 (前3行):")
print(df.head(3))
print("\nDataFrame 的尾部 (后2行):")
print(df.tail(2))
print("\nDataFrame 是否为空:", df.empty)
print("-" * 50)

#### 数据选择与切片

In [None]:
print("\n--- 2. 数据选择与切片 ---")
# 选择单列
print("选择 '商品' 列:")
print(df['商品'].head())

# 选择多列
print("\n选择 '商品' 和 '销量' 列:")
print(df[['商品', '销量']].head())

# 使用 .loc (基于标签)
print("\n使用 .loc 选择 '订单ID' 为 1003 的行:")
print(df.loc[1003])
print("\n使用 .loc 选择 '订单ID' 为 1001 到 1004 的 '商品' 和 '销量' 列:")
print(df.loc[1001:1004, ['商品', '销量']])

# 使用 .iloc (基于位置)
print("\n使用 .iloc 选择第 1 行 (索引为 0) 的数据:")
print(df.iloc[0])
print("\n使用 .iloc 选择第 0 到 2 行，以及第 0 和 2 列:")
print(df.iloc[0:3, [0, 2]]) # 商品和销量列

# 布尔索引
print("\n选择销量大于 100 的所有订单:")
print(df[df['销量'] > 100])
print("\n选择 '地区' 为 '华东' 且 '销量' 大于 100 的订单:")
print(df[(df['地区'] == '华东') & (df['销量'] > 100)])
print("-" * 50)

#### 数据清洗与处理

In [None]:
print("\n--- 3. 数据清洗与处理 ---")
# 检查缺失值
print("检查 DataFrame 中的缺失值:")
print(df.isnull())
print("\n每列的缺失值数量:")
print(df.isnull().sum())

# 填充缺失值
df_filled = df.copy()
df_filled['备注'] = df_filled['备注'].fillna('无备注')
print("\n填充 '备注' 列缺失值 (用 '无备注') 后的 DataFrame:")
print(df_filled)

# 删除缺失值 (这里只演示，不修改原始df)
df_dropna = df.dropna(subset=['备注']) # 只删除 '备注' 列有缺失值的行
print("\n删除 '备注' 列缺失值后的 DataFrame (只看前几行):")
print(df_dropna.head())

# 添加重复行进行演示
df_dup = df.copy()
df_dup.loc[1011] = df.loc[1001] # 添加一行与 1001 相同的记录
print("\n带有重复行的 DataFrame (新添加 1011):")
print(df_dup)

# 标记重复行
print("\n标记重复行 (保留第一个):")
print(df_dup.duplicated())
print("\n删除重复行后的 DataFrame:")
print(df_dup.drop_duplicates())

# 替换值
df_replaced = df.copy()
df_replaced['地区'] = df_replaced['地区'].replace('华东', '华东区域')
print("\n将 '华东' 替换为 '华东区域' 后的 DataFrame:")
print(df_replaced['地区'])

# 数据类型转换 (例如，将 '销量' 转换为浮点型，如果它不是的话)
# df['销量'] = df['销量'].astype(float)
# print("\n'销量' 列转换为浮点型后的数据类型:", df['销量'].dtype)
print("-" * 50)

#### 算术与统计

In [None]:
print("\n--- 4. 算术与统计 ---")
# 新增一列：销售额
df['销售额'] = df['销量'] * df['单价']
print("新增 '销售额' 列后的 DataFrame:")
print(df.head())

# 每列的平均值
print("\n每列的平均值:")
print(df[['销量', '单价', '销售额']].mean())

# 每列的总和
print("\n每列的总和:")
print(df[['销量', '销售额']].sum())

# 最大值和最小值
print("\n'销量' 的最大值:", df['销量'].max())
print("'单价' 的最小值:", df['单价'].min())

# 描述性统计
print("\n数值列的描述性统计:")
print(df.describe())

# 计算列之间的相关性
print("\n'销量' 和 '单价' 之间的相关系数:")
print(df['销量'].corr(df['单价']))
print("\n所有数值列之间的相关矩阵:")
print(df.corr(numeric_only=True)) # numeric_only=True 用于只计算数值列
print("-" * 50)

#### 函数应用

In [None]:
print("\n--- 5. 函数应用 ---")
# 使用 apply 对列进行操作 (axis=0)
# 根据销量判断商品受欢迎程度
def popularity(sales):
    if sales >= 150:
        return '非常受欢迎'
    elif sales >= 100:
        return '受欢迎'
    else:
        return '一般'

df['受欢迎程度'] = df['销量'].apply(popularity)
print("新增 '受欢迎程度' 列后的 DataFrame:")
print(df[['销量', '受欢迎程度']])

# 使用 apply 对行进行操作 (axis=1)
# 计算每笔订单的毛利润 (假设毛利率为 30%)
df['毛利润'] = df.apply(lambda row: row['销售额'] * 0.30, axis=1)
print("\n新增 '毛利润' 列后的 DataFrame:")
print(df[['销售额', '毛利润']].head())

# 使用 applymap 对每个单元格操作 (只适用于元素级别的操作)
# 将所有数值都加 100 (不常用，但用于演示)
# numeric_df = df.select_dtypes(include=np.number)
# df_plus_100 = numeric_df.applymap(lambda x: x + 100 if not pd.isna(x) else x)
# print("\n所有数值加 100 后的 DataFrame (部分列):")
# print(df_plus_100.head())
print("-" * 50)

#### 排序与排名

In [None]:
print("\n--- 6. 排序与排名 ---")
# 按单列排序
print("按 '销量' 降序排序:")
print(df.sort_values(by='销量', ascending=False).head())

# 按多列排序
print("\n按 '地区' 升序，然后按 '销售额' 降序排序:")
print(df.sort_values(by=['地区', '销售额'], ascending=[True, False]).head())

# 按索引排序
print("\n按索引降序排序:")
print(df.sort_index(ascending=False).head())

# 排名
df['销量排名'] = df['销量'].rank(ascending=False, method='min') # 销量高的排名靠前，并使用'min'方法处理并列
print("\n新增 '销量排名' 列:")
print(df[['销量', '销量排名']].sort_values(by='销量', ascending=False))
print("-" * 50)

#### 数据合并与连接

In [None]:
print("\n--- 7. 数据合并与连接 ---")
# 示例数据
df_jan = df[df['订单日期'].dt.month == 1].copy()
df_feb = df[df['订单日期'].dt.month == 2].copy()

# concat (行连接)
print("按行连接一月和二月的数据 (concat):")
df_jan_feb = pd.concat([df_jan, df_feb])
print(df_jan_feb)

# concat (列连接 - 需要对齐索引或使用 ignore_index=True)
# 这里为了演示，我们创建一个有相同索引的辅助DataFrame
additional_info = pd.DataFrame({
    '客户满意度': ['高', '中', '高', '高', '低', '中', '高', '中', '高', '中']
}, index=df.index)
df_combined_cols = pd.concat([df, additional_info], axis=1)
print("\n按列连接 DataFrame (concat):")
print(df_combined_cols.head())

# merge (类似于 SQL JOIN)
# 创建一个商品类别信息 DataFrame
product_categories = pd.DataFrame({
    '商品': ['T恤', '牛仔裤', '鞋子', '帽子', '裙子'],
    '类别': ['服装', '服装', '鞋类', '配饰', '服装']
})

df_merged = pd.merge(df, product_categories, on='商品', how='left')
print("\n通过 '商品' 列进行左连接 (merge):")
print(df_merged.head())

# 示例：内连接（只保留共同的商品）
product_price_update = pd.DataFrame({
    '商品': ['T恤', '牛仔裤', '手机'], # 注意这里有一个'手机'
    '新单价': [52.0, 82.0, 1000.0]
})
df_inner_merged = pd.merge(df, product_price_update, on='商品', how='inner')
print("\n通过 '商品' 列进行内连接 (merge - 只保留共同商品):")
print(df_inner_merged)
print("-" * 50)

#### 分组与聚合 (GroupBy)

In [None]:
print("\n--- 8. 分组与聚合 (GroupBy) ---")
# 按 '地区' 分组，计算每个地区的总销量
print("按 '地区' 分组，计算总销量:")
print(df.groupby('地区')['销量'].sum())

# 按 '商品' 分组，计算每个商品的平均单价和总销售额
print("\n按 '商品' 分组，计算平均单价和总销售额:")
print(df.groupby('商品').agg(
    平均单价=('单价', 'mean'),
    总销售额=('销售额', 'sum'),
    订单数量=('订单ID', 'count')
))

# 多重分组
print("\n按 '地区' 和 '商品' 分组，计算总销量:")
print(df.groupby(['地区', '商品'])['销量'].sum())
print("-" * 50)

#### 数据重塑与透视 (Pivot, Pivot Table, Stack/Unstack)

In [None]:
print("\n--- 9. 数据重塑与透视 ---")
# 创建一个简化的DataFrame用于透视表演示
df_pivot_data = df[['订单日期', '地区', '销量']].copy()
df_pivot_data['订单月份'] = df_pivot_data['订单日期'].dt.month

# 数据透视表 (pivot_table)
# 按月份和地区汇总销量
pivot_table = pd.pivot_table(df_pivot_data,
                             values='销量',
                             index='订单月份',
                             columns='地区',
                             aggfunc='sum',
                             fill_value=0)
print("按月份和地区汇总销量的透视表:")
print(pivot_table)

# pivot (更简单的重塑，需要唯一索引)
# 例如，想看每个商品的各地区销量，但要求地区和商品组合唯一
# df_pivot_simple = df.pivot(index='商品', columns='地区', values='销量')
# print("\n简单的 pivot 示例:")
# print(df_pivot_simple)


# Stack/Unstack (从“宽”到“长”和从“长”到“宽”的转换)
# 先将透视表堆叠 (stack)
stacked_pivot = pivot_table.stack()
print("\n堆叠 (Stack) 后的数据:")
print(stacked_pivot)

# 再将堆叠后的数据展开 (unstack)
unstacked_pivot = stacked_pivot.unstack()
print("\n展开 (Unstack) 后的数据 (恢复原样):")
print(unstacked_pivot)
print("-" * 50)

## 案例

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import time, gc, random, datetime
import os, random, re, time, sys

pd.set_option('display.max_columns', 200)
pd.set_option('display.max_rows', 200)

df_trade = pd.read_csv('./(sample)sam_tianchi_mum_baby_trade_history.csv')
df_baby = pd.read_csv('./(sample)sam_tianchi_mum_baby.csv')

display(df_trade.head(5))  # 显示trade_history表的前5行
display(df_baby.head(5))  # 显示baby表的前5行

# 显示两个表的形状
print(f"trade_history表形状：{df_trade.shape}")
print(f"baby表形状：{df_baby.shape}")

In [None]:
def convert_date(df, column):
    df[column + '_date'] = df[column].apply(lambda x: int(str(x).replace('-','')[:8]))
    df[column] = pd.to_datetime(df[column].astype('str'))
    df[column + '_y'] = df[column].dt.year #年
    df[column + '_q'] = df[column].dt.quarter #季
    df[column + '_m'] = df[column].dt.month #月
    df[column + '_d'] = df[column].dt.day #月
    df[column + '_w'] = df[column].dt.weekday #星期
    return df

df_trade = convert_date(df_trade, 'day')
df_baby = convert_date(df_baby, 'birthday')

display(df_trade.head(5))  # 显示转换日期后trade_history表的前5行
display(df_baby.head(5))  # 显示转换日期后baby表的前5行

# 显示转换日期后两个表的形状
print(f"trade_history表转换格式后的形状：{df_trade.shape}")
print(f"baby表转换格式后形状：{df_baby.shape}")

### 过滤数据
- 以18岁为成年算起，2007年之前出生的宝宝已然成年；
- 性别无法确定的数据行，予以删除
- 购买数量超过5倍标准差的，对数据影响比较大，予以排除

In [None]:
print(f"原始trade_history表的大小：{df_trade.shape}，原始baby表的大小：{df_baby.shape}")

# 
df_baby = df_baby.query("birthday_y>=2007 and gender <=1")
df_trade = df_trade.query(f"buy_mount < {df_trade.buy_mount.std()*5}")

print(f"过滤后trade_history表的大小：{df_trade.shape}，过滤后baby表的大小：{df_baby.shape}")

### 销量分析

In [None]:
# 使用 plt.subplots() 创建 Figure 和 Axes 对象
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(20, 8))

# --- 第一个子图 (axes[0]) ---
y_sales = df_trade.groupby('day_y')['buy_mount'].sum().iloc[1:-1]
x_list = y_sales.index.tolist()

# 为每个年度的销售额生成不同的颜色
# 可以使用 Matplotlib 内置的颜色循环，或自定义颜色列表
colors1 = plt.cm.viridis(np.linspace(0, 1, len(x_list))) # 使用viridis颜色映射生成颜色
axes[0].bar(x_list, y_sales.values, color=colors1) # 将颜色列表传递给 color 参数
axes[0].set_xlabel('Year')
axes[0].set_ylabel('Sales Volume')
axes[0].set_title('Sales Volume By Year')
axes[0].set_xticks(x_list)

# 环比增长 (在 axes[0] 的第二个 Y 轴上绘制)
ax1 = axes[0].twinx()
y_sales_pct = y_sales.pct_change().fillna(0) * 100
ax1.plot(x_list, y_sales_pct.values, color='red', marker='o', linestyle='--') # 为折线图添加标记和样式

# --- 第二个子图 (axes[1]) ---
y_sales = df_trade.groupby(['day_y', 'day_q'])['buy_mount'].sum().iloc[1:-1]
x_list = [f'{str(x[0])[-2:]}/Q{x[1]}' for x in y_sales.index]

# 为每个季度销售额生成不同的颜色
colors2 = plt.cm.plasma(np.linspace(0, 1, len(x_list))) # 使用plasma颜色映射生成颜色
axes[1].bar(x_list, y_sales.values, color=colors2) # 将颜色列表传递给 color 参数
axes[1].set_xlabel('Season')
axes[1].set_ylabel('Sales Volume')
axes[1].set_title('Sales Volume Year-Season')
axes[1].set_xticks(x_list)
axes[1].tick_params(axis='x', rotation=45) # 旋转 x 轴标签，防止重叠

plt.tight_layout()
plt.show()

### 各月的销量可按如下方式进行展示

fig = plt.figure(figsize=(20,5) )
ax = fig.add_subplot()
y_sales = df_trade.groupby(['day_y', 'day_m'])['buy_mount'].sum().iloc[1:-1]
x_list = [f'{str(x[0])[-2:]}/{x[1]}' for x in y_sales.index]
for x,y in zip(x_list, y_sales.values):
    plt.bar(x, y)

#6个月的移动平均线
sales_ma6 = y_sales.rolling(6, 1).mean()
plt.plot(x_list, sales_ma6.values)  

ax.set_xlabel('Month')
ax.set_ylabel('Seles Volume')
ax.set_title('Sales Volume Year-Month')
ax.set_xticks(x_list)
plt.plot()

sales_temp = pd.concat((y_sales, sales_ma6), axis=1)
sales_temp.columns = ['buy_mount', 'buy_mount_ma6']
sales_temp.query("buy_mount / buy_mount_ma6>1.3")

## 2014年11月份每天的销量情况

In [None]:
fig = plt.figure(figsize=(20,5) )
ax = fig.add_subplot()
y_sales = df_trade.query('day_y==2014 and day_m == 11').groupby('day_d')['buy_mount'].sum()
x_list = y_sales.index.tolist()
for x,y in zip(x_list, y_sales.values):
    plt.bar(x, y)

ax.set_xlabel('Day')
ax.set_ylabel('Seles Volume')
ax.set_title('2014-11 Sales Volume')
ax.set_xticks(x_list)
plt.plot()

### 类目分析

In [None]:
cat_num = df_trade.groupby('cat1')['cat_id'].nunique().to_frame()
cat_num.columns = ['分类数量']
cat_num.index.name = '大类名称'
print('分类详情')
display(cat_num)