### 阶段1:Pandas 基础入门（核心：Series/DataFrame、索引、数据类型）
核心目标
掌握 Series 和 DataFrame 的创建、核心属性查看、数据类型指定与转换，理解索引的标签化特性。
练习题 1：创建不同类型的 Series 和 DataFrame
题目要求
创建整数类型的 Series，索引为['a','b','c','d']，值为[10,20,30,40]；
创建混合类型 DataFrame（3 行 4 列），数据为[[1, 'apple', 3.14, True], [2, 'banana', 2.72, False], [3, 'orange', 1.618, True]]，列名指定为['id', 'fruit', 'value', 'flag']；
从字典生成 DataFrame，字典为{'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['NY', 'LA', 'Chicago']}；
查看每个数据结构的核心属性（形状、索引、列名、数据类型、元素总数）；
将 DataFrame 的age列转换为float64类型，验证转换结果。
解题思路
Series 用pd.Series()创建，指定index参数；
DataFrame 可通过二维列表 +columns参数创建，或直接传入字典（键为列名，值为列数据）；
核心属性通过.shape/.index/.columns/.dtypes访问；
列类型转换用astype()方法。

In [19]:
import pandas as pd
import numpy as np
s = pd.Series([10, 20, 30, 40] , index = ['a','b','c','d'], dtype=np.int32)
df = pd.DataFrame([[1, 'apple', 3.14, True], [2, 'banana', 2.72, False], [3, 'orange', 1.618, True]], columns=['id', 'fruit', 'value', 'flag'])
df2 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie', 'Charlie2'], 'age': [25, 30, 35,32], 'city': ['NY', 'LA', 'Chicago', 'Chicago2']})
df2.shape
df2.index
df2.columns
df2.dtypes
df2.size
df2['age'] = df2['age'].astype(np.float64)
df2

Unnamed: 0,name,age,city
0,Alice,25.0,NY
1,Bob,30.0,LA
2,Charlie,35.0,Chicago
3,Charlie2,32.0,Chicago2


In [1]:
import pandas as pd
import numpy as np


# 1. 创建Series
s = pd.Series([10,20,30,40], index=['a','b','c','d'], dtype=np.int32)

# 2. 创建混合类型DataFrame
df1 = pd.DataFrame(
    [[1, 'apple', 3.14, True], [2, 'banana', 2.72, False], [3, 'orange', 1.618, True]],
    columns=['id', 'fruit', 'value', 'flag']
)

# 3. 从字典创建DataFrame
df2 = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NY', 'LA', 'Chicago']
})

# 自定义函数打印属性
def print_info(obj, name):
    print(f"=== {name} 信息 ===")
    if isinstance(obj, pd.Series):
        print(f"类型: Series")
        print(f"形状: {obj.shape}")
        print(f"索引: {obj.index.tolist()}")
        print(f"数据类型: {obj.dtype}")
        print(f"元素总数: {obj.size}")
    else:  # DataFrame
        print(f"类型: DataFrame")
        print(f"形状: {obj.shape}")
        print(f"索引: {obj.index.tolist()}")
        print(f"列名: {obj.columns.tolist()}")
        print(f"各列数据类型:\n{obj.dtypes}")
        print(f"元素总数: {obj.size}")
    print(f"内容:\n{obj}\n")

# 打印信息
print_info(s, "整数Series")
print_info(df1, "混合类型DataFrame")
print_info(df2, "字典生成的DataFrame")

# 转换age列为float64
df2['age'] = df2['age'].astype(np.float64)
print("转换后df2的age列类型:", df2['age'].dtype)

=== 整数Series 信息 ===
类型: Series
形状: (4,)
索引: ['a', 'b', 'c', 'd']
数据类型: int32
元素总数: 4
内容:
a    10
b    20
c    30
d    40
dtype: int32

=== 混合类型DataFrame 信息 ===
类型: DataFrame
形状: (3, 4)
索引: [0, 1, 2]
列名: ['id', 'fruit', 'value', 'flag']
各列数据类型:
id         int64
fruit     object
value    float64
flag        bool
dtype: object
元素总数: 12
内容:
   id   fruit  value   flag
0   1   apple  3.140   True
1   2  banana  2.720  False
2   3  orange  1.618   True

=== 字典生成的DataFrame 信息 ===
类型: DataFrame
形状: (3, 3)
索引: [0, 1, 2]
列名: ['name', 'age', 'city']
各列数据类型:
name    object
age      int64
city    object
dtype: object
元素总数: 9
内容:
      name  age     city
0    Alice   25       NY
1      Bob   30       LA
2  Charlie   35  Chicago

转换后df2的age列类型: float64


## 练习题 2：索引操作与数据访问
题目要求
给定学生成绩 DataFrame，完成：
取出english列（返回 Series）；
取出 Bob 的所有科目成绩；
取出 Alice 和 David 的 math、science 成绩；
筛选 science 成绩大于 90 的行；
重置索引为默认整数，并保留原索引为name列。

In [42]:
df = pd.DataFrame({
    'math': [85, 92, 78, 90, 88],
    'english': [79, 85, 90, 82, 87],
    'science': [91, 88, 80, 93, 85]
}, index=['Alice', 'Bob', 'Charlie', 'David', 'Eve'])

# print(df['english'])
# print(df.loc['Bob'])
print(df)
print(df.loc[["Alice", "David"], ["math", "science"]])

df.loc[df["science"] > 90]
df_reset = df.reset_index(names='name')
print("\n5. 重置索引后:\n", df_reset)


         math  english  science
Alice      85       79       91
Bob        92       85       88
Charlie    78       90       80
David      90       82       93
Eve        88       87       85
       math  science
Alice    85       91
David    90       93

5. 重置索引后:
       name  math  english  science
0    Alice    85       79       91
1      Bob    92       85       88
2  Charlie    78       90       80
3    David    90       82       93
4      Eve    88       87       85


In [2]:
import pandas as pd

df = pd.DataFrame({
    'math': [85, 92, 78, 90, 88],
    'english': [79, 85, 90, 82, 87],
    'science': [91, 88, 80, 93, 85]
}, index=['Alice', 'Bob', 'Charlie', 'David', 'Eve'])
print("原始DataFrame:\n", df)

# 1. 取出english列
eng_series = df['english']
print("\n1. english列:\n", eng_series)

# 2. Bob的所有成绩（按标签索引）
bob_scores = df.loc['Bob']
print("\n2. Bob的成绩:\n", bob_scores)

# 3. 筛选指定行和列（花式索引）
subset = df.loc[['Alice', 'David'], ['math', 'science']]
print("\n3. Alice和David的math/science成绩:\n", subset)

# 4. 布尔筛选
science_gt90 = df[df['science'] > 90]
print("\n4. science>90的行:\n", science_gt90)

# 5. 重置索引
df_reset = df.reset_index(names='name')
print("\n5. 重置索引后:\n", df_reset)

原始DataFrame:
          math  english  science
Alice      85       79       91
Bob        92       85       88
Charlie    78       90       80
David      90       82       93
Eve        88       87       85

1. english列:
 Alice      79
Bob        85
Charlie    90
David      82
Eve        87
Name: english, dtype: int64

2. Bob的成绩:
 math       92
english    85
science    88
Name: Bob, dtype: int64

3. Alice和David的math/science成绩:
        math  science
Alice    85       91
David    90       93

4. science>90的行:
        math  english  science
Alice    85       79       91
David    90       82       93

5. 重置索引后:
       name  math  english  science
0    Alice    85       79       91
1      Bob    92       85       88
2  Charlie    78       90       80
3    David    90       82       93
4      Eve    88       87       85


### 阶段 2：数据读取与写入（核心：CSV/Excel/JSON 读写）

核心目标

掌握 Pandas 读取 / 写入常见格式文件的方法，理解关键参数（索引、缺失值、数据类型），适配实际数据导入导出场景。

练习题 1：CSV 文件读写

题目要求

1.生成示例 DataFrame 并写入 CSV（指定索引列、标记缺失值）；

2.读取 CSV 时指定索引列、数据类型，跳过前 2 行且仅读取 10 行；

3.处理数据后写入新 CSV（保留两位小数、不写索引）。

In [71]:
import pandas as pd
import numpy as np
import os

data = {
    'id': [1,2,3,4,5,6],
    'name': ['Alice', 'Bob', np.nan, 'David', 'Eve', 'Frank'],
    'age': [25, np.nan, 30, 28, np.nan, 27],
    'score': [85.567, 92.123, 78.987, 88.456, 90.789, 87.345]
}
# df = pd.DataFrame(data)
# df.to_csv("sameple_data2.csv", index=True, index_label='第几行', na_rep='0')
print('已写入')
df_read = pd.read_csv("sameple_data2.csv",
                      index_col='第几行',  # 指定索引列
                      dtype={'age':np.int32},
                      skiprows=[2,3],
                      nrows=4,
                      na_values=['NA'])
df_read

已写入


Unnamed: 0_level_0,id,name,age,score
第几行,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,1,Alice,25,85.567
3,4,David,28,88.456
4,5,Eve,0,90.789
5,6,Frank,27,87.345


In [3]:
import pandas as pd
import numpy as np
import os

# 1. 生成数据并写入CSV
data = {
    'id': [1,2,3,4,5,6],
    'name': ['Alice', 'Bob', np.nan, 'David', 'Eve', 'Frank'],
    'age': [25, np.nan, 30, 28, np.nan, 27],
    'score': [85.567, 92.123, 78.987, 88.456, 90.789, 87.345]
}
df = pd.DataFrame(data)

# 写入CSV，标记缺失值为NA
df.to_csv('sample_data.csv', index=True, index_label='row_id', na_rep='NA')
print("1. 已写入sample_data.csv")

# 2. 读取CSV（指定索引、数据类型、跳过行）
df_read = pd.read_csv(
    'sample_data.csv',
    index_col='row_id',  # 指定索引列
    dtype={'age': np.int32},  # 强制age为int32
    skiprows=2,  # 跳过前2行
    nrows=4,  # 仅读4行
    na_values=['NA']  # 将NA识别为缺失值
)
print("\n2. 读取的CSV数据:\n", df_read)
print("age列类型:", df_read['age'].dtype)

# 3. 处理后写入新CSV
df_read['score'] = df_read['score'].round(2)  # 保留两位小数
df_read.to_csv('processed_data.csv', index=False, float_format='%.2f')
print("\n3. 已写入processed_data.csv")

# 验证
df_check = pd.read_csv('processed_data.csv')
print("验证写入结果:\n", df_check)

# 清理文件
os.remove('sample_data.csv')
os.remove('processed_data.csv')

1. 已写入sample_data.csv


ValueError: Index row_id invalid

### 练习题 2：Excel/JSON 文件读写

题目要求

将 DataFrame 写入 Excel 的两个工作表；

读取 Excel 指定工作表和列；

将 DataFrame 转为 JSON（records 格式）并写入文件；

读取 JSON 并还原为 DataFrame。

In [4]:
import pandas as pd
import json
import os

# 示例数据
df = pd.DataFrame({
    'id': [1,2,3,4,5],
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'age': [25, 30, 35, 28, 32],
    'score': [85, 92, 78, 90, 88]
})

# 1. 写入Excel（多工作表）
with pd.ExcelWriter('sample_excel.xlsx') as writer:
    df[['id', 'name', 'age']].to_excel(writer, sheet_name='sheet1', index=False)
    df[['id', 'score']].to_excel(writer, sheet_name='sheet2', index=False)
print("1. 已写入sample_excel.xlsx")

# 2. 读取Excel指定工作表和列
df_excel = pd.read_excel(
    'sample_excel.xlsx',
    sheet_name='sheet2',
    usecols=['id', 'score']  # 仅读指定列
)
print("\n2. 读取sheet2的数据:\n", df_excel)

# 3. 写入JSON（records格式）
df.to_json('sample_json.json', orient='records', indent=2)
print("\n3. 已写入sample_json.json")

# 查看JSON内容
with open('sample_json.json', 'r') as f:
    print("JSON内容示例:", json.load(f)[:2])

# 4. 读取JSON
df_json = pd.read_json('sample_json.json', orient='records')
print("\n4. 还原的DataFrame:\n", df_json)

# 清理文件
os.remove('sample_excel.xlsx')
os.remove('sample_json.json')

1. 已写入sample_excel.xlsx

2. 读取sheet2的数据:
    id  score
0   1     85
1   2     92
2   3     78
3   4     90
4   5     88

3. 已写入sample_json.json
JSON内容示例: [{'id': 1, 'name': 'Alice', 'age': 25, 'score': 85}, {'id': 2, 'name': 'Bob', 'age': 30, 'score': 92}]

4. 还原的DataFrame:
    id     name  age  score
0   1    Alice   25     85
1   2      Bob   30     92
2   3  Charlie   35     78
3   4    David   28     90
4   5      Eve   32     88


### 阶段 3：数据清洗（核心：缺失值 / 重复值 / 异常值）

核心目标

掌握数据清洗的核心操作，解决实际数据中的缺失、重复、异常问题，为后续分析做准备。

练习题 1：缺失值处理

题目要求

检测 DataFrame 各列的缺失值数量和占比；

删除name列缺失的行；

用均值填充age列缺失值，中位数填充score列缺失值；

验证处理后无缺失值。


In [5]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'id': [1,2,3,4,5,6,7,8],
    'name': ['Alice', 'Bob', np.nan, 'David', 'Eve', np.nan, 'Grace', 'Henry'],
    'age': [25, np.nan, 30, 28, np.nan, 32, 29, np.nan],
    'score': [85, 92, np.nan, 88, 90, np.nan, 87, 89]
})
print("原始DataFrame:\n", df)

# 1. 检测缺失值
missing_count = df.isnull().sum()
missing_ratio = (missing_count / len(df)) * 100
missing_info = pd.DataFrame({
    '缺失数量': missing_count,
    '缺失占比(%)': missing_ratio.round(2)
})
print("\n1. 缺失值信息:\n", missing_info)

# 2. 删除name列缺失的行
df_drop = df.dropna(subset=['name'])
print("\n2. 删除name缺失行后:\n", df_drop)

# 3. 填充缺失值
df_drop['age'] = df_drop['age'].fillna(df_drop['age'].mean())  # 均值填充
df_drop['score'] = df_drop['score'].fillna(df_drop['score'].median())  # 中位数填充
print("\n3. 填充缺失值后:\n", df_drop)

# 4. 验证无缺失值
print("\n4. 缺失值验证（全False表示无缺失）:\n", df_drop.isnull().any())

原始DataFrame:
    id   name   age  score
0   1  Alice  25.0   85.0
1   2    Bob   NaN   92.0
2   3    NaN  30.0    NaN
3   4  David  28.0   88.0
4   5    Eve   NaN   90.0
5   6    NaN  32.0    NaN
6   7  Grace  29.0   87.0
7   8  Henry   NaN   89.0

1. 缺失值信息:
        缺失数量  缺失占比(%)
id        0      0.0
name      2     25.0
age       3     37.5
score     2     25.0

2. 删除name缺失行后:
    id   name   age  score
0   1  Alice  25.0   85.0
1   2    Bob   NaN   92.0
3   4  David  28.0   88.0
4   5    Eve   NaN   90.0
6   7  Grace  29.0   87.0
7   8  Henry   NaN   89.0

3. 填充缺失值后:
    id   name        age  score
0   1  Alice  25.000000   85.0
1   2    Bob  27.333333   92.0
3   4  David  28.000000   88.0
4   5    Eve  27.333333   90.0
6   7  Grace  29.000000   87.0
7   8  Henry  27.333333   89.0

4. 缺失值验证（全False表示无缺失）:
 id       False
name     False
age      False
score    False
dtype: bool


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_drop['age'] = df_drop['age'].fillna(df_drop['age'].mean())  # 均值填充
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_drop['score'] = df_drop['score'].fillna(df_drop['score'].median())  # 中位数填充


### 练习题 2：重复值与异常值处理

题目要求

检测并删除重复行（保留第一次出现的行）；

用 IQR 法（四分位数间距）检测数值列异常值；

用盖帽法替换异常值（或删除），验证处理结果。

In [6]:
import pandas as pd
import numpy as np

# 1. 重复值处理
df_dup = pd.DataFrame({
    'id': [1,2,2,3,4,4,4,5],
    'value': [10, 20, 20, 30, 40, 40, 40, 50]
})
print("原始数据（含重复行）:\n", df_dup)

# 检测重复行
duplicate_flag = df_dup.duplicated()
print("\n1. 重复行标记:\n", duplicate_flag)
print("重复行数量:", duplicate_flag.sum())

# 删除重复行
df_dedup = df_dup.drop_duplicates(keep='first')
print("\n删除重复行后:\n", df_dedup)

# 2. 异常值处理（IQR法）
np.random.seed(42)
data = np.random.normal(100, 10, 100)  # 正态分布数据
data = np.append(data, [50, 180])  # 手动添加异常值
df_outlier = pd.DataFrame({'value': data})

# 计算IQR
Q1 = df_outlier['value'].quantile(0.25)
Q3 = df_outlier['value'].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR
print(f"\n2. IQR范围: [{lower:.2f}, {upper:.2f}]")

# 检测异常值
outliers = df_outlier[(df_outlier['value'] < lower) | (df_outlier['value'] > upper)]
print("异常值数量:", len(outliers))

# 盖帽法替换异常值
df_processed = df_outlier.copy()
df_processed['value'] = np.where(df_processed['value'] < lower, lower, df_processed['value'])
df_processed['value'] = np.where(df_processed['value'] > upper, upper, df_processed['value'])

# 验证无异常值
new_outliers = df_processed[(df_processed['value'] < lower) | (df_processed['value'] > upper)]
print("\n3. 处理后异常值数量:", len(new_outliers))
print("处理后统计信息:\n", df_processed['value'].describe())

原始数据（含重复行）:
    id  value
0   1     10
1   2     20
2   2     20
3   3     30
4   4     40
5   4     40
6   4     40
7   5     50

1. 重复行标记:
 0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
dtype: bool
重复行数量: 3

删除重复行后:
    id  value
0   1     10
1   2     20
3   3     30
4   4     40
7   5     50

2. IQR范围: [77.97, 120.68]
异常值数量: 3

3. 处理后异常值数量: 0
处理后统计信息:
 count    102.000000
mean      99.009493
std        9.379444
min       77.967107
25%       93.985604
50%       98.730437
75%      104.664601
max      120.683097
Name: value, dtype: float64


### 阶段 4：数据转换与聚合（核心：apply/map、groupby、透视表）

核心目标

掌握数据转换和聚合分析的核心方法，实现从原始数据到统计指标的转化。

练习题 1：数据转换（apply/map）

题目要求

用map将分数转换为等级（≥90→A，80-89→B，70-79→C，<70→D）；

用apply计算每个学生的总分和平均分；

按平均分降序排序并添加排名列。

In [7]:
import pandas as pd

df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'math': [85, 92, 78, 90, 88],
    'english': [79, 85, 90, 82, 87],
    'science': [91, 88, 80, 93, 85]
})
print("原始数据:\n", df)

# 1. map转换分数为等级
def score2grade(score):
    if score >= 90: return 'A'
    elif score >= 80: return 'B'
    elif score >= 70: return 'C'
    else: return 'D'

df['math_grade'] = df['math'].map(score2grade)
df['english_grade'] = df['english'].map(score2grade)
print("\n1. 分数转等级:\n", df[['name', 'math_grade', 'english_grade']])

# 2. apply计算总分/平均分（按行应用）
def calc_total_avg(row):
    scores = row[['math', 'english', 'science']]
    return pd.Series([scores.sum(), scores.mean()], index=['total', 'avg'])

df[['total', 'avg']] = df.apply(calc_total_avg, axis=1)
print("\n2. 总分/平均分:\n", df[['name', 'total', 'avg']])

# 3. 排序并添加排名
df_sorted = df.sort_values('avg', ascending=False)
df_sorted['rank'] = range(1, len(df_sorted)+1)
print("\n3. 按平均分排序并排名:\n", df_sorted[['name', 'avg', 'rank']])

原始数据:
       name  math  english  science
0    Alice    85       79       91
1      Bob    92       85       88
2  Charlie    78       90       80
3    David    90       82       93
4      Eve    88       87       85

1. 分数转等级:
       name math_grade english_grade
0    Alice          B             C
1      Bob          A             B
2  Charlie          C             A
3    David          A             B
4      Eve          B             B

2. 总分/平均分:
       name  total        avg
0    Alice  255.0  85.000000
1      Bob  265.0  88.333333
2  Charlie  248.0  82.666667
3    David  265.0  88.333333
4      Eve  260.0  86.666667

3. 按平均分排序并排名:
       name        avg  rank
1      Bob  88.333333     1
3    David  88.333333     2
4      Eve  86.666667     3
0    Alice  85.000000     4
2  Charlie  82.666667     5
